Aplicacao CRISP-DM de MDm

Download Aplicacao CRISP-DM de MDm

Post on 06-Dec-2015

5 views

Category:

Documents

3 download

Embed Size (px)

DESCRIPTION

APLICAO DE CRISO-DM

TRANSCRIPT

<ul><li><p>AApplliiccaaoo ddaa mmeettooddoollooggiiaa CCRRIISSPP--DDMM ddee mmiinneerraaoo ddee ddaaddooss EEssttuuddoo ddee CCaassoo ddoo TTRREE--DDFF </p><p>Paulo de Tarso Costa de Sousa1,2 </p><p>RREESSUUMMOO </p><p> A partir da metodologia CRISP-DM de minerao de dados, este trabalho busca a aplicao deste modelo em um estudo de caso no TRE-DF, utilizando como fonte de dados o cadastro de eleitores e de coincidncias do DF, com o objetivo de descobrir padres teis que possam ser agregados aos servios da Justia Eleitoral. O estudo de caso proporcionou ainda o conhecimento mais aprofundado dos dados do cadastro de eleitores do Distrito Federal, alm de apresentar os possveis desdobramentos oriundos de sua anlise, destacando a necessidade de mecanismos de controle de qualidade da informao. Palavras-chave: Minerao de dados, CRISP-DM, Tribunal eleitoral, eleitor, DCBD. </p><p> 1 Tribunal Regional Eleitoral do Distrito Federal 2 E-Mail: paulodetarso@tre-df.gov.br </p></li><li><p>11 -- IINNTTRROODDUUOO </p><p>Em anos recentes, a tecnologia de Informtica tem contribudo no sentido de tornar disponveis as ferramentas de Descoberta de Conhecimento em Bancos de Dados (DCBD). Estas ferramentas permitem a identificao de padres de relacionamento entre dados que, adequadamente interpretados, podem levar abstrao de conhecimento indito e relevante. </p><p>Ocorre ainda que a gerao em massa de informaes registradas nos bancos de dados, impulsionados pela tecnologia da informao (TI), nos proporciona uma fonte de informaes muita rica e com grande potencial de auxlio na melhoria de produtos e servios. </p><p>A minerao de dados ou Data Mining, faz parte desse contexto e o ato de buscar ou descobrir conhecimento em grandes volumes de dados. Algumas pessoas, segundo Han e Kamber (2001), tratam minerao de dados como a descoberta de conhecimento em bancos de dados. Outros tratam a minerao de dados como uma fase da descoberta de conhecimento em bancos de dados, como visto por Fayyad, Piatestsky-Shapiro e Padhraic (1996), que definem claramente as atribuies das fases da DCBD. Estes mesmos autores j diferenciam DCBD e minerao de dados, sendo a primeira um conjunto de processos para a descoberta de conhecimento til a partir de dados; a segunda, como apenas parte desse processo na aplicao de algoritmos para extrao de padres. Berry e Linoff (2000) refletem a importncia do entendimento da minerao de dados, no como uma simples ferramenta que se possa comprar e utilizar, mas como uma disciplina que envolve o estabelecimento de uma metodologia para sua definio e uso. </p><p>O Tribunal Regional Eleitoral do Distrito Federal (TRE-DF) no foge a esse panorama, possuindo uma srie de dados no explorados que podem ser teis para a gerao de novos conhecimentos, desembocando na melhoria dos servios prestados aos cidados. Este trabalho pretende, atravs de um estudo de caso, demonstrar a aplicao de tcnicas de minerao de dados (MD) na gerao de padres teis para as atividades da Justia Eleitoral. </p><p> 22 -- MMEETTOODDOOLLOOGGIIAA 22..11 AAbboorrddaaggeemm aaddoottaaddaa </p><p> A tecnologia utilizada a de minerao de dados, desenvolvendo-se atravs da metodologia CRISP-DM1 (CHAPMAN, et al, 1999), e sua aplicao em um estudo de caso no Tribunal Regional Eleitoral do Distrito Federal. </p><p>O estudo de caso tem por objetivo principal a aplicao dos processos de minerao de dados definidos pela metodologia CRISP-DM. 2.1.1 Descrio do mtodo CRISP-DM </p><p>O mtodo CRISP-DM (CHAPMAN, et al, 1999) apresentado por meio de dois modelos bsicos: o de referncia e o guia do usurio. O modelo de referncia d uma viso geral do ciclo de um projeto de minerao de dados. O modelo guia do </p><p> 1 Do acrnimo: CRoss-Industry Standard Process for Data Mining </p></li><li><p>usurio oferece um detalhamento maior desse processo e ser empregado no estudo de caso. </p><p>O CRISP-DM promove uma viso geral do ciclo de vida de um projeto de minerao de dados, consistindo em 6 fases (figura 1) descritas a seguir: </p><p> Figura 1 Fases do Modelo de Referncia CRISP-DM </p><p> 2.1.1.1 - Entendimento do negcio - Esta fase busca a compreenso dos </p><p>objetivos do projeto e suas necessidades do ponto de vista dos negcios, de forma a transformar este conhecimento em uma definio de problema e um plano preliminar. Possui como tarefas: determinar os objetivos do negcio, avaliao da situao, determinao dos objetivos da minerao de dados, e a produo de um plano de projeto. </p><p>2.1.1.2 - Entendimento dos Dados - a fase de coleta dos dados e de investigao preliminar, destinada a uma familiarizao maior com os mesmos e avaliao da qualidade dos dados. Em conseqncia dessas atividades comum a descoberta de padres interessantes j nesta fase. Possui como tarefas: coletar dados iniciais, descrever os dados, explorar os dados e verificar a qualidade dos dados. </p><p>2.1.1.3 - Preparao dos Dados - Fase da construo final do banco de dados que ser submetido ferramenta de anlise. Este banco, retirado dos dados originais, passar por um processo de limpeza e transformao. Possui como produtos principais de sada o arquivo para minerao e sua descrio. Possui como tarefas: selecionar dados, limpeza dos dados, construo dos dados, integrar dados e formatar dados. </p><p>2.1.1.4 Modelagem - Nesta fase escolhida a tcnica de modelagem dos dados. Dependendo da tcnica utilizada pode ser necessrio o retorno fase de preparao dos dados para o ajuste s exigncias de determinadas tcnicas. Possui como tarefas: selecionar a tcnica de modelagem, gerar teste de projeto (test design), construir modelo e validar o modelo. </p></li><li><p>2.1.1.5 Avaliao - A avaliao realizada visando identificar alguma questo do negcio que no foi explorada suficientemente. Este passo avalia o grau com o qual o modelo produzido alcanou os objetivos. Possui como tarefas: anlise de resultados, reviso dos processos e determinao dos prximos passos. </p><p>2.1.1.6 Distribuio - Fase em que o modelo distribudo aos clientes de forma que este possa extrair conhecimento. Pode ser um processo nico, com resultado nico, ou ainda um processo iterativo. Possui como tarefas: Elaborao de plano de distribuio, plano de monitoramento e manuteno, elaborao do relatrio final e reviso do projeto. 33 -- EESSTTUUDDOO DDEE CCAASSOO 33..11 IInnttrroodduuoo </p><p>O Tribunal Regional Eleitoral do Distrito Federal o rgo do Poder Judicirio responsvel pelo processo eleitoral, no Distrito Federal, nos aspectos jurdico e operacional, de forma a garantir a fiel observncia das diretrizes fundamentadas em lei. No processo eleitoral tem-se a caracterizao de servios prestados comunidade quando se trata do relacionamento com eleitores e partidos polticos sendo estes o pblico alvo da Justia Eleitoral. O contato da Justia Eleitoral do DF com os eleitores e partidos polticos, em sua maioria, realizado nos cartrios eleitorais. Cada cartrio responsvel pelo atendimento aos eleitores de uma determinada regio geogrfica, e esto subordinados, no TRE, Corregedoria Regional Eleitoral (CRE). </p><p>Nesse contexto organizacional verifica-se que as fontes de conhecimento pessoais, relativas aos processos eleitorais esto dispersas pelo Tribunal, especialmente nos Cartrios Eleitorais e CRE. Uma outra fonte de conhecimento existente o banco de dados onde esto registradas informaes do eleitorado e seus respectivos histricos. </p><p>Este estudo de caso foi realizado junto Corregedoria Regional Eleitoral do Distrito Federal, rgo responsvel pela normatizao e controle dos procedimentos realizados pelos Cartrios Eleitorais. Na etapa seguinte deste estudo, utilizaremos a metodologia CRISP-DM de minerao de dados, a qual seguiremos passo-a-passo. 33..22 EEnntteennddiimmeennttoo ddoo nneeggcciioo </p><p>Nesta fase do CRISP-DM busca-se a compreenso dos objetivos da aplicao e suas necessidades do ponto de vista dos negcios, de forma a se obter uma definio do problema e um plano preliminar. </p><p> 3.2.1 Objetivos </p><p> O Tribunal Regional Eleitoral do Distrito federal foi criado pelo Decreto Lei n </p><p>21.076/1932 (JOBIM e PORTO, 1996), e a ele so atribudas funes judicirias e executivas conforme estabelece a Constituio Federal de 5 de outubro de 1988, em seu artigo 118 e o Cdigo Eleitoral (Lei n 4737/1965) (JOBIM e PORTO, 1996). A justia eleitoral, como rgo administrador do pleito, segundo Coelho (1996), inicia </p></li><li><p>os preparativos para as eleies atravs da manuteno do cadastro de eleitores, este o pilar do processo eleitoral sob aspecto operacional. </p><p>No TRE-DF as questes relativas ao cadastro de eleitores so tratadas pela Corregedoria Regional Eleitoral e Cartrios Eleitorais. Os Cartrios so responsveis pelo primeiro contato com o eleitor e captam todas as solicitaes de operaes no cadastro: alistamento, transferncias, reviso e 2 via de titulo de eleitor. E ainda alguns tipos de solicitao relativas alterao de situao do eleitor. </p><p>Podemos ento destacar como objetivos do TRE: zelar pela observncia dos preceitos legais relativos aos eleitores, partidos e candidatos; manter a integridade e consistncia das informaes no sentido de evitar fraudes; manter constante vigilncia sobre as tentativas de fraude e abusos cometidos por eleitores, partidos e candidatos. Para identificar alguns problemas relacionados com o cadastro de eleitores alguns questionamentos foram levantados, os quais direcionaram os trabalhos de minerao de dados. A identificao dos problemas foi realizada junto Corregedoria Regional Eleitoral do Distrito Federal, sendo a principal etapa do trabalho. Para Pyle (1999) a fase de explorao do espao do problema um ponto crtico para um projeto de minerao de dados. Atravs de entrevistas com os especialistas, foram relacionados alguns questionamentos e suas respectivas hipteses de soluo, as quais foram exploradas pela minerao de dados, exemplificando com o seguinte: </p><p>- Qual o perfil de comportamento dos eleitores que entram em coincidncia de forma a estabelecer um critrio para minimizao de ocorrncias? </p><p>. Hiptese: Pode ser realizado estudo de forma a analisar os tipos de operaes e FASEs dos eleitores que caem em coincidncia, comparando a freqncia, tipo de solicitaes ou ocorrncias para cada eleitor. </p><p>Com a resoluo das questes espera-se obter novos insights para a melhoria dos processos que lidam com as informaes dos eleitores. Pela anlise dos dados e seu entendimento, pode-se identificar relacionamentos anteriormente no explicitados e essa identificao ser realizada pelos especialistas do assunto. A anlise dos eleitores em coincidncia, que um dos pontos importantes no cadastro, poder levar a novos conhecimentos para a melhoria dos processos de tratamento desses casos. </p><p> 3.2.2 Avaliao dos recursos atuais </p><p>Esta etapa destina-se identificao dos recursos necessrios para o alcance dos objetivos do projeto. realizado o levantamento dos requisitos de hardware, fontes de dados, especialistas e patrocinadores. Alm desses recursos tambm so realizados levantamentos quanto ao cronograma, qualidade e segurana dos resultados e tambm os aspectos legais de disponibilizao e uso das informaes. Nesta etapa tambm feita a avaliao de algumas hipteses quanto aos dados disponveis e as restries impostas quanto ao acesso aos dados, senhas e sistemas operacionais. </p><p>Iniciando a avaliao, segue abaixo lista dos recursos disponveis em termos de talentos humanos, tecnologias, dados e informaes: </p><p>a) Base de dados do cadastro de eleitores do Distrito Federal. b) Especialistas no tema em estudo so funcionrios da prpria CRE. </p></li><li><p>c) Equipamento com as seguintes caractersticas: Dual Pentium III 1GHz, 2Gbytes de Memria, 40 Gbytes de Disco Rgido; </p><p>d) Software de MD WEKA1, (WEKA, 2000). Tambm foi utilizado o software AIRA2 (verso TRIAL) para a gerao de regras. </p><p>e) Recursos externos disponveis quanto ao acesso a outras bases de dados referem-se aos dados estatsticos do IBGE (BRASIL, 2002e). Todos os aspectos at agora levantados dizem respeito viabilizao dos </p><p>requisitos para execuo do projeto. </p><p>3.2.3 Objetivos a serem alcanados pela minerao de dados </p><p>A minerao de dados tem por objetivo principal executar mecanismos de anlise sobre os dados do cadastro de eleitores de forma a prover aos especialistas novos insights, que sero utilizados na melhoria da qualidade dos dados e dos processos. Como objetivos especficos temos os seguintes: </p><p>a) Obter as caractersticas dos eleitores, com a distino de sexo, que entram em coincidncia/duplicidade. </p><p>b) Obter uma segmentao do conjunto dos eleitores em coincidncia. 33..33 EEnntteennddiimmeennttoo ddooss DDaaddooss </p><p> a fase da coleta dos dados, sobre os quais realizada uma investigao </p><p>preliminar, visando uma familiarizao maior com os mesmos. Nesta fase realizada uma avaliao da qualidade dos dados. 3.3.1 Dados Iniciais </p><p>Os dados utilizados neste estudo foram coletados a partir do banco de dados do TRE-DF, at o ms de novembro de 2002. Sobre o gerenciador de Bancos de Dados Oracle, as tabelas utilizadas para a extrao dos dados necessrios minerao de dados foram restritas s seguintes: </p><p>1) Tabela de dados cadastrais dos eleitores do Distrito Federal. 2) Tabela de dados histricos de situaes dos eleitores. 3) Tabela dos dados de origem para a efetivao de um eleitor no cadastro. 4) Tabela de dados histricos de operaes dos eleitores 5) Tabela de coincidncias. Cabe destacar o uso das seguintes tabelas acessrias, destinadas a </p><p>complementar o entendimento dos dados: 1) Tabela de municpios 2) Tabela de Unidade da Federao 3) Tabela de FASEs 4) Tabela de domnios. </p><p>Inicialmente, a coleta dos dados foi realizada atravs da linguagem SQL, gerando arquivos textos, que, por sua vez, eram importados para o Microsoft Access. A importao dos dados para esse banco de dados facilitou o transporte dos modelos j tratados para o equipamento onde seriam executados os algoritmos de minerao dados. </p><p> 1 Do acrnimo Waikato Environment Knowledge Analysis (tambm ave em extino da Nova Zelndia). Open Source. 2 Ferramenta de minerao de dados baseado no algoritmo CNM (Combinatorial Neural Model). </p></li><li><p> 3.3.2 Explorao dos dados </p><p>A explorao dos dados foi realizada por meio da linguagem SQL sendo feitas, inicialmente, as seguintes anlises: </p><p>a) Na distribuio por faixa de idade, o eleitorado do Distrito Federal possui uma concentrao de eleitores com idade entre 25 e 59 anos. </p><p>b) Na distribuio do eleitorado por grau de instruo, os eleitores portadores de primeiro grau incompleto representam quase 30% do eleitorado. </p><p>c) Na distribuio do eleitorado por sexo, destaca-se o nmero maior de eleitores do sexo feminino. </p><p>Da amostra total de 1.717.101, 765.197 eleitores no possuem informaes sobre solicitaes de operaes no cadastro de eleitores representando 44,56% dos eleitores. Esta falta de informao sobre as operaes implica uma reduo significativa da amostra que considere este dado. </p><p>O conjunto de dados que contm o registro dos FASEs dos eleitores possui 2.193.903 registros, o que representa 759.891 eleitores (44,25%), cada um deles podendo ter de um a vrios FASEs. Cabe salientar ainda que 214.556 FASEs registrados para eleitores do DF, representando 12,49% dos eleitores, j estiveram em situao impeditiva de votao. </p><p>T...</p></li></ul>