Transcript
Page 1: Aplicacao CRISP-DM de MDm

AApplliiccaaççããoo ddaa mmeettooddoollooggiiaa CCRRIISSPP--DDMM ddee mmiinneerraaççããoo ddee ddaaddooss –– EEssttuuddoo ddee CCaassoo ddoo TTRREE--DDFF

Paulo de Tarso Costa de Sousa1,2

RREESSUUMMOO

A partir da metodologia CRISP-DM de mineração de dados, este trabalho busca a aplicação deste modelo em um estudo de caso no TRE-DF, utilizando como fonte de dados o cadastro de eleitores e de coincidências do DF, com o objetivo de descobrir padrões úteis que possam ser agregados aos serviços da Justiça Eleitoral. O estudo de caso proporcionou ainda o conhecimento mais aprofundado dos dados do cadastro de eleitores do Distrito Federal, além de apresentar os possíveis desdobramentos oriundos de sua análise, destacando a necessidade de mecanismos de controle de qualidade da informação. Palavras-chave: Mineração de dados, CRISP-DM, Tribunal eleitoral, eleitor, DCBD.

1 Tribunal Regional Eleitoral do Distrito Federal 2 E-Mail: [email protected]

Page 2: Aplicacao CRISP-DM de MDm

11 -- IINNTTRROODDUUÇÇÃÃOO

Em anos recentes, a tecnologia de Informática tem contribuído no sentido de tornar disponíveis as ferramentas de Descoberta de Conhecimento em Bancos de Dados (DCBD). Estas ferramentas permitem a identificação de padrões de relacionamento entre dados que, adequadamente interpretados, podem levar à abstração de conhecimento inédito e relevante.

Ocorre ainda que a geração em massa de informações registradas nos bancos de dados, impulsionados pela tecnologia da informação (TI), nos proporciona uma fonte de informações muita rica e com grande potencial de auxílio na melhoria de produtos e serviços.

A mineração de dados ou Data Mining, faz parte desse contexto e é o ato de buscar ou “descobrir” conhecimento em grandes volumes de dados. Algumas pessoas, segundo Han e Kamber (2001), tratam mineração de dados como a descoberta de conhecimento em bancos de dados. Outros tratam a mineração de dados como uma fase da descoberta de conhecimento em bancos de dados, como visto por Fayyad, Piatestsky-Shapiro e Padhraic (1996), que definem claramente as atribuições das fases da DCBD. Estes mesmos autores já diferenciam DCBD e mineração de dados, sendo a primeira um conjunto de processos para a descoberta de conhecimento útil a partir de dados; a segunda, como apenas parte desse processo na aplicação de algoritmos para extração de padrões. Berry e Linoff (2000) refletem a importância do entendimento da mineração de dados, não como uma simples ferramenta que se possa comprar e utilizar, mas como uma disciplina que envolve o estabelecimento de uma metodologia para sua definição e uso.

O Tribunal Regional Eleitoral do Distrito Federal (TRE-DF) não foge a esse panorama, possuindo uma série de dados não explorados que podem ser úteis para a geração de novos conhecimentos, desembocando na melhoria dos serviços prestados aos cidadãos. Este trabalho pretende, através de um estudo de caso, demonstrar a aplicação de técnicas de mineração de dados (MD) na geração de padrões úteis para as atividades da Justiça Eleitoral.

22 -- MMEETTOODDOOLLOOGGIIAA 22..11 AAbboorrddaaggeemm aaddoottaaddaa

A tecnologia utilizada é a de mineração de dados, desenvolvendo-se através da metodologia CRISP-DM1 (CHAPMAN, et al, 1999), e sua aplicação em um estudo de caso no Tribunal Regional Eleitoral do Distrito Federal.

O estudo de caso tem por objetivo principal a aplicação dos processos de mineração de dados definidos pela metodologia CRISP-DM. 2.1.1 Descrição do método CRISP-DM

O método CRISP-DM (CHAPMAN, et al, 1999) é apresentado por meio de dois modelos básicos: o de referência e o guia do usuário. O modelo de referência dá uma visão geral do ciclo de um projeto de mineração de dados. O modelo guia do

1 Do acrônimo: CRoss-Industry Standard Process for Data Mining

Page 3: Aplicacao CRISP-DM de MDm

usuário oferece um detalhamento maior desse processo e será empregado no estudo de caso.

O CRISP-DM promove uma visão geral do ciclo de vida de um projeto de mineração de dados, consistindo em 6 fases (figura 1) descritas a seguir:

Figura 1 Fases do Modelo de Referência CRISP-DM

2.1.1.1 - Entendimento do negócio - Esta fase busca a compreensão dos

objetivos do projeto e suas necessidades do ponto de vista dos negócios, de forma a transformar este conhecimento em uma definição de problema e um plano preliminar. Possui como tarefas: determinar os objetivos do negócio, avaliação da situação, determinação dos objetivos da mineração de dados, e a produção de um plano de projeto.

2.1.1.2 - Entendimento dos Dados - É a fase de coleta dos dados e de investigação preliminar, destinada a uma familiarização maior com os mesmos e avaliação da qualidade dos dados. Em conseqüência dessas atividades é comum a descoberta de padrões interessantes já nesta fase. Possui como tarefas: coletar dados iniciais, descrever os dados, explorar os dados e verificar a qualidade dos dados.

2.1.1.3 - Preparação dos Dados - Fase da construção final do banco de dados que será submetido à ferramenta de análise. Este banco, retirado dos dados originais, passará por um processo de limpeza e transformação. Possui como produtos principais de saída o arquivo para mineração e sua descrição. Possui como tarefas: selecionar dados, limpeza dos dados, construção dos dados, integrar dados e formatar dados.

2.1.1.4 – Modelagem - Nesta fase é escolhida a técnica de modelagem dos dados. Dependendo da técnica utilizada pode ser necessário o retorno à fase de preparação dos dados para o ajuste às exigências de determinadas técnicas. Possui como tarefas: selecionar a técnica de modelagem, gerar teste de projeto (test design), construir modelo e validar o modelo.

Page 4: Aplicacao CRISP-DM de MDm

2.1.1.5 – Avaliação - A avaliação é realizada visando identificar alguma questão do negócio que não foi explorada suficientemente. Este passo avalia o grau com o qual o modelo produzido alcançou os objetivos. Possui como tarefas: análise de resultados, revisão dos processos e determinação dos próximos passos.

2.1.1.6 – Distribuição - Fase em que o modelo é distribuído aos clientes de forma que este possa extrair conhecimento. Pode ser um processo único, com resultado único, ou ainda um processo iterativo. Possui como tarefas: Elaboração de plano de distribuição, plano de monitoramento e manutenção, elaboração do relatório final e revisão do projeto. 33 -- EESSTTUUDDOO DDEE CCAASSOO 33..11 IInnttrroodduuççããoo

O Tribunal Regional Eleitoral do Distrito Federal é o órgão do Poder Judiciário responsável pelo processo eleitoral, no Distrito Federal, nos aspectos jurídico e operacional, de forma a garantir a fiel observância das diretrizes fundamentadas em lei. No processo eleitoral tem-se a caracterização de serviços prestados à comunidade quando se trata do relacionamento com eleitores e partidos políticos sendo estes o público alvo da Justiça Eleitoral. O contato da Justiça Eleitoral do DF com os eleitores e partidos políticos, em sua maioria, é realizado nos cartórios eleitorais. Cada cartório é responsável pelo atendimento aos eleitores de uma determinada região geográfica, e estão subordinados, no TRE, à Corregedoria Regional Eleitoral (CRE).

Nesse contexto organizacional verifica-se que as fontes de conhecimento pessoais, relativas aos processos eleitorais estão dispersas pelo Tribunal, especialmente nos Cartórios Eleitorais e CRE. Uma outra fonte de conhecimento existente é o banco de dados onde estão registradas informações do eleitorado e seus respectivos históricos.

Este estudo de caso foi realizado junto à Corregedoria Regional Eleitoral do Distrito Federal, órgão responsável pela normatização e controle dos procedimentos realizados pelos Cartórios Eleitorais. Na etapa seguinte deste estudo, utilizaremos a metodologia CRISP-DM de mineração de dados, a qual seguiremos passo-a-passo. 33..22 EEnntteennddiimmeennttoo ddoo nneeggóócciioo

Nesta fase do CRISP-DM busca-se a compreensão dos objetivos da aplicação e suas necessidades do ponto de vista dos negócios, de forma a se obter uma definição do problema e um plano preliminar.

3.2.1 Objetivos

O Tribunal Regional Eleitoral do Distrito federal foi criado pelo Decreto Lei nº

21.076/1932 (JOBIM e PORTO, 1996), e a ele são atribuídas funções judiciárias e executivas conforme estabelece a Constituição Federal de 5 de outubro de 1988, em seu artigo 118 e o Código Eleitoral (Lei nº 4737/1965) (JOBIM e PORTO, 1996). A justiça eleitoral, como órgão administrador do pleito, segundo Coelho (1996), inicia

Page 5: Aplicacao CRISP-DM de MDm

os preparativos para as eleições através da manutenção do cadastro de eleitores, este o pilar do processo eleitoral sob aspecto operacional.

No TRE-DF as questões relativas ao cadastro de eleitores são tratadas pela Corregedoria Regional Eleitoral e Cartórios Eleitorais. Os Cartórios são responsáveis pelo primeiro contato com o eleitor e captam todas as solicitações de operações no cadastro: alistamento, transferências, revisão e 2ª via de titulo de eleitor. E ainda alguns tipos de solicitação relativas à alteração de situação do eleitor.

Podemos então destacar como objetivos do TRE: zelar pela observância dos preceitos legais relativos aos eleitores, partidos e candidatos; manter a integridade e consistência das informações no sentido de evitar fraudes; manter constante vigilância sobre as tentativas de fraude e abusos cometidos por eleitores, partidos e candidatos. Para identificar alguns problemas relacionados com o cadastro de eleitores alguns questionamentos foram levantados, os quais direcionaram os trabalhos de mineração de dados. A identificação dos problemas foi realizada junto à Corregedoria Regional Eleitoral do Distrito Federal, sendo a principal etapa do trabalho. Para Pyle (1999) a fase de exploração do espaço do problema é um ponto crítico para um projeto de mineração de dados. Através de entrevistas com os especialistas, foram relacionados alguns questionamentos e suas respectivas hipóteses de solução, as quais foram exploradas pela mineração de dados, exemplificando com o seguinte:

- Qual o perfil de comportamento dos eleitores que entram em coincidência de forma a estabelecer um critério para minimização de ocorrências?

. Hipótese: Pode ser realizado estudo de forma a analisar os tipos de operações e FASEs dos eleitores que caem em coincidência, comparando a freqüência, tipo de solicitações ou ocorrências para cada eleitor.

Com a resolução das questões espera-se obter novos insights para a melhoria dos processos que lidam com as informações dos eleitores. Pela análise dos dados e seu entendimento, pode-se identificar relacionamentos anteriormente não explicitados e essa identificação será realizada pelos especialistas do assunto. A análise dos eleitores em coincidência, que é um dos pontos importantes no cadastro, poderá levar a novos conhecimentos para a melhoria dos processos de tratamento desses casos.

3.2.2 Avaliação dos recursos atuais

Esta etapa destina-se à identificação dos recursos necessários para o alcance dos objetivos do projeto. É realizado o levantamento dos requisitos de hardware, fontes de dados, especialistas e patrocinadores. Além desses recursos também são realizados levantamentos quanto ao cronograma, qualidade e segurança dos resultados e também os aspectos legais de disponibilização e uso das informações. Nesta etapa também é feita a avaliação de algumas hipóteses quanto aos dados disponíveis e as restrições impostas quanto ao acesso aos dados, senhas e sistemas operacionais.

Iniciando a avaliação, segue abaixo lista dos recursos disponíveis em termos de talentos humanos, tecnologias, dados e informações:

a) Base de dados do cadastro de eleitores do Distrito Federal. b) Especialistas no tema em estudo são funcionários da própria CRE.

Page 6: Aplicacao CRISP-DM de MDm

c) Equipamento com as seguintes características: Dual Pentium III 1GHz, 2Gbytes de Memória, 40 Gbytes de Disco Rígido;

d) Software de MD WEKA1, (WEKA, 2000). Também foi utilizado o software AIRA2 (versão TRIAL) para a geração de regras.

e) Recursos externos disponíveis quanto ao acesso a outras bases de dados referem-se aos dados estatísticos do IBGE (BRASIL, 2002e). Todos os aspectos até agora levantados dizem respeito à viabilização dos

requisitos para execução do projeto.

3.2.3 Objetivos a serem alcançados pela mineração de dados

A mineração de dados tem por objetivo principal executar mecanismos de análise sobre os dados do cadastro de eleitores de forma a prover aos especialistas novos insights, que serão utilizados na melhoria da qualidade dos dados e dos processos. Como objetivos específicos temos os seguintes:

a) Obter as características dos eleitores, com a distinção de sexo, que entram em coincidência/duplicidade.

b) Obter uma segmentação do conjunto dos eleitores em coincidência. 33..33 EEnntteennddiimmeennttoo ddooss DDaaddooss

É a fase da coleta dos dados, sobre os quais é realizada uma investigação

preliminar, visando uma familiarização maior com os mesmos. Nesta fase é realizada uma avaliação da qualidade dos dados. 3.3.1 Dados Iniciais

Os dados utilizados neste estudo foram coletados a partir do banco de dados do TRE-DF, até o mês de novembro de 2002. Sobre o gerenciador de Bancos de Dados Oracle, as tabelas utilizadas para a extração dos dados necessários à mineração de dados foram restritas às seguintes:

1) Tabela de dados cadastrais dos eleitores do Distrito Federal. 2) Tabela de dados históricos de situações dos eleitores. 3) Tabela dos dados de origem para a efetivação de um eleitor no cadastro. 4) Tabela de dados históricos de operações dos eleitores 5) Tabela de coincidências. Cabe destacar o uso das seguintes tabelas acessórias, destinadas a

complementar o entendimento dos dados: 1) Tabela de municípios 2) Tabela de Unidade da Federação 3) Tabela de FASEs 4) Tabela de domínios.

Inicialmente, a coleta dos dados foi realizada através da linguagem SQL, gerando arquivos textos, que, por sua vez, eram importados para o Microsoft Access. A importação dos dados para esse banco de dados facilitou o transporte dos modelos já tratados para o equipamento onde seriam executados os algoritmos de mineração dados.

1 Do acrônimo Waikato Environment Knowledge Analysis (também ave em extinção da Nova Zelândia). Open Source. 2 Ferramenta de mineração de dados baseado no algoritmo CNM (Combinatorial Neural Model).

Page 7: Aplicacao CRISP-DM de MDm

3.3.2 Exploração dos dados

A exploração dos dados foi realizada por meio da linguagem SQL sendo feitas, inicialmente, as seguintes análises:

a) Na distribuição por faixa de idade, o eleitorado do Distrito Federal possui uma concentração de eleitores com idade entre 25 e 59 anos.

b) Na distribuição do eleitorado por grau de instrução, os eleitores portadores de primeiro grau incompleto representam quase 30% do eleitorado.

c) Na distribuição do eleitorado por sexo, destaca-se o número maior de eleitores do sexo feminino.

Da amostra total de 1.717.101, 765.197 eleitores não possuem informações sobre solicitações de operações no cadastro de eleitores representando 44,56% dos eleitores. Esta falta de informação sobre as operações implica uma redução significativa da amostra que considere este dado.

O conjunto de dados que contém o registro dos FASEs dos eleitores possui 2.193.903 registros, o que representa 759.891 eleitores (44,25%), cada um deles podendo ter de um a vários FASEs. Cabe salientar ainda que 214.556 FASEs registrados para eleitores do DF, representando 12,49% dos eleitores, já estiveram em situação impeditiva de votação.

Tratando dos eleitores que já estiveram envolvidos em coincidências eleitorais, sua distribuição por sexo indica que mais da metade dos casos de coincidência ocorrem para os eleitores do sexo feminino.

A distribuição dos eleitores em coincidência por zona eleitoral proporciona a visão de quais zonas estão com seus índices de coincidências maiores, permitindo uma ação que verifique esses casos e estabeleça mecanismos de redução dessas ocorrências.

O tempo médio, em dias, entre a ocorrência do óbito e sua respectiva digitação no sistema de informação da Justiça Eleitoral durou cerca de 220 dias.

Até aqui, vimos a exploração dos dados no aspecto das coincidências, FASEs e operações realizadas no cadastro de eleitores do Distrito Federal. A exploração dos dados é um trabalho extenso; por isso, nem todos os aspectos encontrados são relatados aqui, mostrando-se apenas os mais relevantes para a compreensão das informações-alvo para a mineração de dados. 3.3.3 Qualidade dos dados

Nesta etapa são listados os resultados da verificação da qualidade dos dados do cadastro de eleitores. A inclusão de novos dados, em versões mais recentes de sistemas de informação, foi introduzindo falhas nos dados históricos dos eleitores. Em conseqüência dessas constantes mudanças, encontrou-se a seguinte situação na análise do cadastro de eleitores do Distrito Federal:

a) Existência de registros, na entidade de registro dos FASES, com data de ocorrência com ano inválido;

b) Existência de 1.171 eleitores com indicação de SEXO não informado. c) Existência de 1.692 eleitores com GRAU DE INSTRUÇÃO não informado. d) Existência de 1.663 eleitores com ESTADO CIVIL não informado. e) 9 (nove) ocorrências de FASEs 094 (Não votou) com ano de digitação de

1919.

Page 8: Aplicacao CRISP-DM de MDm

f) 18.881 eleitores estão em situação diferente de REGULAR e LIBERADO (Qualquer situação de não-votante – especificamente as situações CANCELADO e NÃO-LIBERADO), mas não há registro de FASE de alteração de situação para CANCELADO ou NÃO-LIBERADO (FASEs 43,337,191,450,35,329,27,19)

g) A tabela HISTORICO_OPERACAO, em que são registradas as solicitações de operações de alistamento, revisão, transferência e segunda via, possui 157 eleitores (representando 204 registros) que não constam da tabela de eleitores.

h) A tabela HISTORICO_FASE, em que são registradas as solicitações de alteração de situação de eleitores, possui 240 eleitores (representando 1.045 registros) que não constam da tabela de eleitores;

i) Existem casos de FASEs 167 (Justificativa Eleitoral) para eleitores com FASE 019 (Cancelamento – Falecimento), FASE 191 (Inserida na Base Histórica), 043 (Conscrito), FASE 450 (Cancelamento – Sentença de autoridade Judicial) e FASE 035 (Cancelamento – deixou de votar por três pleitos), após o registro desses FASEs, podendo indicar uma falha da Justiça Eleitoral.

j) Existem 16.127 registros de coincidências de eleitores do DF na tabela de coincidências que possuem FASEs de indicação de envolvimento em coincidências.A tabela de coincidências possui 29.650 eleitores do DF, indicando que 13.523 eleitores não possuem FASE de envolvimento em coincidência.

k) Existem 16.952 eleitores com FASE 566 (Envolvido em Duplicidade/Pluralidade – LIBERADO) ou FASE 418 (Envolvido em Duplicidade/Pluralidade – NÃO-LIBERADO). Considerando o total de 16.127 eleitores em coincidência, restam 825 que não possuem registro na tabela de coincidências.

l) Existem 765.197 (44,56%) eleitores que não possuem informações sobre solicitações de operações no cadastro eleitores.

Para a preparação dos dados para a mineração, alguns desses problemas foram tratados de forma a não comprometer o resultado esperado. Conforme Dorian Pyle (1999), dados de qualidade são pré-requisitos para a produção de modelos efetivos de qualquer tipo, reforçando a idéia por trás da expressão “GIGO – Garbage In, Garbage Out”. Assim, para os atributos com valores faltantes, foram atribuídos valores genéricos. Os registros com dados inconsistentes, como os anos inválidos, foram ignorados da amostra.

33..44 PPrreeppaarraaççããoo ddooss DDaaddooss

Nesta fase, e a partir do entendimento dos dados, são gerados os conjuntos de dados que serão submetidos à ferramenta de análise. É realizada a limpeza de dados inconsistentes e o tratamento dos dados faltantes, além da agregação de valores, a transformação e formatação de atributos em valores não codificados, de forma a facilitar a compreensão no modelo.

Foram gerados, basicamente, dois conjuntos de dados: o primeiro originado da tabela de eleitores, com dados que não permitam a identificação do eleitor, a ser utilizado na classificação, chamado de DATASET1; o segundo com os dados

Page 9: Aplicacao CRISP-DM de MDm

históricos de FASEs e operações dos eleitores, dispostos em ordem cronológica, com um registro para cada eleitor, chamado DATASET2.

Os valores de alguns atributos foram alterados para a melhor compreensão dos modelos. Os atributos SEXO, EST_CIVIL, GR_INSTR e SIT tiveram seus valores transformados.

Os valores do atributo FAIXA_IDADE foram discretizados a partir do atributo original DAT_NASC (Data de Nascimento do Eleitor). As faixas foram estabelecidas em consonância com as já utilizadas pelo Tribunal Superior Eleitoral (BRASIL, 2002d). Outros atributos foram derivados de outras tabelas.

Cada atributo do DATASET2, contém a indicação de valores de códigos de FASEs e de valores de operações, respeitando sempre a ordem em que são solicitados.

No caso das datas inconsistentes, os registros foram desconsiderados para a geração desse conjunto de dados. Para a geração dos dois conjuntos de dados, foi utilizada a linguagem “procedural” do banco de dados Oracle PL/SQL. 33..55 MMooddeellaaggeemm

A modelagem é a fase do CRISP-DM onde é escolhida a técnica de mineração dos dados. Esta fase apresenta forte interação com a fase de preparação, uma vez que a técnica escolhida pode ter implicações na formatação dos dados. As técnicas de modelagem a serem utilizadas neste trabalho são a classificação, que se destinará à descoberta de características padrão para os eleitores do Distrito Federal, e a identificação de agrupamentos (Clustering), utilizada para a descoberta de padrões de comportamento dos eleitores envolvidos em coincidências.

A classificação foi escolhida como técnica em virtude da necessidade de encontrar modelos que descrevessem ou distinguissem os eleitores em coincidências, por sexo. Assim, teriam-se características padrão que permitam a identificação ou comprovação se os eleitores do sexo feminino estão mais suscetíveis a serem identificadas em coincidências, do que os do sexo masculino. Já o agrupamento, foi escolhido em razão da inexistência de uma classe alvo e na necessidade de se identificar comportamentos semelhantes para os eleitores em coincidências.

3.5.1 Classificação

Na classificação foi utilizado o conjunto de dados DATASET1, que trata dos dados dos eleitores, e utilizado para alcançar os objetivos da mineração descritos no entendimento do negócio. Baseado nas hipóteses formuladas e no entendimento dos dados foi realizada uma classificação por árvore de decisão com as seguintes características:

1) Algoritmo utilizado: C4.5 (J48); 2) 16.952 instâncias referentes aos eleitores que já estiveram envolvidos em

coincidências; 3) Confiança de 90% (-C 0.10) 4) Selecionados 7 atributos: SEXO, EST_CIVIL, GR_INSTR, FAIXA_IDADE,

ULTIMA_OPERACAO, QTD_FASES e QTD_OPERACOES_RAE;

Page 10: Aplicacao CRISP-DM de MDm

5) Classe alvo: SEXO; 6) Modo de teste: 10-Fold Cross-Validation; 7) Número mínimo de instâncias por folha: 2 (-M) 8) Índice esperado de aceite do modelo: 75% 9) Poda utilizada pela ferramenta: post-pruning. Após a submissão desse conjunto de dados à ferramenta, foi gerada a árvore

de decisão que embasa a seguinte análise: Observando-se o percentual de instâncias corretamente classificadas,

verifica-se um índice geral de 54,14%, e, para as incorretamente classificadas, 45,86%, mostrando que o modelo não é eficiente. Reforça-se essa afirmação com a análise da matriz de confusão (Confusion Matrix) indicando que a classe com valor M (Masculino) obteve um índice de erros superior ao de acertos (73,23%). Analisando os valores F (Feminino) da classe, verifica-se que 77,71% das instâncias são classificadas corretamente, o que satisfaz o limite de aceite.

Algumas observações podem ser feitas com base na árvore de decisão notando-se que, o estado civil solteiro combinado com o grau de instrução, acima de segundo grau incompleto, leva a boa classificação para o sexo feminino, o que não encontra ressonância na experiência do Tribunal.

Submetido o mesmo arquivo à ferramenta AIRA, foram geradas regras com confiança máxima de 60,37%. Essas regras representam a classificação dos eleitores envolvidos em coincidência. Os parâmetros submetidos ao AIRA foram os seguintes: 1) Confiança: 50%, 2) Suporte mínimo: 7%, 3) Ordem máxima: 3 e 4) Número de casos: 2.

Nota-se grandes diferenças entre as regras geradas pelos dois métodos, provavelmente devido ao fato de que o algoritmo de árvore de decisão particiona o espaço das classes, atributo por atributo, enquanto que o CNM mapeia todas as possíveis combinações de atributos, de uma só vez e para cada classe. 3.5.2 Agrupamento (Clustering)

Na identificação de agrupamentos, foi utilizado o conjunto de dados

DATASET2, que contém dados históricos de solicitações de FASEs e operações dos eleitores e utilizado para alcançar os objetivos da mineração levantados da fase do entendimento do negócio. Baseado nas hipóteses formuladas e no entendimento dos dados foi gerado um conjunto de agrupamentos com base nas seguintes características da ferramenta:

1) Algoritmo utilizado: SimpleKMeans; 2) 16.952 instâncias referentes aos eleitores que já estiveram envolvidos em

coincidências; 3) Número de Clusters (K): 8 (Baseado na experiência dos especialistas); 4) Selecionados 11 atributos: SOLIC01, SOLIC02, SOLIC03, SOLIC04,

SOLIC05, SOLIC06, SOLIC07, SOLIC08, SOLIC09, SOLIC10 e SOLIC11; 5) Utilizado o parâmetro -p 1-11 para a geração do conjunto de dados e seus

respectivos centróides. Observando o resultado do agrupamento, verifica-se a geração de apenas 6

centróides, tendo em vista que os centróides 5 e 6 são pouco significativos. Cada centróide define uma característica diferente para o conjunto de dados.

Page 11: Aplicacao CRISP-DM de MDm

O primeiro centróide, CENTROID 0 possui como característica principal a ocorrência de solicitações de transferência de títulos. Nesse centróide temos também, como característica marcante, a presença de FASEs 094 por, pelo menos, três eleições consecutivas.

O segundo centróide, CENTROID 1 tem como característica principal o grande nível de operações de alistamento como as primeiras ocorrências, seguidas de FASEs 094 por dois períodos consecutivos.

A característica principal do CENTROID 2, é a ocorrência de FASEs 167 por dois períodos consecutivos, seguidos de FASEs 094.

O quarto centróide, CENTROID 3, com marcante característica para a ocorrência de FASEs 256.

O centróide 4 possui como característica a destacar a ocorrência de FASEs 167 (Justificativa) e 094 (Não votou na Seção) com mais freqüência e por períodos mais longos, chegando a grandes índices na 4ª e 5ª vez.

O último centróide, o CENTROID 7, possui característica semelhante ao CENTROID 4, porém está ligado à ocorrência de operação de transferência. Esta fase do método CRISP-DM refere-se à aplicação de tecnologia com o acompanhamento dos especialistas. Inicialmente busca-se estabelecer os parâmetros iniciais necessários para a ferramenta; em seguida, a submissão dos conjuntos de dados aos algoritmos selecionados, execução de testes, construção dos modelos e, finalmente, uma avaliação do modelo gerado. 33..66 AAvvaalliiaaççããoo

Nesta fase é realizada a avaliação dos modelos encontrados face aos objetivos definidos, buscando-se identificar possíveis desvios que possam subsidiar a retomada de fases anteriores. São discutidos também, possíveis desdobramentos a partir do conhecimento adquirido.

Na fase de entendimento dos dados, houve a descoberta de problemas que podem ser solucionados através de rigoroso critério de aceitação dos dados no momento da captação dos dados do eleitor.

Em análises realizadas na fase de entendimento dos dados, foram identificados alguns FASEs 167 após o registro de FASEs de cancelamento ou suspensão. Para estes eleitores, há a possibilidade de falha da Justiça Eleitoral ao permitir a entrada dos mesmos, para eleitores cancelados ou com direitos políticos suspensos, sendo que sua comprovação requer a análise documental e de processos desses casos. Uma conseqüência importante deste problema é o aumento desnecessário de informação no banco de dados, já que cada falha introduz um erro a mais no banco de dados.

Na análise das regras verifica-se que qualquer mudança de estado civil está associada às coincidências. A identificação dessas relações aponta para a necessidade de se rever todos os casos de mudança de estado civil, aplicando-se mecanismos de batimento de nomes, de maneira a se identificar a sanar novos casos de coincidências.

Ressalta-se que o maior número de casos de coincidências são advindos das operações de alistamento e transferência, o que reforça a necessidade de mecanismos mais eficazes para a consulta, aos dados do eleitor, no momento de seu atendimento.

Page 12: Aplicacao CRISP-DM de MDm

A partir do modelo gerado pela classificação, observa-se que as eleitoras com até 3 FASEs registrados e com segundo grau completo ou incompleto possuem a maior probabilidade de se envolverem em coincidências. Este ato contradiz uma regra de bom senso pela qual um número alto de FASEs tem relação com coincidências, apontando para a necessidade de maiores investigações.

No processo de identificação de agrupamentos foram obtidos 6 grupos de eleitores dentre os que já se envolveram em coincidências. Cada grupo gerado oferece algum tipo de comportamento, que podem ser definidos como segue:

1) Eleitores que tiveram como primeira solicitação a TRANSFERÊNCIA seguido de FASE 094 (Não votou na seção) ou de três FASEs 094.

2) Eleitores que após ALISTAMENTO não votam, sendo registrados vários FASEs 094 (Não Votou na seção).

3) Eleitores antigos do DF, que não possuem operação registrada e possuem ocorrências de FASEs 167 (Justificativa) e de 094 (Não Votou na Seção) por dois períodos consecutivos;

4) Eleitores que possuem FASE de indicação de gêmeo (256). 5) Eleitores com ocorrência de FASEs 167 e 094 a partir da terceira

solicitação e por períodos mais longos; 6) Eleitores com ocorrências de FASEs 167 e 094 com crescimento de

operações de TRANFERÊNCIA entre dois períodos. Nessa fase de avaliação, é necessária a revisão dos processos, de

mineração de dados, no sentido de se identificar e sanar possíveis falhas. 33..77 DDiissttrriibbuuiiççããoo

A distribuição é a fase que permitirá aos clientes o acesso aos modelos gerados para que extraiam conhecimento útil.

Como o objetivo alvo da mineração de dados sobre o cadastro eleitoral recai sobre a qualidade dos dados, os modelos, num primeiro momento, ficam restritos à Corregedoria Regional Eleitoral, que tomará as providências para sua distribuição aos Cartórios e outros órgãos que achar conveniente.

Tomando-se medidas corretivas para a solução dos problemas de forma gradativa, o processo de mineração deve ser realizado continuamente, estabelecendo mecanismos de monitoramento dos dados e critérios de avaliação baseados nos atributos problemáticos e outros que possam surgir.

Com relação à tecnologia de recuperação, as pessoas envolvidas devem ser capacitadas para efetuarem suas pesquisas.

44 -- AAPPRREESSEENNTTAAÇÇÃÃOO DDOOSS RREESSUULLTTAADDOOSS

O estudo de caso desenvolvido neste trabalho proporcionou aos usuários especialistas uma nova perspectiva de trabalho que pode ser desenvolvido a partir da análise informacional existente. Já na primeira fase do processo em que se buscou a definição e contextualização do problema, pôde-se verificar a necessidade de identificação do conhecimento, informação e dados existentes, para que, a partir desses, pudéssemos direcionar os esforços para a definição do problema. Pereira (1980 apud Polya, 1957) enfatiza a compreensão do problema, em que se estabelecem quais os dados, condições e o que se deve procurar, como a primeira fase de um processo de resolução de problemas.

Page 13: Aplicacao CRISP-DM de MDm

Assim como as competências, os dados e informações possuem suas lacunas que devem ser identificadas e, se possível, corrigidas. Autores como McGee e Prusak (1994) e Pyle (1999) consideram a fase da identificação das necessidades e dos problemas como a mais importante dos processos de gestão da informação. Ainda assim, a definição do problema não é trivial, pois requer a capacidade de análise e síntese bem aguçadas dos especialistas.

Todo o processo adotado no estudo de caso possui a característica da criação do conhecimento, gerando, a cada passo, novas visões que podem ser avaliadas e retro-alimentadas. Quando da captura dos insumos para a solução dos problemas, à medida que os dados eram explorados, havia a provocação dos processos mentais (PEREIRA, 1980) dos especialistas, que identificavam novas necessidades de informação. A partir daí percebeu-se a importância da análise qualitativa e quantitativa dos dados, em que se identificou diversas inconsistências no banco de dados do cadastro de eleitores do Distrito Federal.

Na fase da avaliação e interpretação dos resultados da mineração, ficou claro aos especialistas a necessidade de melhoria da informação do cadastro de eleitores, com o foco na qualidade da informação e no estabelecimento de formas de controle e manutenção da qualidade. Os resultados da mineração tiveram como maior contribuição, o conhecimento do perfil dos eleitores e a necessidade de mecanismos de atualização dos dados e controle de qualidade dos mesmos, alvo para trabalhos futuros.

Na mineração de dados, o conhecimento está na interpretação dos modelos gerados e nas lições aprendidas durante todo o processo. A partir daí, a divulgação desse conhecimento apoiado na tecnologia da informação, subsidiará um processo de reflexão dos demais funcionários, que, por sua vez, contribuirão para a criação de novas idéias para os serviços oferecidos pelo Tribunal à sociedade.

55 -- CCOONNCCLLUUSSÃÃOO

Na análise das referências utilizadas neste trabalho, nota-se que as organizações estão voltadas para ações tanto para o público externo como interno, sejam seus clientes, fornecedores, funcionários, cidadãos. O objetivo de cada organização é a condução de suas atividades com a melhor qualidade possível, e, para isso, utilizam a tecnologia como aliada ao alcance desse objetivo. Para isso, a questão da gestão da informação, do conhecimento e de pessoas, requer o planejamento e determinação da missão e dos objetivos organizacionais, como o norteador principal para execução das atividades a que se propõe.

Inaugurado em 21 de abril de 1960 e instalado em 6 de setembro de 1960 no Distrito Federal, Brasília, tendo como seu presidente o Desembargador João Henrique Braune, o Tribunal Regional Eleitoral do Distrito Federal vem, desde então, executando suas atividades baseadas no que determina a Constituição Federal e legislações correlatas. Inserida também na necessidade do uso da tecnologia, a Justiça Eleitoral, desde 1986, utiliza-a de maneira a aprimorar cada vez mais seu papel perante a sociedade.

Está inserida no escopo da descoberta de conhecimento em bases de dados, a adoção de uma metodologia de controle da qualidade da informação. Wang (1998) propõe uma metodologia baseada no controle da qualidade total para produtos e enfatiza que as organizações devem seguir uma metodologia para delinear um

Page 14: Aplicacao CRISP-DM de MDm

projeto de qualidade da informação, identificar questões criticas e desenvolver procedimentos e métricas para uma análise e aperfeiçoamento contínuos.

De qualquer forma, a Justiça Eleitoral do Distrito Federal possui uma gama de dados não trabalhados, que podem auxiliar os tomadores de decisão na busca de conhecimento não explicitado e que permitam a agregação desses aos serviços prestados.

O Tribunal Regional Eleitoral do Distrito Federal pode imprimir uma nova sistemática no tratamento do cadastro de eleitores com o uso constante da mineração de dados. Costa (1999) relata que o então Ministro Presidente do Tribunal Superior Eleitoral José Néri da Silveira retratou a importância do cadastro de eleitores (SILVEIRA, 1998) dizendo:

"O alistamento, que se faz com a qualificação e inscrição de eleitores, pode constituir, como fase inicial do processo, também, a primeira porta à fraude, inscrevendo-se quem não possua as qualificações legais, ou de forma múltipla, do que decorre a conseqüência inafastável de tais vícios contaminarem etapas posteriores do procedimento eleitoral. Nesse sentido, a modernização dos serviços eleitorais em geral, utilizando-se técnicas novas para seu aprimoramento, com o fim de torná-los não só mais eficientes, mas, ainda, mais resguardados de quaisquer vícios, há de compor o rol permanente de providências indispensáveis a afirmar-se a verdade eleitoral".

O uso da tecnologia de mineração de dados proporcionou uma visão clara da necessidade do controle de qualidade da informação, podendo a MD ser utilizada como ferramenta de medição e principalmente na descoberta de conhecimentos úteis para a tomada de decisão. Apesar dos modelos gerados não terem proporcionado modelos eficientes, abre-se a possibilidade de um estudo mais detalhado, ao lado dos especialistas, para a geração de modelos eficientes e que agreguem valor aos serviços prestados pela Justiça Eleitoral. Ainda assim, projetos de mineração de textos, web mining, mineração de dados de sistemas administrativos, são outras frentes que se pode trabalhar na área de descoberta de conhecimento em bases de dados 66 -- RREEFFEERRÊÊNNCCIIAASS

BERRY, Michael J. A; LINOFF, Gordon. Mastering Data Mining: The Art and Science of Customer Relationship Management. John Wiley & Sons, Inc., 2000.

BRASIL. Tribunal Superior Eleitoral. Estatística do Eleitorado. Tribunal Superior Eleitoral. Sítio http://www.tse.gov.br/eleitorado/eleitorado2002/index.html Consulta realizada em 27/12/2002 às 09:00h. 2002d.

BRASIL Instituto Brasileiro de Geografia e Estatística. Estatísticas de Registro Civil. Sítio visitado www.ibge.gov.br em 28/12/2002. 2002e.

COELHO, João Gilberto. Reflexões para o Futuro. In: Direito Eleitoral/Velloso. Ed. Del Rey, 1996, p.55.

CHAPMAN, Pete, et. al. CRISP-DM 1.0 – Step-by-step data mining guide, 1999. Disponível em http://www.crisp–dm.org, página visitada em 02/11/2001às 11:46hs.

Page 15: Aplicacao CRISP-DM de MDm

COSTA, Alberto Luiz. Depuração do Cadastro Eleitoral. In: Palestra do VIII Encontro dos Juizes Eleitorais, Florianópolis, 1999. Obtido do sítio http://www.tre-sc.gov.br/sj/cjd/doutrinas/alberto1.htm em 06/01/2003.

FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery: na Overview. In: Advances in Knowledge Discovery and Data Mining. Usama M. Fayyad, et.al. 9Editors). AAAI Press/MIT Press, 1996.

HAN, Jiawei; KAMBER, Micheline. Data Mining: concepts and techniques. Morgan Kaufmann Publishers, 2001.

JOBIM, Nelson; PORTO, Walter Costa. Legislação Eleitoral no Brasil: do século XVI a nossos dias. Brasília: Senado Federal, Subsecretaria de Biblioteca, 1996.

McGEE, James; PRUSAK, Laurence. Gerenciamento Estratégico da Informação. 9ª Edição. Rio de Janeiro, Editora Campus, 1994.

PEREIRA, W. C. de A. Resolução de problemas Criativos: ativação da capacidade de pensar. Brasília/DF: Departamento de Informação e Documentação/EMBRAPA, 1980. 54p.

POLYA, George. How to solve it: a new aspect of mathematical method. New Jersey: Princeton University Press, 1945.

PYLE, Dorian. Data preparation for data mining. Academic Press, 1999.

SILVEIRA, José Néri da. Aspectos do Processo Eleitoral. Ed. Livraria do Advogado, Porto Alegre, 1998, pág. 23.

SOUSA, Paulo de Tarso Costa de. Mineração de Dados para indução de um modelo de gestão do conhecimento. Dissertação de Mestrado. Universidade Católica de Brasília, 2003.

WANG, Richard. Y. A product perspective on total data quality management. ACM Inc. Communications of the ACM, fev. 1998. v. 41 n. 2

WEKA 3: Machine Learning in Java. Versão 3.2.3. Software livre obtido do sítio http://www.cs.waikato.ac.nz/~ml/weka/index.html em 08/02/2002.


Top Related