extração de informação em bases de dados abertas ......em um conjunto de dados, focando na...

18
Revista de Informática Aplicada, Volume 14, Número 1, 2018 Extração de informação em bases de dados abertas governamentais através de uma abordagem de mineração descritiva empregando a ferramenta R Lydia de Castro C. Braga 1 , Isabela Neves Drummond 2 . Resumo O processo de extração de conhecimento de grandes bases de dados envolve diversas técnicas. Cada uma delas é apropriada para um tipo de problema e a análise dos métodos utilizados inclui peculiaridades dos dados e a experiência do analista. Neste contexto, dados abertos governamentais tornam-se essenciais para análise dos diversos componentes presentes no cotidiano populacional de um país, como educa- ção, crescimento econômico e política. Este artigo apresenta uma metodologia de mineração de dados utilizando a ferramenta R como instrumento, buscando verificar tanto o potencial da ferramenta, como da metodologia descrita. Os estudos de casos apresentados utilizam o conjunto de dados Enem 2013, provido pelo Instituto Nacional de Estudos e Pesquisa (INEP), e os Dados das Teses e Dissertações da Pós-Graduação 2012, disponíveis no Banco de Teses e Dissertações da Capes, ambos enquadrados na Lei de Acesso à Informação. Os resultados alcançados demonstram a viabilidade de aplicação da abordagem proposta na construção de aplicativos, tornando possível a difusão de conhecimento em diversas áreas. Palavras-chave: Extração de conhecimento, ferramenta R, dados abertos governamentais. Abstract The process of knowledge discovery from large databases involves several techniques. Each technique is appropriate for one type of problem, and the analysis of the used methods includes peculiarities of the data and the analyst’s experience. In this context, open government data becomes essential for the analy- sis of the various components present in the daily population of a country, such as education, economic growth and politics. This article presents a methodology of data mining using the R tool as instrument, seeking to verify the potential of the tool as well as the methodology. The case studies presented use the data set Enem 2013, provided by the National Institute of Studies and Research (INEP), and the Data of Thesis and Dissertations of Postgraduate 2012, available in the Bank of Thesis and Dissertations of Capes, both framed in the Law on Access to Information. The results show the feasibility of applying the proposed approach in the construction of applications, making it possible to disseminate knowledge in several areas. Keywords: Knowledge discovery, R tool, open government data. 1 Universidade Federal de Itajubá, Av. BPS, 1303, Pinheirinho, E-mail: [email protected] 2 Universidade Federal de Itajubá, Av. BPS, 1303, Pinheirinho, E-mail: [email protected] 52

Upload: others

Post on 12-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Extração de informação em bases de dados abertasgovernamentais através de uma abordagem de mineração

descritiva empregando a ferramenta R

Lydia de Castro C. Braga 1, Isabela Neves Drummond 2.

Resumo

O processo de extração de conhecimento de grandes bases de dados envolve diversas técnicas. Cada umadelas é apropriada para um tipo de problema e a análise dos métodos utilizados inclui peculiaridades dosdados e a experiência do analista. Neste contexto, dados abertos governamentais tornam-se essenciaispara análise dos diversos componentes presentes no cotidiano populacional de um país, como educa-ção, crescimento econômico e política. Este artigo apresenta uma metodologia de mineração de dadosutilizando a ferramenta R como instrumento, buscando verificar tanto o potencial da ferramenta, comoda metodologia descrita. Os estudos de casos apresentados utilizam o conjunto de dados Enem 2013,provido pelo Instituto Nacional de Estudos e Pesquisa (INEP), e os Dados das Teses e Dissertações daPós-Graduação 2012, disponíveis no Banco de Teses e Dissertações da Capes, ambos enquadrados na Leide Acesso à Informação. Os resultados alcançados demonstram a viabilidade de aplicação da abordagemproposta na construção de aplicativos, tornando possível a difusão de conhecimento em diversas áreas.

Palavras-chave: Extração de conhecimento, ferramenta R, dados abertos governamentais.

Abstract

The process of knowledge discovery from large databases involves several techniques. Each techniqueis appropriate for one type of problem, and the analysis of the used methods includes peculiarities of thedata and the analyst’s experience. In this context, open government data becomes essential for the analy-sis of the various components present in the daily population of a country, such as education, economicgrowth and politics. This article presents a methodology of data mining using the R tool as instrument,seeking to verify the potential of the tool as well as the methodology. The case studies presented use thedata set Enem 2013, provided by the National Institute of Studies and Research (INEP), and the Dataof Thesis and Dissertations of Postgraduate 2012, available in the Bank of Thesis and Dissertations ofCapes, both framed in the Law on Access to Information. The results show the feasibility of applyingthe proposed approach in the construction of applications, making it possible to disseminate knowledgein several areas.

Keywords: Knowledge discovery, R tool, open government data.

1Universidade Federal de Itajubá, Av. BPS, 1303, Pinheirinho, E-mail: [email protected] Federal de Itajubá, Av. BPS, 1303, Pinheirinho, E-mail: [email protected]

52

Page 2: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

1 Introdução

O processo de mineração de dados é uma área daciência da computação que visa extrair conheci-mento de grandes bases de dados. Esse tipo de pro-cedimento é extremamente útil, podendo ser em-pregado em indústrias, processos administrativos epesquisas em diversas áreas como forma de auxiliarna tomada de decisão.

As áreas governamentais coletam grandes quan-tidades de dados todos os dias e, a partir do pa-radigma de dados abertos governamentais, elestornam-se disponíveis para a população através doprograma de transparência governamental, regidopela Lei de Acesso à Informação no 12.527/11.

As técnicas de mineração de dados têm funda-mentos baseados na estatística e no aprendizado demáquina, utilizando algoritmos complexos no pro-cesso de extração de conhecimento, sendo necessá-rias ferramentas eficientes.

A ferramenta R é uma linguagem de programa-ção e um ambiente integrado de software para esta-tística computacional e visualização gráfica, desen-volvida como um projeto open-source (RIPLEY,2001). Diversos algoritmos de mineração de dadossão desenvolvidos e publicados todos os anos gra-ças à uma comunidade de desenvolvedores apreci-adores da ferramenta R.

Neste contexto, este artigo visa detalhar o mo-delo de mineração de dados proposto em (BRAGA;DRUMMOND, 2017), estendendo os resultadosencontrados com um novo estudo de caso, queabrange o estudo dos dados das Teses e Disserta-ções da Pós-Graduação 2012 disponível no Bancode Teses e Dissertações da Capes. Os resultadosencontrados permitiram validar a metodologia pro-posta e evidenciar pontos positivos e negativos doprocesso implementado a partir da ferramenta R.Todo o estudo demonstrado em (BRAGA; DRUM-MOND, 2017) que compreende a aplicação da me-todologia aos dados do ENEM 2013 é tambémapresentado, detalhado e comentado neste artigo,buscando evidenciar as características da aborda-gem proposta.

Este artigo está organizado da seguinte maneira:a Seção 2 apresenta a definição dados abertos go-vernamentais e evidencia as vantagens da aberturade dados no cotidiano populacional. A Seção 3visa definir o processo de mineração de dados edemonstrar as razões da utilização da ferramentaR neste contexto. A Seção 4 detalha a metodolo-

gia de mineração empregada, especificando as téc-nicas e os pacotes da ferramenta R, bem como aanálise proposta. As Seções 5 e 6 apresentam aaplicação do modelo desenvolvido em conjuntos dedados abertos governamentais, como forma de vali-dação. A Seção 7 apresenta as considerações geraisacerca do processo realizado e, por fim, a Seção 8apresenta as conclusões e possíveis trabalhos futu-ros.

2 Dados Abertos Governamentais

O paradigma de dados abertos depreende que da-dos de origem pública, em posse do Governo, de-vem ser disponibilizados à sociedade na sua formabruta e em formato aberto, para que a sociedadepossa produzir cruzamentos, interpretações e apli-cações úteis (DUTRA; LOPES, 2013).

A abertura de dados governamentais objetiva oalcance de três grandes finalidades: transparência,liberação de valor social e comercial e participaçãogovernamental (FOUNDATION, 2012). A meta detransparência define que os cidadãos precisam es-tar cientes sobre as ações e decisões do Governo.Para tanto, eles devem ser capazes de acessar li-vremente os dados e informações que desejarem eas compartilharem com outros cidadãos. A libera-ção de valor social e comercial indica que o acessoà informação é um recurso essencial para a aber-tura de atividades sociais e comerciais. Neste caso,a abertura de dados governamentais pode impulsi-onar a criação de negócios inovadores e serviçosque agregam valor social e comercial. Por último,a participação governamental transcende o princí-pio de transparência, fazendo com que a sociedadenão seja só informada do processo governamental,mas também seja capaz de contribuir com este pro-cesso.

Estas razões abrangem motivos sociais e econô-micos que beneficiam tanto a população quantoo próprio Governo. Exemplos são a melhoria datransparência e controle democrático, da eficáciados serviços públicos e da avaliação do impacto daimplantação de novas políticas, além do aumentoda participação popular e de inovação dos produtose serviços privados (DIETRICH et al., 2009)

3 Mineração de dados e a Ferramenta R

Mineração de dados é o processo de extração de co-nhecimento de grandes bases de dados (CORRÊA;

53

Page 3: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

SFERRA, 2003). Sua aplicação tem como objetivoencontrar relacionamentos ocultos entre os dados esintetizá-los de forma compreensível e útil para seuproprietário (HAND; MANNILA; SMYTH, 2001).O sucesso da mineração de dados depende, princi-palmente, de uma boa metodologia. Mensurar me-tas razoáveis, realizar um trabalho interdisciplinare utilizar um ciclo repetitivo de tarefas e das ava-liações de seus resultados são questões essenciaisneste processo.

De forma geral, todo processo de extração deconhecimento precisa entender o contexto do pro-blema a ser analisado, definir dados e fazer umpré-processamento, estudar e selecionar modelosde mineração de dados adequados, avaliar os re-sultados obtidos e, se necessário, recomeçar o pro-cesso. Ao atingir resultados apropriados, devem-seestabelecer meios de visualização que facilitem oentendimento dos usuários.

A ferramenta R traz consigo recursos que faci-litam este processo. Ela consiste em um conjuntointegrado de ferramentas para estatística computa-cional e visualização gráfica (R Core Team, 2017),podendo ser adquirida diretamente do Comprehen-sive R Archive Network (CRAN), uma coleção desites, conhecidos como mirrors. Neles estão dis-poníveis tanto a ferramenta R básica quanto diver-sos pacotes para funcionalidades específicas. Ape-sar desta definição, a ferramenta R não está funda-mentada apenas em pacotes estatísticos, sendo umaverdadeira linguagem de programação. Usuáriosdesta ferramenta podem utilizar simplesmente li-nhas de comando ou escrever suas próprias funçõese pacotes, utilizando todo o potencial desta lingua-gem(TEAM, 2000).

Para as tarefas de mineração são definidos pa-cotes específicos contendo funções que auxiliam asaplicações destas técnicas nos conjuntos de dadostrabalhados. Neste trabalho foram empregados ospacotes Kohonen (WEHRENS; BUYDENS et al.,2007), NbClust (CHARRAD et al., 2014), party(HOTHORN; HORNIK; ZEILEIS, 2006), partykit(HOTHORN; ZEILEIS, 2015), wordcloud (FEL-LOWS, 2014), tm (FEINERER; HORNIK, 2017),caret (WING et al., 2017), além do pacote básicoStats (R Core Team, 2017).

4 Metodologia Proposta

A metodologia empregada neste trabalho, descritaem (BRAGA; DRUMMOND, 2017), visou à apli-

cação de técnicas de mineração de dados a dadosabertos governamentais por meio da ferramenta R.Com base neste tipo de dados foi elaborado um mé-todo próprio capaz de gerar informações descriti-vas sobre o conjunto, extraindo conhecimento rele-vante que ajude em um processo de decisão. Paratanto, este processo foi definido de forma a veri-ficar o relacionamento entre as variáveis presentesem um conjunto de dados, focando na abordagemde mineração descritiva. Este processo foi divididoem cinco fases (etapas) principais, conforme fluxo-grama da Figura 1 e descrito a seguir.

4.1 Pré-Processamento

A fase de pré-processamento engloba as tarefas decoleta de dados, sua exploração e, em caso de in-consistências, limpeza e correção. A ferramentaR disponibiliza estratégias para gerar informaçõesestatísticas sobre os dados trabalhados, sendo pos-sível verificar os principais casos de incoerências,como problemas de completude e inconsistência.O comando summary, disponível no pacote Stats,é utilizado para realizar a primeira verificação dosdados. Ele retorna informações como média, me-diana, valor mínimo e máximo de dados numéricose a frequência em que ocorrem determinados valo-res em dados textuais. Também é possível verificarse existem campos vazios nos dados e onde elesocorrem. Dados lógicos também são verificados,mostrando a frequências de verdadeiros e falsos.

É importante levar em consideração neste tipo deanálise o domínio trabalhado, bem como o contextode onde os dados foram coletados. Informações deunidades, categorias assumidas e faixas de valoresconsideradas válidas são imprescindíveis ao anali-sar inconsistências. Caso estes tipos de problemassejam verificados, o analista precisa decidir entrealgumas técnicas de limpeza de dados, como pre-encher valores em falta, remover campos ou reduziro conjunto de dados.

4.2 Agrupamento

A fase de agrupamento verifica a relação entre asvariáveis do conjunto de dados. O modelo de agru-pamento permite identificar e atribuir elementos si-milares a um mesmo grupo, sem a necessidade dosdados utilizados estarem previamente classificados,utilizando técnicas de aprendizado não supervisio-nado (CAMILO; SILVA, 2009).

54

Page 4: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 1: Fluxograma do processo de mineração.

A metodologia desenvolvida para gerar os agru-pamentos nos conjuntos de dados trabalhados con-sistiu no uso de dois algoritmos: a rede neuralde Kohonen (KOHONEN, 2013) e o algoritmo K-médias (JAIN, 2010). Como abordagem interme-diária entre os dois existem índices de validade deagrupamento que verificam o número de gruposótimo.

A rede neural de Kohonen (KOHONEN, 2013)organiza, geralmente em um mapa bidimensio-nal, dados complexos em agrupamentos, sendo,por esse motivo, também chamada de mapa auto-organizável. Os pesos finais de cada neurônio darede determinam um padrão reconhecido, e, porconsequência, definem uma classe de dados refe-rente ao que é apresentado na entrada. SegundoKOHONEN, a rede não foi criada para reconheci-mento de padrões, mas para agrupamento, visuali-

zação e abstração. Ainda assim, pode ser utilizadapara reconhecimento e classificação quando utili-zada juntamente com um modelo de aprendizadosupervisionado. No caso do pacote Kohonen, é ne-cessário transformar os dados utilizados em infor-mações numéricas antes do treinamento.

Para definir o número de classes presentes nomapa de Kohonen, índices de validade de agru-pamentos podem ser calculados através do pa-cote NbClust. Estes indíces combinam informa-ções sobre a compactação e isolamento dos agru-pamentos, assim como propriedades de geome-tria ou estatística e medidas de dissimilaridade ousimilaridade entre os dados. A partir do resul-tado obtido, as instâncias podem ser classificadaspor meio do algoritmo de aprendizado não su-pervisionado K-médias, que consiste em um mé-todo de agrupamento não-hierárquico por reparti-

55

Page 5: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

ção (JAIN, 2010). Ele é um dos algoritmos não-supervisionados mais simples que resolve o pro-blema de agrupamentos onde o número de gruposé conhecido. Para trabalhar com cada uma dessastécnicas na ferramenta R são empregados os paco-tes Kohonen, NbClust e Stats.

4.3 Regras

A fase de descoberta das regras tem como obje-tivo identificar as regras que descrevem cada umdos grupos encontrados através da fase de agru-pamento, demonstrando as influências de cada umdos atributos que definem um conjunto de dados.O processo consiste em utilizar uma árvore de de-cisão nos dados previamente divididos na etapa deagrupamento de forma a gerar regras que descre-vem esses conjuntos, permitindo analisar a natu-reza de cada um dos agrupamentos em relação aorelacionamento das variáveis presentes no conjuntode dados.

Os pacotes party e partykit estão disponibiliza-dos na ferramenta R e são empregados nesta fase.A metodologia disponível no primeiro pacote uti-liza a inferência condicional como método de par-tição em subconjuntos de forma binária e recur-siva (FRIZZARINI; LAURETTO, 2013) e o party-kit consiste na sua implementação melhorada, pro-vendo a mesma abordagem baseada em uma novainfraestrutura (HOTHORN; ZEILEIS, 2015), des-crita em (BREIMAN et al., 1984).

4.4 Mineração de Texto

A fase de mineração de texto visa encontrar novasinformações relevantes em campos textuais presen-tes nos conjuntos de dados. As fases anterioresutilizam técnicas de aprendizado de máquina quetrabalham apenas com campos numéricos ou cate-góricos, de forma que informações importantes po-dem não ter sido identificadas. Esta etapa do pro-cesso é extremamante útil quando se trata de dadosabertos governamentais, visto que permite a análiseprofunda de atas, resumos, contratos, entre outrostipos de documentos.

Os modelos que trabalham com dados textuaisdiferem dos utilizados em dados numéricos ou ca-tegóricos, devido a informação encontrar-se implí-cita, ou seja, não existem campos que identificamatributos e simplificam as informações representa-das. A técnica de mineração de dados deve simu-lar o comportamento de um leitor que, a partir de

um texto, naturalmente identifica informações re-levantes (ZAMBENEDETTI, 2002). Para tanto énecessário seguir um conjunto de etapas:

• transformar o texto para caixa baixa buscandofacilitar os processos de comparação;

• remover pontuação, número, símbolos e stopwords, que consistem em palavras muito co-muns ou sem significado relevante, comoartigos e preposições (ZAMBENEDETTI,2002);

• realizar expansão semântica;

• verificar a frequência de cada palavra;

• definir um método de visualização, como umanuvem de palavras.

Para mineração de texto é empregado o pacotetm, que permite realizar o processo completo, pas-sando por cada uma das etapas listadas. Outroponto fundamental para a utilização do pacote estáno fato de se poder especificar o idioma que se de-seja trabalhar, o que é crucial para o resultado destetipo de processo.

O pacote wordcloud permite a visualização emformato de nuvem de palavras. O analista pode de-finir um número máximo de palavras na visualiza-ção e também a frequência mínima de cada uma de-las, de forma a melhorar a qualidade do seu resul-tado. Esse tipo de visualização é uma excelente al-ternativa para verificar quais termos aparecem maisfrequentemente em um documento textual, permi-tindo induzir quais assuntos se destacaram.

4.5 Análise de Resultados

A análise de resultados visa verificar quais são asvantagens e desvantagens da abordagem de mine-ração empregando a ferramenta R no âmbito de da-dos abertos governamentais. Para tanto, é neces-sário averiguar se os métodos de aprendizado demáquina utilizados possuem validade dentro do do-mínio do problema e que tipo de informação foi al-cançada ao fim do processo de mineração.

Como os dados utilizados para agrupamento nãopossuem nenhum tipo de classificação prévia nãoé possível determinar o nível de acurácia da redeneural de Kohonen, mas existem parâmetros quepermitem a verificação da sua qualidade. O pa-cote Kohonen disponibiliza diversos tipos de visu-alização dos resultados obtidos, estando entre eles

56

Page 6: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

um gráfico do processo de treinamento. Este grá-fico mede a distância média de um objeto com ovetor de características mais próximo. Em geral,o formato encontrado é uma exponencial decres-cente, que indica que os vetores de característicasdos neurônios da rede encontram-se cada vez maissimilares aos objetos contidos no conjunto de da-dos (WEHRENS; BUYDENS et al., 2007). Grá-ficos muito distantes deste formato podem indicarque o treinamento da rede não foi eficiente, sendonecessário um novo ajuste dos parâmetros da rede.

As classes geradas pelo algoritmo K-médias jáutilizam o número ótimo de grupos definido pelosíndices de validade de agrupamento, de forma quejá formam partições válidas de acordo com o pa-cote NbClust.

No caso da árvore de decisão, pode-se definir suaacurácia. Por se tratar de um método de aprendi-zado supervisionado, é possível verificar o númerode instâncias corretamente classificadas a partir dométodo, utilizando como base as classes geradas noprocesso de agrupamento. Para isso, são utilizadasa matriz de confusão e a medida de acurácia. Am-bos os métodos de validação são fornecidos pelopacote caret da ferramenta R, que provê a funçãoconfusionMatrix() para esse tipo de processo.

A matriz de confusão é utilizada para visuali-zar o desempenho de um classificador. Ela apre-senta o número de predições corretas e incorretasem cada classe do problema, permitindo uma aná-lise do comportamento das classes no espaço, umavez que é possível identificar, dada a classe, emqual classe está o erro apresentado. O número deacertos para cada uma das classes se localiza na di-agonal principal da matriz e os demais elementosrepresentam erros na classificação (FACELI et al.,2011). A medida de acurácia é conhecida comoexatidão global e refere-se à estimativa de quantoos resultados representam a classificação corretaesperada ou quanto se afastam desta classificação(SUAREZ; CANDEIAS, 2012).

Após a validação da qualidade da árvore de de-cisão, é preciso extrair suas regras. As regras gera-das por esse tipo de modelo são do tipo “se-então”,de forma que permitem a visão de quais valoresum determinado atributo pode assumir e o que issoimplica nos próximos níveis da árvore. Essa in-formação pode representar a descoberta de padrõesnos conjuntos de dados utilizados e, consequente-mente, a descoberta de informação relevante.

A análise da fase de mineração de texto consiste

em identificar as palavras mais frequentes por meioda nuvem de palavras e verificar, com base no con-texto dos dados, os assuntos que mais apareceramdentro dos campos textuais. Esse processo servecomo complementação das informações extraídasnas regras derivadas da árvore de decisão, ampli-ando a visão do analista.

5 Estudo de Caso: Aplicação do processoaos dados do ENEM 2013

A partir da aplicação da abordagem proposta aoconjunto de dados do ENEM 2013 foi possível ob-ter resultados que demonstram o uso da metodolo-gia, em todas suas fases, descrita na Seção 4.

5.1 Conjunto de dados ENEM 2013

O conjunto de dados ENEM 2013 refere-se aos re-sultados por Escola do Exame Nacional do EnsinoMédio aplicado no ano de 2013, podendo ser en-contrado no portal do Instituto Nacional de Estu-dos e Pesquisa (INEP), juntamente com as provasaplicadas e seus gabaritos. Também são disponibi-lizados documentos descritivos sobre os dados. Oconjunto de dados utilizado neste trabalho consistena Planilha ENEM por Escola, um arquivo que di-vide o resultado por escola de acordo com as áreasavaliadas na prova do ENEM: Linguagens e Có-digos, Redação, Matemática, Ciências Humanas eCiências da Natureza. Este conjunto possui 14714instâncias que representam as escolas participan-tes do exame. Os atributos utilizados na análisereferem-se à unidade da Federação, dependênciaadministrativa, localização e porte da escola, in-cluindo ainda o nível social dos alunos, o índice daformação de adequação da formação docente e asmédias referentes às provas do ENEM.

5.2 Resultados da Etapa de Pré-Processamento

A primeira etapa da fase de pré-processamento foidefinir as colunas apropriadas ao processo de mi-neração de dados. Para tanto, foram escolhidas co-lunas que possuíssem informações relevantes sobreas escolas participantes do exame, como localiza-ção e nível social, e as médias em cada uma dasáreas de conhecimento das provas.

Através do comando summary, avaliou-se a qua-lidade da informação de cada uma das colunas.Os campos referentes à unidade federativa, depen-dência administrativa, localização, porte da escola

57

Page 7: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

e nível social foram corretamente definidos comocampos categóricos e apresentam a frequência emque cada um destes valores aparece no conjunto dedados. Os campos que representam a média dasescolas em cada uma das áreas do conhecimentoavaliadas estão definidos como campos numéricose apresentam valores que tendem a 1000, de formaque estão dentro do intervalo esperado como notada prova. A partir da análise da média das provasem cada uma das áreas de conhecimento, pode-seperceber que a prova de Ciências Naturais possuia menor média e a prova de redação, a maior. Porúltimo, o campo de formação de docente assumevalores dentro da faixa [0, 100], estando consis-tente em relação ao seu contexto. Apesar disso,é possível perceber que existem três instâncias doconjunto de dados que estão com este campo va-zio, como pode ser visto através do valor NA. Pararesolver esta inconsistência foi empregada a abor-dagem de remoção, eliminando as instâncias quepossuíam campos vazios. O resultado pode ser ob-servado na Figura 2.

5.3 Resultados da Etapa de Agrupamento

A rede neural de Kohonen foi aplicada utilizandouma grade de 38x39 neurônios, com vizinhançacircular e taxa de aprendizado no intervalo [0.06,0.01], gerando o mapa de Kohonen. O processode treinamento da rede pode ser verificado na Fi-gura 3. Observe que a distância média de um ob-jeto com o vetor de características mais próximotende a diminuir exponencialmente, tendendo a umvalor mínimo e se estabilizando a partir da quin-quagésima iteração aproximadamente. Este resul-tado demonstra que os valores escolhidos alcançamum treinamento do tipo adequado e que o númerode iterações definido é mais que o suficiente para aconvergência da rede neural.

Figura 2: Pré-processamento do conjunto dedados ENEM 2013.

Figura 3: Progresso de treinamento para oconjunto de dados ENEM 2013.

A Figura 4 apresenta os resultados obtidos atra-vés da rede; onde são expostos os mapas de calorde cada uma das variáveis do conjunto e, acima àesquerda, o mapa auto-organizável gerado com osagrupamentos. Um mapa de calor consiste na exi-bição do agrupamento com foco em um único atri-buto relevante do conjunto de dados. Ele permite aanálise do estado e do impacto que um grande nú-mero de variáveis causa em um modelo de agrupa-mento (WILKINSON; FRIENDLY, 2009). A es-cala de cores utilizada indica que cores mais quen-

tes representam valores mais altos nas instânciasapresentadas em uma região do mapa, enquanto co-res mais frias representam o oposto. No mapa re-ferente à localização, por exemplo, é possível ob-servar que existem dois grupos, um notavelmentemaior que o outro. A comprovação desta carac-terística pode ser conferida no pré-processamento(Figura 2), que mostra que existem 627 escolas nazona rural e 14088 na zona urbana. A mesma aná-lise pode ser feita no mapa de dependência admi-nistrativa, onde existem dois grandes grupos que

58

Page 8: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 4: Resultado da Rede de Kohonen para o conjunto de dados ENEM 2013.

representam as categorias estadual e privada, e doisgrupos menores referentes aos valores federal emunicipal. Também é interessante observar quevalores altos para as provas estão localizados namesma região do mapa, coincidindo também com aregião onde o nível social tende a ser maior. Poste-riormente, foi verificado através do pacote NbClustque o número ótimo de grupos deve ser 7, gerandoas partições referentes com o algoritmo K-médias.

5.4 Resultados da Etapa de Regras

Para gerar as regras, foi utilizada a árvore de de-cisão provida pelos pacotes party e partykit. Oconjunto classificado na etapa anterior foi empre-gado como parâmetro desta abordagem, já que elaconsiste em um método de aprendizado supervisi-onado. A fórmula utilizada como base do processodefiniu como variável alvo as classes geradas peloalgoritmo K-médias, mantendo os demais atributoscomo independentes.

A árvore gerada possuía uma estrutura de 1011nós, onde 505 são nós internos e 506 são folhas.Essa quantidade de nós pode indicar que muitasarestas e sub-árvores refletem ruídos ou erros, pro-blema conhecido como sobreajuste e que reflete umaprendizado muito específico do conjunto de trei-namento, não permitindo a generalização do mo-

delo. Um processo de poda foi aplicado para facili-tar a leitura dos resultados através do pacote party-kit. Ele permite que sejam realizadas podas apóso treinamento da árvore através da função node-prune. Para isso, é preciso definir quais nós serãopodados. A escolha desses nós foi realizada pormeio da imposição de significância aos nós, defi-nindo um valor de 10−5 para o teste de hipótese deindependência entre uma variável de entrada e suaresposta. Após este processo, a árvore sofreu umadiminuição de 80%.

Tabela 1: Resultados de acurácia para oconjunto ENEM 2013.

Classe Acurácia1 0,452 0,643 0,374 0,365 0,536 0,267 0,70

Acurária Global 0,556

Utilizando a matriz de confusão como base decálculo, a acurácia do modelo atingiu 55,6%. Veri-ficando a acurácia individual de cada uma das parti-

59

Page 9: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

ções, medida também chama de sensibilidade den-tro da estatística, pode-se perceber um resultadode 36% a 70% de acurácia. Isso pode indicar queas regras geradas não representam seu comporta-mento em totalidade. A Tabela 1 sumariza os valo-res de acurácia obtidos para a árvore.

Mesmo com a poda, a quantidade de nós obtidosimpossibilita uma análise por meio da visualizaçãográfica, de forma que é necessário extrair as regrasatravés da função disponível no pacote partykit. Asregras geradas permitem a visão das escolas queapresentam notas abaixo da média em cada umadas áreas de conhecimento do ENEM. A Figura 5apresenta a porcentagem de regras que indicam es-colas abaixo da média geral dos inscritos do anode 2013, separando-as por área de conhecimento.Com base neste gráfico, fica evidente que 54% dasregras apresentaram notas abaixo da média, sendoque 36% relacionavam-se com a prova de ciênciasda natureza.

Figura 5: Gráfico da porcentagem de Regrascom escolas abaixo da média por área de

conhecimento.

5.5 Resultados da etapa Mineração deTexto

A etapa de mineração de texto foi aplicada sobre asprovas do exame do ano de 2013, trazendo resulta-dos voltados ao conteúdo escolhido como foco dasáreas de conhecimento do ENEM, como sendo asmatérias mais cobradas. A apreciação desta visua-lização neste tipo de contexto depende do analista eseu conhecimento nas áreas estudadas, de forma arelacionar termos com os conteúdos do ensino mé-dio. Esse tipo de informação relaciona-se com asnotas apresentadas nas regras obtidas, visto que es-

pecifica os conteúdos onde os alunos apresentarammaiores dificuldades. A Figura 6 demonstra as nu-vens geradas.

Em relação à prova de matemática, pode-se in-ferir que seu foco foi em questões relacionadasa conversões de tempo, como indica as palavras"tempo", "horas", "dia"e "anos", e geometria plana,espacial e analítica através, por exemplo, das pala-vras "raio", "centro", "sistema"e "vértices".

Sobre a prova de redação, vê-se com clareza otema do ano de 2013: a lei seca. A prova deportuguês destaca questões sobre gêneros textuais,como demonstra os termos "carta"e "crítica". Etambém podem ser observados temas voltados àliteratura, com base nas palavras "arte", "poema","obra"e "fragmento". Outro ponto a ser observadosão as palavras "negro"e "indígenas". Em 2003, aLei 10.639 incluiu à Lei de Diretrizes e Bases daEducação Nacional (LDB) o ensino obrigatório dehistória e cultura afro-brasileira durante o ensinomédio e, em 2008, a Lei 11.645 acrescentou as po-pulações indígenas, dessa forma, a presença destasduas palavras indica a cobrança de questões sobrea cultura destes dois excluídos históricos.

Em relação a Ciências Humanas, percebe-se queas palavras características deste contexto são na-turalmente mais difíceis de enquadrar em conteú-dos específicos do ensino médio, podendo-se infe-rir com base nas palavras "brasil", "rei", "poder","guerra"e "filosofia"que os conteúdos cobrados gi-ravam em torna de história do brasil, monarquias,conflitos históricos e conteúdos filosóficos.

Por fim, em relação à prova de Ciências daNatureza, vê-se a presença de termos de químicacomo "carbono"e "moléculas". Também percebe-se termos típicos de física mecânica e eletrodinâ-mica, como "movimento", "força", "elétrico"e "cir-cuito". Os termos "dna", "pai"e "mãe"podem serenquadrados em questões de genética e as palavras"água", "árvores"e "aquecimento"indicam matériasligadas a ecologia.

Através desse resultado, é possível estabeleceruma relação entre as regras geradas e as matériascobradas na prova, concluindo-se que no ano de2013 os inscritos na prova do Enem tiveram maisdificuldade em matérias relacionadas a química, fí-sica e biologia, sugerindo uma possível deficiênciano ensino destas matérias.

60

Page 10: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 6: Nuvens de Palavra para as provas do Enem 2013.

6 Estudo de Caso: Aplicação do processoaos dados das Teses e Dissertações daPós-Graduação 2012

Os resultados obtidos utilizando os dados das Te-ses e Dissertações da Pós-Graduação 2012 temcomo objetivo espandir a análise realizada com oconjunto de dados ENEM, buscando evidenciar ospontos de sucesso e de falha da metodologia des-crita na Seção 4.

6.1 Dados Empregados

O conjunto de dados das Teses e Dissertaçõesda Pós-Graduação 2012 pode ser encontrado noBanco de Teses e Dissertações (BTD) da Capes(BANCO, 2013), permitindo a consulta de todosos trabalhos defendidos na pós-graduação brasi-leira no referido ano. As informações contidas noBTD são fornecidas diretamente à Capes pelos pro-gramas de pós-graduação, sendo estes responsáveispela veracidade dos dados. O conjunto utilizadopossui 61.054 registros que representam teses e dis-sertações com 61.050 autores distintos. Ele en-globa informações sobre o autor da tese, data dedefesa, instituição a qual o autor está vinculado e

área de conhecimento. Juntamente com os dados,é possível encontrar no BTD seu dicionário, ondeé descrito o significado de cada um dos campos doconjunto de dados, bem como as categorias por elesassumidas, seu tipo e tamanho máximo.

6.2 Resultados da etapa Pré-Processamento

Os dados das Teses e Dissertações do ano 2012possuem ótima documentação e a equipe de aná-lise responsável mantém a consistência dos da-dos disponibilizados, por isso a etapa de pré-processamento consistiu em tarefas simples. A pri-meira tarefa foi a seleção das colunas com informa-ções relevantes para o processo de mineração, deforma que, mantiveram-se informações relaciona-das a região, institutos a qual as teses estão vincu-ladas, grande área de conhecimento, grau da tese eidioma no qual ela foi escrita. Através do comandosummary, as instâncias que possuíam alguma in-formação faltante foram eliminadas, resultando emum total de 60545 teses no conjunto de dados. Otratamento necessário consistiu em identificar cadatipo de dado corretamente para as etapas seguintesdo processo. Por exemplo, informações de região

61

Page 11: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

e institutos são dados categóricos e a grande áreade conhecimento é identificada por valores núme-ricos. Os resultados obtidos a partir do comandosummary podem ser observado na Figura 7. Destaforma, é possível confirmar os tipos de dados e ve-rificar a frequência de cada uma das categorias queum atributo pode assumir.

Figura 7: Pré-processamento do conjunto deTeses e Dissertações do ano 2012.

6.3 Resultados da etapa Agrupamento

A rede neural de Kohonen foi aplicada utilizandouma grade de 25x26 neurônios, com vizinhançacircular e taxa de aprendizado no intervalo [0.06,0.01], gerando o mapa auto-organizável. O pro-cesso de treinamento da rede pode ser visualizadona figura 8. Segundo o gráfico, a distância médiade um objeto com o vetor de características maispróximo sempre diminui, assemelhando-se a umaexponencial negativa, demonstrando que os valoresselecionados alcançam um treinamento adequado.

Figura 8: Progresso de treinamento para oconjunto de Teses e Dissertações do ano 2012.

A Figura 9 exibe os resultados desta rede. Omapa auto-organizável de Kohonen, do lado es-querdo, exibe os agrupamentos gerados ao fim doprocesso. Também estão definidos os mapas de ca-lor de cada uma das variáveis utilizadas na análise,permitindo verificar como cada um dos atributos sedistribui pelo mapa. A escala de cores utilizada éa mesma apresentada na análise dos agrupamentosdos dados de Enem 2013. No mapa de grau da tese,por exemplo, existem claramente 3 grupos, repre-sentando os valores de doutorado, mestrado e mes-trado profissionalizante encontrados dentro destacategoria. O mapa para a variável idioma apresentaum pequeno grupo em vermelho, podendo repre-sentar as teses redigidas em idiomas diferentes doportuguês. Em relação ao mapa de região, observa-se tons de cores que representam as regiões do país.É importante notar como os agrupamentos referen-tes a região e a área de conhecimento não coin-cidem, demonstrando que existe produção de co-nhecimento em diferentes áreas em cada região dopaís.

Com estes resultados, os dados foram classifi-cados através do algoritmo K-médias, onde foramgerados 3 grupos.

6.4 Resultados da etapa Regras

As regras contidas neste conjunto de dados, assimcomo no estudo de caso da Seção 5, foram gera-das através do pacote party e partykit da ferramentaR. A árvore de decisão foi produzida a partir doconjunto classificado empregando o algoritmo K-médias, com a variável alvo definida como as clas-ses encontradas na etapa de agrupamento.

Assim como aconteceu nos resultados destaetapa do conjuntos de dados ENEM, a árvore foigerada com um grande número de nós, sendo 99 in-ternos e 100 folhas. Esta quantidade de nós indicaque a árvore enfrentou dificuldades de generaliza-ção. Para tentar generalizar os resultados, o mesmoprocesso de poda do conjunto anterior foi aplicado,mas ainda assim restaram 90 folhas, indicando quea árvore realizou um aprendizado muito específico

62

Page 12: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 9: Resultado da Rede de Kohonen para o conjunto de Teses e Dissertações do ano2012.

para o conjunto de dados.A acurácia do modelo foi calculada com base na

matriz de confusão do resultado da árvore de de-cisão, atingindo um valor de 80,56%. A sensibi-lidade de cada partição também foi calculada, en-contrando o resultado de 30,95% para a classe 1,62,34% para a classe 2 e 92,48% para a classe 3,evidenciando a dificuldade de predição para a pri-meira e segunda classe do modelo. Estes resultadosestão concentrados na Tabela 2.

Tabela 2: Resultados de acurácia para oconjunto de Teses e Dissertações do ano 2012.

Classe Acurácia1 0,30952 0,62343 0,9248

Acurácia Global 0,8056

As regras foram extraídas através do pacotepartykit, totalizando 90 regras para a descrição doconjunto. Numa análise manual, ou seja, sem aaplicação de modelos computacionais que pudes-sem restringir o tamanho do conjunto de regras, oucombiná-las de maneira a agrupá-las facilitando ainterpretação, não foi possível identificar padrõespudessem gerar informações novas e/ou relevantessobre os registros de teses e dissertações em estudo.

Como exemplo das informações geradas, pode-de citar que 2261 das Teses e Dissertações são re-

ferentes aos trabalhos de mestrado na área de Ci-ências Agrárias, estando vinculadas a institutos daregião sudeste. Outra informação consiste em di-zer que 4329 trabalhos de mestrado sobre Ciên-cias Sociais Aplicadas estão vinculados as regiõessul e sudeste do país. Estas duas regras classifi-cam, aproximadamente, apenas 4% e 7% do totalde teses consideradas no conjunto na etapa de pré-processamento. O conjunto de regras é compostopor muitas regras que se aplicam a poucos elemen-tos, evidenciando a dificuldade de generalização domodelo na descrição dos dados.

6.5 Resultados da etapa Mineração deTexto

A etapa de mineração de texto foi aplicada sobreas teses e dissertações redigidas no idioma portu-guês, que representam aproximadamente 99% doconjunto de dados. O processo foi realizado paracada uma das grandes áreas de conhecimento daCapes, totalizando nove nuvens de palavras, quepermitem a visualização dos termos mais utiliza-dos nas teses classificadas dentro de uma área deconhecimento. Esses termos podem ajudar a infe-rir os temas mais estudados no ano de 2012.

63

Page 13: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 10: Nuvem de palavras de CiênciasAgrárias.

Na nuvem gerada para Ciências Agrárias (Figura10) são observadas as palavras "animais", "alimen-tos", "manejo"e "solos"em destaque, podendo indi-car que as teses relacionavam-se a cultivos e cria-ção de animais. Também é possível verificar pa-lavras "ambiente"e "sustentabilidade", apontandopesquisas sobre esses temas.

Para a nuvem de Ciências Biológicas (Figura11), pode-se inferir que as teses possuem temas queincluem genética, biodiversidade e pesquisas mole-culares. Também percebem-se temas relacionadosa infectologia e diagnóstico.

Figura 11: Nuvem de palavras de CiênciasBiológicas.

A visualização de Ciências da Saúde (Figura

12) possui poucas palavras em destaque, denun-ciando um grande número de termos. As pala-vras "doenças", "tratamento", "enfermagem", "ma-teriais", "clínicos"e "diagnósticos"se sobressaem eindicam trabalhos relacionados a estudos clínicosmédicos. A palavra "odontologia"também aparece,apontando para trabalhos desta área. Uma visuali-zação no formato nuvem, que aponta maior ocor-rência de termos pelo tamanho das palavras quecompõe a nuvem, só aponta contribuição de in-formação quando o conjunto de dados tem maiorocorrência e palavras, caso contrário, a nuvem écomposta de uma grande quantidade de termos demesmo tamanho, dificultando a interpretação.

Figura 12: Nuvem de palavras de Ciências daSaúde.

No caso da nuvem de palavras da grande área deconhecimento Multidisciplinar (Figura 13, pode-se identificar palavras de diversos campos. Pa-lavras como "educação", "metodologias"e "apren-dizagem"indicam teses relacionadas a ensino, po-dendo englobar diversos conteúdos. Também exis-tem palavras relacionadas a biologia e saúde como"biodiversidade", "natureza"e "doenças". Alémdestas, pode-se observar as palavras "tecnologia","sistemas"e "informação"que estão relacionadas àstecnologias de informação e comunicação, entreoutras possíveis análises. A nuvem de palavras éum tipo de visualização que envolve o contexto, eas possíveis inferências não são exatas. Esta ob-servação na área multidisciplinar é ainda mais evi-dente, já que a área abrange teses que combinamdiversas outras áreas de conhecimento.

64

Page 14: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

Figura 13: Nuvem de palavras deMultidisciplinar.

Para as engenharias, a nuvem de palavras de-monstrada na Figura 14 contém palavras como"problemas", "materiais", "simulação", "otimiza-ção", "processos", "energia", "qualidade", "cons-trução", "software"e "programação". Essas pala-vras relacionam-se com diversas especialidades naengenharia, tais como engenharia civil, de produ-ção, de computação e de energia.

Figura 14: Nuvem de palavras deEngenharias.

A nuvem de Linguistica, Letras e Artes (Figura15) possui palavras que indicam gêneros textuaiscomo "discursos", "poéticas"e "crítica". Tambémexistem palavras relacionadas a literatura como"obra"e "literárias". Palavras como "sala", "apren-dizagem"e "metodologias"indicam teses que discu-tem o ensino de literatura e português.

Figura 15: Nuvem de palavras deLinguistica, Letras e Artes.

Na nuvem de Ciências Exatas e da Terra (Figura16) existem muitos termos de ciência da compu-tação, como "software", "redes", "dados"e "algo-ritmos". Essas palavras evidenciam trabalhos emvárias áreas da tecnologia de informação como de-senvolvimento de software, arquitetura de redes ebanco de dados. Outros termos como "geome-tria", "química"e "biológica"indicam estudos emáreas, como matemática e química. Apesar disso,pelo volume de termos relacionados a computa-ção, percebe-se que uma grande parcela das tesesrelacionavam-se a estudos computacionais de dife-rentes tipos.

Figura 16: Nuvem de palavras de CiênciasExatas e da Terra.

65

Page 15: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

A nuvem de palavras para Ciências Sociais podeser vista na Figura 17. Nela as palavras "polí-ticas", "públicas", "estado"e "sociedade"aparecemdenotando temas governamentais, sociais e políti-cos. As palavras "direito", "constitucional"e "tu-tela"são termos comuns da área de direito. Alémdisso, pode-se verificar palavras relacionadas a or-ganizações e empreendedorismo, como os termos"organização", "empresa", "inovação", "competivi-dade"e "currículo". É possível inferir pelas pala-vras "docente", "educativos", "professores"e "es-colar"temas voltados a pesquisas educativas e psi-copedagogia. As palavras "marketing", "design"e"produtos"também aparecem, sugerindo temas vol-tados a publicidade e propaganda.

Figura 17: Nuvem de palavras de CiênciasSociais.

A nuvem de Ciências Humanas pode ser vistana (Figura 18) e apresenta as palavras "educação","formação", "educativos"e "professores", "apren-dizagem", "ensino", "escolar", "docente"e "edu-cacional", apontando trabalhos relacionados a te-mas voltados a pesquisas educativas e aprendizado.As palavras "sociais", "gestão", "político"e "es-tado"indicam trabalhos relacionados às questõesgovernamentais, sociais e políticas, assim comoocorre na nuvem de Ciências Sociais. Palavrascomo "filosofia", "pensamento", "subjetividade","ética", "poder, "movimentos", "sociais", "cultu-rais"e "psicologia"sugerem teses na área de filoso-fia, sociologia e psicologia.

Figura 18: Nuvem de palavras de CiênciasHumanas.

7 Considerações Finais

Os conjuntos de dados empregados para validaçãoda metodologia descrita permitiram observar queo processo desenvolvido incluiu etapas capazes debuscar diversos tipos de informações ocultas emconjuntos de dados. As etapas vão desde a procurapor semelhanças entre os dados, utilizando proces-sos de agrupamentos não-supervisionado, relacio-namento entre cada uma das instâncias, procurandopor regras do tipo "se-então"que indiquem padrões,até a procura de informações implícitas em colunasou documentos textuais relacionados ao domíniodo conjunto. Foi possível demonstrar uma abor-dagem completa e versátil, que pode ser aplicadaa conjuntos não previamente classificados e em di-versos tipos de dados. Na sequência são ressaltadasas conclusões obtidas a partir da aplicação de cadaetapa do processo.

A etapa de pré-processamento mostrou-se efici-ente na descoberta de problemas de completude einconsistência de dados, permitindo a visualizaçãodos valores assumidos em cada um dos atributostrabalhados e dos tipos de dados. Esta fase do pro-cesso também proporciona o cálculo de informa-ções estatísticas sobre os dados, de modo que oanalista é capaz de verificar se os campos possuemvalores contidos dentro da faixa válida. No con-junto de dados ENEM o pré-processamento foi um

66

Page 16: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

passo extremamente importante, dado que existiammuitas instâncias com dados incompletos ou incon-sistentes. No caso do conjunto de Teses e Disser-tações da Capes, esta etapa serviu mais como umacomprovação da qualidade do dados disponibiliza-dos.

O agrupamento de dados demonstrou ser capazde organizar os dados nos dois estudos de caso, ge-rando boas visualizações. A procura por semelhan-ças entre dados é importante na análise descritivade um conjunto de dados e a abordagem selecio-nada incluiu técnicas de visualização que ajudama sumarizar a informação através de mapas, facili-tando a interpretação e análise. Os mapas de ca-lor criados são uma ótima forma de se observar adistribuição dos atributos pelo agrupamento, tra-zendo informações mais completas sobre o mapaauto-organizável, revelando-se muito útil na aná-lise dos dois conjuntos de dados. A combinaçãodos algoritmos de Kohonen e K-médias se apresen-tou como uma alternativa adequada para problemasonde o dado não possui classificação, sendo umaabordagem já empregada na literatura, como em(GODIN; HUGUET; GAERTNER, 2005) e (CHI;YANG, 2006) que realizam o estudo de um agru-pamento em dois estágios utilizando estes dois mé-todos.

O processo de construção da árvore de decisãorevelou-se um desafio em ambos os conjuntos dedados. Apesar da ferramenta R disponibilizar di-versos pacotes para a execução deste tipo de tarefa,seu resultado apresentou um problema de genera-lização: o sobreajuste. Isso pode ter acontecidodevido a uma grande quantidade de atributos uti-lizados na árvore de decisão, o que a tornou es-parsa, gerando muitas regras para o conjunto. Al-gumas técnicas podem ser consideradas para ate-nuar este problema como agrupamentos hierárqui-cos e a utilização de modelos de seleção de atribu-tos, que buscam extrair de um conjunto de dadosas características mais relevantes, além de identi-ficar atributos altamente correlacionados que nãocontribuem com o processo de classificação. Algo-ritmos de árvores de decisão costumam ser afeta-dos pela presença de atributos irrelevantes no con-junto de dados, de modo que seu resultado podenão ser o esperado. O emprego de técnicas de se-leção de atributos permite a melhoria do desem-penho preditivo e acelera o aprendizado, gerandouma árvore mais compacta e generalizada (TANG;ALELYANI; LIU, 2014).

A etapa de mineração de texto foi de grande uti-lidade nos dois conjuntos de dados. Realizar a aná-lise de campos e documentos textuais é um pro-cesso longo e cansativo se realizado manualmente,de modo que automatizar este processo pode sermuito útil na descoberta de conhecimento. Outroponto importante desta fase é o fato de se procurarinformações implícitas nos dados, podendo servirde complementação nas demais etapas do processo.Isso pode ser exemplificado na mineração do con-junto de dados ENEM, onde a informação encon-trada na etapa de mineração de texto foi agregada àinformação gerada nas demais etapas do processopara identificar os conteúdos onde os alunos encon-traram mais dificuldades no ano de 2013.

Em relação à ferramenta R, notou-se que existeuma variedade muito grande de pacotes implemen-tando técnicas de mineração de dados disponíveisnos mirrors da linguagem. A própria estruturada linguagem facilita a manipulação de dados epermite que eles sejam armazenados em objetosque simulam tabelas e facilitam a visualização dastransformações realizadas. Ela também está prepa-rada para realizar operações com matrizes e veto-res de forma ágil e simplificada, facilitando o de-senvolvimento de funções próprias necessárias aoprocesso desenvolvido. Um dos pontos fortes destaferramenta é a sua capacidade de gerar diferentestipos de visualização gráfica, o que é uma etapa es-sencial para o processo de descoberta de informa-ções. Como nota-se nos estudos de caso descritosnas Seções 5 e 6, as visualizações foram primordi-ais na análise. Mesmo quando a visualização grá-fica não era possível, como ocorreu com as árvo-res de decisão geradas nos dois estudos realizados,foi possível extrair as regras de forma automatizadaatravés do pacote partykit, agilizando o estudo dasinformações encontradas nas árvores.

8 Conclusões e Trabalhos Futuros

As pesquisas e estudos realizados neste trabalhodemonstram que a área de mineração de dados estápresente em diversos campos cotidianos, podendoser considerada essencial na indústria, na economiae, como o foco deste trabalho indica, no governo.

O processo de mineração desenvolvido tevecomo base o ciclo de análise de dados propostona literatura e demonstrou ser eficaz para a reali-zação de mineração descritiva. Este processo tevecomo motivação o fato dos dados disponibilizados

67

Page 17: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

em sites governamentais brasileiros não serem pre-viamente classificados, sendo necessária a elabo-ração de um procedimento que utilizasse aprendi-zado não supervisionado para definir as partiçõespresentes nos dados para posterior uso de algorit-mos supervisionados para extração de regras. Aetapa de mineração de texto também se mostrouadequada para a descoberta de novas informaçõessobre o conjunto, já que muitos dados relevantesencontram-se camuflados em textos.

A ferramenta R se apresentou como um recursoadequado para as tarefas mineração de dados, fa-cilitando o processo desde a leitura do dado até aaplicação de técnicas de aprendizado de máquinacomplexas. Os pacotes relacionados às tarefas demineração estão disponíveis em grande número,sendo que todos eles são muito bem documentadose mantidos atualizados.

Apesar de em crescente desenvolvimento, a mi-neração de dados traz consigo desafios. As técnicasutilizadas dependem substancialmente do domíniodo problema trabalhado, bem como dos dados dis-poníveis para análise. As escolhas dos algoritmosde aprendizado de máquina muitas vezes só podemser feitas após vários testes com os dados de treina-mento, pois seus resultados estão intrinsicamenteligados com as propriedades de cada um deles.

Os trabalhos futuros pretendem seguir duas ver-tentes. A primeira está voltada para novos estu-dos de casos empregando a metodologia proposta,com o objetivo de gerar conhecimento a partir deoutras bases de dados governamentais. Neste con-texto espera-se contribuir com informação que au-xilie nos processos administrativos do governo, eno dia a dia da sociedade, uma vez que a infor-mação gerada pode fazer parte de uma nova plata-forma ou um novo aplicativo a ser disponibilizadopara o cidadão. O segundo foco de trabalho estána implementação da metodologia proposta empre-gando outras ferramentas de mineração de dados,como Weka ou Python. O Weka (HALL et al.,2009) é uma coleção de algoritmos de aprendizadode máquina voltada a mineração de dados, imple-mentada em Java; e Python (ROSSUM; DRAKE,2011), que não pode deixar de ser mencionada, éuma linguagem que tem se mostrado muito efici-ente nesta área, com diversas bibliotecas de apren-dizado de máquina disponíveis. A utilização de ou-tras ferramentas permite gerar estudos comparati-vos quanto ao tempo de execução, dificuldade oufacilidade de implementação e qualidade da infor-

mação gerada a partir de uma base de dados.

Referências

BANCO, D. T. E. D. D. CAPES. 2013.

BRAGA, L. C.; DRUMMOND, I. N. Uma abor-dagem de mineração descritiva aplicada a dadosabertos governamentais empregando a ferramentar. Anais do Computer on the Beach, p. 051–060,2017.

BREIMAN, L. et al. Classification and regressiontrees. [S.l.]: CRC press, 1984.

CAMILO, C. O.; SILVA, J. C. d. Mineração dedados: Conceitos, tarefas, métodos e ferramentas.Universidade Federal de Goiás (UFC), p. 1–29,2009.

CHARRAD, M. et al. NbClust: An R packagefor determining the relevant number of clusters ina data set. Journal of Statistical Software, v. 61,n. 6, p. 1–36, 2014. Disponível em: <http://www.jstatsoft.org/v61/i06/>.

CHI, S.-C.; YANG, C. C. Integration of antcolony som and k-means for clustering analy-sis. In: SPRINGER. International Conference onKnowledge-Based and Intelligent Information andEngineering Systems. [S.l.], 2006. p. 1–8.

CORRÊA, Â. M. J.; SFERRA, H. Conceitos e apli-cações de data mining. Revista de ciência & tecno-logia, v. 11, p. 19–34, 2003.

DIETRICH, D. et al. Open data handbook. 2009.

DUTRA, C. C.; LOPES, K. M. G. Dados abertos:Uma forma inovadora de transparência. 2013.

FACELI, K. et al. Inteligência artificial: Uma abor-dagem de aprendizado de máquina. Rio de Janeiro:LTC, v. 2, p. 192, 2011.

FEINERER, I.; HORNIK, K. tm: Text Mining Pac-kage. [S.l.], 2017. R package version 0.7-1. Dispo-nível em: <https://CRAN.R-project.org/package=tm>.

FELLOWS, I. wordcloud: Word Clouds. [S.l.],2014. R package version 2.5. Disponívelem: <https://CRAN.R-project.org/package=wordcloud>.

68

Page 18: Extração de informação em bases de dados abertas ......em um conjunto de dados, focando na abordagem de mineração descritiva. Este processo foi dividido em cinco fases (etapas)

Revista de Informática Aplicada, Volume 14, Número 1, 2018

FOUNDATION, O. K. (Ed.). The Open DataHandbook. [S.l.], 2012. Disponível em: <http://opendatahandbook.org/>.

FRIZZARINI, C.; LAURETTO, M. S. Proposta deum algoritmo para induçao de árvores de classi-ficaçao para dados desbalanceados. Annais do XSimpósio Brasileiro de Sistemas de Informação, p.722–733, 2013.

GODIN, N.; HUGUET, S.; GAERTNER, R. Inte-gration of the kohonen’s self-organising map and k-means algorithm for the segmentation of the ae datacollected during tensile tests on cross-ply composi-tes. NDT & E International, Elsevier, v. 38, n. 4, p.299–309, 2005.

HALL, M. et al. The weka data mining software:an update. ACM SIGKDD explorations newsletter,ACM, v. 11, n. 1, p. 10–18, 2009.

HAND, D. J.; MANNILA, H.; SMYTH, P. Princi-ples of data mining. [S.l.]: MIT press, 2001.

HOTHORN, T.; HORNIK, K.; ZEILEIS, A. Unbi-ased recursive partitioning: A conditional inferenceframework. Journal of Computational and Graphi-cal Statistics, v. 15, n. 3, p. 651–674, 2006.

HOTHORN, T.; ZEILEIS, A. partykit: A modulartoolkit for recursive partytioning in R. Journal ofMachine Learning Research, v. 16, p. 3905–3909,2015. Disponível em: <http://jmlr.org/papers/v16/hothorn15a.html>.

JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern recognition letters, Elsevier, v. 31,n. 8, p. 651–666, 2010.

KOHONEN, T. Essentials of the self-organizingmap. Neural networks, Elsevier, v. 37, p. 52–65,2013.

R Core Team. R: A Language and Environment forStatistical Computing. Vienna, Austria, 2017. Dis-ponível em: <https://www.R-project.org/>.

RIPLEY, B. D. The r project in statistical com-puting. MSOR Connections. The newsletter of theLTSN Maths, Stats & OR Network, v. 1, n. 1, p.23–25, 2001.

ROSSUM, G. V.; DRAKE, F. L. The python lan-guage reference manual. [S.l.]: Network TheoryLtd., 2011.

SUAREZ, A. F.; CANDEIAS, A. Avaliação de acu-rácia da classificação de dados de sensoriamentoremoto para o município de maragogipe. IV Sim-pósio Brasileiro de Ciências Geodésicas e Tecno-logias da Geoinformação, DeCart-UFPE, Recife,2012.

TANG, J.; ALELYANI, S.; LIU, H. Feature se-lection for classification: A review. Data Classi-fication: Algorithms and Applications, CRC Press,p. 37, 2014.

TEAM, R. C. R language definition. Vienna, Aus-tria: R foundation for statistical computing, 2000.

WEHRENS, R.; BUYDENS, L. M. et al. Self-andsuper-organizing maps in r: the kohonen package.J Stat Softw, v. 21, n. 5, p. 1–19, 2007. Disponívelem: <http://www.jstatsoft.org/v21/i05>.

WILKINSON, L.; FRIENDLY, M. The history ofthe cluster heat map. The American Statistician,Taylor & Francis, v. 63, n. 2, p. 179–184, 2009.

WING, M. K. C. from J. et al. caret: Classi-fication and Regression Training. [S.l.], 2017. Rpackage version 6.0-77. Disponível em: <https://CRAN.R-project.org/package=caret>.

ZAMBENEDETTI, C. Extração de informação so-bre bases de dados textuais. 2002.

69