monografia vf - bruno carlos

.EXTRAO DE CONHECIMENTO DA

PLATAFORMA LATTES UTILIZANDO TCNICAS

DE MINERAO DE DADOS: ESTUDO DE CASO

POLI/UPE

Trabalho de Concluso de Curso

Engenharia da Computao

Aluno: Bruno Carlos Sales de Morais

Orientador: Prof. Dr. Carmelo Jose Albanez Bastos Filho

Bruno Carlos Sales de Morais

Extrao de conhecimento da Plataforma

Lattes utilizando tcnicas de Minerao de

Dados: estudo de caso POLI/UPE

Monograa apresentada para obteno do Grau

de Bacharel em Engenharia da Computao

pela Universidade de Pernambuco

Orientador:

Prof. Dr. Carmelo Jose Albanez Bastos Filho

Departamento de Sistemas e Computao

Escola Politcnica de Pernambuco

Universidade de Pernambuco

Recife - PE, Brasil

dezembro de 2010

Resumo

Atualmente, existe uma grande diculdade na aquisio de dados sobre a produo cien-

tca do corpo docente dentro das universidades brasileiras. Entretanto, a maior parte destas

informaes pode ser encontrada na plataforma Lattes - um sistema desenvolvido pelo CNPq

(Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar na gesto de

cincia, tecnologia e inovao no Brasil. Minerao de Dados um conjunto de tcnicas que

podem ser utilizadas para extrao de novas informaes em uma base de dados. Desta forma,

a utilizao de tcnicas de Minerao de Dados pode ajudar na extrao de informaes impor-

tantes na plataforma Lattes. O presente trabalho apresenta uma ferramenta capaz de extrair

dados automaticamente de currculos da plataforma Lattes. Alm disso, o principal objetivo

deste trabalho aplicar tcnicas de Minerao de Dados nas informaes extradas dos cur-

rculos Lattes dos professores da Escola Politcnica de Pernambuco (POLI). Desta maneira,

as novas informaes podem ser utilizadas para auxiliar na tomada de decises dos gestores

da Universidade de Pernambuco com relao a investimentos nos cursos e nos docentes da

instituio.

Abstract

Nowadays, the Brazilian universities have a dicult task that is to collect the scientic

production of their researchers. However, this information is widely available on the Internet

by the Lattes platform - a web-based system developed by the CNPq (Conselho Nacional de

Desenvolvimento Cientco e Tecnolgico). The Lattes platform aims to help the management

of science, technology and innovation in Brazil. Data mining is a set of techniques that can

be used to extract patterns from a database. Thus, some techniques from Data Mining may

be used to extract useful information inside the Lattes platform. The goal of this research is

to present a tool to automatically extracts data from Lattes curriculums. Moreover, we used

some Data Mining techniques to extract hidden information from Lattes curriculums of the

professors of Polytechnic School of Pernambuco (POLI). This new information can be used to

guide decision making of investiments in the institution.

Agradecimentos

Primeiramente agradeo a Deus por me dar discernimento e foras para realizar este

trabalho, pois acredito que sem Ele no conseguiria superar as diculdades enfrentadas ao

longo deste curso.

Aos meus pais Edilson e Nadja que sempre me apoiaram e me encorajaram a concluir esta

graduao. Reconheo todo o esforo que eles zeram para que eu pudesse estudar sem a

preocupao de ter que trabalhar. Um agradecimento especial ao meu irmo Dyego Carlos

por todo o apoio, companheirismo e ajuda na realizao deste trabalho, que por muitas vezes

abdicou de dormir para me ajudar.

Aos meus avs maternos, Elza e Gabriel, e paternos, Dulcelene e Morais, pelo apoio

incondicional e sbios conselhos durante toda a minha vida.

Aos professores do curso de Engenharia da Computao, que sem dvida contriburam para

o que sou hoje como prossional e ser humano. Em especial agradeo ao professor Carmelo, que

mesmo com tantas ocupaes sempre esteve disponvel para me oferecer excelente orientao

durante todo este trabalho.

E por m, agradeo aos meus colegas de turma, em especial, Carlos Eduardo Buarque,

Francisco Marinho e Marcos Antonio, pelas muitas madrugadas que dividimos para que os

inesquecveis projetos desenvolvidos ao longo do curso pudessem ser concludos.

Sumrio

Lista de Figuras p. iv

Lista de Tabelas p. vi

Tabela de Smbolos e Siglas p. 7

1 Introduo p. 1

1.1 Formulao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . p. 1

1.2 Estrutura da monograa . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 2

2 Reviso bibliogrca p. 4

2.1 Processo KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 4

2.1.1 Identicao do domnio da aplicao . . . . . . . . . . . . . . . . p. 5

2.1.2 Seleo dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

2.1.3 Limpeza e Pr-processamento dos dados . . . . . . . . . . . . . . p. 5

2.1.4 Transformao dos dados . . . . . . . . . . . . . . . . . . . . . . p. 6

2.1.5 Minerao de dados . . . . . . . . . . . . . . . . . . . . . . . . . p. 7

2.1.6 Interpretao e Avaliao dos padres . . . . . . . . . . . . . . . . p. 7

2.1.7 Utilizao do conhecimento . . . . . . . . . . . . . . . . . . . . . p. 7

2.2 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 7

2.3 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9

2.3.1 Principais fases da clusterizao . . . . . . . . . . . . . . . . . . . p. 9

2.3.2 Classicao das tcnicas de clusterizao . . . . . . . . . . . . . p. 10

2.3.3 Tipos de dados e medidas de similaridade . . . . . . . . . . . . . . p. 11

2.3.3.1 Atributos Contnuos . . . . . . . . . . . . . . . . . . . . p. 12

2.3.3.2 Atributos Binrios . . . . . . . . . . . . . . . . . . . . . p. 13

2.3.3.3 Atributos Nominais . . . . . . . . . . . . . . . . . . . . p. 14

2.3.3.4 Atributos Ordinais . . . . . . . . . . . . . . . . . . . . . p. 15

2.3.3.5 Atributos em escala no linear . . . . . . . . . . . . . . p. 15

2.3.3.6 Objetos formados por atributos de vrios tipos . . . . . . p. 16

2.3.4 Algoritmo K-means . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

2.4 Regras de Associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

2.4.1 Conceitos e Denies . . . . . . . . . . . . . . . . . . . . . . . . p. 18

2.4.2 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

3 Plataforma Lattes e Ferramentas p. 23

3.1 Plataforma Lattes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

3.2 Estrutura do currculo Lattes . . . . . . . . . . . . . . . . . . . . . . . . p. 23

3.3 Ferramenta de Minerao de Dados . . . . . . . . . . . . . . . . . . . . . p. 24

3.4 Ferramenta de extrao de dados da plataforma Lattes . . . . . . . . . . . p. 26

4 Estudo de Caso p. 31

4.1 Caractersticas gerais do estudo . . . . . . . . . . . . . . . . . . . . . . . p. 31

4.2 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31

4.3 Regras de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

5 Concluso p. 40

Referncias p. 42

Lista de Figuras

1 Etapas do Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

2 Principais fases da clusterizao. . . . . . . . . . . . . . . . . . . . . . . p. 9

3 Matriz de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11

4 Matriz de dissimilaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12

5 Base de dados com transaes de clientes . . . . . . . . . . . . . . . . . . p. 18

6 Tabela booleana de itens-transaes . . . . . . . . . . . . . . . . . . . . . p. 18

7 Tabela de itens-transaes . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

8 Regra de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

9 Tela de pr-processamento da ferramenta WEKA. . . . . . . . . . . . . . p. 25

10 Exemplo de arquivo ARFF. . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

11 Exemplo de resultados de clusterizao. . . . . . . . . . . . . . . . . . . . p. 26

12 Exemplo de resultados de regras de associao. . . . . . . . . . . . . . . . p. 27

13 Arquitetura da ferramenta de extrao. . . . . . . . . . . . . . . . . . . . p. 29

14 Base de dados no formato ARFF. . . . . . . . . . . . . . . . . . . . . . . p. 30

15 Experimento com 2 agrupamentos. . . . . . . . . . . . . . . . . . . . . . p. 32




19 Distribuio dos clusters de acordo com os departamentos. . . . . . . . . . p. 36

20 Regras de associao que relacionam os atributos publicaes e orientaes. p. 37

21 Regras de associao que relacionam os atributos departamento e orientaes. p. 38

22 Regras de associao que relacionam os atributos departamento e publicaes. p. 38

23 Regras de associao que relacionam os atributos departamento e publicaes-

ComDoi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

24 Regras de associao que relacionam os atributos departamento e publicaes-

ComFator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

25 Regras de associao que relacionam os atributos publicaes e peridicos. p. 39

26 Regras de associao que relacionam os atributos publicaes e completoAnais. p. 39

27 Regras de associao que relacionam os atributos publicaes e resumoAnais. p. 39

Lista de Tabelas

1 Tabela de contingncia para atributos binrios . . . . . . . . . . . . . . . p. 14

7Tabela de Smbolos e Siglas

ARFF - Attribute-Relation File Format

CNPq - Conselho Nacional de Desenvolvimento Cientco e Tecnolgico

DOI - Digital Object Identier

FACEPE - Fundao de Amparo Cincia e Tecnologia do Estado de Pernambuco

FINEP - Financiadora de Estudos e Projetos

HTML - HyperText Markup Language

IC - Iniciao Cientca

ISSN - International Standard Serial Number

JCR - Journal Citation Reports

KDD - Knowledge Discovery in Databases

LHS - Left Hand Side

MYSQL - Banco de dados relacional que utiliza a Linguagem de Consulta Estruturada

(SQL)

PHP - Hypertext Preprocessor

POLI - Escola Politcnica de Pernambuco

RHS - Right Hand Side

TCC - Trabalho de Concluso de Curso

URL - Uniform Resource Locator

WEKA - Waikato Environment for Knowledge Analysis

11 Introduo

Atualmente, com a facilidade de armazenar dados, as empresas e organizaes possuem reg-

istros de suas atividades cada vez mais completos. Porm, poucas so as organizaes que

utilizam esses dados para transform-los em conhecimento til para a sua gesto. Ou seja, as

empresas e organizaes possuem grande quantidade de dados, mas no fazem processamen-

tos e anlises desses dados, de forma que sejam produzidas informaes que possam auxiliar

nas suas tomadas de decises.

A informao est se tornando cada vez mais a principal matria-prima de grandes orga-

nizaes, por isso faz-se necessrio a aplicao de processos que acelerem a extrao de infor-

maes de grandes bases de dados. Neste contexto, o processo KKD (Knowledge Discovery

in Databases) pode ser utilizado para auxiliar a descoberta de conhecimento til em grandes

bases de dados [1].

Uma das principais etapas do processo KDD, a Minerao de Dados, consiste na aplicao

de algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [2].

Algumas das mais importantes tarefas descritivas da Minerao de Dados so clusterizao

e regras de associao. Dada essa natureza, essas tarefas foram selecionadas para serem

aplicadas neste trabalho. As regras de associao demonstram o quanto a ocorrncia de um

conjunto de itens implica na ocorrncia de algum outro conjunto distinto de itens nos registros

de uma mesma base de dados [3]. J a clusterizao pode ser utilizada para agrupar os dados

de acordo com uma medida de similaridade pr-denida [4], [5], [6].

1.1 Formulao do Problema

Atualmente, existe uma diculdade enorme nas universidades brasileiras para aquisio de

dados sobre a produo cientca do seu corpo docente. Entretanto, a maior parte destes dados

pode ser encontrada na plataforma Lattes, que um sistema de informao desenvolvido pelo

CNPq (Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto

1.2 Estrutura da monograa 2

de cincia, tecnologia e inovao no Brasil [7]. Sendo, portanto, uma rica fonte de informaes

sobre a produo cientca, tecnolgica e bibliogrca dos pesquisadores do Brasil.

A utilizao de tcnicas de Minerao de Dados [8] pode auxiliar na extrao de infor-

maes importantes desta plataforma e, consequentemente, guiar melhores investimentos na

rea de Cincia & Tecnologia das universidades. Porm, a determinao de padres que so

realmente teis, ainda requer uma grande interao com analistas humanos, o que torna o

processo de extrao do conhecimento uma tarefa no trivial.

Este trabalho visou estudar os conceitos e tcnicas da Minerao de Dados e aplicar o

conhecimento adquirido para descobrir informaes no explcitas nos currculos Lattes dos

professores da Escola Politcnica de Pernambuco - POLI. Este trabalho prope a utilizao

do WEKA (Waikato Environment for Knowledge Analysis), que um software livre com

implementaes de diversas tcnicas de Minerao de Dados, para auxiliar na extrao do

conhecimento [9]. Especicamente, este trabalho se concentra em:

Selecionar dados disponveis na plataforma Lattes referentes produo cientca deprofessores da POLI.

Projetar e desenvolver uma ferramenta para extrair os dados selecionados da plataformaLattes automaticamente;

Selecionar tcnicas de Minerao de Dados para serem aplicadas aos dados obtidos;

Utilizar o WEKA para aplicar as tcnicas selecionadas;

Analisar e organizar as informaes obtidas, de forma que o conhecimento gerado possaser utilizado por gestores da instituio.

1.2 Estrutura da monograa

No captulo 2, apresentada uma reviso bibliogrca que contempla os principais conceitos

necessrios compreenso deste trabalho.

No captulo 3, so apresentadas a plataforma Lattes, a ferramenta desenvolvida para

extrao de dados a partir da plataforma Lattes e a ferramenta de Minerao de Dados

(WEKA).

No captulo 4, so descritos o estudo de caso foi realizado e os resultados da aplicao

dos algoritmos de minerao de dados.

1.2 Estrutura da monograa 3

O captulo 5 contm as concluses e diculdades encontradas. Alm disso, neste captulo

so sugeridos trabalhos futuros.

42 Reviso bibliogrca

Neste captulo so apresentados conceitos e denies que so necessrios compreenso deste

trabalho. Na seo 2.1, so apresentadas as etapas do processo KDD. A seguir, na seo 2.2,

apresentado o conceito de Minerao de Dados, bem como suas principais tarefas. Na seo

2.3, so apresentadas as principais fases da clusterizao, como pr-processar os diferentes tipos

de dados para a clusterizao e o algoritmo Kmeans. Por m, na seo 2.4, so apresentados

os principais conceitos acerca de regras de associao e o algoritmo Apriori.

2.1 Processo KDD

Historicamente, encontrar padres em dados conhecido por diferentes nomes em diferentes

comunidades (por exemplo, extrao de conhecimento, descoberta de informao, arqueologia

de dados, processamento de padres de dados e Minerao de Dados). O termo Minerao

de Dados muitas vezes utilizado em comunidades de estatsticos, pesquisadores de banco

de dados, e mais recentemente por gerentes de sistemas de informao. Mas segundo [2]),

o termo KDD (knowledge-discovery in databases) referencia o processo global de descobrir

conhecimento til em grandes bases de dados, sendo a Minerao de Dados um passo particular

desse processo que consiste na execuo de algoritmos de reconhecimento padres em base

de dados.

KDD pode ser denido como [1]: O processo no trivial de identicao de padres

vlidos, inovadores, potencialmente teis e principalmente compreensveis em bases de dados.

O processo KDD interativo e iterativo, envolvendo numerosos passos com muitas decises

tomadas pelo analista. Nas prximas sees, so apresentados os passos bsicos que compem

esse processo, conforme uxograma ilustrado na gura 1.

2.1 Processo KDD 5

Figura 1: Etapas do Processo KDD.

2.1.1 Identicao do domnio da aplicao

Nesse passo realizado um estudo do domnio da aplicao para denir os objetivos e metas a

serem alcanados com o processo KDD. Esse passo importante, pois para que seja extrada

informao til dos dados, as pessoas envolvidas no processo KDD devem possuir algum grau

de conhecimento sobre a rea da aplicao.

2.1.2 Seleo dos dados

Os sistemas, normalmente, armazenam vrios atributos de um objeto, mas nem sempre todos

estes atributos so relevantes para a anlise em questo. Assim, faz-se necessrio uma crite-

riosa avaliao de quais atributos realmente agregam informaes ao conjunto de dados para

que esses venham a ser utilizados no processo KDD.

A qualidade dos dados armazenados muito importante, pois ela determina a qualidade dos

resultados obtidos, de forma diretamente proporcional. Porm, o processo KDD ainda muito

dependente da avaliao de analistas humanos e do seu conhecimento sobre a base de dados

pesquisada, pois caso um atributo que contenha informaes importantes seja desprezado

nesta fase o resultado poder no ser satisfatrio.

2.1.3 Limpeza e Pr-processamento dos dados

No mundo real os dados tendem a ser incompletos, ruidosos e inconsistentes, o que torna

necessria a aplicao de tcnicas para corrigir essas falhas. A seguir so apresentadas algumas

das atividades que podem ser realizadas na etapa de limpeza dos dados [10]:

Valores ausentes. Por vezes, os valores de alguns atributos no esto presentes nasbases, para lidar com esse problema pode-se: ignorar os registros que possuem valores

ausentes; preencher os valores ausentes manualmente; usar um valor constante, usar o

valor mdio do atributo ou usar valores estatsticos para preencher os valores ausentes.

2.1 Processo KDD 6

Valores fora do padro (outliers). Para resolver esse tipo de problema pode-se utilizaruma das seguintes tcnicas: agrupamento, que consiste no agrupamento dos valores

similares, facilitando a identicao e excluso de valores fora do padro; inspeo

humana e computador, que consiste em uma inspeo feita por pessoas e computadores

para identicar e excluir os valores fora do padro; e regresso, na qual os dados podem

ser ajustados por meio de funes de regresso.

Dados inconsistentes. Esses erros ocorrem normalmente porque o usurio entra comum dado incorreto, mas pode ocorrer tambm redundncia de dados, ou seja, dados

que possuem o mesmo valor semntico, mas que foram inseridos com nomes diferentes.

Uma forma de resolver esse problema por meio da anlise de correlao, que consiste

na medida de relacionamento entre dois atributos.

2.1.4 Transformao dos dados

Por vezes necessrio realizar transformaes nos dados para que os algoritmos de minerao

possam ser executados, dentre as mais comuns esto:

Normalizao de atributos. Forma de harmonizar as escalas dos atributos em um pe-queno intervalo especicado.

Padronizao de atributos. Atributos redundantes devem ser eliminados, utilizando aanlise de correlao para mapear mltiplos atributos para uma simples entidade, por

exemplo.

Reduo dos dados.Agregao. Agrega e sumariza os dados. Por exemplo, os dados de vendas dirias

podem ser agregados de forma a calcular os montantes mensais e anuais.

Compresso de dados. Mecanismos de codicao so usados para reduzir o tamanho

do conjunto de dados.

Reduo da dimensionalidade. Eliminao de atributos irrelevantes tcnica de

minerao aplicada.

Reduo numrica. Diminuir o nmero de instncias, por exemplo.

Projeo de dados. Criao de novos atributos julgados relevantes a partir de outrosatributos existentes.

2.2 Minerao de Dados 7

2.1.5 Minerao de dados

Esse o passo onde os padres so descobertos por meio de algoritmos especcos que so

aplicados vrias vezes at que sejam extradas informaes teis dos dados. Por ser um dos

passos mais importantes do processo KDD, este passo descrito mais detalhadamente na

seo 2.2.

2.1.6 Interpretao e Avaliao dos padres

Os resultados obtidos pelos algoritmos de minerao devem ser avaliados por analistas para

que sejam julgados como teis ou no. Os padres que forem considerados teis devem ser

interpretados de forma que se tornem compreensveis para os usurios nais do sistema.

O processo KDD considerado iterativo, pois pode ser necessria sua execuo por vrias

vezes at que, por meio da repetio de qualquer um dos passos anteriores, se obtenha resul-

tados satisfatrios [1].

2.1.7 Utilizao do conhecimento

Nesse passo, o conhecimento extrado consolidado sendo incorporado a um sistema, utilizado

diretamente pelo usurio nal ou, simplesmente, documentado e relatado s pessoas interes-

sadas. Os resultados dos passos anteriores devem ainda ser analisados para que possveis

conitos entre o conhecimento existente e o conhecimento adquirido sejam solucionados [1].

2.2 Minerao de Dados

Minerao de Dados um dos principais passos do processo KDD, que consiste na aplicao de

algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [1].

Essa uma rea de pesquisa multidisciplinar, que inclui inteligncia computacional, matemtica

(estatstica) e banco de dados. Um dos grandes desaos da Minerao de Dados propor

algoritmos que sejam capazes de lidar com escalabilidade e alta dimensionalidade dos dados,

ou seja, trabalhar com grandes quantidades de dados.

Segundo [1], o processo de Minerao de Dados possui dois objetivos principais: predio,

onde a ideia prever o comportamento futuro de algumas variveis da base de dados; e

descrio, onde a ideia identicar padres que representem a distribuio dos itens de tal

forma que esses padres sejam passveis de interpretao.

2.2 Minerao de Dados 8

importante diferenciar o que uma tarefa e o que uma tcnica de Minerao de

Dados. Uma tarefa est relacionada a o que se pretende buscar nos dados, ou seja, que

tipo de padres deseja-se encontrar. J uma tcnica, est relacionada a como encontrar os

padres de interesse. Por exemplo, para o caso de um gasto no carto de crdito de um cliente

acima do normal, para este caso pode-se denir uma tarefa, que seria deteco de desvios, e

uma tcnica para resolver o problema, que seria redes neurais, por exemplo [8]. A seguir, so

apresentadas as principais tarefas da Minerao de Dados, de acordo com o proposto em [1]:

Classicao - uma tarefa preditiva, que consiste em determinar uma funo que mapeiecada item de uma base dados a uma das classes previamente denidas. Um exemplo de

classicao identicao de objetos de interesse em grandes bases de imagens.

Regresso - uma tarefa preditiva, cujo objetivo estimar o valor de uma varivel combase nos valores de outras variveis. Alguns dos exemplos de regresso so: prever o

PIB de um pas; estimar a probabilidade de um paciente sobreviver, dados os resultados

de um conjunto de exames; e prever sries temporais.

Deteco de desvios/anomalias - uma tarefa preditiva, cujo objetivo detectar itensque possuam caractersticas signicativamente diferentes do comportamento normal do

restante dos dados, como por exemplo deteco de fraudes em cartes de crdito.

Sumarizao - uma tarefa descritiva, que consiste em denir um conjunto mnimo decaractersticas que seja capaz de identicar um subconjunto de objetos. As tcnicas de

sumarizao so comumente aplicadas para anlise exploratria de dados e gerao de

relatrios automatizados.

Modelo de Dependncia - descreve dependncias signicativas entre os atributos. Essesmodelos existem em dois nveis: estruturado, que especica (geralmente em forma de

grco) quais variveis so localmente dependentes; e quantitativo, que especica o

grau de dependncia usando alguma escala numrica.

Anlise de Sries Temporais - modela caractersticas sequenciais, como dados que pos-suem dependncias no tempo. O objetivo modelar os estados do processo de gerao

da sequncia, extraindo e relatando os desvios e tendncias no tempo.

As tarefas de clusterizao e regra de associao, por serem as escolhidas para aplicao

no estudo de caso deste trabalho, so descritas mais detalhadamente nas sees 2.3 e 2.4,

respectivamente.

2.3 Clusterizao 9

Figura 2: Principais fases da clusterizao.

2.3 Clusterizao

A clusterizao, tambm conhecida como anlise de cluster, uma tarefa descritiva, cujo

objetivo encontrar grupos de objetos, tais que, objetos pertencentes a um grupo sejam

similares entre si e diferentes de objetos que pertencem a outro grupo [4], [5], [6].

A tarefa de classicao pode ser dividida em classicao supervisionada e classicao

no supervisionada. Em classicao supervisionada, dada uma coleo de objetos e suas

classes, o problema classicar um novo objeto para o qual a classe no conhecida. Nor-

malmente, os objetos classicados so divididos em um conjunto que usado para aprender

a descrio da classe (treinamento) e outro que usado para testar a informao aprendida.

No caso da clusterizao (classicao no supervisionada), as classes no so previamente

conhecidas, de forma que, o problema se torna classicar objetos por meio de alguma medida

de similaridade de forma que os grupos tenham um signicado relevante.

2.3.1 Principais fases da clusterizao

De acordo com [11], a atividade de clusterizao envolve os seguintes passos (gura 2):

1. Seleo ou extrao de atributos. Seleo de atributos o processo de identicao

de atributos distintos de um conjunto de atributos candidatos, enquanto a extrao

de atributos por meio de transformaes atributos gera novos atributos a partir dos

originais.

2. Medida de similaridade. A medida de similaridade determina o quanto um objeto similar

a outro, possibilitando assim, a identicao de qual cluster o objeto deve pertencer.

Essa medida deve ser especca para o domnio sob o qual est sendo a aplicada a

2.3 Clusterizao 10

clusterizao. Na seo 2.3.3 so apresentadas algumas das medidas que so comumente

usadas.

3. Algoritmo de clusterizao. Atualmente existe uma grande variedade de algoritmos

de clusterizao, mas no h um algoritmo que possa ser usado para resolver todo e

qualquer problema. Dessa forma, fundamental analisar o problema para selecionar

ou desenvolver um algoritmo adequado. Na seo 2.3.2, so apresentados os tipos de

algoritmos de clusterizao.

4. Validao dos clusters. Todo algoritmo de clusterizao consegue gerar parties, inde-

pendente de essas possurem signicado semntico. E, alm disso, algoritmos diferentes

normalmente agrupam os objetos de forma diferente. Por isso, necessrio que os

resultados obtidos pelos algoritmos sejam validados por meio de critrios de avaliao

ecientes. H trs tipos de critrios de validao: os ndices externos, nos quais, os resul-

tados encontrados pelos algoritmos so comparados com uma estrutura pr-estabelecida;

os ndices internos, nos quais, os resultados obtidos pelos algoritmos so examinados a

m de determinar se eles so intrinsecamente apropriados para os dados de entrada; e

os ndices relativos, que comparam os resultados obtidos por algoritmos diferentes para

decidir qual melhor representa as caractersticas dos dados.

5. Interpretao dos resultados. Por m, o resultado dos algoritmos de clusterizao deve

ser interpretado por especialistas para que sejam atribudos signicados aos clusters de

forma que o usurio possa compreend-los.

Como visto na gura 2, a anlise de cluster apresenta um uxo para realimentao, pois

por vezes so necessrias execues com algoritmos de clusterizao diferentes at que se

obtenham bons resultados.

2.3.2 Classicao das tcnicas de clusterizao

De acordo com [4], [10], os principais tipos de tcnicas de clusterizao podem ser classicados

em:

Tcnicas Particionais: o conjunto de clusters no possui interseco de modo que cadaobjeto pertence a exatamente um cluster.

Tcnicas Hierrquicas: o conjunto de clusters est organizado e aninhado como umarvore.

2.3 Clusterizao 11

Tcnicas baseadas em densidade: so tcnicas baseadas na noo de densidade, ouseja, um objeto pertence a uma regio densa se na sua vizinhana existem pelo menos

L objetos, onde L um limiar denido pelo usurio. Nessas tcnicas, diferentemente

das outras, o nmero de clusters no precisa ser especicado.

2.3.3 Tipos de dados e medidas de similaridade

Nesta seo, so apresentados os tipos de dados que normalmente ocorrem em clusterizao,

como pr-process-los para anlise e algumas das medidas de similaridade mais usadas [10].

Supondo que um conjunto de dados para ser clusterizado contenha n objetos, os quais

podem representar pessoas, casas, documentos, pases e outros. Algoritmos de clusterizao

tipicamente operam sobre as seguintes estruturas de dados:

Matriz de dados (ou objetos por atributos) - esta estrutura representa n objetos, taiscomo pessoas, com p atributos, tais como altura, peso, idade, sexo e outros. A estrutura

est na forma de uma tabela relacional, ou matriz np (n objetos p atributos) comomostrado na gura 3.

Figura 3: Matriz de dados.

Matriz de dissimilaridade (ou objetos por objetos) - esta estrutura armazena uma coleode proximidades que so avaliadas para todos os pares de n objetos. Ela muitas vezes

representada por uma matriz n n, conforme pode ser observado na gura 4, na quald(i, j) a diferena ou dissimilaridade medida entre os objetos i e j.

.

2.3 Clusterizao 12

Figura 4: Matriz de dissimilaridade.

2.3.3.1 Atributos Contnuos

Atributos contnuos so atributos que podem ser relacionados a funes matemticas con-

tnuas. Exemplos desse tipo de atributo incluem peso, altura, temperatura ambiente e outros.

As medidas de dissimilaridade mais usadas para esse tipo de atributo so as distncias Eucli-

diana, Manhattan e Minkowski [10].

A unidade de medida usada pode afetar a clusterizao, para que isso no ocorra os dados

devem ser normalizados, ou seja, dar a todos os atributos igual peso. Porm, h casos em

que pode ser til dar mais importncia a um determinado conjunto de dados, por exemplo,

quando clusterizando candidatos a jogadores de basquete, pode-se dar mais peso ao atributo

altura.

Uma forma de normalizar medidas convertendo as medidas originais em atributos sem

unidade. Dados os valores medidos para um atributo f , a normalizao pode ser feita da

seguinte maneira:

Calcular o desvio absoluto mdio, sf :

sf =1

n(| x1f mf | + | x2f mf | + + | xnf mf |), (2.1)

no qual x1f , , xnf so n medidas de f , e mf o valor mdio de f , ou seja,

mf =1

n(x1f + x2f + + xnf ). (2.2)

Calcular a medida normalizada (escore-z):

zif =xif mf

sf. (2.3)

H outras medidas de disperso robustas, tal como desvio absoluto mediano, mas a van-

tagem de usar desvio absoluto mdio a facilidade de detectar outliers, pois os escores-z de

2.3 Clusterizao 13

outliers no se tornam muito pequenos.

Aps a normalizao (caso seja necessria), deve ser estabelecida uma medida de dis-

similaridade. Uma das medidas mais usadas a distncia Euclidiana, que pode ser denida

como:

d(i, j) =

(| xi1 xj1 |2 + | xi2 xj2 |2 + + | xip xjp |2), (2.4)

na qual i = (xi1, xi2, ..., xip) e j = (xj1, xj2, ..., xjp) so dois objetos de dados p-dimensional.

Outra mtrica bem conhecida a distancia Manhattan, que pode ser dena como:

d(i, j) =| xi1 xj1 | + | xi2 xj2 | + + | xip xjp | . (2.5)

A distncia Minkowski uma generalizao das distncias Euclidiana e Manhattan:

d(i, j) = (| xi1 xj1 |q + | xi2 xj2 |q + + | xip xjp |q)1/q, (2.6)

na qual q um inteiro positivo. A distncia Minkowski representa a distncia Manhattan

quando q = 1 e a distncia Euclidiana quando q = 2.

Se a cada atributo atribudo um peso de acordo com sua importncia, a distncia

Euclidiana ponderada, por exemplo, pode ser calculada da seguinte maneira:

d(i, j) =w1 | xi1 xj1 |q +w2 | xi2 xj2 |q + + | xip xjp |2. (2.7)

O clculo de medidas levando em considerao pesos pode ser realizada utilizando as

demais distncias tambm, de forma semelhante a mostrada para distancia Euclidiana na

equao 2.7.

2.3.3.2 Atributos Binrios

Uma abordagem para medir a dissimilaridade entre dois atributos binrios calcular a matriz

de dissimilaridade dos dados. Se todos os atributos binrios possuem os mesmos pesos, tem-se

a tabela 1, na qual a o nmero de atributos iguais a 1 para ambos os objetos i e j, b o

nmero de atributos que igual a 1 para i e igual 0 para j, c o nmero de atributos que

igual 0 para i e igual 1 para j, d o nmero de atributos iguais a 0 para ambos os objetos i

e j, e p o nmero total de atributos (p = a+ b+ c+ d).

Um atributo binrio pode ser simtrico ou assimtrico. Ele simtrico quando os dois

estados possuem o mesmo valor e peso, ou seja, no existe preferncia para atribuir 0 ou 1

2.3 Clusterizao 14

Tabela 1: Tabela de contingncia para atributos binrios.

objeto j

1 0 Soma

1 a b a+ bobjeto i 0 c d c+ dSoma a+ c b+ d p

ao atributo. Um exemplo o atributo sexo. A similaridade baseada em atributos binrios

simtricos chamada similaridade invariante, pois o resultado no muda quando alguns ou

todos os atributos binrios possuem valores diferentes. Para similaridades invariantes, o mais

conhecido coeciente o coeciente de casamento simples (simple matching coecient), que

pode ser denido como:

d(i, j) =b+ c

a+ b+ c+ d. (2.8)

Um atributo binrio assimtrico se os estados no so igualmente importantes, tal como

o resultado positivo ou negativo de um teste para determinar a presena de uma dada doena.

Dados dois atributos binrios assimtricos, a ocorrncia de dois 1s (casamento positivo)

considerado mais importante que dois 0s (casamento negativo). A similaridade baseada em

atributos binrios assimtricos chamada similaridade no invariante. Para similaridades no

invariantes, o mais conhecido coeciente o Coeciente de Jaccard, no qual o nmero de

casamentos negativos, d, no considerado importante, portanto pode ser ignorado no clculo

do coeciente. O Coeciente de Jaccard pode ser calculado da seguinte maneira:

d(i, j) =b+ c

a+ b+ c. (2.9)

2.3.3.3 Atributos Nominais

Um atributo nominal uma generalizao de atributos binrios, na qual ele pode possuir mais

do que dois estados. Por exemplo, um atributo que mapeia a cor dos olhos de uma pessoa

pode assumir os valores: verde, castanho e azul.

Os estados um atributo nominal podem ser denotados por letras, smbolos ou um conjunto

de inteiros, mas os inteiros no representam nenhuma relao de ordem, apenas servem para

manipular os dados.

A dissimilaridade entre dois objetos i e j pode ser calculada usando a abordagem de

casamento simples (simple matching) como mostrado a seguir:

d(i, j) =pmp

, (2.10)

2.3 Clusterizao 15

na qual m o nmero de casamentos (ou seja, nmero de atributos nos quais i e j so iguais)

e p o nmero total de atributos.

Atributos nominais podem ser codicados como atributos binrios assimtricos por meio da

criao de um atributo binrio para cada um dos estados que o atributo nominal possua. Para

cada atributo nominal do objeto que pertena a um estado, o atributo binrio correspondente

a este estado mapeado para 1 enquanto o restante dos atributos binrios so mapeados para

0. Desta maneira os coecientes de clculo de dissimilaridade apresentados para atributos

binrios podem ser utilizados.

2.3.3.4 Atributos Ordinais

Um atributo ordinal discreto lembra um atributo nominal, exceto pelo fato que os M estados

de um atributo ordinal esto ordenados numa sequncia signicativa. Um exemplo de atributo

ordinal um atributo cujos valores esto na escala Likert, que uma escala muito usada em

pesquisas de opinio, ou seja, os atributos podem assumir valores como: muito bom, bom,

razovel, ruim e muito ruim. Atributos ordinais podem ser obtidos pela discretizao de valores

de atributos contnuos por meio da diviso da faixa de valores em um nmero nito de classes.

Supondo que f um conjunto de atributos ordinais descrevendo n objetos. O clculo da

dissimilaridade de f envolve os seguintes passos:

O valor de f para o i-simo objeto xif , f possuiMf estados ordenados, representandoo ranking 1, ...,Mf . Substitui-se cada xif por seu elemento correspondente no ranking,

rif pertence 1, ...,Mf .

Como cada atributo ordinal pode ter um nmero diferente de estados, necessriomapear a faixa de cada atributo em [0 1] para que cada atributo possua o mesmopeso. Isso pode ser feito substituindo o valor de rif do i-simo objeto no f -simo

atributo por:

zif =rif 1Mf 1 . (2.11)

A dissimilaridade pode ser calculada usando qualquer uma das formas apresentadas paraatributos contnuos, usando zif para representar o valor do atributo f para o objeto i.

2.3.3.5 Atributos em escala no linear

Atributos em escala no linear so atributos que expressam uma medida em uma escala no

linear, como uma escala exponencial, por exemplo. H trs maneiras de calcular dissimilaridade

2.3 Clusterizao 16

para objetos que possuem esse tipo de atributo:

Tratar atributos em escala no linear como atributos em escala linear. Porm usualmenteessa no um boa escolha uma vez que a escala pode ser distorcida.

Aplicar transformaes logartmicas a um atributo em escala no linear f tendo valorxif para o objeto i por meio da frmula yif = log(xif ). Os valores de yif podem ser

tratados como atributos em escala linear.

Tratar xif como atributo ordinal e sua posio no raking como atributo contnuo.

2.3.3.6 Objetos formados por atributos de vrios tipos

muito comum que objetos sejam descritos por atributos de vrios tipos. Surge, portanto, a

necessidade de uma forma de medir dissimilaridade para tais objetos.

Uma abordagem juntar todos os atributos de um determinado tipo e realizar a clus-

terizao para cada tipo de atributo. Outra abordagem mapear todos os atributos para o

intervalo [0; 1] e usar medidas como distncia Euclidiana. H vrias outras abordagens, porm

uma das mais poderosas [12]:

d(i, j) =

pf=1,

fijd

fijp

f=1 fij

, (2.12)

na qual o indicador fij = 0 se (1) xif ou xjf est faltando (quando o valor do atributo f est

faltando para o objeto i ou j, por exemplo), ou (2) xif = xjf = 0 e o atributo f binrio

assimtrico; caso contrrio, fij = 1. A contribuio do atributo f para dissimilaridade entre

os objetos i e j, dfij, calculada d seguinte maneira:

1. Se f binrio ou nominal: dfij = 0, se xif = xfi; caso contrrio, dfij = 1.

2. Se f contnuo: dfij =|xifxjf |

maxh(xhf )minh(xhf ) , no qual h executa sobre todos os objetos

que possuem valor para o atributo f .

3. Se f ordinal ou no escalar: calcula-se o ranking rif e zif =rif1Mf1 , e trata zif como

atributo contnuo.

2.3.4 Algoritmo K-means

O algoritmo k-means um algoritmo particional (os clusters so disjuntos), exclusivo (cada

objeto pertence a um nico cluster) e baseado em prottipos (cada objeto do cluster est

2.4 Regras de Associao 17

mais prximo ao prottipo que dene o cluster do que dos prottipos de quaisquer outros

clusters). O seu funcionamento pode ser descrito pelos seguintes passos [11]:

1. Atribuir valores iniciais para os centrides (prottipos). Nesse passo, so escolhidos

os k objetos dentro do banco de dados que sero utilizados como centros dos clusters

(centrides). Essa escolha pode ser feita de diversas maneiras, dentre elas: selecionar

as k primeiras entradas; ou selecionar k entradas aleatoriamente.

2. Associar objetos aos centrides. Nesse passo, cada objeto associado, de acordo com

a medida de similaridade, ao centride mais prximo.

3. Recalcular centrides. Nesse passo, para cada cluster recalculado o calor do centride

a partir da mdia dos objetos pertencentes ao cluster.

4. Iterao. O algoritmo repete os passos 2 e 3 at que no haja mudana nos centrides

ou at que relativamente ocorram poucas mudanas nos centrides.

Para avaliao dos clusters criados pelo algoritmo k-means a medida mais comumente

usada a soma dos erros quadrados (Sum of Square Error - SSE ), que pode ser calculada de

acordo com a seguinte equao:

SSE =Ki=1

xCi

dist2(mi, x), (2.13)

na qual, x representa um objeto pertencente ao cluster Ci, mi representa o centride do

cluster i e k o nmero de clusters. Uma forma de reduzir o SSE aumentando o nmero

de clusters.

2.4 Regras de Associao

A tcnica de regras de associao uma das tarefas descritivas da Minerao de Dados, que

demonstra o quanto a ocorrncia de um conjunto de itens implica na ocorrncia de algum outro

conjunto distinto de itens nos registros de uma mesma base de dados [3]. Desse modo, o obje-

tivo das regras de associao encontrar itens que ocorrem de forma simultnea e frequente

em transaes de grandes bases de dados, facilitando a compreenso do comportamento dos

dados.

A aplicao mais comum de regras de associao a anlise de transaes de compras,

por isso, ao longo dessa seo ser utilizado um exemplo de uma pequena base de dados


que armazena compras realizadas por clientes de um supermercado (gura 5). Como pode

ser observado na gura 5, cada transao da base de dados armazena a relao de produtos

adquiridos por um cliente especco.

Figura 5: Base de dados com transaes de clientes.

2.4.1 Conceitos e Denies

Nessa seo so apresentados conceitos e denies, que so necessrios compreenso do

processo de minerao de regras de associao [13].

O pr-requisito para que a tcnica de regras de associao possa ser aplicada que a

base de dados esteja no formato de uma tabela booleana de itens-transaes (gura 6)

ou a uma tabela de itens-transaes (gura 7). A tabela de itens-transaes um caso

particular da tabela booleana de itens-transaes, onde apenas os itens que possuem valor um

na tabela booleana de itens-transaes aparecem na tabela de itens-transaes. Dessa forma,

quando os dados no esto nos formatos apresentados, deve ser realizado o pr-processamento

dos dados.

Figura 6: Tabela booleana de itens-transaes.

Figura 7: Tabela de itens-transaes.

Uma regra de associao pode ser representada como uma implicao na forma LHS RHS, onde LHS e RHS so conjuntos disjuntos de itens que representam respectivamente,


o lado esquerdo (Left Hand Side) e o lado direito (Right Hand Side) da regra. Um exemplo

de regra que poderia ser extrada da base de dados da gura 5 {caf, leite} {po}, cujosignicado que clientes que compraram caf e leite tendem a comprar po tambm.

Ao conjunto de atributos ou itens ordenados lexicogracamente d-se o nome de itemset.

Um itemset com k elementos costuma ser referenciado como k-itemset. Um exemplo de

2-itemset {caf, leite}. O suporte de um itemset Z, sup(Z), indica a porcentagem de

transaes da base de dados que contm os itens de Z, ou seja,

sup(Z) =n(Z)

N 100, (2.14)

onde n(Z) o nmero de transaes nas quais Z ocorre e N o nmero total de transaes

da base de dados. Por exemplo, o suporte do itemset {caf,leite} de 60% para a base de

dados mostrada na gura 5.

J o suporte de uma regra LHS RHS indica a frequncia com que LHS RHSocorre no conjunto de dados, ou seja,

sup(LHS RHS) = sup(LHS RHS) = n(LHS RHS)N

100, (2.15)

onde n(LHS RHS) o nmero de transaes nas quais LHS e RHS ocorrem juntas e N o nmero total de transaes da base de dados. No exemplo 1, mostrado como calcular o

suporte da regra {caf, leite} {po} para a base de dados apresentada na gura 5.

Exemplo 1 sup({caf e, leite} {pao}) = n({cafe,leite}{pao})5

100 = 35 100 = 60%.

A conana de uma regra LHS RHS, conf(LHS RHS), representa, dentre astransaes que contm LHS, a porcentagem de transaes que tambm contm RHS, ou

seja,

conf(LHS RHS) = sup(LHS RHS)/sup(LHS) 100. (2.16)

No exemplo 2, calculada a conana da regra {caf, leite} {po} para a base apre-sentada na gura 5.

Exemplo 2 conf(caf e, leite pao) = sup(cafe,leitepao)sup(cafe,leite)

100 = 6060 100 = 100%.

Um k-itemset dito frequente quando o seu suporte maior ou igual ao suporte mnimo

denido pelo usurio.

De acordo com [3], a tcnica de regras de associao pode ser descrita formalmente da

seguinte maneira:


Seja I = {i1, i2, ..., in} o conjunto de itens que compem uma base de dados D e To conjunto de transaes da mesma base de dados, cada transao ti T composta porum conjunto de itens tal que ti I. A regra de associao uma implicao na formaLHS RHS, onde LHS I, RHS I e LHS RHS = .

Dessa forma, o processo de obteno de regras de associao pode ser dividido em duas

etapas:

1. Determinar todos os k-itemsets frequentes.

2. Para cada k-itemset encontrado na etapa anterior, com k >= 2, gerar regras de associ-

ao (permutaes de subconjuntos) que possuam conana maior ou igual conana

mnima especicada pelo usurio.

Para determinar os k-itemsets freqentes o algoritmo comumente utilizado o Apriori,

que ser apresentado na prxima seo.

2.4.2 Algoritmo Apriori

O algoritmo Apriori, desenvolvido por [3], capaz de encontrar todos os itemsets frequentes

em uma base de dados. Esse algoritmo considera a seguinte propriedade para diminuir o espao

de busca:

Propriedade 1 Se um itemset Z no frequente ento para todo itemset A, ZA no serfrequente.

Inicialmente o algoritmo conta a ocorrncia dos itens, determinando o 1-itemsets fre-

quentes que so armazenados em L1, onde L1 representa o conjunto de 1-itemsets frequentes.

Depois de forma iterativa, para encontrar o Lk, o algoritmo constri um conjunto de k-itemsets

candidatos, Ck, atravs de um join entre os elementos do Lk1. A seguir, ele poda Ck usando

a propriedade 1 e calcula o suporte dos candidatos que no foram podados. E por m, so

identicados os k-itemsets frequentes, que so armazenados em Lk. O conjunto que contm

todos os itemsets frequentes formado pela unio dos conjuntos Lk de k-itemsets frequentes.

A seguir apresentada, no exemplo 3, a utilizao do algoritmo Apriori para obteno de

regras de associao.

Exemplo 3 Aplicao do algoritmo Apriori para obteno de regras de associao na base de

dados da gura 5, considerando o suporte mnimo 50% e a conana mnima 90%.


1. Determinando todos os k-itensets frequentes;

- Gera os candidatos a 1-itensets frequentes, C1:

sup({leite}) = 35 100 = 60%

sup({cafe}) = 45 100 = 80%

sup({pao}) = 45 100 = 80%

sup({biscoito}) = 15 100 = 20%

sup({manteiga}) = 25 100 = 40%

sup({queijo}) = 25 100 = 40%

sup({ovos}) = 25 100 = 40%

sup({arroz}) = 25 100 = 40%

sup({feijao}) = 25 100 = 40%Logo, L1 = {{caf e}, {leite}, {pao}}.


sup({cafe, leite}) = 35 100 = 60%

sup({cafe, pao}) = 35 100 = 60%

sup({leite, pao}) = 35 100 = 60%Logo, L2 = {{caf e, leite}, {caf e, pao}, {leite, pao}}.


sup({cafe, leite, pao}) = 35 100 = 60%Logo, L3 = {{caf e, leite, pao}}.

Como L3 s possui um itemset o algoritmo para de iterar, pois no possvel gerar

candidatos a 4-itemsets.

2. Gerando regras de associao

Para gerar as regras deve-se permutar os k-itemsets frequentes (k>=2) e selecionar

as regras que possuem conana maior ou igual a conana mnima especicada pelo

usurio. As regras de associao que obedecem as especicaes so as que esto em

negrito na tabela da gura 8.


Figura 8: Regra de Associao.

23

3 Plataforma Lattes e Ferramentas

Neste captulo, so apresentadas a plataforma Lattes e algumas ferramentas que foram uti-

lizadas na realizao deste trabalho. A seo 3.1 apresenta a plataforma Lattes e seus com-

ponentes. A seguir, na seo 3.2, apresentada a estrutura do sistema de currculos Lattes.

Na seo 3.3, apresentada a ferramenta utilizada apra realizar as tarefas de Minerao de

Dados. Por m, na seo 3.4, apresentada uma ferramenta de extrao e estruturao dos

dados obtidos a partir da plataforma Lattes.

3.1 Plataforma Lattes

A Plataforma Lattes um sistema de informao desenvolvido pelo CNPq (Conselho Nacional

de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto de cincia, tecnologia e

inovao no Brasil [14]. Essa foi lanada em 16 de agosto de 1999, com a verso inicial do

sistema de currculos Lattes.

A plataforma composta pela integrao de quatro sistemas distintos: currculo Lattes,

que um sistema de informao responsvel por registrar a vida curricular pregressa e atual

dos pesquisadores; diretrio de grupos de pesquisa, que um sistema responsvel por manter

informaes sobre os grupos de pesquisa existentes no pas; diretrio de instituies, cujo

objetivo armazenar informaes sobre os institutos de pesquisa, universidades e outros, que

demandam fomento ao CNPq; e sistema gerencial de fomento, cujo objetivo aumentar a

qualidade das atividades de fomento do CNPq.

3.2 Estrutura do currculo Lattes

O currculo Lattes est estruturado de forma hierrquica, os nveis mais altos da hierarquia

so:

Apresentao: mdulo inicial do sistema, composto por um resumo do currculo do

3.3 Ferramenta de Minerao de Dados 24

usurio e a data da ltima atualizao do currculo;

Dados Gerais: este mdulo agrupa dados de identicao, endereos, formao aca-dmica e complementar, atuao prossional, reas de atuao e outros;

Produo bibliogrca: concentra toda a produo bibliogrca tais como artigoscompletos, livros, textos em jornais e outros;

Produo tcnica: agrupa informaes sobre a produo tcnica do pesquisador taiscomo softwares, produtos, trabalhos tcnicos e outros;

Orientaes: mdulo destinado a todas as orientaes ou supervises (concludas ouem andamento);

Projetos: neste mdulo so encontrados os projetos do pesquisador;

Eventos: contm informaes relacionadas a eventos que o pesquisador organizou oupaticipou;

Bancas: contm informaes relacionadas a bancas e comisses julgadoras;

Citaes: reune indicadores de referncias de outros pesquisadores aos trabalhos pub-licados do pesquisador.

3.3 Ferramenta de Minerao de Dados

Para realizao das tarefas de Minerao de Dados neste trabalho foi utilizada uma fer-

ramenta de cdigo aberto chamada WEKA (Waikato Environment for Knowledge Analysis).

Essa ferramenta foi desenvolvida na Universidade de Waikato na Nova Zelndia e possui im-

plementaes de vrios algoritmos de Minerao de Dados [9].

A interface grca do WEKA amigvel, porm importante destacar os principais el-

ementos. A Figura 9 apresenta a tela de pr-processamento da ferramenta destacando os

principais elementos:

(a) Esse boto permite a seleo de bases de dados no formato ARFF (Attribute-RelationFile Format);

(b) Nessa rea podem ser selecionados algoritmos para pr-processar os dados (discretizaratributos, por exemplo);

3.3 Ferramenta de Minerao de Dados 25

(c) Nessa rea so apresentados os atributos da base de dados;

(d) Apresenta informaes quantitativas e estatsticas sobre o atributo selecionado narea Atribute.

Figura 9: Tela de pr-processamento da ferramenta WEKA.

A ferramenta WEKA recebe como entrada arquivos no formato ARFF, que so compostos

por 3 elementos (Figura 10): (a) relation, que dene um nome para a relao estudada; (b)

atribute, onde so especicados os atributos que compem a base de dados; e (c) data, que

contempla os dados separados por vrgulas [15].

Figura 10: Exemplo de arquivo ARFF.

Neste trabalho so estudados clusterizao e regras de associao, por isso necessrio

3.4 Ferramenta de extrao de dados da plataforma Lattes 26

compreender como o WEKA apresenta os resultados dessas tarefas. A Figura 11 apresenta um

exemplo de resultados do WEKA para clusterizao, destacando-se os principais elementos:

(a) Apresenta os centrides de cada cluster e dos dados completos;

(b) Apresenta a distribuio dos objetos entre os clusters de acordo com o atributoclasse escolhido.

Figura 11: Exemplo de resultados de clusterizao.

A Figura 12 apresenta um exemplo de resultados gerados pelo WEKA quando a tarefa de

regras de associao realizada, destacando-se os principais elementos:

(a) As regras so ordenadas pela conana.

(b) Os valores depois de antecedentes e consequentes das regras representam o nmerode suas respectivas ocorrncias.

3.4 Ferramenta de extrao de dados da plataforma

Lattes

As tcnicas de Minerao de Dados selecionadas para serem estudadas neste trabalho devem

ser aplicadas sobre dados estruturados, como na internet os dados esto na forma textual


Figura 12: Exemplo de resultados de regras de associao.

houve a necessidade da construo de uma ferramenta para extrao e estruturao dos dados

da Plataforma Lattes. Portanto, foi desenvolvida uma ferramenta que obtm os dados dos

currculos e transforma-os em um banco de dados. Nesta seo descrito o funcionamento

dessa ferramenta e a forma como os dados foram organizados aps a extrao.

A ferramenta foi desenvolvida utilizando PHP (Hypertext Preprocessor) [16], que uma

linguagem de programao muito usada em pginas dinmicas da web, e o sistema de geren-

ciamento de banco de dados relacional MYSQL [17]. Os principais dados selecionados dos

currculos dos pesquisadores so:

id - Atributo que identica individualmente cada professor;

peridicos - Nmero de artigos completos publicados em peridicos;

periodicosComFator - nmero de artigos completos publicados em peridicos que pos-suem fator de impacto. O fator de impacto uma avaliao feita pela JCR (Journal

Citation Reports) [18] para medir o desempenho de um jornal com relao a outros da

mesma rea;

livros - nmero de captulos de livro publicados;

jornais - nmero de textos em jornais de noticiais/revistas;

completoAnais - nmero de trabalhos completos publicados em anais de congressos;

resumoAnais - nmero de resumos publicados em anais de congresso;

expandidosAnais - nmero de resumos expandidos publicados em anais de congresso;

publicaesComDoi - nmero de publicaes que possuem DOI (Digital Object Identi-er), que permite localizar e acessar materiais na web - especialmente, publicaes em

peridicos e obras protegidas por copyright;

publicaes - atributo projetado a partir da soma de peridicos, livros, jornais, comple-tosAnais, resumoAnais e expandidosAnais;


oriMSC - nmero de orientaes de mestrado;

oriPHD - nmero de orientaes de doutorado;

oriESP - nmero de orientaes de especializao;

oriTCC - nmero de orientaes de trabalho de concluso de curso;

oriIC - nmero de orientaes de iniciao cientca;

oriOutras - nmero de outras orientaes;

orientacoes - atributo projetado a partir da soma de oriMSC, oriPHD, oriESP, oriTCC,oriIC e oriOutras;

bancaEX - nmero de participaes em bancas examinadoras;

bancaJUL - nmero de participaes em bancas julgadoras;

projetoCnpq - nmero de projetos nanciados pelo CNPQ;

projetoFacepe - nmero de projetos nanciados pela FACEPE(Fundao de Amparo Cincia e Tecnologia do Estado de Pernambuco);

projetoFinep - nmero de projetos nanciados pelo FINEP(Financiadora de Estudos eProjetos);

atvDirecao - nmero de atividades de direo;

atvEnsino - nmero de atividades de ensino;

atvProjeto - nmero de atividades de projeto;

atvPesquisa - nmero de atividades de pesquisa;

departamento - departamento ao qual o professor pertence (bsico, computao, civil,eltrica, mecnica);

atualizao - nmero de dias decorridos desde a ltima atualizao.


A arquitetura da ferramenta composta por 3 componentes (gura 13):

Figura 13: Arquitetura da ferramenta de extrao.

Aquisio de currculo. A tarefa inicial realizada pela ferramenta a obteno docontedo dos currculos Lattes dos professores pesquisadores da Escola Politcnica de

Pernambuco no formato HTML (HyperText Markup Language) utilizando o endereo

eletrnico (URL - Uniform Resource Locator) dos currculos.

Extrao de dados. As informaes necessrias criao da base de dados so extra-das do texto HTML, por meio de funes PHP que reconhecem expresses regulares

(padres) em strings. O texto semi-estruturado em HTML facilitou o estabelecimento

dos padres, uma vez que as tags puderam ser utilizadas como delimitadores para iden-

ticao dos dados de interesse.

Estruturao dos dados. Por m, os dados extrados so armazenados em um arquivoARFF (gura 14).


Figura 14: Base de dados no formato ARFF.

31

4 Estudo de Caso

Neste captulo apresentado como foram realizadas as tarefas de clusterizao e regras de

associao, bem como a anlise dos resultados provenientes dessas tarefas. Na seo 4.1, so

apresentadas caractersticas gerais sobre o estudo. A seguir, na seo 4.2, so apresentados

os experimentos de clusterizao. E por m, na seo 4.3, so apresentados os experimentos

realizados usando regras de associao.

4.1 Caractersticas gerais do estudo

Os experimentos foram realizados com 129 professores, do quadro efetivo da Escola Politcnica

de Pernambuco (POLI) e esto divididos em 5 grupos: bsico, mecnica, eltrica, civil e

computao. Os professores esto distribudos da seguinte maneira: 34 no bsico, 21 em

mecnica, 31 em eltrica, 30 em civil e 13 em computao.

Os nomes e cursos dos professores foram obtidos junto ao setor de recursos humanos da

POLI, de forma que a partir dos nomes dos professores, os endereos eletrnicos dos seus

currculos Lattes puderam ser adquiridos e utilizados como entrada para a ferramenta de

extrao apresentada no captulo 3.

Os dados dos currculos Lattes dos professores foram extrados no dia 28 de outubro de

2010. Para realizar a Minerao de Dados foi utilizada uma ferramenta WEKA apresentada

no captulo 4.

4.2 Clusterizao

A tarefa de clusterizao foi executada com vrias conguraes, mas em todas foi utilizado

o algoritmo K-means juntamente com a distncia Euclidiana, para medir a similaridade entre

os objetos.

O primeiro experimento foi realizado com 2 clusters. Nesse caso, o algoritmo separou os

4.2 Clusterizao 32

professores que possuem boa produo cientca (cluster 1 - 14 professores) dos que possuem

pouca produo cientca (cluster 0 - 115 professores), conforme pode ser observado na gura

15. Uma caracterstica que pode ser observada que os professores pertencentes ao cluster

1 em mdia atualizaram seus currculos h menos de 3 meses, j os professores pertencentes

ao cluster 0 em mdia atualizaram seus currculos h mais de 2 anos. Outra caracterstica

que pode ser observada que embora o cluster 1 tenha agrupado professores com nmero

de publicaes elevadas (em mdia 113 publicaes), poucas publicaes possuem DOI (em

mdia 6 publicaes).

Figura 15: Experimento com 2 agrupamentos.

O segundo experimento que foi realizado visou separar os professores em 3 clusters. Nesse

caso o algoritmo separou professores com pouca (cluster 0 - 24 professores), razovel (cluster

2 - 91 professores) e boa (cluster 1 - 14 professores) produo cientca, conforme pode ser ob-

servado na gura 16. Os professores pertencentes ao cluster 1 so os mesmos que pertenciam

ao cluster 1 no experimento anterior, de forma que com o aumento de uma unidade no nmero

de clusters, o algoritmo separou melhor o grupo de professores que possuam pouca produo

cientca. Desta forma, o cluster 0 agrupa os professores que possuem pouca produo cien-

tca, orientaes, projetos e atividades. J o cluster 2 agrupa os professores que possuem

algumas publicaes em anais de congresso (em mdia 12 publicaes) e orientaes de TCC

e IC. Alm disso, os professores do cluster 2 que possuem atividades de ensino cadastradas,

4.2 Clusterizao 33

j participaram de algumas bancas examinadoras (em mdia 6,6 bancas) e atualizaram seus

currculos h menos de 1 ano.


O terceiro experimento foi realizado com 4 clusters. Nesse caso o algoritmo agrupou

professores com muita produo no cluster 3 (12 professores), os que produzem razoavelmente

no cluster 1 (23 professores), os que produzem pouco no cluster 2 (71 professores) e os que

produzem muito pouco no cluster 0 (23 professores), como pode ser observado na gura 17.

Juntando os professores dos clusters 3 e 1, pode-se notar que aproximadamente 25 professores

possuem produo relevante e os demais possuem produo inexpressiva.

O quarto experimento foi realizado com 5 clusters. Nesse caso o algoritmo estraticou

os dados da seguinte maneira: cluster 0, professores que no possuem, a princpio, o vis de

pesquisa; cluster 1, professores que possuem algumas pesquisas (em mdia 23 publicaes),

orientam (em mdia 27 orientaes) e participaram de algumas bancas examinadoras (em

mdia 18 bancas) e julgadoras (em mdia 3,4 bancas); cluster 2, onde esto agrupados a

maioria dos professores (57% do total), e caracterizado por professores que possuem poucas

publicaes (em mdia 11 publicaes); cluster 3, que possui professores com perl parecido

com os do cluster 1, com a diferena de que os pertencentes ao cluster 3 possuem mais publi-

caes (em mdia 42 publicaes) e menos orientaes (em mdia 21); cluster 4, professores

que produzem bastante em pesquisa (em mdia 123 publicaes), orientam muitos alunos (em

4.2 Clusterizao 34


mdia 91 orientaes), participam de muitas bancas examinadoras (em mdia 61,6 bancas)

e julgadoras (em mdia 8,5 bancas) e participam de muitas atividades de ensino, pesquisa,

projeto e direo (gura 18). Embora os professores pertencentes ao cluster 4 possuam um

elevado nmero de publicaes, na mdia eles possuem menos publicaes com fator de im-

pacto do que os professores pertencentes ao cluster 3 e tambm menos projetos nanciados

pelo CNPQ.

Conforme pode ser visto na gura 19, os departamentos de eltrica, mecnica e bsico

possuem poucos professores com perl de pesquisador. J nos departamentos de civil e com-

putao, pode-se notar uma maior distribuio dos professores entre os diferentes pers. Alm

disso, pode-se destacar que o departamento de mecnica praticamente no possui professores

com o perl de pesquisador, e o departamento de civil possui aproximadamente 12 profes-

sores com esse perl (levando em considerao os professores de civil dos clusters 1, 3 e 4 do

experimento 4). Embora os professores do curso de civil possuam o maior nmero absoluto

de professores com perl de pesquisador, esse curso tambm possui um grande nmero de

professores que aparentemente no apresentam vis de pesquisa (18 professores levando em

considerao os clusters 0 e 2 do experimento 4). Outra caracterstica observada nos exper-

imentos 2, 3 e 4 que o departamento de computao no possui professores sem vis de

pesquisa e, alm disso, mais de metade dos seus professores possuem boa produo cientca

4.2 Clusterizao 35


(levando em considerao os professores de computao dos clusters 1, 3 e 4 do experimento 4

e dos clusters 1 e 3 do experimento 3). O experimento 1 mostra que o nmero de professores

com muitas pesquisas relevantes igual a 14, uma vez que ele separou professores com elevado

nmero de publicaes (cluster 1) dos demais professores (cluster 0).

4.2 Clusterizao 36

Figura 19: Distribuio dos clusters de acordo com os departamentos.

4.3 Regras de associao 37

4.3 Regras de associao

A tarefa de regras de associao tambm foi analisada neste trabalho, com o objetivo de obter

relacionamentos entre os atributos dos professores. Para realizao desta tarefa foi utilizado o

algoritmo Apriori. Porm, para que esse algoritmo pudesse ser aplicado zeram-se necessrios

alguns pr-processamentos dos dados, uma vez que a maioria dos atributos selecionados neste

trabalho numrica e o algoritmo s funciona com dados nominais.

A ferramentaWEKA possui vrios algoritmos para pr-processamento dos dados, de forma

que para este trabalho foram utilizados dois algoritmos no-supervisionados: discretize, para

discretizar os dados em intervalos; e numeric-to-nominal, para transformar os dados de numri-

cos para nominais.

Aps a realizao de vrios testes alterando os valores do suporte mnimo e da conana do

algoritmo e os atributos de entrada, os resultados apresentaram algumas regras interessantes.

Os experimentos que apresentaram melhores resultados foram executados com o parmetro

conana mnima igual 0,7, sendo esses os experimentos que so descritos a seguir.

Um primeiro experimento com os atributos publicaes e orientaes produziu as regras

apresentadas na gura 20, que indicam um forte relacionamento entre o atributo publicaes e

o atributo orientaes, como pode ser visto se um professor possui poucas publicaes (inferior

a 24 na regra 1 e entre 24 e 48 na regra 2) implica que possui poucas orientaes tambm

(com uma conana de 0,99 na regra 1 e 0,83 na regra 2).

Figura 20: Regras de associao que relacionam os atributos publicaes e orientaes.

O segundo e terceiro experimentos foram realizados selecionando os atributos departa-

mento e orientaes (gura 21) e departamento e publicaes (gura 22), respectivamente.

Estas regras extradas mostram um relacionamento entre os departamentos e as publicaes

e orientaes de um professor. Assim como nos resultados apresentados na tarefa de clus-

terizao, estas regras indicam que os professores dos departamentos de eltrica, mecnica

e bsico possuem poucas publicaes e orientaes, pois estas regras com conana maior

que 0,8 mostram que se o departamento ao qual o professor pertence mecnica, bsico ou

eltrica implica que seu nmero de publicaes inferior a 24,7 e seu nmero de orientaes

inferior a 24.


Figura 21: Regras de associao que relacionam os atributos departamento e orientaes.

Figura 22: Regras de associao que relacionam os atributos departamento e publicaes.

O quarto experimento foi realizado com os atributos departamento e publicacoesComDoi

(gura 23). Dentre as regras extradas pode-se destacar a primeira, que relaciona os professores

do departamento de civil com poucas publicaes com DOI (inferior a 4,2 publicaes), ou

seja, embora possa ser constatado nos resultados da tarefa de clusterizao que tais professores

possuem muitas publicaes, poucas possuem DOI.

Figura 23: Regras de associao que relacionam os atributos departamento e publicaes-

ComDoi.

O quinto experimento foi realizado com os atributos departamento e publicacoesComFator

(gura 24). Assim como no terceiro experimento, pode-se destacar a segunda regra, que

relaciona os professores do departamento de civil com poucos peridicos com fator de impacto

(inferior a 2 peridicos).

Figura 24: Regras de associao que relacionam os atributos departamento e publicaes-

ComFator.

O sexto, stimo e oitavo experimentos foram realizados utilizando os atributos publicaes

e peridicos (gura 25), publicaes e completosAnais (gura 26) e publicaes e resumoAnais

(gura 27), respectivamente. As regras extradas por estes experimentos mostram que artigos

publicados em peridicos, trabalhos completos e resumos publicados em anais de congressos

inuenciam muito o nmero de publicaes gerais de um professor, pois com regras com


conana acima de 0,78 pode ser observado que quando o nmero de publicaes inferior

a 24 o nmero de artigos publicados em peridicos inferior a 2,6, o nmero de trabalhos

completos publicados em anais de congresso inferior a 12,9 e o nmero de resumos publicados

em anais de congresso inferior a 13,6.

Figura 25: Regras de associao que relacionam os atributos publicaes e peridicos.

Figura 26: Regras de associao que relacionam os atributos publicaes e completoAnais.

Figura 27: Regras de associao que relacionam os atributos publicaes e resumoAnais.

40

5 Concluso

Este trabalho apresentou uma ferramenta, desenvolvida na linguagem PHP, cujo objetivo

bsico extrair dados automaticamente de currculos da plataforma Lattes. Ainda neste tra-

balho, so aplicadas tcnicas de Minerao de Dados aos dados extrados por essa ferramenta,

produzindo informaes teis coordenao de pesquisa da Escola Politcnica de Pernambuco.

O trabalho apresenta importantes anlises da produo cientica dos professores da POLI,

por meio da aplicao de algoritmos Minerao de Dados implementados pelo WEKA, clus-

terizao e regras de associao. Os experimentos apresentam uma importante contribuio

em termos de quais aspectos so caractersticos a pers tanto de professores com pesquisas

relevantes, quanto a pers de professores aparentemente sem vis de pesquisa.

Uma caracterstica que pode ser observada que os professores que possuem vis de

pesquisa procuram manter seus currculos atualizados (em mdia atualizaram seus currculos

h menos de 3 meses), j os professores sem aparente vis de pesquisa em mdia atualizaram

seus currculos h mais de 2 anos.

Alm disso, pode-se concluir que os cursos de eltrica, mecnica e bsico possuem poucos

professores com perl de pesquisador. J nos cursos de civil e computao, pode-se notar uma

maior distribuio dos professores entre os diferentes pers. Tambm pode-se destacar que o

curso de mecnica praticamente no possui professores com o perl de pesquisador e o curso

de civil possui aproximadamente 12 professores com esse perl. No entanto, os professores do

curso de civil possuem poucas publicaes com doi e poucos peridicos com fator de impacto.

Outra caracterstica importante que pode ser extrada que o curso de computao no possui

professores no perl que agrupa professores sem vis de pesquisa.

Outra informao importante extrada indica um forte relacionamento entre o atributo

publicaes e o atributo orientaes, isso pode ocorrer porque publicaes normalmente so

produzidas em conjunto com alunos orientados. Ou seja, o incentivo a orientaes, como

bolsas de iniciao cientca e mestrado, podem resultar em mais publicaes relevantes para

instituio.

5 Concluso 41

Dentre as diculdades encontradas durante o desenvolvimento deste trabalho algumas

devem ser destacadas. O desenvolvimento da ferramenta de extrao concentrou as maiores

diculdades encontradas, devido a falta de padronizao dos dados na plataforma Lattes, uma

vez que os dados podem ser inseridos nos currculos Lattes de forma subjetiva, ou seja, cada

pesquisador pode colocar um mesma informao de vrias formas diferentes. Outra diculdade

foi encontrada para acessar o fator de impacto das publicaes cadastradas nos currculos

Lattes, pois necessrio passar por um processo de autenticao, o que impossibilitaria a

automao da ferramenta de extrao desenvolvida. Para resolver este problema, o acesso a

esta informao foi feito colocando o ISSN (International Standard Serial Number - utilizado

para individualizar o ttulo de uma publicao seriada) na URL da plataforma Lattes que

realiza a busca desta informao no portal ISI Web of Knowledge, pois como os servidores

da plataforma Lattes possuem cadastro neste portal, desta forma no se faz necessria a

autenticao no sistema.

Como trabalho futuro sugere-se a realizao de outras tarefas de Minerao de Dados,

tais como aplicaes de redes neurais para fazer previses da produo cientca da POLI de

acordo com informaes de anos anteriores. Outro trabalho futuro sugerido ampliar o escopo

da pesquisa e realizar um estudo com os professores de todas as unidades que compem a

Universidade de Pernambuco.

42

Referncias

[1] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge

discovery in databases. AI Magazine, v. 17, p. 3754, 1996.

[2] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting

useful knowledge from volumes of data. Communications of the ACM, v. 39, p. 2734,

1996.

[3] AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. Proceedings

20th International Conference Very Large Data Bases, VLDB, p. 487499, 1994.

[4] BERKHIN, P. Survey Of Clustering Data Mining Techniques. San Jose, CA, 2002.

Disponvel em: . Acesso

em: 18 de setembro de 2010.

[5] XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neural net-

works, v. 16, p. 645678, 2005.

[6] JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice Hall, 1988.

[7] LATTES. Plataforma Lattes. Disponvel em: . Acesso em: 15 de

outubro de 2010.

[8] AMO, S. D. Tcnicas de Minerao de Dados. [S.l.], 2004.

[9] HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations, v. 11,

2009.

[10] HAN, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Morgan Kaufmann,

2006.

[11] JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: A review. ACM computing

surveys (CSUR), v. 31, 1999.

[12] GOWER, J. C. A general coecient of similarity and some of its properties. Biometrics,

v. 27, p. 857871, 1971.

[13] AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of

items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference

on Management of Data, ACM, p. 207216, 1993.

[14] CNPQ. Conselho Nacional de Desenvolvimento Cientco e Tecnolgico. Disponvel em:

. Acesso em: 15 de outubro de 2010.

Referncias 43

[15] ARFF. Attribute Relation File Format. Disponvel em:

. Acesso em: 15 de outubro de

2010.

[16] PHP. Disponvel em: . Acesso em: 18 de setembro de 2010.

[17] MYSQL. Disponvel em: . Acesso em: 18 de setembro de 2010.

[18] JCR. Journal Citation Reports. Disponvel em: . Acesso em: 15 de out-

ubro de 2010.

monografia vf - bruno carlos

Documents