monografia vf - bruno carlos

Upload: adriano-nascimento

Post on 13-Jan-2016

14 views

Category:

Documents


0 download

DESCRIPTION

monografia

TRANSCRIPT

  • .EXTRAO DE CONHECIMENTO DA

    PLATAFORMA LATTES UTILIZANDO TCNICAS

    DE MINERAO DE DADOS: ESTUDO DE CASO

    POLI/UPE

    Trabalho de Concluso de Curso

    Engenharia da Computao

    Aluno: Bruno Carlos Sales de Morais

    Orientador: Prof. Dr. Carmelo Jose Albanez Bastos Filho

  • Bruno Carlos Sales de Morais

    Extrao de conhecimento da Plataforma

    Lattes utilizando tcnicas de Minerao de

    Dados: estudo de caso POLI/UPE

    Monograa apresentada para obteno do Grau

    de Bacharel em Engenharia da Computao

    pela Universidade de Pernambuco

    Orientador:

    Prof. Dr. Carmelo Jose Albanez Bastos Filho

    Departamento de Sistemas e Computao

    Escola Politcnica de Pernambuco

    Universidade de Pernambuco

    Recife - PE, Brasil

    dezembro de 2010

  • Resumo

    Atualmente, existe uma grande diculdade na aquisio de dados sobre a produo cien-

    tca do corpo docente dentro das universidades brasileiras. Entretanto, a maior parte destas

    informaes pode ser encontrada na plataforma Lattes - um sistema desenvolvido pelo CNPq

    (Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar na gesto de

    cincia, tecnologia e inovao no Brasil. Minerao de Dados um conjunto de tcnicas que

    podem ser utilizadas para extrao de novas informaes em uma base de dados. Desta forma,

    a utilizao de tcnicas de Minerao de Dados pode ajudar na extrao de informaes impor-

    tantes na plataforma Lattes. O presente trabalho apresenta uma ferramenta capaz de extrair

    dados automaticamente de currculos da plataforma Lattes. Alm disso, o principal objetivo

    deste trabalho aplicar tcnicas de Minerao de Dados nas informaes extradas dos cur-

    rculos Lattes dos professores da Escola Politcnica de Pernambuco (POLI). Desta maneira,

    as novas informaes podem ser utilizadas para auxiliar na tomada de decises dos gestores

    da Universidade de Pernambuco com relao a investimentos nos cursos e nos docentes da

    instituio.

  • Abstract

    Nowadays, the Brazilian universities have a dicult task that is to collect the scientic

    production of their researchers. However, this information is widely available on the Internet

    by the Lattes platform - a web-based system developed by the CNPq (Conselho Nacional de

    Desenvolvimento Cientco e Tecnolgico). The Lattes platform aims to help the management

    of science, technology and innovation in Brazil. Data mining is a set of techniques that can

    be used to extract patterns from a database. Thus, some techniques from Data Mining may

    be used to extract useful information inside the Lattes platform. The goal of this research is

    to present a tool to automatically extracts data from Lattes curriculums. Moreover, we used

    some Data Mining techniques to extract hidden information from Lattes curriculums of the

    professors of Polytechnic School of Pernambuco (POLI). This new information can be used to

    guide decision making of investiments in the institution.

  • Agradecimentos

    Primeiramente agradeo a Deus por me dar discernimento e foras para realizar este

    trabalho, pois acredito que sem Ele no conseguiria superar as diculdades enfrentadas ao

    longo deste curso.

    Aos meus pais Edilson e Nadja que sempre me apoiaram e me encorajaram a concluir esta

    graduao. Reconheo todo o esforo que eles zeram para que eu pudesse estudar sem a

    preocupao de ter que trabalhar. Um agradecimento especial ao meu irmo Dyego Carlos

    por todo o apoio, companheirismo e ajuda na realizao deste trabalho, que por muitas vezes

    abdicou de dormir para me ajudar.

    Aos meus avs maternos, Elza e Gabriel, e paternos, Dulcelene e Morais, pelo apoio

    incondicional e sbios conselhos durante toda a minha vida.

    Aos professores do curso de Engenharia da Computao, que sem dvida contriburam para

    o que sou hoje como prossional e ser humano. Em especial agradeo ao professor Carmelo, que

    mesmo com tantas ocupaes sempre esteve disponvel para me oferecer excelente orientao

    durante todo este trabalho.

    E por m, agradeo aos meus colegas de turma, em especial, Carlos Eduardo Buarque,

    Francisco Marinho e Marcos Antonio, pelas muitas madrugadas que dividimos para que os

    inesquecveis projetos desenvolvidos ao longo do curso pudessem ser concludos.

  • Sumrio

    Lista de Figuras p. iv

    Lista de Tabelas p. vi

    Tabela de Smbolos e Siglas p. 7

    1 Introduo p. 1

    1.1 Formulao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . p. 1

    1.2 Estrutura da monograa . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 2

    2 Reviso bibliogrca p. 4

    2.1 Processo KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 4

    2.1.1 Identicao do domnio da aplicao . . . . . . . . . . . . . . . . p. 5

    2.1.2 Seleo dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

    2.1.3 Limpeza e Pr-processamento dos dados . . . . . . . . . . . . . . p. 5

    2.1.4 Transformao dos dados . . . . . . . . . . . . . . . . . . . . . . p. 6

    2.1.5 Minerao de dados . . . . . . . . . . . . . . . . . . . . . . . . . p. 7

    2.1.6 Interpretao e Avaliao dos padres . . . . . . . . . . . . . . . . p. 7

    2.1.7 Utilizao do conhecimento . . . . . . . . . . . . . . . . . . . . . p. 7

    2.2 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 7

    2.3 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9

    2.3.1 Principais fases da clusterizao . . . . . . . . . . . . . . . . . . . p. 9

    2.3.2 Classicao das tcnicas de clusterizao . . . . . . . . . . . . . p. 10

  • 2.3.3 Tipos de dados e medidas de similaridade . . . . . . . . . . . . . . p. 11

    2.3.3.1 Atributos Contnuos . . . . . . . . . . . . . . . . . . . . p. 12

    2.3.3.2 Atributos Binrios . . . . . . . . . . . . . . . . . . . . . p. 13

    2.3.3.3 Atributos Nominais . . . . . . . . . . . . . . . . . . . . p. 14

    2.3.3.4 Atributos Ordinais . . . . . . . . . . . . . . . . . . . . . p. 15

    2.3.3.5 Atributos em escala no linear . . . . . . . . . . . . . . p. 15

    2.3.3.6 Objetos formados por atributos de vrios tipos . . . . . . p. 16

    2.3.4 Algoritmo K-means . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

    2.4 Regras de Associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

    2.4.1 Conceitos e Denies . . . . . . . . . . . . . . . . . . . . . . . . p. 18

    2.4.2 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

    3 Plataforma Lattes e Ferramentas p. 23

    3.1 Plataforma Lattes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

    3.2 Estrutura do currculo Lattes . . . . . . . . . . . . . . . . . . . . . . . . p. 23

    3.3 Ferramenta de Minerao de Dados . . . . . . . . . . . . . . . . . . . . . p. 24

    3.4 Ferramenta de extrao de dados da plataforma Lattes . . . . . . . . . . . p. 26

    4 Estudo de Caso p. 31

    4.1 Caractersticas gerais do estudo . . . . . . . . . . . . . . . . . . . . . . . p. 31

    4.2 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31

    4.3 Regras de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

    5 Concluso p. 40

    Referncias p. 42

  • Lista de Figuras

    1 Etapas do Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

    2 Principais fases da clusterizao. . . . . . . . . . . . . . . . . . . . . . . p. 9

    3 Matriz de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11

    4 Matriz de dissimilaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12

    5 Base de dados com transaes de clientes . . . . . . . . . . . . . . . . . . p. 18

    6 Tabela booleana de itens-transaes . . . . . . . . . . . . . . . . . . . . . p. 18

    7 Tabela de itens-transaes . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

    8 Regra de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

    9 Tela de pr-processamento da ferramenta WEKA. . . . . . . . . . . . . . p. 25

    10 Exemplo de arquivo ARFF. . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

    11 Exemplo de resultados de clusterizao. . . . . . . . . . . . . . . . . . . . p. 26

    12 Exemplo de resultados de regras de associao. . . . . . . . . . . . . . . . p. 27

    13 Arquitetura da ferramenta de extrao. . . . . . . . . . . . . . . . . . . . p. 29

    14 Base de dados no formato ARFF. . . . . . . . . . . . . . . . . . . . . . . p. 30

    15 Experimento com 2 agrupamentos. . . . . . . . . . . . . . . . . . . . . . p. 32

    16 Experimento com 3 agrupamentos. . . . . . . . . . . . . . . . . . . . . . p. 33

    17 Experimento com 4 agrupamentos. . . . . . . . . . . . . . . . . . . . . . p. 34

    18 Experimento com 5 agrupamentos. . . . . . . . . . . . . . . . . . . . . . p. 35

    19 Distribuio dos clusters de acordo com os departamentos. . . . . . . . . . p. 36

    20 Regras de associao que relacionam os atributos publicaes e orientaes. p. 37

    21 Regras de associao que relacionam os atributos departamento e orientaes. p. 38

    22 Regras de associao que relacionam os atributos departamento e publicaes. p. 38

  • 23 Regras de associao que relacionam os atributos departamento e publicaes-

    ComDoi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

    24 Regras de associao que relacionam os atributos departamento e publicaes-

    ComFator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

    25 Regras de associao que relacionam os atributos publicaes e peridicos. p. 39

    26 Regras de associao que relacionam os atributos publicaes e completoAnais. p. 39

    27 Regras de associao que relacionam os atributos publicaes e resumoAnais. p. 39

  • Lista de Tabelas

    1 Tabela de contingncia para atributos binrios . . . . . . . . . . . . . . . p. 14

  • 7Tabela de Smbolos e Siglas

    ARFF - Attribute-Relation File Format

    CNPq - Conselho Nacional de Desenvolvimento Cientco e Tecnolgico

    DOI - Digital Object Identier

    FACEPE - Fundao de Amparo Cincia e Tecnologia do Estado de Pernambuco

    FINEP - Financiadora de Estudos e Projetos

    HTML - HyperText Markup Language

    IC - Iniciao Cientca

    ISSN - International Standard Serial Number

    JCR - Journal Citation Reports

    KDD - Knowledge Discovery in Databases

    LHS - Left Hand Side

    MYSQL - Banco de dados relacional que utiliza a Linguagem de Consulta Estruturada

    (SQL)

    PHP - Hypertext Preprocessor

    POLI - Escola Politcnica de Pernambuco

    RHS - Right Hand Side

    TCC - Trabalho de Concluso de Curso

    URL - Uniform Resource Locator

    WEKA - Waikato Environment for Knowledge Analysis

  • 11 Introduo

    Atualmente, com a facilidade de armazenar dados, as empresas e organizaes possuem reg-

    istros de suas atividades cada vez mais completos. Porm, poucas so as organizaes que

    utilizam esses dados para transform-los em conhecimento til para a sua gesto. Ou seja, as

    empresas e organizaes possuem grande quantidade de dados, mas no fazem processamen-

    tos e anlises desses dados, de forma que sejam produzidas informaes que possam auxiliar

    nas suas tomadas de decises.

    A informao est se tornando cada vez mais a principal matria-prima de grandes orga-

    nizaes, por isso faz-se necessrio a aplicao de processos que acelerem a extrao de infor-

    maes de grandes bases de dados. Neste contexto, o processo KKD (Knowledge Discovery

    in Databases) pode ser utilizado para auxiliar a descoberta de conhecimento til em grandes

    bases de dados [1].

    Uma das principais etapas do processo KDD, a Minerao de Dados, consiste na aplicao

    de algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [2].

    Algumas das mais importantes tarefas descritivas da Minerao de Dados so clusterizao

    e regras de associao. Dada essa natureza, essas tarefas foram selecionadas para serem

    aplicadas neste trabalho. As regras de associao demonstram o quanto a ocorrncia de um

    conjunto de itens implica na ocorrncia de algum outro conjunto distinto de itens nos registros

    de uma mesma base de dados [3]. J a clusterizao pode ser utilizada para agrupar os dados

    de acordo com uma medida de similaridade pr-denida [4], [5], [6].

    1.1 Formulao do Problema

    Atualmente, existe uma diculdade enorme nas universidades brasileiras para aquisio de

    dados sobre a produo cientca do seu corpo docente. Entretanto, a maior parte destes dados

    pode ser encontrada na plataforma Lattes, que um sistema de informao desenvolvido pelo

    CNPq (Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto

  • 1.2 Estrutura da monograa 2

    de cincia, tecnologia e inovao no Brasil [7]. Sendo, portanto, uma rica fonte de informaes

    sobre a produo cientca, tecnolgica e bibliogrca dos pesquisadores do Brasil.

    A utilizao de tcnicas de Minerao de Dados [8] pode auxiliar na extrao de infor-

    maes importantes desta plataforma e, consequentemente, guiar melhores investimentos na

    rea de Cincia & Tecnologia das universidades. Porm, a determinao de padres que so

    realmente teis, ainda requer uma grande interao com analistas humanos, o que torna o

    processo de extrao do conhecimento uma tarefa no trivial.

    Este trabalho visou estudar os conceitos e tcnicas da Minerao de Dados e aplicar o

    conhecimento adquirido para descobrir informaes no explcitas nos currculos Lattes dos

    professores da Escola Politcnica de Pernambuco - POLI. Este trabalho prope a utilizao

    do WEKA (Waikato Environment for Knowledge Analysis), que um software livre com

    implementaes de diversas tcnicas de Minerao de Dados, para auxiliar na extrao do

    conhecimento [9]. Especicamente, este trabalho se concentra em:

    Selecionar dados disponveis na plataforma Lattes referentes produo cientca deprofessores da POLI.

    Projetar e desenvolver uma ferramenta para extrair os dados selecionados da plataformaLattes automaticamente;

    Selecionar tcnicas de Minerao de Dados para serem aplicadas aos dados obtidos;

    Utilizar o WEKA para aplicar as tcnicas selecionadas;

    Analisar e organizar as informaes obtidas, de forma que o conhecimento gerado possaser utilizado por gestores da instituio.

    1.2 Estrutura da monograa

    No captulo 2, apresentada uma reviso bibliogrca que contempla os principais conceitos

    necessrios compreenso deste trabalho.

    No captulo 3, so apresentadas a plataforma Lattes, a ferramenta desenvolvida para

    extrao de dados a partir da plataforma Lattes e a ferramenta de Minerao de Dados

    (WEKA).

    No captulo 4, so descritos o estudo de caso foi realizado e os resultados da aplicao

    dos algoritmos de minerao de dados.

  • 1.2 Estrutura da monograa 3

    O captulo 5 contm as concluses e diculdades encontradas. Alm disso, neste captulo

    so sugeridos trabalhos futuros.

  • 42 Reviso bibliogrca

    Neste captulo so apresentados conceitos e denies que so necessrios compreenso deste

    trabalho. Na seo 2.1, so apresentadas as etapas do processo KDD. A seguir, na seo 2.2,

    apresentado o conceito de Minerao de Dados, bem como suas principais tarefas. Na seo

    2.3, so apresentadas as principais fases da clusterizao, como pr-processar os diferentes tipos

    de dados para a clusterizao e o algoritmo Kmeans. Por m, na seo 2.4, so apresentados

    os principais conceitos acerca de regras de associao e o algoritmo Apriori.

    2.1 Processo KDD

    Historicamente, encontrar padres em dados conhecido por diferentes nomes em diferentes

    comunidades (por exemplo, extrao de conhecimento, descoberta de informao, arqueologia

    de dados, processamento de padres de dados e Minerao de Dados). O termo Minerao

    de Dados muitas vezes utilizado em comunidades de estatsticos, pesquisadores de banco

    de dados, e mais recentemente por gerentes de sistemas de informao. Mas segundo [2]),

    o termo KDD (knowledge-discovery in databases) referencia o processo global de descobrir

    conhecimento til em grandes bases de dados, sendo a Minerao de Dados um passo particular

    desse processo que consiste na execuo de algoritmos de reconhecimento padres em base

    de dados.

    KDD pode ser denido como [1]: O processo no trivial de identicao de padres

    vlidos, inovadores, potencialmente teis e principalmente compreensveis em bases de dados.

    O processo KDD interativo e iterativo, envolvendo numerosos passos com muitas decises

    tomadas pelo analista. Nas prximas sees, so apresentados os passos bsicos que compem

    esse processo, conforme uxograma ilustrado na gura 1.

  • 2.1 Processo KDD 5

    Figura 1: Etapas do Processo KDD.

    2.1.1 Identicao do domnio da aplicao

    Nesse passo realizado um estudo do domnio da aplicao para denir os objetivos e metas a

    serem alcanados com o processo KDD. Esse passo importante, pois para que seja extrada

    informao til dos dados, as pessoas envolvidas no processo KDD devem possuir algum grau

    de conhecimento sobre a rea da aplicao.

    2.1.2 Seleo dos dados

    Os sistemas, normalmente, armazenam vrios atributos de um objeto, mas nem sempre todos

    estes atributos so relevantes para a anlise em questo. Assim, faz-se necessrio uma crite-

    riosa avaliao de quais atributos realmente agregam informaes ao conjunto de dados para

    que esses venham a ser utilizados no processo KDD.

    A qualidade dos dados armazenados muito importante, pois ela determina a qualidade dos

    resultados obtidos, de forma diretamente proporcional. Porm, o processo KDD ainda muito

    dependente da avaliao de analistas humanos e do seu conhecimento sobre a base de dados

    pesquisada, pois caso um atributo que contenha informaes importantes seja desprezado

    nesta fase o resultado poder no ser satisfatrio.

    2.1.3 Limpeza e Pr-processamento dos dados

    No mundo real os dados tendem a ser incompletos, ruidosos e inconsistentes, o que torna

    necessria a aplicao de tcnicas para corrigir essas falhas. A seguir so apresentadas algumas

    das atividades que podem ser realizadas na etapa de limpeza dos dados [10]:

    Valores ausentes. Por vezes, os valores de alguns atributos no esto presentes nasbases, para lidar com esse problema pode-se: ignorar os registros que possuem valores

    ausentes; preencher os valores ausentes manualmente; usar um valor constante, usar o

    valor mdio do atributo ou usar valores estatsticos para preencher os valores ausentes.

  • 2.1 Processo KDD 6

    Valores fora do padro (outliers). Para resolver esse tipo de problema pode-se utilizaruma das seguintes tcnicas: agrupamento, que consiste no agrupamento dos valores

    similares, facilitando a identicao e excluso de valores fora do padro; inspeo

    humana e computador, que consiste em uma inspeo feita por pessoas e computadores

    para identicar e excluir os valores fora do padro; e regresso, na qual os dados podem

    ser ajustados por meio de funes de regresso.

    Dados inconsistentes. Esses erros ocorrem normalmente porque o usurio entra comum dado incorreto, mas pode ocorrer tambm redundncia de dados, ou seja, dados

    que possuem o mesmo valor semntico, mas que foram inseridos com nomes diferentes.

    Uma forma de resolver esse problema por meio da anlise de correlao, que consiste

    na medida de relacionamento entre dois atributos.

    2.1.4 Transformao dos dados

    Por vezes necessrio realizar transformaes nos dados para que os algoritmos de minerao

    possam ser executados, dentre as mais comuns esto:

    Normalizao de atributos. Forma de harmonizar as escalas dos atributos em um pe-queno intervalo especicado.

    Padronizao de atributos. Atributos redundantes devem ser eliminados, utilizando aanlise de correlao para mapear mltiplos atributos para uma simples entidade, por

    exemplo.

    Reduo dos dados.Agregao. Agrega e sumariza os dados. Por exemplo, os dados de vendas dirias

    podem ser agregados de forma a calcular os montantes mensais e anuais.

    Compresso de dados. Mecanismos de codicao so usados para reduzir o tamanho

    do conjunto de dados.

    Reduo da dimensionalidade. Eliminao de atributos irrelevantes tcnica de

    minerao aplicada.

    Reduo numrica. Diminuir o nmero de instncias, por exemplo.

    Projeo de dados. Criao de novos atributos julgados relevantes a partir de outrosatributos existentes.

  • 2.2 Minerao de Dados 7

    2.1.5 Minerao de dados

    Esse o passo onde os padres so descobertos por meio de algoritmos especcos que so

    aplicados vrias vezes at que sejam extradas informaes teis dos dados. Por ser um dos

    passos mais importantes do processo KDD, este passo descrito mais detalhadamente na

    seo 2.2.

    2.1.6 Interpretao e Avaliao dos padres

    Os resultados obtidos pelos algoritmos de minerao devem ser avaliados por analistas para

    que sejam julgados como teis ou no. Os padres que forem considerados teis devem ser

    interpretados de forma que se tornem compreensveis para os usurios nais do sistema.

    O processo KDD considerado iterativo, pois pode ser necessria sua execuo por vrias

    vezes at que, por meio da repetio de qualquer um dos passos anteriores, se obtenha resul-

    tados satisfatrios [1].

    2.1.7 Utilizao do conhecimento

    Nesse passo, o conhecimento extrado consolidado sendo incorporado a um sistema, utilizado

    diretamente pelo usurio nal ou, simplesmente, documentado e relatado s pessoas interes-

    sadas. Os resultados dos passos anteriores devem ainda ser analisados para que possveis

    conitos entre o conhecimento existente e o conhecimento adquirido sejam solucionados [1].

    2.2 Minerao de Dados

    Minerao de Dados um dos principais passos do processo KDD, que consiste na aplicao de

    algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [1].

    Essa uma rea de pesquisa multidisciplinar, que inclui inteligncia computacional, matemtica

    (estatstica) e banco de dados. Um dos grandes desaos da Minerao de Dados propor

    algoritmos que sejam capazes de lidar com escalabilidade e alta dimensionalidade dos dados,

    ou seja, trabalhar com grandes quantidades de dados.

    Segundo [1], o processo de Minerao de Dados possui dois objetivos principais: predio,

    onde a ideia prever o comportamento futuro de algumas variveis da base de dados; e

    descrio, onde a ideia identicar padres que representem a distribuio dos itens de tal

    forma que esses padres sejam passveis de interpretao.

  • 2.2 Minerao de Dados 8

    importante diferenciar o que uma tarefa e o que uma tcnica de Minerao de

    Dados. Uma tarefa est relacionada a o que se pretende buscar nos dados, ou seja, que

    tipo de padres deseja-se encontrar. J uma tcnica, est relacionada a como encontrar os

    padres de interesse. Por exemplo, para o caso de um gasto no carto de crdito de um cliente

    acima do normal, para este caso pode-se denir uma tarefa, que seria deteco de desvios, e

    uma tcnica para resolver o problema, que seria redes neurais, por exemplo [8]. A seguir, so

    apresentadas as principais tarefas da Minerao de Dados, de acordo com o proposto em [1]:

    Classicao - uma tarefa preditiva, que consiste em determinar uma funo que mapeiecada item de uma base dados a uma das classes previamente denidas. Um exemplo de

    classicao identicao de objetos de interesse em grandes bases de imagens.

    Regresso - uma tarefa preditiva, cujo objetivo estimar o valor de uma varivel combase nos valores de outras variveis. Alguns dos exemplos de regresso so: prever o

    PIB de um pas; estimar a probabilidade de um paciente sobreviver, dados os resultados

    de um conjunto de exames; e prever sries temporais.

    Deteco de desvios/anomalias - uma tarefa preditiva, cujo objetivo detectar itensque possuam caractersticas signicativamente diferentes do comportamento normal do

    restante dos dados, como por exemplo deteco de fraudes em cartes de crdito.

    Sumarizao - uma tarefa descritiva, que consiste em denir um conjunto mnimo decaractersticas que seja capaz de identicar um subconjunto de objetos. As tcnicas de

    sumarizao so comumente aplicadas para anlise exploratria de dados e gerao de

    relatrios automatizados.

    Modelo de Dependncia - descreve dependncias signicativas entre os atributos. Essesmodelos existem em dois nveis: estruturado, que especica (geralmente em forma de

    grco) quais variveis so localmente dependentes; e quantitativo, que especica o

    grau de dependncia usando alguma escala numrica.

    Anlise de Sries Temporais - modela caractersticas sequenciais, como dados que pos-suem dependncias no tempo. O objetivo modelar os estados do processo de gerao

    da sequncia, extraindo e relatando os desvios e tendncias no tempo.

    As tarefas de clusterizao e regra de associao, por serem as escolhidas para aplicao

    no estudo de caso deste trabalho, so descritas mais detalhadamente nas sees 2.3 e 2.4,

    respectivamente.

  • 2.3 Clusterizao 9

    Figura 2: Principais fases da clusterizao.

    2.3 Clusterizao

    A clusterizao, tambm conhecida como anlise de cluster, uma tarefa descritiva, cujo

    objetivo encontrar grupos de objetos, tais que, objetos pertencentes a um grupo sejam

    similares entre si e diferentes de objetos que pertencem a outro grupo [4], [5], [6].

    A tarefa de classicao pode ser dividida em classicao supervisionada e classicao

    no supervisionada. Em classicao supervisionada, dada uma coleo de objetos e suas

    classes, o problema classicar um novo objeto para o qual a classe no conhecida. Nor-

    malmente, os objetos classicados so divididos em um conjunto que usado para aprender

    a descrio da classe (treinamento) e outro que usado para testar a informao aprendida.

    No caso da clusterizao (classicao no supervisionada), as classes no so previamente

    conhecidas, de forma que, o problema se torna classicar objetos por meio de alguma medida

    de similaridade de forma que os grupos tenham um signicado relevante.

    2.3.1 Principais fases da clusterizao

    De acordo com [11], a atividade de clusterizao envolve os seguintes passos (gura 2):

    1. Seleo ou extrao de atributos. Seleo de atributos o processo de identicao

    de atributos distintos de um conjunto de atributos candidatos, enquanto a extrao

    de atributos por meio de transformaes atributos gera novos atributos a partir dos

    originais.

    2. Medida de similaridade. A medida de similaridade determina o quanto um objeto similar

    a outro, possibilitando assim, a identicao de qual cluster o objeto deve pertencer.

    Essa medida deve ser especca para o domnio sob o qual est sendo a aplicada a

  • 2.3 Clusterizao 10

    clusterizao. Na seo 2.3.3 so apresentadas algumas das medidas que so comumente

    usadas.

    3. Algoritmo de clusterizao. Atualmente existe uma grande variedade de algoritmos

    de clusterizao, mas no h um algoritmo que possa ser usado para resolver todo e

    qualquer problema. Dessa forma, fundamental analisar o problema para selecionar

    ou desenvolver um algoritmo adequado. Na seo 2.3.2, so apresentados os tipos de

    algoritmos de clusterizao.

    4. Validao dos clusters. Todo algoritmo de clusterizao consegue gerar parties, inde-

    pendente de essas possurem signicado semntico. E, alm disso, algoritmos diferentes

    normalmente agrupam os objetos de forma diferente. Por isso, necessrio que os

    resultados obtidos pelos algoritmos sejam validados por meio de critrios de avaliao

    ecientes. H trs tipos de critrios de validao: os ndices externos, nos quais, os resul-

    tados encontrados pelos algoritmos so comparados com uma estrutura pr-estabelecida;

    os ndices internos, nos quais, os resultados obtidos pelos algoritmos so examinados a

    m de determinar se eles so intrinsecamente apropriados para os dados de entrada; e

    os ndices relativos, que comparam os resultados obtidos por algoritmos diferentes para

    decidir qual melhor representa as caractersticas dos dados.

    5. Interpretao dos resultados. Por m, o resultado dos algoritmos de clusterizao deve

    ser interpretado por especialistas para que sejam atribudos signicados aos clusters de

    forma que o usurio possa compreend-los.

    Como visto na gura 2, a anlise de cluster apresenta um uxo para realimentao, pois

    por vezes so necessrias execues com algoritmos de clusterizao diferentes at que se

    obtenham bons resultados.

    2.3.2 Classicao das tcnicas de clusterizao

    De acordo com [4], [10], os principais tipos de tcnicas de clusterizao podem ser classicados

    em:

    Tcnicas Particionais: o conjunto de clusters no possui interseco de modo que cadaobjeto pertence a exatamente um cluster.

    Tcnicas Hierrquicas: o conjunto de clusters est organizado e aninhado como umarvore.

  • 2.3 Clusterizao 11

    Tcnicas baseadas em densidade: so tcnicas baseadas na noo de densidade, ouseja, um objeto pertence a uma regio densa se na sua vizinhana existem pelo menos

    L objetos, onde L um limiar denido pelo usurio. Nessas tcnicas, diferentemente

    das outras, o nmero de clusters no precisa ser especicado.

    2.3.3 Tipos de dados e medidas de similaridade

    Nesta seo, so apresentados os tipos de dados que normalmente ocorrem em clusterizao,

    como pr-process-los para anlise e algumas das medidas de similaridade mais usadas [10].

    Supondo que um conjunto de dados para ser clusterizado contenha n objetos, os quais

    podem representar pessoas, casas, documentos, pases e outros. Algoritmos de clusterizao

    tipicamente operam sobre as seguintes estruturas de dados:

    Matriz de dados (ou objetos por atributos) - esta estrutura representa n objetos, taiscomo pessoas, com p atributos, tais como altura, peso, idade, sexo e outros. A estrutura

    est na forma de uma tabela relacional, ou matriz np (n objetos p atributos) comomostrado na gura 3.

    Figura 3: Matriz de dados.

    Matriz de dissimilaridade (ou objetos por objetos) - esta estrutura armazena uma coleode proximidades que so avaliadas para todos os pares de n objetos. Ela muitas vezes

    representada por uma matriz n n, conforme pode ser observado na gura 4, na quald(i, j) a diferena ou dissimilaridade medida entre os objetos i e j.

    .

  • 2.3 Clusterizao 12

    Figura 4: Matriz de dissimilaridade.

    2.3.3.1 Atributos Contnuos

    Atributos contnuos so atributos que podem ser relacionados a funes matemticas con-

    tnuas. Exemplos desse tipo de atributo incluem peso, altura, temperatura ambiente e outros.

    As medidas de dissimilaridade mais usadas para esse tipo de atributo so as distncias Eucli-

    diana, Manhattan e Minkowski [10].

    A unidade de medida usada pode afetar a clusterizao, para que isso no ocorra os dados

    devem ser normalizados, ou seja, dar a todos os atributos igual peso. Porm, h casos em

    que pode ser til dar mais importncia a um determinado conjunto de dados, por exemplo,

    quando clusterizando candidatos a jogadores de basquete, pode-se dar mais peso ao atributo

    altura.

    Uma forma de normalizar medidas convertendo as medidas originais em atributos sem

    unidade. Dados os valores medidos para um atributo f , a normalizao pode ser feita da

    seguinte maneira:

    Calcular o desvio absoluto mdio, sf :

    sf =1

    n(| x1f mf | + | x2f mf | + + | xnf mf |), (2.1)

    no qual x1f , , xnf so n medidas de f , e mf o valor mdio de f , ou seja,

    mf =1

    n(x1f + x2f + + xnf ). (2.2)

    Calcular a medida normalizada (escore-z):

    zif =xif mf

    sf. (2.3)

    H outras medidas de disperso robustas, tal como desvio absoluto mediano, mas a van-

    tagem de usar desvio absoluto mdio a facilidade de detectar outliers, pois os escores-z de

  • 2.3 Clusterizao 13

    outliers no se tornam muito pequenos.

    Aps a normalizao (caso seja necessria), deve ser estabelecida uma medida de dis-

    similaridade. Uma das medidas mais usadas a distncia Euclidiana, que pode ser denida

    como:

    d(i, j) =

    (| xi1 xj1 |2 + | xi2 xj2 |2 + + | xip xjp |2), (2.4)

    na qual i = (xi1, xi2, ..., xip) e j = (xj1, xj2, ..., xjp) so dois objetos de dados p-dimensional.

    Outra mtrica bem conhecida a distancia Manhattan, que pode ser dena como:

    d(i, j) =| xi1 xj1 | + | xi2 xj2 | + + | xip xjp | . (2.5)

    A distncia Minkowski uma generalizao das distncias Euclidiana e Manhattan:

    d(i, j) = (| xi1 xj1 |q + | xi2 xj2 |q + + | xip xjp |q)1/q, (2.6)

    na qual q um inteiro positivo. A distncia Minkowski representa a distncia Manhattan

    quando q = 1 e a distncia Euclidiana quando q = 2.

    Se a cada atributo atribudo um peso de acordo com sua importncia, a distncia

    Euclidiana ponderada, por exemplo, pode ser calculada da seguinte maneira:

    d(i, j) =w1 | xi1 xj1 |q +w2 | xi2 xj2 |q + + | xip xjp |2. (2.7)

    O clculo de medidas levando em considerao pesos pode ser realizada utilizando as

    demais distncias tambm, de forma semelhante a mostrada para distancia Euclidiana na

    equao 2.7.

    2.3.3.2 Atributos Binrios

    Uma abordagem para medir a dissimilaridade entre dois atributos binrios calcular a matriz

    de dissimilaridade dos dados. Se todos os atributos binrios possuem os mesmos pesos, tem-se

    a tabela 1, na qual a o nmero de atributos iguais a 1 para ambos os objetos i e j, b o

    nmero de atributos que igual a 1 para i e igual 0 para j, c o nmero de atributos que

    igual 0 para i e igual 1 para j, d o nmero de atributos iguais a 0 para ambos os objetos i

    e j, e p o nmero total de atributos (p = a+ b+ c+ d).

    Um atributo binrio pode ser simtrico ou assimtrico. Ele simtrico quando os dois

    estados possuem o mesmo valor e peso, ou seja, no existe preferncia para atribuir 0 ou 1

  • 2.3 Clusterizao 14

    Tabela 1: Tabela de contingncia para atributos binrios.

    objeto j

    1 0 Soma

    1 a b a+ bobjeto i 0 c d c+ dSoma a+ c b+ d p

    ao atributo. Um exemplo o atributo sexo. A similaridade baseada em atributos binrios

    simtricos chamada similaridade invariante, pois o resultado no muda quando alguns ou

    todos os atributos binrios possuem valores diferentes. Para similaridades invariantes, o mais

    conhecido coeciente o coeciente de casamento simples (simple matching coecient), que

    pode ser denido como:

    d(i, j) =b+ c

    a+ b+ c+ d. (2.8)

    Um atributo binrio assimtrico se os estados no so igualmente importantes, tal como

    o resultado positivo ou negativo de um teste para determinar a presena de uma dada doena.

    Dados dois atributos binrios assimtricos, a ocorrncia de dois 1s (casamento positivo)

    considerado mais importante que dois 0s (casamento negativo). A similaridade baseada em

    atributos binrios assimtricos chamada similaridade no invariante. Para similaridades no

    invariantes, o mais conhecido coeciente o Coeciente de Jaccard, no qual o nmero de

    casamentos negativos, d, no considerado importante, portanto pode ser ignorado no clculo

    do coeciente. O Coeciente de Jaccard pode ser calculado da seguinte maneira:

    d(i, j) =b+ c

    a+ b+ c. (2.9)

    2.3.3.3 Atributos Nominais

    Um atributo nominal uma generalizao de atributos binrios, na qual ele pode possuir mais

    do que dois estados. Por exemplo, um atributo que mapeia a cor dos olhos de uma pessoa

    pode assumir os valores: verde, castanho e azul.

    Os estados um atributo nominal podem ser denotados por letras, smbolos ou um conjunto

    de inteiros, mas os inteiros no representam nenhuma relao de ordem, apenas servem para

    manipular os dados.

    A dissimilaridade entre dois objetos i e j pode ser calculada usando a abordagem de

    casamento simples (simple matching) como mostrado a seguir:

    d(i, j) =pmp

    , (2.10)

  • 2.3 Clusterizao 15

    na qual m o nmero de casamentos (ou seja, nmero de atributos nos quais i e j so iguais)

    e p o nmero total de atributos.

    Atributos nominais podem ser codicados como atributos binrios assimtricos por meio da

    criao de um atributo binrio para cada um dos estados que o atributo nominal possua. Para

    cada atributo nominal do objeto que pertena a um estado, o atributo binrio correspondente

    a este estado mapeado para 1 enquanto o restante dos atributos binrios so mapeados para

    0. Desta maneira os coecientes de clculo de dissimilaridade apresentados para atributos

    binrios podem ser utilizados.

    2.3.3.4 Atributos Ordinais

    Um atributo ordinal discreto lembra um atributo nominal, exceto pelo fato que os M estados

    de um atributo ordinal esto ordenados numa sequncia signicativa. Um exemplo de atributo

    ordinal um atributo cujos valores esto na escala Likert, que uma escala muito usada em

    pesquisas de opinio, ou seja, os atributos podem assumir valores como: muito bom, bom,

    razovel, ruim e muito ruim. Atributos ordinais podem ser obtidos pela discretizao de valores

    de atributos contnuos por meio da diviso da faixa de valores em um nmero nito de classes.

    Supondo que f um conjunto de atributos ordinais descrevendo n objetos. O clculo da

    dissimilaridade de f envolve os seguintes passos:

    O valor de f para o i-simo objeto xif , f possuiMf estados ordenados, representandoo ranking 1, ...,Mf . Substitui-se cada xif por seu elemento correspondente no ranking,

    rif pertence 1, ...,Mf .

    Como cada atributo ordinal pode ter um nmero diferente de estados, necessriomapear a faixa de cada atributo em [0 1] para que cada atributo possua o mesmopeso. Isso pode ser feito substituindo o valor de rif do i-simo objeto no f -simo

    atributo por:

    zif =rif 1Mf 1 . (2.11)

    A dissimilaridade pode ser calculada usando qualquer uma das formas apresentadas paraatributos contnuos, usando zif para representar o valor do atributo f para o objeto i.

    2.3.3.5 Atributos em escala no linear

    Atributos em escala no linear so atributos que expressam uma medida em uma escala no

    linear, como uma escala exponencial, por exemplo. H trs maneiras de calcular dissimilaridade

  • 2.3 Clusterizao 16

    para objetos que possuem esse tipo de atributo:

    Tratar atributos em escala no linear como atributos em escala linear. Porm usualmenteessa no um boa escolha uma vez que a escala pode ser distorcida.

    Aplicar transformaes logartmicas a um atributo em escala no linear f tendo valorxif para o objeto i por meio da frmula yif = log(xif ). Os valores de yif podem ser

    tratados como atributos em escala linear.

    Tratar xif como atributo ordinal e sua posio no raking como atributo contnuo.

    2.3.3.6 Objetos formados por atributos de vrios tipos

    muito comum que objetos sejam descritos por atributos de vrios tipos. Surge, portanto, a

    necessidade de uma forma de medir dissimilaridade para tais objetos.

    Uma abordagem juntar todos os atributos de um determinado tipo e realizar a clus-

    terizao para cada tipo de atributo. Outra abordagem mapear todos os atributos para o

    intervalo [0; 1] e usar medidas como distncia Euclidiana. H vrias outras abordagens, porm

    uma das mais poderosas [12]:

    d(i, j) =

    pf=1,

    fijd

    fijp

    f=1 fij

    , (2.12)

    na qual o indicador fij = 0 se (1) xif ou xjf est faltando (quando o valor do atributo f est

    faltando para o objeto i ou j, por exemplo), ou (2) xif = xjf = 0 e o atributo f binrio

    assimtrico; caso contrrio, fij = 1. A contribuio do atributo f para dissimilaridade entre

    os objetos i e j, dfij, calculada d seguinte maneira:

    1. Se f binrio ou nominal: dfij = 0, se xif = xfi; caso contrrio, dfij = 1.

    2. Se f contnuo: dfij =|xifxjf |

    maxh(xhf )minh(xhf ) , no qual h executa sobre todos os objetos

    que possuem valor para o atributo f .

    3. Se f ordinal ou no escalar: calcula-se o ranking rif e zif =rif1Mf1 , e trata zif como

    atributo contnuo.

    2.3.4 Algoritmo K-means

    O algoritmo k-means um algoritmo particional (os clusters so disjuntos), exclusivo (cada

    objeto pertence a um nico cluster) e baseado em prottipos (cada objeto do cluster est

  • 2.4 Regras de Associao 17

    mais prximo ao prottipo que dene o cluster do que dos prottipos de quaisquer outros

    clusters). O seu funcionamento pode ser descrito pelos seguintes passos [11]:

    1. Atribuir valores iniciais para os centrides (prottipos). Nesse passo, so escolhidos

    os k objetos dentro do banco de dados que sero utilizados como centros dos clusters

    (centrides). Essa escolha pode ser feita de diversas maneiras, dentre elas: selecionar

    as k primeiras entradas; ou selecionar k entradas aleatoriamente.

    2. Associar objetos aos centrides. Nesse passo, cada objeto associado, de acordo com

    a medida de similaridade, ao centride mais prximo.

    3. Recalcular centrides. Nesse passo, para cada cluster recalculado o calor do centride

    a partir da mdia dos objetos pertencentes ao cluster.

    4. Iterao. O algoritmo repete os passos 2 e 3 at que no haja mudana nos centrides

    ou at que relativamente ocorram poucas mudanas nos centrides.

    Para avaliao dos clusters criados pelo algoritmo k-means a medida mais comumente

    usada a soma dos erros quadrados (Sum of Square Error - SSE ), que pode ser calculada de

    acordo com a seguinte equao:

    SSE =Ki=1

    xCi

    dist2(mi, x), (2.13)

    na qual, x representa um objeto pertencente ao cluster Ci, mi representa o centride do

    cluster i e k o nmero de clusters. Uma forma de reduzir o SSE aumentando o nmero

    de clusters.

    2.4 Regras de Associao

    A tcnica de regras de associao uma das tarefas descritivas da Minerao de Dados, que

    demonstra o quanto a ocorrncia de um conjunto de itens implica na ocorrncia de algum outro

    conjunto distinto de itens nos registros de uma mesma base de dados [3]. Desse modo, o obje-

    tivo das regras de associao encontrar itens que ocorrem de forma simultnea e frequente

    em transaes de grandes bases de dados, facilitando a compreenso do comportamento dos

    dados.

    A aplicao mais comum de regras de associao a anlise de transaes de compras,

    por isso, ao longo dessa seo ser utilizado um exemplo de uma pequena base de dados

  • 2.4 Regras de Associao 18

    que armazena compras realizadas por clientes de um supermercado (gura 5). Como pode

    ser observado na gura 5, cada transao da base de dados armazena a relao de produtos

    adquiridos por um cliente especco.

    Figura 5: Base de dados com transaes de clientes.

    2.4.1 Conceitos e Denies

    Nessa seo so apresentados conceitos e denies, que so necessrios compreenso do

    processo de minerao de regras de associao [13].

    O pr-requisito para que a tcnica de regras de associao possa ser aplicada que a

    base de dados esteja no formato de uma tabela booleana de itens-transaes (gura 6)

    ou a uma tabela de itens-transaes (gura 7). A tabela de itens-transaes um caso

    particular da tabela booleana de itens-transaes, onde apenas os itens que possuem valor um

    na tabela booleana de itens-transaes aparecem na tabela de itens-transaes. Dessa forma,

    quando os dados no esto nos formatos apresentados, deve ser realizado o pr-processamento

    dos dados.

    Figura 6: Tabela booleana de itens-transaes.

    Figura 7: Tabela de itens-transaes.

    Uma regra de associao pode ser representada como uma implicao na forma LHS RHS, onde LHS e RHS so conjuntos disjuntos de itens que representam respectivamente,

  • 2.4 Regras de Associao 19

    o lado esquerdo (Left Hand Side) e o lado direito (Right Hand Side) da regra. Um exemplo

    de regra que poderia ser extrada da base de dados da gura 5 {caf, leite} {po}, cujosignicado que clientes que compraram caf e leite tendem a comprar po tambm.

    Ao conjunto de atributos ou itens ordenados lexicogracamente d-se o nome de itemset.

    Um itemset com k elementos costuma ser referenciado como k-itemset. Um exemplo de

    2-itemset {caf, leite}. O suporte de um itemset Z, sup(Z), indica a porcentagem de

    transaes da base de dados que contm os itens de Z, ou seja,

    sup(Z) =n(Z)

    N 100, (2.14)

    onde n(Z) o nmero de transaes nas quais Z ocorre e N o nmero total de transaes

    da base de dados. Por exemplo, o suporte do itemset {caf,leite} de 60% para a base de

    dados mostrada na gura 5.

    J o suporte de uma regra LHS RHS indica a frequncia com que LHS RHSocorre no conjunto de dados, ou seja,

    sup(LHS RHS) = sup(LHS RHS) = n(LHS RHS)N

    100, (2.15)

    onde n(LHS RHS) o nmero de transaes nas quais LHS e RHS ocorrem juntas e N o nmero total de transaes da base de dados. No exemplo 1, mostrado como calcular o

    suporte da regra {caf, leite} {po} para a base de dados apresentada na gura 5.

    Exemplo 1 sup({caf e, leite} {pao}) = n({cafe,leite}{pao})5

    100 = 35 100 = 60%.

    A conana de uma regra LHS RHS, conf(LHS RHS), representa, dentre astransaes que contm LHS, a porcentagem de transaes que tambm contm RHS, ou

    seja,

    conf(LHS RHS) = sup(LHS RHS)/sup(LHS) 100. (2.16)

    No exemplo 2, calculada a conana da regra {caf, leite} {po} para a base apre-sentada na gura 5.

    Exemplo 2 conf(caf e, leite pao) = sup(cafe,leitepao)sup(cafe,leite)

    100 = 6060 100 = 100%.

    Um k-itemset dito frequente quando o seu suporte maior ou igual ao suporte mnimo

    denido pelo usurio.

    De acordo com [3], a tcnica de regras de associao pode ser descrita formalmente da

    seguinte maneira:

  • 2.4 Regras de Associao 20

    Seja I = {i1, i2, ..., in} o conjunto de itens que compem uma base de dados D e To conjunto de transaes da mesma base de dados, cada transao ti T composta porum conjunto de itens tal que ti I. A regra de associao uma implicao na formaLHS RHS, onde LHS I, RHS I e LHS RHS = .

    Dessa forma, o processo de obteno de regras de associao pode ser dividido em duas

    etapas:

    1. Determinar todos os k-itemsets frequentes.

    2. Para cada k-itemset encontrado na etapa anterior, com k >= 2, gerar regras de associ-

    ao (permutaes de subconjuntos) que possuam conana maior ou igual conana

    mnima especicada pelo usurio.

    Para determinar os k-itemsets freqentes o algoritmo comumente utilizado o Apriori,

    que ser apresentado na prxima seo.

    2.4.2 Algoritmo Apriori

    O algoritmo Apriori, desenvolvido por [3], capaz de encontrar todos os itemsets frequentes

    em uma base de dados. Esse algoritmo considera a seguinte propriedade para diminuir o espao

    de busca:

    Propriedade 1 Se um itemset Z no frequente ento para todo itemset A, ZA no serfrequente.

    Inicialmente o algoritmo conta a ocorrncia dos itens, determinando o 1-itemsets fre-

    quentes que so armazenados em L1, onde L1 representa o conjunto de 1-itemsets frequentes.

    Depois de forma iterativa, para encontrar o Lk, o algoritmo constri um conjunto de k-itemsets

    candidatos, Ck, atravs de um join entre os elementos do Lk1. A seguir, ele poda Ck usando

    a propriedade 1 e calcula o suporte dos candidatos que no foram podados. E por m, so

    identicados os k-itemsets frequentes, que so armazenados em Lk. O conjunto que contm

    todos os itemsets frequentes formado pela unio dos conjuntos Lk de k-itemsets frequentes.

    A seguir apresentada, no exemplo 3, a utilizao do algoritmo Apriori para obteno de

    regras de associao.

    Exemplo 3 Aplicao do algoritmo Apriori para obteno de regras de associao na base de

    dados da gura 5, considerando o suporte mnimo 50% e a conana mnima 90%.

  • 2.4 Regras de Associao 21

    1. Determinando todos os k-itensets frequentes;

    - Gera os candidatos a 1-itensets frequentes, C1:

    sup({leite}) = 35 100 = 60%

    sup({cafe}) = 45 100 = 80%

    sup({pao}) = 45 100 = 80%

    sup({biscoito}) = 15 100 = 20%

    sup({manteiga}) = 25 100 = 40%

    sup({queijo}) = 25 100 = 40%

    sup({ovos}) = 25 100 = 40%

    sup({arroz}) = 25 100 = 40%

    sup({feijao}) = 25 100 = 40%Logo, L1 = {{caf e}, {leite}, {pao}}.

    - Gera os candidatos a 2-itensets frequentes, C2:

    sup({cafe, leite}) = 35 100 = 60%

    sup({cafe, pao}) = 35 100 = 60%

    sup({leite, pao}) = 35 100 = 60%Logo, L2 = {{caf e, leite}, {caf e, pao}, {leite, pao}}.

    - Gera os candidatos a 3-itensets frequentes, C3:

    sup({cafe, leite, pao}) = 35 100 = 60%Logo, L3 = {{caf e, leite, pao}}.

    Como L3 s possui um itemset o algoritmo para de iterar, pois no possvel gerar

    candidatos a 4-itemsets.

    2. Gerando regras de associao

    Para gerar as regras deve-se permutar os k-itemsets frequentes (k>=2) e selecionar

    as regras que possuem conana maior ou igual a conana mnima especicada pelo

    usurio. As regras de associao que obedecem as especicaes so as que esto em

    negrito na tabela da gura 8.

  • 2.4 Regras de Associao 22

    Figura 8: Regra de Associao.

  • 23

    3 Plataforma Lattes e Ferramentas

    Neste captulo, so apresentadas a plataforma Lattes e algumas ferramentas que foram uti-

    lizadas na realizao deste trabalho. A seo 3.1 apresenta a plataforma Lattes e seus com-

    ponentes. A seguir, na seo 3.2, apresentada a estrutura do sistema de currculos Lattes.

    Na seo 3.3, apresentada a ferramenta utilizada apra realizar as tarefas de Minerao de

    Dados. Por m, na seo 3.4, apresentada uma ferramenta de extrao e estruturao dos

    dados obtidos a partir da plataforma Lattes.

    3.1 Plataforma Lattes

    A Plataforma Lattes um sistema de informao desenvolvido pelo CNPq (Conselho Nacional

    de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto de cincia, tecnologia e

    inovao no Brasil [14]. Essa foi lanada em 16 de agosto de 1999, com a verso inicial do

    sistema de currculos Lattes.

    A plataforma composta pela integrao de quatro sistemas distintos: currculo Lattes,

    que um sistema de informao responsvel por registrar a vida curricular pregressa e atual

    dos pesquisadores; diretrio de grupos de pesquisa, que um sistema responsvel por manter

    informaes sobre os grupos de pesquisa existentes no pas; diretrio de instituies, cujo

    objetivo armazenar informaes sobre os institutos de pesquisa, universidades e outros, que

    demandam fomento ao CNPq; e sistema gerencial de fomento, cujo objetivo aumentar a

    qualidade das atividades de fomento do CNPq.

    3.2 Estrutura do currculo Lattes

    O currculo Lattes est estruturado de forma hierrquica, os nveis mais altos da hierarquia

    so:

    Apresentao: mdulo inicial do sistema, composto por um resumo do currculo do

  • 3.3 Ferramenta de Minerao de Dados 24

    usurio e a data da ltima atualizao do currculo;

    Dados Gerais: este mdulo agrupa dados de identicao, endereos, formao aca-dmica e complementar, atuao prossional, reas de atuao e outros;

    Produo bibliogrca: concentra toda a produo bibliogrca tais como artigoscompletos, livros, textos em jornais e outros;

    Produo tcnica: agrupa informaes sobre a produo tcnica do pesquisador taiscomo softwares, produtos, trabalhos tcnicos e outros;

    Orientaes: mdulo destinado a todas as orientaes ou supervises (concludas ouem andamento);

    Projetos: neste mdulo so encontrados os projetos do pesquisador;

    Eventos: contm informaes relacionadas a eventos que o pesquisador organizou oupaticipou;

    Bancas: contm informaes relacionadas a bancas e comisses julgadoras;

    Citaes: reune indicadores de referncias de outros pesquisadores aos trabalhos pub-licados do pesquisador.

    3.3 Ferramenta de Minerao de Dados

    Para realizao das tarefas de Minerao de Dados neste trabalho foi utilizada uma fer-

    ramenta de cdigo aberto chamada WEKA (Waikato Environment for Knowledge Analysis).

    Essa ferramenta foi desenvolvida na Universidade de Waikato na Nova Zelndia e possui im-

    plementaes de vrios algoritmos de Minerao de Dados [9].

    A interface grca do WEKA amigvel, porm importante destacar os principais el-

    ementos. A Figura 9 apresenta a tela de pr-processamento da ferramenta destacando os

    principais elementos:

    (a) Esse boto permite a seleo de bases de dados no formato ARFF (Attribute-RelationFile Format);

    (b) Nessa rea podem ser selecionados algoritmos para pr-processar os dados (discretizaratributos, por exemplo);

  • 3.3 Ferramenta de Minerao de Dados 25

    (c) Nessa rea so apresentados os atributos da base de dados;

    (d) Apresenta informaes quantitativas e estatsticas sobre o atributo selecionado narea Atribute.

    Figura 9: Tela de pr-processamento da ferramenta WEKA.

    A ferramenta WEKA recebe como entrada arquivos no formato ARFF, que so compostos

    por 3 elementos (Figura 10): (a) relation, que dene um nome para a relao estudada; (b)

    atribute, onde so especicados os atributos que compem a base de dados; e (c) data, que

    contempla os dados separados por vrgulas [15].

    Figura 10: Exemplo de arquivo ARFF.

    Neste trabalho so estudados clusterizao e regras de associao, por isso necessrio

  • 3.4 Ferramenta de extrao de dados da plataforma Lattes 26

    compreender como o WEKA apresenta os resultados dessas tarefas. A Figura 11 apresenta um

    exemplo de resultados do WEKA para clusterizao, destacando-se os principais elementos:

    (a) Apresenta os centrides de cada cluster e dos dados completos;

    (b) Apresenta a distribuio dos objetos entre os clusters de acordo com o atributoclasse escolhido.

    Figura 11: Exemplo de resultados de clusterizao.

    A Figura 12 apresenta um exemplo de resultados gerados pelo WEKA quando a tarefa de

    regras de associao realizada, destacando-se os principais elementos:

    (a) As regras so ordenadas pela conana.

    (b) Os valores depois de antecedentes e consequentes das regras representam o nmerode suas respectivas ocorrncias.

    3.4 Ferramenta de extrao de dados da plataforma

    Lattes

    As tcnicas de Minerao de Dados selecionadas para serem estudadas neste trabalho devem

    ser aplicadas sobre dados estruturados, como na internet os dados esto na forma textual

  • 3.4 Ferramenta de extrao de dados da plataforma Lattes 27

    Figura 12: Exemplo de resultados de regras de associao.

    houve a necessidade da construo de uma ferramenta para extrao e estruturao dos dados

    da Plataforma Lattes. Portanto, foi desenvolvida uma ferramenta que obtm os dados dos

    currculos e transforma-os em um banco de dados. Nesta seo descrito o funcionamento

    dessa ferramenta e a forma como os dados foram organizados aps a extrao.

    A ferramenta foi desenvolvida utilizando PHP (Hypertext Preprocessor) [16], que uma

    linguagem de programao muito usada em pginas dinmicas da web, e o sistema de geren-

    ciamento de banco de dados relacional MYSQL [17]. Os principais dados selecionados dos

    currculos dos pesquisadores so:

    id - Atributo que identica individualmente cada professor;

    peridicos - Nmero de artigos completos publicados em peridicos;

    periodicosComFator - nmero de artigos completos publicados em peridicos que pos-suem fator de impacto. O fator de impacto uma avaliao feita pela JCR (Journal

    Citation Reports) [18] para medir o desempenho de um jornal com relao a outros da

    mesma rea;

    livros - nmero de captulos de livro publicados;

    jornais - nmero de textos em jornais de noticiais/revistas;

    completoAnais - nmero de trabalhos completos publicados em anais de congressos;

    resumoAnais - nmero de resumos publicados em anais de congresso;

    expandidosAnais - nmero de resumos expandidos publicados em anais de congresso;

    publicaesComDoi - nmero de publicaes que possuem DOI (Digital Object Identi-er), que permite localizar e acessar materiais na web - especialmente, publicaes em

    peridicos e obras protegidas por copyright;

    publicaes - atributo projetado a partir da soma de peridicos, livros, jornais, comple-tosAnais, resumoAnais e expandidosAnais;

  • 3.4 Ferramenta de extrao de dados da plataforma Lattes 28

    oriMSC - nmero de orientaes de mestrado;

    oriPHD - nmero de orientaes de doutorado;

    oriESP - nmero de orientaes de especializao;

    oriTCC - nmero de orientaes de trabalho de concluso de curso;

    oriIC - nmero de orientaes de iniciao cientca;

    oriOutras - nmero de outras orientaes;

    orientacoes - atributo projetado a partir da soma de oriMSC, oriPHD, oriESP, oriTCC,oriIC e oriOutras;

    bancaEX - nmero de participaes em bancas examinadoras;

    bancaJUL - nmero de participaes em bancas julgadoras;

    projetoCnpq - nmero de projetos nanciados pelo CNPQ;

    projetoFacepe - nmero de projetos nanciados pela FACEPE(Fundao de Amparo Cincia e Tecnologia do Estado de Pernambuco);

    projetoFinep - nmero de projetos nanciados pelo FINEP(Financiadora de Estudos eProjetos);

    atvDirecao - nmero de atividades de direo;

    atvEnsino - nmero de atividades de ensino;

    atvProjeto - nmero de atividades de projeto;

    atvPesquisa - nmero de atividades de pesquisa;

    departamento - departamento ao qual o professor pertence (bsico, computao, civil,eltrica, mecnica);

    atualizao - nmero de dias decorridos desde a ltima atualizao.

  • 3.4 Ferramenta de extrao de dados da plataforma Lattes 29

    A arquitetura da ferramenta composta por 3 componentes (gura 13):

    Figura 13: Arquitetura da ferramenta de extrao.

    Aquisio de currculo. A tarefa inicial realizada pela ferramenta a obteno docontedo dos currculos Lattes dos professores pesquisadores da Escola Politcnica de

    Pernambuco no formato HTML (HyperText Markup Language) utilizando o endereo

    eletrnico (URL - Uniform Resource Locator) dos currculos.

    Extrao de dados. As informaes necessrias criao da base de dados so extra-das do texto HTML, por meio de funes PHP que reconhecem expresses regulares

    (padres) em strings. O texto semi-estruturado em HTML facilitou o estabelecimento

    dos padres, uma vez que as tags puderam ser utilizadas como delimitadores para iden-

    ticao dos dados de interesse.

    Estruturao dos dados. Por m, os dados extrados so armazenados em um arquivoARFF (gura 14).

  • 3.4 Ferramenta de extrao de dados da plataforma Lattes 30

    Figura 14: Base de dados no formato ARFF.

  • 31

    4 Estudo de Caso

    Neste captulo apresentado como foram realizadas as tarefas de clusterizao e regras de

    associao, bem como a anlise dos resultados provenientes dessas tarefas. Na seo 4.1, so

    apresentadas caractersticas gerais sobre o estudo. A seguir, na seo 4.2, so apresentados

    os experimentos de clusterizao. E por m, na seo 4.3, so apresentados os experimentos

    realizados usando regras de associao.

    4.1 Caractersticas gerais do estudo

    Os experimentos foram realizados com 129 professores, do quadro efetivo da Escola Politcnica

    de Pernambuco (POLI) e esto divididos em 5 grupos: bsico, mecnica, eltrica, civil e

    computao. Os professores esto distribudos da seguinte maneira: 34 no bsico, 21 em

    mecnica, 31 em eltrica, 30 em civil e 13 em computao.

    Os nomes e cursos dos professores foram obtidos junto ao setor de recursos humanos da

    POLI, de forma que a partir dos nomes dos professores, os endereos eletrnicos dos seus

    currculos Lattes puderam ser adquiridos e utilizados como entrada para a ferramenta de

    extrao apresentada no captulo 3.

    Os dados dos currculos Lattes dos professores foram extrados no dia 28 de outubro de

    2010. Para realizar a Minerao de Dados foi utilizada uma ferramenta WEKA apresentada

    no captulo 4.

    4.2 Clusterizao

    A tarefa de clusterizao foi executada com vrias conguraes, mas em todas foi utilizado

    o algoritmo K-means juntamente com a distncia Euclidiana, para medir a similaridade entre

    os objetos.

    O primeiro experimento foi realizado com 2 clusters. Nesse caso, o algoritmo separou os

  • 4.2 Clusterizao 32

    professores que possuem boa produo cientca (cluster 1 - 14 professores) dos que possuem

    pouca produo cientca (cluster 0 - 115 professores), conforme pode ser observado na gura

    15. Uma caracterstica que pode ser observada que os professores pertencentes ao cluster

    1 em mdia atualizaram seus currculos h menos de 3 meses, j os professores pertencentes

    ao cluster 0 em mdia atualizaram seus currculos h mais de 2 anos. Outra caracterstica

    que pode ser observada que embora o cluster 1 tenha agrupado professores com nmero

    de publicaes elevadas (em mdia 113 publicaes), poucas publicaes possuem DOI (em

    mdia 6 publicaes).

    Figura 15: Experimento com 2 agrupamentos.

    O segundo experimento que foi realizado visou separar os professores em 3 clusters. Nesse

    caso o algoritmo separou professores com pouca (cluster 0 - 24 professores), razovel (cluster

    2 - 91 professores) e boa (cluster 1 - 14 professores) produo cientca, conforme pode ser ob-

    servado na gura 16. Os professores pertencentes ao cluster 1 so os mesmos que pertenciam

    ao cluster 1 no experimento anterior, de forma que com o aumento de uma unidade no nmero

    de clusters, o algoritmo separou melhor o grupo de professores que possuam pouca produo

    cientca. Desta forma, o cluster 0 agrupa os professores que possuem pouca produo cien-

    tca, orientaes, projetos e atividades. J o cluster 2 agrupa os professores que possuem

    algumas publicaes em anais de congresso (em mdia 12 publicaes) e orientaes de TCC

    e IC. Alm disso, os professores do cluster 2 que possuem atividades de ensino cadastradas,

  • 4.2 Clusterizao 33

    j participaram de algumas bancas examinadoras (em mdia 6,6 bancas) e atualizaram seus

    currculos h menos de 1 ano.

    Figura 16: Experimento com 3 agrupamentos.

    O terceiro experimento foi realizado com 4 clusters. Nesse caso o algoritmo agrupou

    professores com muita produo no cluster 3 (12 professores), os que produzem razoavelmente

    no cluster 1 (23 professores), os que produzem pouco no cluster 2 (71 professores) e os que

    produzem muito pouco no cluster 0 (23 professores), como pode ser observado na gura 17.

    Juntando os professores dos clusters 3 e 1, pode-se notar que aproximadamente 25 professores

    possuem produo relevante e os demais possuem produo inexpressiva.

    O quarto experimento foi realizado com 5 clusters. Nesse caso o algoritmo estraticou

    os dados da seguinte maneira: cluster 0, professores que no possuem, a princpio, o vis de

    pesquisa; cluster 1, professores que possuem algumas pesquisas (em mdia 23 publicaes),

    orientam (em mdia 27 orientaes) e participaram de algumas bancas examinadoras (em

    mdia 18 bancas) e julgadoras (em mdia 3,4 bancas); cluster 2, onde esto agrupados a

    maioria dos professores (57% do total), e caracterizado por professores que possuem poucas

    publicaes (em mdia 11 publicaes); cluster 3, que possui professores com perl parecido

    com os do cluster 1, com a diferena de que os pertencentes ao cluster 3 possuem mais publi-

    caes (em mdia 42 publicaes) e menos orientaes (em mdia 21); cluster 4, professores

    que produzem bastante em pesquisa (em mdia 123 publicaes), orientam muitos alunos (em

  • 4.2 Clusterizao 34

    Figura 17: Experimento com 4 agrupamentos.

    mdia 91 orientaes), participam de muitas bancas examinadoras (em mdia 61,6 bancas)

    e julgadoras (em mdia 8,5 bancas) e participam de muitas atividades de ensino, pesquisa,

    projeto e direo (gura 18). Embora os professores pertencentes ao cluster 4 possuam um

    elevado nmero de publicaes, na mdia eles possuem menos publicaes com fator de im-

    pacto do que os professores pertencentes ao cluster 3 e tambm menos projetos nanciados

    pelo CNPQ.

    Conforme pode ser visto na gura 19, os departamentos de eltrica, mecnica e bsico

    possuem poucos professores com perl de pesquisador. J nos departamentos de civil e com-

    putao, pode-se notar uma maior distribuio dos professores entre os diferentes pers. Alm

    disso, pode-se destacar que o departamento de mecnica praticamente no possui professores

    com o perl de pesquisador, e o departamento de civil possui aproximadamente 12 profes-

    sores com esse perl (levando em considerao os professores de civil dos clusters 1, 3 e 4 do

    experimento 4). Embora os professores do curso de civil possuam o maior nmero absoluto

    de professores com perl de pesquisador, esse curso tambm possui um grande nmero de

    professores que aparentemente no apresentam vis de pesquisa (18 professores levando em

    considerao os clusters 0 e 2 do experimento 4). Outra caracterstica observada nos exper-

    imentos 2, 3 e 4 que o departamento de computao no possui professores sem vis de

    pesquisa e, alm disso, mais de metade dos seus professores possuem boa produo cientca

  • 4.2 Clusterizao 35

    Figura 18: Experimento com 5 agrupamentos.

    (levando em considerao os professores de computao dos clusters 1, 3 e 4 do experimento 4

    e dos clusters 1 e 3 do experimento 3). O experimento 1 mostra que o nmero de professores

    com muitas pesquisas relevantes igual a 14, uma vez que ele separou professores com elevado

    nmero de publicaes (cluster 1) dos demais professores (cluster 0).

  • 4.2 Clusterizao 36

    Figura 19: Distribuio dos clusters de acordo com os departamentos.

  • 4.3 Regras de associao 37

    4.3 Regras de associao

    A tarefa de regras de associao tambm foi analisada neste trabalho, com o objetivo de obter

    relacionamentos entre os atributos dos professores. Para realizao desta tarefa foi utilizado o

    algoritmo Apriori. Porm, para que esse algoritmo pudesse ser aplicado zeram-se necessrios

    alguns pr-processamentos dos dados, uma vez que a maioria dos atributos selecionados neste

    trabalho numrica e o algoritmo s funciona com dados nominais.

    A ferramentaWEKA possui vrios algoritmos para pr-processamento dos dados, de forma

    que para este trabalho foram utilizados dois algoritmos no-supervisionados: discretize, para

    discretizar os dados em intervalos; e numeric-to-nominal, para transformar os dados de numri-

    cos para nominais.

    Aps a realizao de vrios testes alterando os valores do suporte mnimo e da conana do

    algoritmo e os atributos de entrada, os resultados apresentaram algumas regras interessantes.

    Os experimentos que apresentaram melhores resultados foram executados com o parmetro

    conana mnima igual 0,7, sendo esses os experimentos que so descritos a seguir.

    Um primeiro experimento com os atributos publicaes e orientaes produziu as regras

    apresentadas na gura 20, que indicam um forte relacionamento entre o atributo publicaes e

    o atributo orientaes, como pode ser visto se um professor possui poucas publicaes (inferior

    a 24 na regra 1 e entre 24 e 48 na regra 2) implica que possui poucas orientaes tambm

    (com uma conana de 0,99 na regra 1 e 0,83 na regra 2).

    Figura 20: Regras de associao que relacionam os atributos publicaes e orientaes.

    O segundo e terceiro experimentos foram realizados selecionando os atributos departa-

    mento e orientaes (gura 21) e departamento e publicaes (gura 22), respectivamente.

    Estas regras extradas mostram um relacionamento entre os departamentos e as publicaes

    e orientaes de um professor. Assim como nos resultados apresentados na tarefa de clus-

    terizao, estas regras indicam que os professores dos departamentos de eltrica, mecnica

    e bsico possuem poucas publicaes e orientaes, pois estas regras com conana maior

    que 0,8 mostram que se o departamento ao qual o professor pertence mecnica, bsico ou

    eltrica implica que seu nmero de publicaes inferior a 24,7 e seu nmero de orientaes

    inferior a 24.

  • 4.3 Regras de associao 38

    Figura 21: Regras de associao que relacionam os atributos departamento e orientaes.

    Figura 22: Regras de associao que relacionam os atributos departamento e publicaes.

    O quarto experimento foi realizado com os atributos departamento e publicacoesComDoi

    (gura 23). Dentre as regras extradas pode-se destacar a primeira, que relaciona os professores

    do departamento de civil com poucas publicaes com DOI (inferior a 4,2 publicaes), ou

    seja, embora possa ser constatado nos resultados da tarefa de clusterizao que tais professores

    possuem muitas publicaes, poucas possuem DOI.

    Figura 23: Regras de associao que relacionam os atributos departamento e publicaes-

    ComDoi.

    O quinto experimento foi realizado com os atributos departamento e publicacoesComFator

    (gura 24). Assim como no terceiro experimento, pode-se destacar a segunda regra, que

    relaciona os professores do departamento de civil com poucos peridicos com fator de impacto

    (inferior a 2 peridicos).

    Figura 24: Regras de associao que relacionam os atributos departamento e publicaes-

    ComFator.

    O sexto, stimo e oitavo experimentos foram realizados utilizando os atributos publicaes

    e peridicos (gura 25), publicaes e completosAnais (gura 26) e publicaes e resumoAnais

    (gura 27), respectivamente. As regras extradas por estes experimentos mostram que artigos

    publicados em peridicos, trabalhos completos e resumos publicados em anais de congressos

    inuenciam muito o nmero de publicaes gerais de um professor, pois com regras com

  • 4.3 Regras de associao 39

    conana acima de 0,78 pode ser observado que quando o nmero de publicaes inferior

    a 24 o nmero de artigos publicados em peridicos inferior a 2,6, o nmero de trabalhos

    completos publicados em anais de congresso inferior a 12,9 e o nmero de resumos publicados

    em anais de congresso inferior a 13,6.

    Figura 25: Regras de associao que relacionam os atributos publicaes e peridicos.

    Figura 26: Regras de associao que relacionam os atributos publicaes e completoAnais.

    Figura 27: Regras de associao que relacionam os atributos publicaes e resumoAnais.

  • 40

    5 Concluso

    Este trabalho apresentou uma ferramenta, desenvolvida na linguagem PHP, cujo objetivo

    bsico extrair dados automaticamente de currculos da plataforma Lattes. Ainda neste tra-

    balho, so aplicadas tcnicas de Minerao de Dados aos dados extrados por essa ferramenta,

    produzindo informaes teis coordenao de pesquisa da Escola Politcnica de Pernambuco.

    O trabalho apresenta importantes anlises da produo cientica dos professores da POLI,

    por meio da aplicao de algoritmos Minerao de Dados implementados pelo WEKA, clus-

    terizao e regras de associao. Os experimentos apresentam uma importante contribuio

    em termos de quais aspectos so caractersticos a pers tanto de professores com pesquisas

    relevantes, quanto a pers de professores aparentemente sem vis de pesquisa.

    Uma caracterstica que pode ser observada que os professores que possuem vis de

    pesquisa procuram manter seus currculos atualizados (em mdia atualizaram seus currculos

    h menos de 3 meses), j os professores sem aparente vis de pesquisa em mdia atualizaram

    seus currculos h mais de 2 anos.

    Alm disso, pode-se concluir que os cursos de eltrica, mecnica e bsico possuem poucos

    professores com perl de pesquisador. J nos cursos de civil e computao, pode-se notar uma

    maior distribuio dos professores entre os diferentes pers. Tambm pode-se destacar que o

    curso de mecnica praticamente no possui professores com o perl de pesquisador e o curso

    de civil possui aproximadamente 12 professores com esse perl. No entanto, os professores do

    curso de civil possuem poucas publicaes com doi e poucos peridicos com fator de impacto.

    Outra caracterstica importante que pode ser extrada que o curso de computao no possui

    professores no perl que agrupa professores sem vis de pesquisa.

    Outra informao importante extrada indica um forte relacionamento entre o atributo

    publicaes e o atributo orientaes, isso pode ocorrer porque publicaes normalmente so

    produzidas em conjunto com alunos orientados. Ou seja, o incentivo a orientaes, como

    bolsas de iniciao cientca e mestrado, podem resultar em mais publicaes relevantes para

    instituio.

  • 5 Concluso 41

    Dentre as diculdades encontradas durante o desenvolvimento deste trabalho algumas

    devem ser destacadas. O desenvolvimento da ferramenta de extrao concentrou as maiores

    diculdades encontradas, devido a falta de padronizao dos dados na plataforma Lattes, uma

    vez que os dados podem ser inseridos nos currculos Lattes de forma subjetiva, ou seja, cada

    pesquisador pode colocar um mesma informao de vrias formas diferentes. Outra diculdade

    foi encontrada para acessar o fator de impacto das publicaes cadastradas nos currculos

    Lattes, pois necessrio passar por um processo de autenticao, o que impossibilitaria a

    automao da ferramenta de extrao desenvolvida. Para resolver este problema, o acesso a

    esta informao foi feito colocando o ISSN (International Standard Serial Number - utilizado

    para individualizar o ttulo de uma publicao seriada) na URL da plataforma Lattes que

    realiza a busca desta informao no portal ISI Web of Knowledge, pois como os servidores

    da plataforma Lattes possuem cadastro neste portal, desta forma no se faz necessria a

    autenticao no sistema.

    Como trabalho futuro sugere-se a realizao de outras tarefas de Minerao de Dados,

    tais como aplicaes de redes neurais para fazer previses da produo cientca da POLI de

    acordo com informaes de anos anteriores. Outro trabalho futuro sugerido ampliar o escopo

    da pesquisa e realizar um estudo com os professores de todas as unidades que compem a

    Universidade de Pernambuco.

  • 42

    Referncias

    [1] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge

    discovery in databases. AI Magazine, v. 17, p. 3754, 1996.

    [2] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting

    useful knowledge from volumes of data. Communications of the ACM, v. 39, p. 2734,

    1996.

    [3] AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. Proceedings

    20th International Conference Very Large Data Bases, VLDB, p. 487499, 1994.

    [4] BERKHIN, P. Survey Of Clustering Data Mining Techniques. San Jose, CA, 2002.

    Disponvel em: . Acesso

    em: 18 de setembro de 2010.

    [5] XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neural net-

    works, v. 16, p. 645678, 2005.

    [6] JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice Hall, 1988.

    [7] LATTES. Plataforma Lattes. Disponvel em: . Acesso em: 15 de

    outubro de 2010.

    [8] AMO, S. D. Tcnicas de Minerao de Dados. [S.l.], 2004.

    [9] HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations, v. 11,

    2009.

    [10] HAN, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Morgan Kaufmann,

    2006.

    [11] JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: A review. ACM computing

    surveys (CSUR), v. 31, 1999.

    [12] GOWER, J. C. A general coecient of similarity and some of its properties. Biometrics,

    v. 27, p. 857871, 1971.

    [13] AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of

    items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference

    on Management of Data, ACM, p. 207216, 1993.

    [14] CNPQ. Conselho Nacional de Desenvolvimento Cientco e Tecnolgico. Disponvel em:

    . Acesso em: 15 de outubro de 2010.

  • Referncias 43

    [15] ARFF. Attribute Relation File Format. Disponvel em:

    . Acesso em: 15 de outubro de

    2010.

    [16] PHP. Disponvel em: . Acesso em: 18 de setembro de 2010.

    [17] MYSQL. Disponvel em: . Acesso em: 18 de setembro de 2010.

    [18] JCR. Journal Citation Reports. Disponvel em: . Acesso em: 15 de out-

    ubro de 2010.