projetos de descobertas de conhecimento em banco de dados e mineração de dados

Projetos de descobertas de Projetos de descobertas de conhecimento em banco de dados e conhecimento em banco de dados e

mineração de dadosmineração de dados

Jacques Robin, Francisco de Assis e Paulo Adeodato

CIn-UFPE

Mineração do CNCTMineração do CNCT

BD: Cadastro Nacional de Competência em ciência e Tecnologia

Dados: • atributos sobre profissionais de C&T no Brasil

(demográficos, formação, carreira, produção, ...)• já selecionados e preparados para aplicar algoritmos de

aprendizagem na área ~learning acessível via nsu learning Tarefa:

• classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT

• produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos)

• prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)

Mineração do CNCTMineração do CNCT

Objetivo da mineração: • descobrir fatores contribuindo a produtividade ou

improdutividade dos pesquisadores • comparar precisão da classificação obtida com vários métodos

de aprendizagem (ID3, ILP, MLP, BN) Estado do projeto:

• 2a iteração no processo de KDD• informação sobre 1a iteração em:

~compint/aulas-IAS/kdd-991/primCNCT.ppt ~compint/aulas-IAS/kdd-991/questCNCT.ppt ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt

• 2 modificações em comparação da 1a iteração: usar agrupamento estatístico (S+) para definir classes alvos de

produtividade tamanho comparáveis ponderar o calculo da produtividade não apenas em função do típo de

publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)

Mineração do ProDocMineração do ProDoc

Mesma tarefa do que Mineração do CNCT Com BD do ProDoc Prodoc x CNCT:

• 1a iteração• Dados nem selecionados, nem preparados• Atributos usados para classificação a definir• Formula do índice de produtividade a definir• Mais atributos disponíveis• Menos campos nulos• Possibilidades de descobrir regras mais interessantes

Data mart de estatísticas da RoboCupData mart de estatísticas da RoboCup

Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file)

Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria

Passos do projeto:1. Geração dos dados

criar log file fazendo rodar o SoccerServer com time do CIn ou com times da RoboCup cujo código é disponível na web ou baixar log files disponíveis na web

2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC)

3. Modelagem multidimensional dos dados e criação do cubo CREATE do MDX

4. Carga de dados do BD relacional para o cubo OLAP INSERT do MDX

5. Consultas analíticas SELECT FROM WHERE do MDX

Data mart de estatísticas de acesso ao Data mart de estatísticas de acesso ao CInCIn

Dados: informações do arquivos de log do servidor web do CIn Objetivos do OLAP: descobrir padrões de acesso ás páginas

do cite do CIn Passos do projeto:

1. Geração dos dados usar arquivos log antigos arquivados gerar durante uns semanas arquivos de log com informação mais rica

obtida com configuração especial do servidor web do CIn

2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup

projetos de descobertas de conhecimento em banco de dados e mineração de dados

Documents