projetos de descobertas de conhecimento em banco de dados e mineração de dados
DESCRIPTION
Projetos de descobertas de conhecimento em banco de dados e mineração de dados. Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE. Mineração do CNCT. BD : Cadastro Nacional de Competência em ciência e Tecnologia Dados : - PowerPoint PPT PresentationTRANSCRIPT
Projetos de descobertas de Projetos de descobertas de conhecimento em banco de dados e conhecimento em banco de dados e
mineração de dadosmineração de dados
Jacques Robin, Francisco de Assis e Paulo Adeodato
CIn-UFPE
Mineração do CNCTMineração do CNCT
BD: Cadastro Nacional de Competência em ciência e Tecnologia
Dados: • atributos sobre profissionais de C&T no Brasil
(demográficos, formação, carreira, produção, ...)• já selecionados e preparados para aplicar algoritmos de
aprendizagem na área ~learning acessível via nsu learning Tarefa:
• classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT
• produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos)
• prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)
Mineração do CNCTMineração do CNCT
Objetivo da mineração: • descobrir fatores contribuindo a produtividade ou
improdutividade dos pesquisadores • comparar precisão da classificação obtida com vários métodos
de aprendizagem (ID3, ILP, MLP, BN) Estado do projeto:
• 2a iteração no processo de KDD• informação sobre 1a iteração em:
~compint/aulas-IAS/kdd-991/primCNCT.ppt ~compint/aulas-IAS/kdd-991/questCNCT.ppt ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt
• 2 modificações em comparação da 1a iteração: usar agrupamento estatístico (S+) para definir classes alvos de
produtividade tamanho comparáveis ponderar o calculo da produtividade não apenas em função do típo de
publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)
Mineração do ProDocMineração do ProDoc
Mesma tarefa do que Mineração do CNCT Com BD do ProDoc Prodoc x CNCT:
• 1a iteração• Dados nem selecionados, nem preparados• Atributos usados para classificação a definir• Formula do índice de produtividade a definir• Mais atributos disponíveis• Menos campos nulos• Possibilidades de descobrir regras mais interessantes
Data mart de estatísticas da RoboCupData mart de estatísticas da RoboCup
Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file)
Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria
Passos do projeto:1. Geração dos dados
criar log file fazendo rodar o SoccerServer com time do CIn ou com times da RoboCup cujo código é disponível na web ou baixar log files disponíveis na web
2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC)
3. Modelagem multidimensional dos dados e criação do cubo CREATE do MDX
4. Carga de dados do BD relacional para o cubo OLAP INSERT do MDX
5. Consultas analíticas SELECT FROM WHERE do MDX
Data mart de estatísticas de acesso ao Data mart de estatísticas de acesso ao CInCIn
Dados: informações do arquivos de log do servidor web do CIn Objetivos do OLAP: descobrir padrões de acesso ás páginas
do cite do CIn Passos do projeto:
1. Geração dos dados usar arquivos log antigos arquivados gerar durante uns semanas arquivos de log com informação mais rica
obtida com configuração especial do servidor web do CIn
2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup