mineração de dados e novas oportunidades de análise para sistemas de informação

19
Mineração de dados e novas oportunidades de análise para sistemas de informação Prof. Dalton Martins [email protected] FATEC – São Paulo Depto. de Tecnologia da Informação 14º Congresso de Tecnologia da Fatec São Paulo 17/10/2012

Upload: dalton-martins

Post on 24-May-2015

498 views

Category:

Education


2 download

DESCRIPTION

14º Congresso de Tecnologia da FATEC São Paulo. São Paulo, 2012.

TRANSCRIPT

Page 1: Mineração de dados e novas oportunidades de análise para sistemas de informação

Mineração de dados e novas oportunidadesde análise para sistemas de informação

Prof. Dalton [email protected] – São Paulo

Depto. de Tecnologia da Informação

14º Congresso de Tecnologia da Fatec São Paulo17/10/2012

Page 2: Mineração de dados e novas oportunidades de análise para sistemas de informação

O que é mineração de dados?

● É uma tecnologia que combina métodos tradicionais de análise de dados com

algoritmos sofisticados para processar

grandes volumes de dados;

● É também um processo de descoberta de informações úteis em grandes depósitos de dados;

● Também fornece capacidade de previsão do resultado em uma observação futura.

Page 3: Mineração de dados e novas oportunidades de análise para sistemas de informação

Mineração e descoberta do conhecimento

Pré-processamentode dados

Mineraçãode dados

Pós-processamentode dados

Entrada de dados

Informações

Seleção de recursosRedução de dimensionalidadeNormalizaçãoCriação de subconjuntos de dados

Padrões de filtragemVisualizaçãoInterpretação de padrões

Page 4: Mineração de dados e novas oportunidades de análise para sistemas de informação

Desafios motivadores

● Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns;

● Alta dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás;

● Dados complexos e heterogêneos: diversificação de tipos de atributos e relacionamento entre eles;

● Propriedade e distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais;

● Análises não tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.

Page 5: Mineração de dados e novas oportunidades de análise para sistemas de informação

4 principais tarefas da Mineração

● Modelagem de previsão: se refere à tarefa de construir um modelo para a variável alvo como uma função das variáveis explicativas. – Há dois tipos de tarefas de modelagem de previsão:

● Classificação: usada para variáveis discretas;● Regressão: usada para variáveis contínuas.

● Análise de associação: é usada para descobrir padrões que descrevam características altamente associadas dentro dos dados. – Os padrões descobertos são normalmente representados na

forma de regras de implicação ou subconjuntos de características.

Page 6: Mineração de dados e novas oportunidades de análise para sistemas de informação

4 principais tarefas da Mineração

● Análise de grupo: procura encontrar grupos de observações intimamente relacionadas de modo que observações que pertençam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertençam a outros grupos;

● Detecção de anomalias: é a tarefa de identificar observações cujas características sejam significativamente diferentes do resto dos dados. Tais observações são conhecidas como anomalias ou fatores estranhos.

Page 7: Mineração de dados e novas oportunidades de análise para sistemas de informação

Conhecimentos de base do minerador de dados

● Banco de dados: SQL e a estruturação de dados de sua análise em bancos facilitam a tarefa e o esforço envolvido na mineração

● Linguagem de scripts: nem sempre conseguimos os dados no formato que precisamos. Muitas vezes, é preciso mexer e transformar as relações com dados. Linguagens como Python, Perl e PHP podem ajudar muito.

● Planilhas: kit básico do minerador. Facilitam gerar gráficos facilmente e calcular dados de base para avaliação do trabalho;

● Estatística: conhecimento fundamental para análise exploratória e testes de validação de hipóteses;

● Softwares de análise: há muitos softwares hoje em dia que podem ajudar no trabalho, facilitando muitos processos de forma automática. Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....

Page 8: Mineração de dados e novas oportunidades de análise para sistemas de informação

Alguns exemplos de aplicação

● Veremos dois exemplos de aplicação de algumas técnicas de mineração– Análise de visitações e uso de um site na Internet;

– Análise de padrões de comunicação entre educandos num curso de ensino à distância.

Page 9: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 1 – siteda tabela ao mapa

Estados Cidades VisitasAC 2 143 1,29 124,62AL 10 6370 1,47 157,44AM 6 2466 0,65 128,16AP 2 349 2,11 250,16BA 34 19046 88,64 1948,3CE 9 18486 2,46 4632,77DF 2 13637 4,04 292,14ES 14 7072 1,99 149,85GO 12 6709 1,39 66,1MA 6 4813 2 140,29MG 54 35851 140,38 2896,88MS 7 1008 304,82 210,5MT 8 4366 2,2 145,97PA 19 4959 1,13 262,06PB 9 7331 1,31 220,72PE 4 9313 1,78 230,99PI 4 5732 2,12 155,19PR 18 12839 2,7 243,79RJ 30 27724 53,97 125,57RN 14 20066 2,79 187,49RO 4 2360 2,98 175,3RS 46 22173 154,41 17959SC 37 13816 2,03 172,01SE 2 2162 2,27 132,24SP 115 73544 40,01 3961,85TO 5 758 3,08 155,2

Média de páginas/visitas

Média de tempo/visita

Page 10: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 1 – site - conversações

Page 11: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 1 – siteidentificando padrões

Estados Nós Relações Densidade CentralidadeAC 1 0 0 0 0 0AL 4 0 0 0 0 0AM 8 1 0,02 0,07 0,25 1,00AP 1 0 0,00 0,00 0,00 0,00BA 16 0 0,00 0,00 0,00 0,00CE 37 98 0,07 0,25 5,30 3,00DF 26 22 0,03 0,15 1,69 3,00ES 13 0 0,00 0,00 0,00 0,00GO 3 0 0,00 0,00 0,00 0,00MA 6 0 0,00 0,00 0,00 0,00MG 31 21 0,02 0,16 1,35 3,00MS 18 10 0,03 0,14 1,11 2,00MT 9 4 0,06 0,19 0,89 1,00PA 7 0 0,00 0,00 0,00 0,00PB 3 1 0,17 0,25 0,67 1,00PE 6 0 0,00 0,00 0,00 0,00PI 44 49 0,03 0,17 2,23 3,00PR 30 3 0,00 0,05 0,20 2,00RJ 22 1 0,00 0,02 0,09 1,00RN 58 5 0,00 0,03 0,17 2,00RS 138 368 0,02 0,18 5,33 6,00SC 33 9 0,01 0,09 0,55 3,00SP 138 84 0,00 0,10 1,22 5,00RR 3 0 0,00 0,00 0,00 0,00

Grau médio das

relaçõesDistância geodésica

Page 12: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 1 – site - RS

Page 13: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 1 – site - SP

Page 14: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 2 – EAD – padrões de comunicação

Page 15: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 2 – entendendo a rede

Nós com mais de 10 conexões.

Page 16: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 2 – entendendo a rede

Nós com mais de 15 conexões.

Page 17: Mineração de dados e novas oportunidades de análise para sistemas de informação

Exemplo 2 – entendendo a rede

Nós com mais de 20 conexões.

Page 18: Mineração de dados e novas oportunidades de análise para sistemas de informação

Referências

● TAN, Pang-Ning, STEINBACH, Michel, KUMAR, Vipin. Introdução ao Data Mining: mineração de dados. Editora Ciência Moderna. 2009. 900p.

Page 19: Mineração de dados e novas oportunidades de análise para sistemas de informação

Obrigado!

Contato:[email protected]

http://daltonmartins.blogspot.com