aula 02 giovanni --dcbd

54
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Novembro/2008 Centro Universitário Uni- Anhanguera Prof. Ms Giovanni - [email protected] Descoberta de Conhecimento em Bases de Dados – DCDB x Mineração de Dados(MD) Fevereiro/2012 Centro Universitário Uni-Anhanguera Business Intelligence Prof. Ms Giovanni Gondim de Castro

Upload: gtiprotec

Post on 25-Dec-2014

439 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Descoberta de Conhecimento em Bases de Dados – DCDB x

Mineração de Dados(MD)

Fevereiro/2012

Centro Universitário Uni-AnhangueraBusiness IntelligenceProf. Ms Giovanni Gondim de Castro

Page 2: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

“Estamos afogados em Dados, mas famintos por Conhecimento” (HAN;

KAMBER, 2008)

Novembro/2008

Centro Universitário Uni-AnhangueraImplementação de Data MinigProf. Ms Giovanni Gondim de Castro

“Para quem não sabe aonde quer chegar, qualquer caminho serve”

(Ditado Popular)

Page 3: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Knowledge Database Discovery – KDD ou DCBD

•É feito através de Data WareHousing e/ou DataMining

Processo de análise de dados feito por ferramentas específicas (e.g. WEKA, Data Warehouse, Easynn-Plus, IBM, Oracle, );Visa a Extração de conhecimento (Bases de Regras, Padrões ou Agrupamentos) a partir da(s) Base(s) de Dados;A Extração pode ser feita em diversos tipos de Bases (Texto, Bancos de Dados, Bases de Imagens, ect);

Fayyad, Piatetsky-Shapiro e Smyth, From Data Mining to Knowledge Discovery in Databases - American Association for Artificial Intelligence – 1996.

Page 4: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

DCBD – Parte essencial dos Sistemas de Informações

Page 5: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Knowledge Database Discovery – KDD ou DCBD

• Definição formal:-> Processo de extração de conhecimento, padrões ou informações (previamente desconhecidas, implícitas, não-formais e com potencial uso) a partir de grandes Massas ou Bases (Bancos) de Dados.

Fayyad, Piatetsky-Shapiro e Smyth, From Data Mining to Knowledge Discovery in Databases - American Association for Artificial Intelligence – 1996.

• Não é DM:-> Busca de conhecimento através de pesquisa formal (SQL); uso de Sistemas Especialistas ou pequenos programas que trabalhem com Técnicas Estatísticas.

Page 6: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Técnicas de MD

Já temos também as técnicas de:

MobiMine, Clinical DataMining, BiblioMining, TextMining, WebMining

Han; Kamber – Data Mining: Concepts and Techniques, Intelligent Database Systems Research Lab, 2008.

Page 7: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Principais Usos da MD

Alvo de propagandas – enfoque nos consumidores a serem atingidos;Detecção de Fraudes - cartões de crédito, invasão de rede, etc;

Análise e Gerenciamento de Riscos – predição (bolsa de valores, chuva, epidemias), análise competitiva, qualidade de controle;

Análise e Gerenciamento de Mercado – Costumer Relation Management (CRM), vendas cruzadas, segmentação de mercado, análise do perfil do comprador;

Fayyad, Piatetsky-Shapiro e Smyth, From Data Mining to Knowledge Discovery in Databases - American Association for Artificial Intelligence – 1996.

Page 8: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Análise e Gerenciamento de Riscos Aonde estão os dados para análise - Transações de cartões de crédito,

cupons de desconto, ticket alimentação, cartões de fidelidade (e.g. Bretas, Ipiranga, Casas Baia, etc); Alvo de Propagandas - Encontrar nichos do “padrão" dos clientes que partilham as mesmas características: interesse, renda, hábitos ; Determinar os padrões de consumo de uma pessoa ao longo do tempo – Conversão de um padrão de vida do consumidor (de solteiro para casado, de casado para divorciado ou viúvo, de não pai para pai);

Determinar perfil de consumidor – a MD permite determinar quais consumidores compram determinados tipos de produtos (Classificadores ou Clusters);

Identifica os requisitos de consumo – identifica os melhores produtos para diferentes consumidores; identifica, através da predição, quais fatores serão decisivos para atrair novos consumidores;

Fornece informação sumarizada – relatórios multidimensionais sumarizados; informação estatística sumarizada (tendência e variação dos dados).

Page 9: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Análise Corporativa e Gerenciamento de Riscos

Planejamento financeiro e avaliação dos ativos da empresa   -> análise do fluxo de caixa e previsão;   -> análise para avaliar bens ativos da instituição; -> análise de séries temporais (financeira ou epidemiológica, análise de tendências, etc) Planejamento de Recursos ->resumir e comparar os recursos e despesas;

Competição -> monitorar competidores e decisões de mercado; -> agrupar consumidores em classes e classificar de acordo com o objeto de venda; -> definir estratégia de preços em um mercado altamente competitivo.

Page 10: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Detecção e Gerenciamento de FraudesAplicações - amplamente utilizado em cuidados de saúde, varejo, serviços de cartões de crédito, telecomunicações (serviço de fraude de cartões de crédito, etc); Aproximação - utilização de dados históricos para construir modelos de comportamento fraudulento e de mineração de dados que ajudem a identificar casos semelhantes;

Exemplos – (a) Seguro automóvel: detectar um grupo de pessoas que simula acidentes visando recolher seguros; (b) Lavagem de dinheiro: detectar transações suspeitas de dinheiro (EUA Treasury's Financial Crimes Enforcement Network); (c) Seguro Médico: detectar círculo de pacientes e profissionais médicos.

Detecção de tratamento médico inapropriado – Comissão de seguro de saúde Australiano identifica que, em muitos casos, foram solicitados testes de desnecessários;

Detecção de fraude telefônica - Telefonema modelo: o destino da chamada, a duração, hora do dia ou da semana. Analisar os padrões que desviarem-se de uma norma esperada. A British Telecom tem identificado grupos de assinantes com chamadas freqüentes intra-grupo, especialmente para telefones celulares, e quebrou um grupo fraudulento que já tinha causado um prejuízo multimilionário.

Page 11: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Outras aplicaçõesEsportes – IBM tem ajudados os times New York Knicks e Miami Heat a preparar suas estratégias de jogo através da análise do comportamento de seus adversários nos jogos anteriores; Astronomia – observatórios descobriram mais de 22 quasares com a ajuda da MD;

Acesso a Internet – IBM aplica algoritmos de MD, para gerar padrões, a partir do acesso aos logs dos registros de navegação da internet para descobrir as preferências de navegação dos consumidores. A partir destes padrões, é analisada a efetividade da propaganda feita via internet (popups e anúncio feitos nas páginas da net) de forma a promover o produto mais factível de venda ao consumidor que está presente naquele momento;

Page 12: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Problemas que a MD visa resolver:

Aumento exponencial no número de dados coletados;Empresas apenas armazenam mas não analisam os dados;Instituições que não trabalham com seus repositórios de dados e que desejam se estabelecer no mercado competitivo.

Fayyad, Piatetsky-Shapiro e Smyth, From Data Mining to Knowledge Discovery in Databases - American Association for Artificial Intelligence – 1996.

Page 13: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

DCBD x Mineração de Dados (MD)

Inteligência Artificial - Aprendizado de Máquina;Bancos de Dados - Recursos para manipular grandes massas de dados;Estatística - Avaliação e Validação de Resultados.

Page 14: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

DCBD – Parte essencial dos Sistemas de Informações

Page 15: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Boente et. all, 2007

Processo Completo de Data Mining

Page 16: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Passos para o processo de DCBD1 - Aprender a aplicação do domínio Conhecimento prévio e relevante e trabalhar com metas de aplicação;2 - Criar um conjunto de dados alvo: os dados seleçãoLimpeza dos dados e pré-processamento (consome até 60% do esforço)3 – Redução e transformação dos dadosEncontrar características úteis, dimensionalidade / redução de variáveis, representação através de agrupamento4 – Escolher as funções de MD desejadasSumarização, Classificação, Regressão, Associação ou Clusterização5 – Escolher o algoritmo de MDRealizar a MD: Procura de padrões de interesse 6 - Avaliação de padrões e apresentação de ‘modelo de conhecimento’Visualização, transformação, retirada de padrões redundantes, etc7 – Uso de conhecimento descoberto

Page 17: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Md e Inteligência de Negócios (BI)

Aumento do potencial para influenciar Decisões Usuário Final

Analista de Negócios

Análise de Dados

DBA

Tomadade Decisão

Representação de dados

Tecnicas de Visualização

Mineração de DadosDescoberta de Informação

Exploração de Dados

OLAP, MDA

Análise estatística, Pesquisa e Impressão

Data Warehouses / Data Marts

Origem de DadosPapéis, Arquivos, Provedores de Informação, Sistemas de Banco de Dados, OLTP

Page 18: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Limpeza e Integração de Dados

Arquitetura de um típico Sistema de MD

Data Warehouse

Filtragem

Base de Dados

Base de dados ou servidor de data warehouse

Motor de MD

Avaliação de Padrões

Interface Gráfica do Usuário

Base de Conhecimentos

Page 19: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

MD: Que tipo de Dados?

1 – Bases Relacionais; 2 – Data Wharehaouses; 3 – BD Transacionais;4 – BD avançadas e repositório de informações;

- BD orientadas a objeto e relacionais;- BD espaciais;- BD no formato de séries temporais e/ou dados temporais;- BD no formato texto puro e no formato não magnético (CD, DVD);- BD heterogêneas ou herdadas de outras instituições;- www (no formato ou a partir de páginas da internet).

Page 20: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

MD: Funcionalidades

1 – Descrição do Conceito: caracterização e/ou discriminação:Generalizar, Sumarizar e contrastar características de dados (e.g. regiões secas x chuvosas);

2 – Associação (co-relação e casualidade): -> Associação multi-dimensional (várias dimensões) versus associação dimensional (e.g. idade [9 a 10; 20 a 29; 30 a 39], estado civil [Casado, Solteiro], Filhos [0,1,2,3,4,> 5]);Estes dados trazem a possibilidade estatística de estudo de variáveis de margem de confiança (e.g. 60%) e;/ou suporte de informação (2%); -> Relação -> pessoas que possuem computador possuem também software (100% -> 75%) que deve ser registrado (e.g. windows). Os outros 25% dos que possuem computador possuem softwares que não necessitam de registro (e.g. linux).

Page 21: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

MD: Funcionalidades

Classificação e Predição: -> Encontrar modelos (funções) que descrevam e distinguam classes ou conceitos para a futura predição; e.g. classificar países baseando apenas no clima, ou classificar carros que usam gás baseando-nos na quilometragem; -> Apresentação: árvore de decisão, a classificação geral, redes neurais -> Previsão: Predição de alguns valores desconhecidos ou numéricos; valores em falta em uma série;Análise de Agrupamento:‘Rótulos’ desconhecidos: Os dados fornecem grupos, conhecidos também como rótulos, que podem ser trabalhados no intuito de descobrir novos padrões;

Page 22: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Técnicas e Tarefas de MD

Page 23: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Técnicas e Tarefas de MD

Page 24: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Árvore de Decisão

Page 25: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Regras retiradas a partir da Árvore de Decisão

Page 26: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Árvore de Decisão

Exemplo de árvore de classificação no Weka (Waikato, 2004)

Page 27: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Árvore de Decisão

Exemplo de regras de associação no Weka (Waikato, 2004)

Page 28: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Base de Regras é normalmente uma Série Temporal

Page 29: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Neurônio Natural x Neurônio Artificial

Page 30: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Principais Arquiteturas de RNA´s

Page 31: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Aprendizado de RNA´s

Page 32: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 33: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 34: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 35: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 36: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 37: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 38: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 39: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 40: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 41: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 42: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 43: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 44: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 45: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 46: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Page 47: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Predição utilizando RNA

Page 48: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Predição utilizando RNA

Page 49: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Exemplo de Predição utilizando RNA

Page 50: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Gráfico de Predição de Dengue em Goiânia em 2001

Page 51: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Gráfico de Predição de Dengue em Goiânia em 2003-2004

Page 52: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Série Temporal de Dengue em Goiânia de 2001 a 2005

Page 53: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]

Diversas(os) Bancos(Bases) de Dados totalizando 734Mb geraram um Vetor de Informações de 400kb

Page 54: Aula 02   giovanni --dcbd

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Novembro/2008

Centro Universitário Uni-AnhangueraProf. Ms Giovanni -

[email protected]