mineração de dados - vivacquabd.webnode.com.br · mineração de dados “discovering hidden...

34
Mineração de Dados Universidade Veiga de Almeida Luiz Antônio Vivacqua Corrêa Meyer [email protected]

Upload: nguyendang

Post on 21-Dec-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Mineração de Dados

Universidade Veiga de AlmeidaLuiz Antônio Vivacqua Corrêa Meyer

[email protected]

Sumário

• Apresentação pessoal• Ementa e bibliografia• Mineração de Dados• Áreas correlatas• Principais Tarefas

Formação Profissional• Formação acadêmica básica

• Engenharia Civil – PUC/RJ (1983)• Especialização – CCE-PUC/RJ (1984)

• Experiência profissional – IBGE (1984)• Técnica• Gerencial

– Chefe da Gerência de Administração de Banco de Dados (1989 a 1995, 1997 a 2002)

– Assistente da Coordenação de Projetos Especiais(2009 a 2014)

– Chefe da Coordenação de Administração de Dados e Cadastros (2014)

• Mestrado – COPPE/UFRJ (1995-1997)• Doutorado – COPPE/UFRJ (2002-2006)

• Sanduiche (2004-2005) – Universidade de Chicago

Formação Profissional

• Experiência acadêmica - UCidade(1999 – 2014)• Disciplinas lecionadas

– Projeto de Banco de Dados– Administração de Banco de Dados– Laboratório de Banco de Dados

Ementa

• Principais pontos:– Introdução à mineração de dados (data

mining)– Conceitos de Data warehousing, OLAP e

Data Mining– Definição de Mineração de dados para

associação, classificação, agrupamento (clustering) e detecção de desvios

– Aplicações e estudos de casos

OBJETIVOS DA DISCIPLINA

• Identificar os conceitos teóricos fundamentais de mineração de dados.

• Aplicar as principais técnicas de mineração de dados com vistas à identificação de padrões importantes e não óbvios em grandes bancos de dados.

BIBLIOGRAFIA BÁSICA

• Data Mining - Conceitos, Técnicas, Algoritmos, Orientações e Aplicações, Editora: CampusAutores: Ronaldo Goldschimidt, Emmanuel Passos e Eduardo Bezerra

• Data Mining – Practical Machine Learning Tools and Techniques, Editora: Morgan KauffmanAutores: Ian H. Witten, Eibe Frank, Mark A. Hall

BIBLIOGRAFIA COMPLEMENTAR

BRAGA, Luis Paulo Vieira. Introdução à Mineração de Dados - 2ª Edição : Edição ampliada e revisada. São Paulo: Epapers, 2012.

• CARVALHO, Luis Alfredo Vidal D. Datamining -A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. São Paulo: Saraiva, 2011.

• HAN, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques - 3ª Edição . Morgan Kaufmann Publishers, 2012.

BIBLIOGRAFIA COMPLEMENTAR• ANTHONY T. Velte; Toby J. Velte; Robert C. Elsenpeter.

Cloud Computing: Computação em Nuvem - Uma Abordagem Prática . Rio de Janeiro: Alta Books, 2011. ISBN: 9788576085362.

• DAVENPORT, Thomas H. Big Data No Trabalho -Derrubando Mitos e Descobrindo Oportunidades . São Paulo: Campus, 2014. ISBN: 9788535279146.

• MAYER, Viktor; KUKIER, Schonberger Kenneth. Big Data – Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana . São Paulo: Campus, 2013.

Introdução• A convergência das áreas de informática e

telecomunicação gerou uma sociedade que produz uma quantidade enorme de informação [2]

• Porém a maioria desta informação encontra-se no seu estado bruto, ou seja, o dado.

• Se o dado pode ser caracterizado como o registro dos fatos, então a informação é o conjunto de padrões que estão subentendidos nos dados.

• Existe uma quantidade enorme de informação presa, escondida, nos bancos de dados – informação esta que é potencialmente importante mas ainda não foi descoberta.

• O que cerveja tem a ver com fraldas?• Por que meu cartão de crédito me ligou?

Mineração de Dados

?

Mineração de Dados

“Discovering hidden value in your data warehouse” - Alex Berson, Stephen Smith,and Kurt Thearling

“Produzir conhecimento novo escondido em grandes bases de dados” – Paulo José Agliari

“Data mining is the process of finding patterns in a given data set” – Varoon Sahgal

?

“Desenvolvimento e a aplicação de técnicas que permitem analisar e obter conhecimentos novos e úteis a partir de grandes bases de dados” – Bezerra e Goldsmith

Mineração de Dados

• Por que é importante?– Ajuda as empresas a focar nas informações

mais importantes nos seus bancos de dados.– Pode prever tendências e comportamentos

permitindo a tomada de decisões proativas.– Usada em vários contextos tais como:

detecção de fralde, campanhas de marketing, estudos de perfil de consumo, saúde, etc.

Interdisciplinaridade• Interação com outras áreas

– Banco de dados operacionais• Transações individuais• OLTP

– Data Warehouses• Permitem ver a mesma informação por múltiplas

dimensões.• Dão suporte à tomada de decisão• OLAP

– Processamento Paralelo– Inteligência artificial

Mineração de Dados• Características:

– Processo de descobrir padrões nos dados. – Processo deve ser automático ou mais

usualmente semiautomático. – Os padrões descobertos devem ter algum

significado importante de forma que levem a obtenção de alguma vantagem, em geral econômica.

– Os dados invariavelmente estão presentes em quantidades substanciais.

Mineração de Dados

• Padrão estrutural:– O que é?– Como descreve-lo?– Qual é a sua forma de entrada?

Age Spectacle Prescription Astigmatism Tear Production Rate Recommended lens

young myope no reduced none

young myope no normal soft

young myope yes reduced none

young myope yes normal hard

young hypermetrope no reduced none

young hypermetrope no normal soft

young hypermetrope yes reduced none

young hypermetrope yes normal hard

pre-presbyopic myope no reduced none

pre-presbyopic myope no normal soft

pre-presbyopic myope yes reduced none

pre-presbyopic myope yes normal hard

pre-presbyopic hypermetrope no reduced none

pre-presbyopic hypermetrope no normal soft

pre-presbyopic hypermetrope yes reduced none

pre-presbyopic hypermetrope yes normal none

presbyopic myope no reduced none

presbyopic myope no normal none

presbyopic myope yes reduced none

presbyopic myope yes normal hard

presbyopic hypermetrope no reduced none

presbyopic hypermetrope no normal soft

presbyopic hypermetrope yes reduced none

presbyopic hypermetrope yes normal none

Padrões Estruturais

• Examinando a tabela de lentes de contato:– Fornece ao oftalmologista as condições pelas quais

ele pode prescrever lentes macias, duras ou nenhuma lente.

– Parte da descrição estrutural desta informação pode ser descrita da seguinte forma:

If tear production rate = reduced then recommendation = noneOtherwise, if age = young and astigmatic = no Then recommendation = soft

Age Spectacle Prescription Astigmatism Tear Production Rate Recommended lens

young myope no reduced none

young myope no normal soft

young myope yes reduced none

young myope yes normal hard

young hypermetrope no reduced none

young hypermetrope no normal soft

young hypermetrope yes reduced none

young hypermetrope yes normal hard

pre-presbyopic myope no reduced none

pre-presbyopic myope no normal soft

pre-presbyopic myope yes reduced none

pre-presbyopic myope yes normal hard

pre-presbyopic hypermetrope no reduced none

pre-presbyopic hypermetrope no normal soft

pre-presbyopic hypermetrope yes reduced none

pre-presbyopic hypermetrope yes normal none

presbyopic myope no reduced none

presbyopic myope no normal none

presbyopic myope yes reduced none

presbyopic myope yes normal hard

presbyopic hypermetrope no reduced none

presbyopic hypermetrope no normal soft

presbyopic hypermetrope yes reduced none

presbyopic hypermetrope yes normal none

Padrões Estruturais

• Padrões estruturais não precisam obrigatoriamente serem obtidos por regras como estas.

• Árvores de decisão que especificam as sequencias de decisões que precisam ser tomadas junto com a recomendação resultante também é um método bastante usado.

Padrões Estruturais

• Observações:– Este exemplo é bastante simples. Primeiro porque

todas as combinações possíveis estão representadas na tabela.

• Existem 24 linhas representando 3 possíveis valores para age e 2 valores para spetacle prescription, astigmatism and tear production rate. (3X2X2X2).

– Na maioria das situações reais, o conjunto de exemplos disponível para entrada está longe de ser completo e parte do trabalho é generalizar para outros novos exemplos.

Padrões Estruturais

• Observações (cont.):– Além disso, os valores foram especificados

para todos os atributos em todos os exemplos.

• Os arquivos na vida real invariavelmente contém exemplos nos quais os valores de algumas características por alguma razão são desconhecidos, por exemplo, medidas que não foram tomadas ou foram perdidas.

– Más classificações ocorrem frequentemente por conta de erros nos dados.

Conjunto de todas as regras If tear production rate = reduced then recommendation = none

If age = young and astigmatic = noand tear production rate = normal then recommendation = soft

If age = pre-presbyopic and astigmatic = noand tear production rate = normal then recommendation = soft

If age = presbyopic and spectacle prescription = myopeand astigmatic = no then recommendation = none

If spectacle prescription = hypermetrope and astigmatic = noand tear production rate = normal then recommendation = soft

If spectacle prescription = myope and astigmatic = yesand tear production rate = normal then recommendation = hard

If age young and astigmatic = yes and tear production rate = normal then recommendation = hard

If age = pre-presbyopicand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

Árvore de decisão para o problema

Mineração de Dados

• Normalmente, as aplicações práticas de Data Mining podem ser categorizadas de acordo com a tarefa que se pretende resolver.

• Além disso, os algoritmos de análise de dados utilizados nessas tarefas pressupõem a existência de um conjunto de dados na forma tabular (relacional).

• Esses conjuntos de dados, por sua vez, podem ser resultantes de uma fase prévia de pré-processamento para realização de transformações diversas sobre os dados obtidos de um ambiente transacional.

Mineração de Dados

• Pré-processamento dos dados– Os dados no mundo real podem estar “sujos”:– Necessidade do pré-processamento dos Dados

• Incompletos– ausência de atributos de interesse– apenas dados agregados– ausência de valores

• Ruidosos– erros aleatórios– valores aberrantes (outliers)

• Inconsistentes– discrepâncias nas codificações ou nos nomes

Mineração de dados

• Principais tarefas– Descoberta de associações– Classificação– Agrupamento (clusterização)– Detecção de desvios

Mineração de Dados

• Regras de Associação– Correlacionam a presença de um itemset com

uma faixa de valores para um conjunto de variáveis diverso. Exemplos:

• Quando um compradora adquire uma bolsa provavelmente compra sapatos;

• Uma imagem de raio X contendo características a e b provavelmente também exibe característica c.

Mineração de Dados

• Classificação– É o processo de aprender um modelo que

descreve diferentes classes de dados predefinidas.

– Requer um aprendizado supervisionado– Exemplo:

• Aplicação bancária que classifica os clientes que solicitam cartão de crédito em risco baixo, médio ou alto de acordo com um conjunto de regras envolvendo as informações de salário, estado civil e idade.

Mineração de Dados

• Agrupamento– Consiste em particionar os dados sem ter

uma amostra de treinamento pré-classificada.– Aprendizado não supervisionado.– Exemplos:

• Determinar grupos de clientes que tem padrões de compra semelhantes;

• Determinar grupos de pacientes que mostram reações semelhantes aos medicamentos receitados.

Mineração de Dados

• Algumas ferramentas– WEKA– R– Orange– Rapidminer– Cluto– SAS Enterprise Miner– Oracle Data Mining

Exemplo

Nome Escolaridade Idade Rico ?

Alva Mestrado >30 Sim

Amanda Doutorado <=30 Sim

Ana Mestrado <=30 Não

Eduardo Doutorado >30 Sim

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Maria Mestrado >30 Sim

Rafael Mestrado <=30 Não

Cada observação contem dados de uma pessoa. Atributo Rico é usado

para indicar se a pessoa tem renda anual >= 50.000 e representa o atributo classe enquanto escolaridade e idade são preditivos.

Descrever o conjunto de regras de classificação e construir uma árvore de decisão.

Regras de classificação

Nome Escolaridade Idade Rico ?

Alva Mestrado >30 Sim

Amanda Doutorado <=30 Sim

Ana Mestrado <=30 Não

Eduardo Doutorado >30 Sim

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Maria Mestrado >30 Sim

Rafael Mestrado <=30 Não

Regras de classificação:Escolaridade = Graduação => Rico = Não; Escolaridade = Doutorado => Rico = Sim Escolaridade = Mestrado & idade >30 => Rico = SimEscolaridade = Mestrado & idade <=30 => Rico = Não

Árvore de Decisão