mineração de exceções apresentadores andrey c. cavalcanti george soares da silva

34
Mineração de Exceções Apresentadores Apresentadores Andrey C. Cavalcanti Andrey C. Cavalcanti George Soares da Silva George Soares da Silva

Upload: internet

Post on 21-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

Mineração de Exceções

ApresentadoresApresentadores

Andrey C. CavalcantiAndrey C. Cavalcanti

George Soares da SilvaGeorge Soares da Silva

Page 2: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Introdução

Dados podem ser armazenados e resumidos em cubos Dados podem ser armazenados e resumidos em cubos

multidimensionais.(OLAP)multidimensionais.(OLAP)

Um usuário ou analista pode usar operações OLAP Um usuário ou analista pode usar operações OLAP

para encontrar padrões interessantes.para encontrar padrões interessantes.

O processo de descoberta não é automático. Depende O processo de descoberta não é automático. Depende

da intuição ou hipóteses usadas pelo usuário.da intuição ou hipóteses usadas pelo usuário.

Desvantagens da exploração baseada em hipóteses:Desvantagens da exploração baseada em hipóteses:

espaço de busca muito grandeespaço de busca muito grande

agregações de alto nível não indicam anomaliasagregações de alto nível não indicam anomalias

dificuldade mesmo se o espaço for pequenodificuldade mesmo se o espaço for pequeno

Page 3: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Análise de Outliers

Outliers Outliers Exceções Exceções Causa dos Outliers Causa dos Outliers → erro de execução ou → erro de execução ou

medida. medida.

Exemplo: Inserção default de um valorExemplo: Inserção default de um valor

Falsos Outliers (Ex: salários de executivos)Falsos Outliers (Ex: salários de executivos) Mineração de outliers Mineração de outliers → consiste na → consiste na

detecção e análise de outliers (complexo e detecção e análise de outliers (complexo e interessante)interessante)

Page 4: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Aplicações de Mineração de Outliers

1.1. Detecção de Fraudes ( cartões de crédito Detecção de Fraudes ( cartões de crédito

ou telefone)ou telefone)

2.2. Comportamento de gastos de consumidores Comportamento de gastos de consumidores

( por classe social )( por classe social )

3.3. Em análises médicas ( resultados não Em análises médicas ( resultados não

esperados de tratamentos )esperados de tratamentos )

Page 5: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Mineração de Outliers

Pode ser dividido em 2 Pode ser dividido em 2

subproblemas:subproblemas:

1.1. Definir quais dados Definir quais dados são aberrantessão aberrantes

2.2. Definir método Definir método eficiente para eficiente para encontrar tais encontrar tais aberraçõesaberrações

3.3. Aberrante sempre Aberrante sempre com referência a com referência a algum padrãoalgum padrão

Métodos de detecção:Métodos de detecção: Semi-automático:Semi-automático:

VisualizaçãoVisualização AutomáticoAutomático

EstatísticaEstatística DistânciaDistância DesvioDesvio

Observação:Observação: Usuário tem que Usuário tem que

checar se os outliers checar se os outliers descobertos são descobertos são realmente outliers.realmente outliers.

Page 6: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Detecção de Outliers baseada em Estatística

Distribuição ou modelo probabilístico ( Ex: Distribuição ou modelo probabilístico ( Ex: distribuição normal )distribuição normal )

Teste de discordância (TD)Teste de discordância (TD)→ → identifica os identifica os outliers com respeito ao modelo escolhidooutliers com respeito ao modelo escolhido

O TD examina 2 hipóteses:O TD examina 2 hipóteses: de trabalhode trabalho alternativa alternativa

Um dado ser ou não ser Outlier depende da Um dado ser ou não ser Outlier depende da distribuição escolhidadistribuição escolhida

Page 7: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Detecção de Outliers baseada em Estatística

2 procedimentos para2 procedimentos para detecção de outliers:detecção de outliers: Procedimentos em Procedimentos em

blocosblocos Procedimentos Procedimentos

consecutivos consecutivos (sequencial)(sequencial)

menos provável é menos provável é testadotestado

mais eficientemais eficiente

ConclusãoConclusão Testa aberração ao Testa aberração ao

longo de apenas uma longo de apenas uma única dimensãoúnica dimensão

Dificuldade na Dificuldade na escolha de uma escolha de uma distribuição padrão, distribuição padrão, especialmente com especialmente com dados desconhecidosdados desconhecidos

Page 8: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Um exemplo de detecção de Outliers baseado em estatística

O Procedimento abaixo é feito para cada observação O Procedimento abaixo é feito para cada observação xxii,onde ,onde i=1..n e k = n-1: i=1..n e k = n-1:

vetor médio da amostravetor médio da amostra xxmm = (1/k) = (1/k) ΣxΣxii (p/ i de 1 à k) (p/ i de 1 à k)

Matriz de covariânciaMatriz de covariância S = (1/(k-1)) Σ(xS = (1/(k-1)) Σ(xii – x – xmm) (x) (xii – x – xmm)’)’

Distância de Mahalanobis:Distância de Mahalanobis: DD22 = (x – x = (x – xmm)’S)’S-1-1(x – x(x – xmm))

Distribuição F com p e k-p graus de liberdadeDistribuição F com p e k-p graus de liberdade F = ((k – p)k / (kF = ((k – p)k / (k22 – 1)p) D – 1)p) D22

A partir de F calcula-se o valor de P que será comparado com A partir de F calcula-se o valor de P que será comparado com o no nível de significância ível de significância άά Se P < ά, então encontramos um outlier, remove o mesmo e Se P < ά, então encontramos um outlier, remove o mesmo e

refaz o procedimento acimarefaz o procedimento acima Se P > ά, está OKSe P > ά, está OK

Page 9: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo de Detecção de Outliers baseada em Estatística

Nível de significância Nível de significância ά=0,05ά=0,05 Primeiro encontrou as médias e os desvio padrões iguais à:Primeiro encontrou as médias e os desvio padrões iguais à:

x1 = 120,6 e s1 = 20,9 x1 = 120,6 e s1 = 20,9 x2 = 81,0 e s2 = 21,7 x2 = 81,0 e s2 = 21,7

Com n=15, removemos x9 por ter tido o menor valor de Com n=15, removemos x9 por ter tido o menor valor de P=0,0003P=0,0003

Agora temos n=14 e remove x7 com P=0,0264Agora temos n=14 e remove x7 com P=0,0264 Agora temos n=13 e não há mais outliers detectados.Agora temos n=13 e não há mais outliers detectados. Neste momento, temos as seguintes médias e desvios:Neste momento, temos as seguintes médias e desvios:

x1 = 121,8 e s1 = 20,8 / x2 = 80,5 e s2 = 16,3x1 = 121,8 e s1 = 20,8 / x2 = 80,5 e s2 = 16,3 Valores corretos: x7=(93,54) e x9=(132,94)Valores corretos: x7=(93,54) e x9=(132,94)

ObservObserv 11 22 33 44 55 66 77 88 99 1010 1111 1212 1313 1414 1515

X1:SistX1:Sist 154154 136136 191191 125125 133133 125125 9393 8080 132132101077

142142 115115 114114 120120 141141

X2:DiasX2:Dias 108108 9090 5454 8989 9393 7777 4343 5050 125125 7676 9696 7474 7979 7171 9090

Page 10: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Detecção de Outliers baseada em Distância

Origem Origem →→ Resolver limitações do estatístico Resolver limitações do estatístico

O que é um outlier baseado em distância?O que é um outlier baseado em distância? um objeto ‘o’ num conjunto de dados ‘S’ um objeto ‘o’ num conjunto de dados ‘S’ é um outlier baseado em distância DB(p,d), é um outlier baseado em distância DB(p,d), se pelo menos uma fração ‘p’ de objetos em ‘S’ se pelo menos uma fração ‘p’ de objetos em ‘S’ se encontram a uma distância maior que ‘d’ de ‘o’se encontram a uma distância maior que ‘d’ de ‘o’

Exemplo com pontos no planoExemplo com pontos no plano

Page 11: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Detecção de Outliers baseada em Distância

Estatística X DistânciaEstatística X Distância Conceito de distância Conceito de distância ≠ ≠

Testes estatísticosTestes estatísticos vantagens:vantagens:

evita suposição sobre evita suposição sobre distribuição dos distribuição dos dadosdados

custo computacional custo computacional menormenor

em muitos casos:em muitos casos: outlier baseado em outlier baseado em

distância distância outlier outlier estatísticoestatístico

Alguns algoritmos:Alguns algoritmos: Index-basedIndex-based Nested-loopNested-loop Cell-basedCell-based

desvantagensdesvantagens Escolha dos Escolha dos

parâmetros ‘p’ e ‘d’.parâmetros ‘p’ e ‘d’.

Page 12: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Detecção de Outliers baseada em Desvio

Nem estatística, nem distânciaNem estatística, nem distância Outliers Outliers Desvios Desvios Identifica outliers a partir das características Identifica outliers a partir das características

do grupodo grupo 2 técnicas para detecção:2 técnicas para detecção:

Técnica de exceção sequencialTécnica de exceção sequencial Técnica de cubo de dados OLAPTécnica de cubo de dados OLAP

Page 13: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Técnica de Exceção Sequencial Compara objetos sequencialmente num conjunto Compara objetos sequencialmente num conjunto

(Exemplo: humanos na distinção de objetos)(Exemplo: humanos na distinção de objetos) Alguns termos chaves:Alguns termos chaves:

Conjunto de ExceçõesConjunto de Exceções subconjunto mínimo de objetos cuja remoção subconjunto mínimo de objetos cuja remoção

resulta na maior redução de dissimilaridaderesulta na maior redução de dissimilaridade Função de dissimilaridadeFunção de dissimilaridade

Ex: para dados numéricos variânciaEx: para dados numéricos variância Ex: para dados categóricos diferença entre Ex: para dados categóricos diferença entre

proporções de objetos que se casam com padrão proporções de objetos que se casam com padrão simbólico com variáveis livres (aa**b)simbólico com variáveis livres (aa**b)

Page 14: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Técnica de Exceção Sequencial

Termos Chaves: (Cont.)Termos Chaves: (Cont.) Função de Cardinalidade →Função de Cardinalidade → NNoo de objetos de objetos Fator de suavizaçãoFator de suavização

mede redução de dissimilaridade por mede redução de dissimilaridade por exclusão de subconjuntos, normalizado pelo exclusão de subconjuntos, normalizado pelo número de elementosnúmero de elementos

Conjunto com maior fator de suavização = Conjunto com maior fator de suavização = Conjunto de exceçõesConjunto de exceções

Page 15: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Técnica de Exceção Sequencial

Funcionamento da técnicaFuncionamento da técnica

Pode a ordem dos subconjuntos na Pode a ordem dos subconjuntos na

sequência afetar o resultado ?sequência afetar o resultado ?

Page 16: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exploração Baseada em Descoberta

Modelo usando o cubo de dadosModelo usando o cubo de dados O especialista é vai procurar por anomalias O especialista é vai procurar por anomalias

nos dados guiado por indicadores de nos dados guiado por indicadores de exceções pré-computadosexceções pré-computados

Modelo estatístico usado para computar o Modelo estatístico usado para computar o valor esperado do dadovalor esperado do dado

Uso de ferramentas OLAPUso de ferramentas OLAP

Page 17: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

O Cubo de Dados

DimensõesDimensões HierarquiaHierarquia Operações OLAPOperações OLAP

Drill downDrill down Roll upRoll up SliceSlice

Page 18: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Definindo Exceções em Cubos

Exceções são, intuitivamente, dados que nos Exceções são, intuitivamente, dados que nos surpreendemsurpreendem

Como medir a ‘surpresa’?Como medir a ‘surpresa’? SelfExpSelfExp

Valor relativo ao seu próprio nívelValor relativo ao seu próprio nível InExpInExp

Valor relativo ao drill-down em todos as Valor relativo ao drill-down em todos as dimensõesdimensões

PathExpPathExp Um InExp relativo a um determinada dimensãoUm InExp relativo a um determinada dimensão

Page 19: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo

Page 20: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo

Page 21: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo

Page 22: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo

Page 23: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exceções em Cubos: a qual granularidade?

Quanto menor a granularidade, mais fácil Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões)será achar uma(s) exceção(ões)

Uma exceção pode ser considerada uma Uma exceção pode ser considerada uma exceção por um group-by e não ser exceção por um group-by e não ser considerada por outro group-byconsiderada por outro group-by ExemploExemplo

Page 24: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Cálculo do Valor Esperado

O valor esperado é calculado levando em conta O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-bya contribuição dos vários níveis de group-by

Exemplo:Exemplo: ŷŷijkijk = f( = f(γ, γγ, γii

AA, γ, γjjBB, γ, γkk

CC, γ, γijijABAB, γ, γjkjk

BCBC, γ, γikikACAC))

yyijkijk é uma exceção se: é uma exceção se:(y(yijkijk – – ŷŷijkijk)/ )/ ijkijk > ( > ( = 2.5) = 2.5)

Por que o valor de Por que o valor de é 2.5? é 2.5? Qual o valor de Qual o valor de ijkijk??

Page 25: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Cálculo do Valor Esperado

A função f() pode ser das seguintes formas:A função f() pode ser das seguintes formas: AditivaAditiva

MultiplicativaMultiplicativa

Outras mais complexasOutras mais complexas

n

i

if0

n

i

if0

Page 26: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Cálculo do Valor Esperado

O valor de O valor de ŷŷijkijk é: é:

ŷŷijk ijk ==

Para o caso de um cubo com 3 dimensões, usando Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f()a forma aditiva de f()

e((γ + γγ + γii

AA + γ + γjjBB + γ + γkk

CC + γ + γijijABAB + γ + γjkjk

BCBC + γ + γikikACAC))

Page 27: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Cálculo do Valor de cada γ

Primeiro calcula o nível específicoPrimeiro calcula o nível específico γ = γ = ll+...++...+

Para cada dimensão, suba um nível , calcule Para cada dimensão, suba um nível , calcule o valor de o valor de γ como sendo:γ como sendo: γγirir

ArAr = = ll+...++...+iirr+...+ +...+ - γ- γ Para os níveis acima, faça o mesmo, da Para os níveis acima, faça o mesmo, da

formaforma γγirisiris

ArAsArAs = = ll+...++...+iirr+...+ +...+ iiss+...+ +...+ - γ- γirirArAr - γ - γisis

AsAs - γ - γ

Page 28: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplificando

A,B,C

B,CA,B A,C

A B C

Page 29: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Cálculo do valor de ijk

A fórmula de A fórmula de ijk ijk é:é:

onde tem que satisfazer a equação (baseada onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança):no princípio da máxima verossimilhança):

2ijk = (ŷŷijkijk)

(yyijkijk - ŷŷijkijk)2

(ŷŷijkijk)log ŷŷijkijk log ŷŷijkijk

0

Page 30: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Estimando os Coeficientes do Modelo (γ)

Baseada na médiaBaseada na média Ex: Formar uma linha de regressão e remover Ex: Formar uma linha de regressão e remover

da consideração 10% dos pontos que se da consideração 10% dos pontos que se encontram mais longe da mesmaencontram mais longe da mesma

Baseada em média “emagrecida”Baseada em média “emagrecida” Baseada na medianaBaseada na mediana

Mais robusta, pois é melhor na presença de Mais robusta, pois é melhor na presença de outliers muito grandesoutliers muito grandes

Alto custo computacional Alto custo computacional → muitas vezes → muitas vezes impraticávelimpraticável

Page 31: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Exemplo

Page 32: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Outros Tipos de Modelo

HierárquicoHierárquico A idéia é calcular o valor esperado A idéia é calcular o valor esperado

baseado na sua posíção e parentes na baseado na sua posíção e parentes na hierarquiahierarquia

Série de Regressão TemporalSérie de Regressão Temporal Baseado na idéia que as células tem um Baseado na idéia que as células tem um

atributo temporalatributo temporal É possível encontrar padrões em períodosÉ possível encontrar padrões em períodos

Page 33: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Outros métodos

Valor extremo no conjuntoValor extremo no conjunto ClusteringClustering Clustering multi-dimensionalClustering multi-dimensional Regressão em dimensões contínuasRegressão em dimensões contínuas Efeitos combinados de dimensões Efeitos combinados de dimensões

categóricascategóricas

Page 34: Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

24/5/2001 12:00

Referências

Data Mining: concepts and techniquesData Mining: concepts and techniques, de , de Han, J. & Han, J. & Kamber, MKamber, M., 2001, Morgan Kaufmann ., 2001, Morgan Kaufmann

Data Mining: practical machine learning tools and Data Mining: practical machine learning tools and techniques with Java implementationstechniques with Java implementations, de , de Witten, I.H. & Witten, I.H. & Frank, E.Frank, E., 2000, Morgan Kaufmann , 2000, Morgan Kaufmann 

Discovery-driven Exploration of OLAP Data Cubes, Discovery-driven Exploration of OLAP Data Cubes, de de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research DivisionIBM Research Division