descrição de conceitos caracterização e comparação

52
Descrição de Conceitos Caracterização e Comparação XXX

Upload: carrington

Post on 19-Jan-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Descrição de Conceitos Caracterização e Comparação. XXX. Descrição de Conceitos: Caracterização e Comparação. O que é Descrição de Conceitos? Caracterização baseada em generalização e resumo Análise da relevância de atributos Comparação de Classes: Discriminação entre diferentes classes - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Descrição de Conceitos Caracterização e Comparação

Descrição de ConceitosCaracterização e Comparação

XXX

Page 2: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 3: Descrição de Conceitos Caracterização e Comparação

O que é Descrição de Conceitos

• Mineração Descritiva versus Mineração Preditiva– Mineração Descritiva: descreve conceitos ou conjuntos de

dados relevantes de forma concisa, resumida, informativa, discriminante

– Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos

• Descrição de Conceitos: – Caracterização: fornece um sumário conciso e suscinto da

coleção de dados – Comparação: fornece as descrições que comparam duas ou

mais coleções dos dados

Page 4: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos vs. OLAP

• Descrição de Conceitos: – pode manipular atributos complexos bem como

suas agregações– um processo mais automatizado

• OLAP: – Restrito a um número pequeno de dimensões e

aos atributos de tipo medida– Processo controlado pelo usuário

Page 5: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 6: Descrição de Conceitos Caracterização e Comparação

Caracterização baseada em Generalização e Sumário

• Generalização– Um processo que abstraia um grande conjunto de dados

relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados

– Abordagens:

• Abordagem Cubo de dados (Abordagem OLAP)

• Abordagem indução orientada atributo

1

2

3

4

5Níveis conceptuais

Page 7: Descrição de Conceitos Caracterização e Comparação

Caracterização: Abordagem Cubo de Dados

• Realiza os cálculos e armazena os resultados em cubos de dados

• Vantagens– Implementação eficiente da generalização de dados

– Cálculo de vários tipos de medidas• e.g., count( ), sum( ), average( ), max( )

– A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down

• Limitações– Manipula apenas dados não numéricos e de medidas de valores

agregados numéricos simples.

– falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado

Page 8: Descrição de Conceitos Caracterização e Comparação

Indução Atributo-Orientada

• Não se restringe a dados categóricos ou a medidas particulares.

• Como é feito?– Colete o conjunto de dados relevantes ( relação inicial) a

partir de uma interrogação de uma base de dados relacional

– Execute a generalização pela remoção de atributo ou pela generalização de atributo.

– Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas.

– Apresentação interativa com usuários.

Page 9: Descrição de Conceitos Caracterização e Comparação

Exemplo

• DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big-Universityuse Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place,

birth_date, residence, phone#, gpafrom studentwhere status in “graduate”

• Interrogação SQl Correspondente:Select name, gender, major, birth_place, birth_date,

residence, phone#, gpafrom studentwhere status in {“Msc”, “MBA”, “PhD” }

Page 10: Descrição de Conceitos Caracterização e Comparação

Princípios Básicos da Indução Atributo-Orientada

• Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial

• Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos.

• Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A.

• Controle Atributo-Limiar: tipicamente 2-8, especificado/automático.

• Controle pelo limiar da relação generalizada: tipicamente 10-30, especificado/automático.

Page 11: Descrição de Conceitos Caracterização e Comparação

ExemploName Gender Major Birth-Place Birth_date Residence Phone # GPA

Jim Woodman

M CS Vancouver,BC,Canada

8-12-76 3511 Main St., Richmond

687-4598 3.67

Scott Lachance

M CS Montreal, Que, Canada

28-7-75 345 1st Ave., Richmond

253-9106 3.70

Laura Lee …

F …

Physics …

Seattle, WA, USA …

25-8-70 …

125 Austin Ave., Burnaby …

420-5232 …

3.83 …

Removido Conservado

Sci,Eng,Bus

Country Age range City Removido Excl, VG,..

Gender Major Birth_region Age_range Residence GPA Count

M Science Canada 20-25 Richmond Very-good 16 F Science Foreign 25-30 Burnaby Excellent 22 … … … … … … …

Birth_Region

GenderCanada Foreign Total

M 16 14 30

F 10 22 32

Total 26 36 62

RelaçãoGeneralizada

RelaçãoInicial

Page 12: Descrição de Conceitos Caracterização e Comparação

Algoritmo Básico para a Indução Atributo-Orientada

• InitialRel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial

• PreGen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar?

• PrimeGen: Baseado na etapa PreGen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens.

• Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.

Page 13: Descrição de Conceitos Caracterização e Comparação

Apresentação dos Resultados da Generalização

• Relações Generalizadas: – Relações em que alguns ou todos os atributos são generalizados, com as

contagens ou outros agregados acumulados.

• Tabelas cruzadas:– Mapear os resultados na forma de tabelas cruzadas.

– Técnicas de Visualização:

– Gráfico de setores, gráfico de barras, curvas, cubos, etc.

• Regras características quantitativas:– Mapear os resultados em regras características com informação

quantitativa associada, exemplo,

.%]47:["")(%]53:["")()()(

toestrangeirxnascimentotCanadaxnascimentoxmasculinoxpos

Page 14: Descrição de Conceitos Caracterização e Comparação

Apresentação—Relação Generalizada

Page 15: Descrição de Conceitos Caracterização e Comparação

Apresentação—Tabelas Cruzadas

Page 16: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 17: Descrição de Conceitos Caracterização e Comparação

Análise da Relevância de Atributos

• Porque?– Que dimensões devem ser incluídas?

– Qual nível de generalização?

– Automático vs. interativo

– Redução do # atributos; mais fácil a compreensão dos padrões

• Princípios– Métodos estatísticos para o pré-processamento dos dados

• Filtragem dos atributos irrelevantes ou pouco relevantes

• Retenção e ordenação dos atributos relevantes

– Relevância relacionada as dimensões e aos níveis

– Caracterização analítica, comparação analítica

Page 18: Descrição de Conceitos Caracterização e Comparação

Análise da Relevância de Atributos

• Como?– Coleta de Dados

– Generalização Analítica• Usar o ganho de informações (ex., entropia ou outras medidas)

para identificar dimensões e níveis altamente relevantes.

– Análise de Relevância• Ordenar e selecionar as dimensões e níveis mais importantes.

– Indução Orientada Atributo para a descrição de classes• Nas dimensões/níveis selecionados

Page 19: Descrição de Conceitos Caracterização e Comparação

Medidas de Relevância

• As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados.

• Métodos– Ganho de informação (ID3)– Razão de ganho (C4.5)– Índice de gini– Etc.

Page 20: Descrição de Conceitos Caracterização e Comparação

Entropia e Ganho de Informação

• S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla

arbitraria

• Entropia do atributo A com valores {a1,a2,…,av}

• Informação ganha ao ramificar no atributo A

s

slog

s

s),...,s,ssI(

im

i

im21 2

1

)s,...,s(Is

s...sE(A) mjj

v

j

mjj1

1

1

E(A))s,...,s,I(sGain(A) m 21

Page 21: Descrição de Conceitos Caracterização e Comparação

Exemplo: Caracterização Analítica

• Tarefa– Minerar características gerais de estudantes de pós-

graduação usando caracterização analítica

• Dado– atributos name, gender, major, birth_place, birth_date,

phone#, e gpa– Gen(ai) = hierarquias de conceito em ai

– Ui = limiar analítico de atributo para ai

– Ti = limiar para generalização de atributo para ai

– R = limiar de relevância de atributo

Page 22: Descrição de Conceitos Caracterização e Comparação

Exemplo (Cont.)

• 1. Coleta de Dados– Classe alvo: estudantes de pós– Classe de contraste: estudantes de graduação

• 2. Generalização analítica usando Ui

– Remoção de atributos• Remoção de name e phone#

– Generalização de atributos• generalização de major, birth_place, birth_date and gpa• Contagens acumuladas

– Relação candidata: gender, major, birth_country, age_range and gpa

Page 23: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)gender major birth_country age_range gpa count

M Science Canada 20-25 Very_good 16

F Science Foreign 25-30 Excellent 22

M Engineering Foreign 25-30 Excellent 18

F Science Foreign 25-30 Excellent 25

M Science Canada 20-25 Excellent 21

F Engineering Canada 20-25 Excellent 18

Relação candidata para a classe alvo: Estudantes de Pós (=120)

gender major birth_country age_range gpa count

M Science Foreign <20 Very_good 18

F Business Canada <20 Fair 20

M Business Canada <20 Fair 22

F Science Canada 20-25 Fair 24

M Engineering Foreign 20-25 Very_good 22

F Engineering Canada <20 Excellent 24

Relação candidata para a classe de contraste: Estudantes de graduação (=130)

Page 24: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• 3. Análise de Relevância– Cálculo da informação requerida para classificar uma

tupla arbitrária

– Cálculo da entropia de cada atributo: ex. principal

99880250

130

250

130

250

120

250

120130120 2221 .loglog),I()s,I(s

For major=”Science”: S11=84 S21=42 I(s11,s21)=0.9183

For major=”Engineering”: S12=36 S22=46 I(s12,s22)=0.9892

For major=”Business”: S13=0 S23=42 I(s13,s23)=0

Numero de estudantes de pós em “Ciências”

Número de estudantes de graduação em “Ciências”

Page 25: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo

• Cálculo do ganho de informação para cada atributo

– Ganho de informação de todos os atributos

78730250

42

250

82

250

126231322122111 .)s,s(I)s,s(I)s,s(IE(major)

2115021 .E(major))s,I(s)Gain(major

Gain(gender) = 0.0003

Gain(birth_country) = 0.0407

Gain(major) = 0.2115

Gain(gpa) = 0.4490

Gain(age_range) = 0.5971

Page 26: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• 4. Derivação da relação inicial de trabalho (W0) – R = 0.1

– Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country

– Remoção da relação candidato classe de contraste

• 5. Realizar Indução Orientada Atributo em W0 usando Ti

major age_range gpa count

Science 20-25 Very_good 16

Science 25-30 Excellent 47

Science 20-25 Excellent 21

Engineering 20-25 Excellent 18

Engineering 25-30 Excellent 18

Relação inicial de trabalho da classe alvo W0: Estudantes de pós

Page 27: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 28: Descrição de Conceitos Caracterização e Comparação

Mineração da Comparação de Classes

• Comparação: Comparação de duas ou mais classes.• Método:

– Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s)

– Generalize ambas as classes nos mesmos níveis superiores de conceitos

– Compare tuplas de mesmo nível superior de descrição– Apresente para cada tupla a sua descrição e duas medidas:

• suporte – distribuição na classe isolada• comparação – distribuição entre as classes

– Destaques as tuplas com características discriminantes fortes• Análise de Relevância:

– Encontre atributos que melhor distinguem diferentes classes.

Page 29: Descrição de Conceitos Caracterização e Comparação

Exemplo

• Tarefa– Comparar estudantes de pós e de graduação usando regras

discriminantes.

– Interrogação DMQL

use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student

Page 30: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• Dado– atributos name, gender, major, birth_place,

birth_date, residence, phone# e gpa

– Gen(ai) = hierarquias de conceitos nos atributos ai

– Ui = limiar analítico de atributo para ai

– Ti = limiar para generalização de atributo para ai

– R = limiar de relevância de atributo

Page 31: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• 1. Coleta de dados– Classes alvo e contraste

• 2. Análise da Relevância de Atributos– Remoção dos atributos name, gender, major, phone#

• 3. Generalização sincronizada– Controlada pelos limiares de dimensão especificados pelo

usuário

Page 32: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)Birth_country Age_range Gpa Count%

Canada 20-25 Good 5.53%

Canada 25-30 Good 2.32%

Canada Over_30 Very_good 5.86%

… … … …

Other Over_30 Excellent 4.68%

Relação Generalizada Para a Classe Alvo: Estudantes de Pós

Birth_country Age_range Gpa Count%

Canada 15-20 Fair 5.53%

Canada 15-20 Good 4.53%

… … … …

Canada 25-30 Good 5.02%

… … … …

Other Over_30 Excellent 0.68%

Relação Generalizada para a Classe de Contraste: Estudantes de Graduação

Page 33: Descrição de Conceitos Caracterização e Comparação

Exemplo (cont.)

• 4. Apresentação– Como relações generalizadas, tabelas cruzadas,

gráfico de barras, gráfico de setores, ou regras– Medidas de contraste para refletir a comparação

entre as classes alvo e de contraste• ex. contagem%

Page 34: Descrição de Conceitos Caracterização e Comparação

Regras Discriminantes

• Cj = Classe alvo

• qa = a generalização de uma tupla cobre algumas tupas da classe alvo– Mas também pode cobrir algumas da classe de contraste

• d-weight– range: [0, 1]

• Forma de uma regra discriminante quantitativa

m

a

a

)count(q

)count(qweightd

1i

i

j

C

C

d_weight]:[dX)condition(ss(X)target_claX,

Page 35: Descrição de Conceitos Caracterização e Comparação

Exemplo

• Regra discriminante quantitativa

– onde 90/(90+120) = 30%

Status Birth_country Age_range Gpa Count

Graduate Canada 25-30 Good 90

Undergraduate Canada 25-30 Good 210

Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada

%]30:["")("3025")(_"")(_

)(_,

dgoodXgpaXrangeageCanadaXcountrybirth

XstudentgraduateX

Page 36: Descrição de Conceitos Caracterização e Comparação

Descrição de uma Classe

• Regras características quantitativas

– Condição necessária

• Regra discriminante quantitativa

– Condição suficiente

• Regra de descrição quantitativa

– Condição necessária e suficiente

]w:d,w:[t...]w:d,w:[t nn111

(X)condition(X)condition

ss(X)target_claX,

n

d_weight]:[dX)condition(ss(X)target_claX,

t_weight]:[tX)condition(ss(X)target_claX,

Page 37: Descrição de Conceitos Caracterização e Comparação

Exemplo

• Regra de descrição quantitativa para classe alvo Europa

Location/item TV Computer Both_items

Count t-wt d-wt Count t-wt d-wt Count t-wt d-wt

Europe 80 25% 40% 240 75% 30% 320 100% 32%

N_Am 120 17.65% 60% 560 82.35% 70% 680 100% 68%

Both_ regions

200 20% 100% 800 80% 100% 1000 100% 100%

Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em AllElectronics em 1998

30%]:d75%,:[t40%]:d25%,:[t )computer""(item(X))TV""(item(X)

Europe(X)X,

Page 38: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 39: Descrição de Conceitos Caracterização e Comparação

Mineração das Características de dispersão dos Dados

• Motivação– Para compreender melhor os dados: tendência central, variação e

espalhamento

• Características de tendência central e de dispersão – Média, mediana, max, min, quantis, variância, etc.

• Dimensões numéricas corresponde aos intervalos ordenados– Dispersão dos dados: analisado com múltiplas granularidades de

precisão

– Análise de Boxplot ou quantl nos intervalos ordenados

• Análise de dispersão em medidas calculadas– Análises Boxplot ou quantl no cubo transformado

Page 40: Descrição de Conceitos Caracterização e Comparação

Medidas de Tendência Central

• Media

– Média aritmética ponderada

• Mediana: medida holística

– Valor na posição média se o número de valores é par, ou média dos

valores de posição média senão

– Estimação via interpolação

• Moda

– Valor mais frequente nos dados

– Unimodal, bimodal, trimodal

– Formula empírica:

n

iix

nx

1

1

n

ii

n

iii

w

xwx

1

1

cf

lfnLmediana

mediana

))(2/

(1

)(3 medianmeanmodemean

Page 41: Descrição de Conceitos Caracterização e Comparação

Medidas de dispersão

• Quartis, outliers e boxplots

– Quartils: Q1 (25o percentil), Q3 (75o percentil)

– Amplitude Inter-quartil: IQR = Q3 – Q1

– Resumo cinco números: min, Q1, Mediana, Q3, max

– Boxplot: nas extremidades da caixa estão os quartis, a mediana é a

linha central, extremos, e plota individualmente os outliers

– Outlier: usualmente, um valor maior/menor do que 1.5 x IQR

• Variancia e Desvio-padrão– Variancia s2: (algebraica, cálculo escalável)

– Desvio padrão s é a raiz quadrada da variância s2

n

i

n

iii

n

ii x

nx

nxx

ns

1 1

22

1

22 ])(1

[1

1)(

1

1

Page 42: Descrição de Conceitos Caracterização e Comparação

Análise com Boxplot

• Sumário cinco números de uma distribuição:Mínimo, Q1, Mediana, Q3, Maximo

• Boxplot– No inicio e no final da caixa estão o primeiro e o

terceiro quartil: a altura da caixa é o IRQ– A mediana é destacada por uma linha dentro da

caixa– Extremos: duas linhas fora da caixa destacam o

mínimo e o máximo

Page 43: Descrição de Conceitos Caracterização e Comparação

Um Boxplot

Um boxplot

Page 44: Descrição de Conceitos Caracterização e Comparação

Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados

• Variância

• Desvio padrão: raiz quadrada da variância– Mede a dispersão em torno da média

– É zero se e somente se todos os valores são iguais

– Tanto o desvio quanto a variância são algebraicos

22

1

22 11

1)(

11

ii

n

ii x

nx

nxx

ns

Page 45: Descrição de Conceitos Caracterização e Comparação

Análise de Histograma

– Histograma de freqüências • Método gráfico univariado

• Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados

Page 46: Descrição de Conceitos Caracterização e Comparação

Diagrama Quantil

• Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais)

• Diagrama quantil– Para os xi classificados em ordem crescente, fi indica que

aproximadamente 100 fi% dos datas são menores ou iguais a xi

Page 47: Descrição de Conceitos Caracterização e Comparação

Diagrama Quantil-Quantil (Q-Q)

• Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra

• Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra

Page 48: Descrição de Conceitos Caracterização e Comparação

Diagrama de Dispersão

• Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc

• Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano

Page 49: Descrição de Conceitos Caracterização e Comparação

Curva de Loess

• Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência

• Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão

Page 50: Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos: Caracterização e Comparação

• O que é Descrição de Conceitos?

• Caracterização baseada em generalização e resumo

• Análise da relevância de atributos

• Comparação de Classes: Discriminação entre

diferentes classes

• Estatística Descritiva em grandes bases de dados

• Discussão

Page 51: Descrição de Conceitos Caracterização e Comparação

Indução Orientada-Atributo vs Aprendizagem à partir de exemplos

• Diferenças na filosofia e nas suposições básicas– Aprendizagem à partir de exemplos: exemplos positivos

usados para a generalização e negativos para a especialização

– Em mineração apenas exemplos positivos: o drill-down retorna a generalização à um estado prévio

• Diferenças no tamanho do conjunto de treinamento

• Diferença nos métodos de generalização– Aprendizagem de máquina generaliza na base tupla por

tupla

– Mineração generaliza na base atributo por atributo

Page 52: Descrição de Conceitos Caracterização e Comparação

Mineração Incremental e Paralela para a Descrição de Conceitos

• Mineração Incremental: revisão baseada em dados recentemente adicionados DB– Generalize DB no mesmo nível de abstração da relação

generalizada R para obter R

– União R U R, i.e., fusionar a contagem e as outras estatísticas para produzir uma nova relação R’

• Filosofia similar pode ser aplicada a amostragem de dados, mineração paralela e/ou distribuída, etc.