renato francês e aldebaro klautau universidade federal do pará

Renato Francês e Aldebaro Klautau Universidade Federal do Pará

Fundamentos matemáticos da mineração de dados

Exemplo de situações

Quais os produtos que são comprados juntos pelos clientes? regras de associação

Mala direta: enviar ou não um catálogo de produtos a um eventual comprador? classificação

Diagnóstico de câncer: quais os fatores mais importantes? seleção de fatores (parâmetros)

Mercado de ações: como prever uma grandeza (número real) com base em outras? regressão

Eleitores: como podem ser agrupados? agrupamento (“clustering”)

Sumário

Definições e etapas do “data mining”Pré-processamento e o pacote WekaMinerando regras de associaçãoClassificação

Ênfase: árvores de decisão, redes neurais eSVM (“support vector machine”)

Seleção de parâmetros ou redução da dimensionalidade

Predição ou regressãoAnálise de grupamentos

“Cluster analysis”Conclusões

Data mining

Extração (ou “mineração”) de conhecimento a partir de grandes quantidades de dados

“Knowledge discovery in databases” (KDD) Etapas do KDD:

Data cleaning Data integration Data selection Data transformation

Data mining Pattern evaluation Knowledge presentation

Agrega profissionais de várias áreas

Reconhecimento de padrões

Tecnologia de banco de dados

Outros...

Mineração de dados

Aspecto prático: Weka

Pacote “open-source”

Escrito em Java

Integra vários algoritmos

Fácil de usar

Não é o mais rápido

Dados ou informação “bruta”

Assumimos estarem organizados em arquivos simples

Nome Telefone Peso País

Bush 1 43 228859 67 EUA

Lula 55 23 591927 78 Brasil

Fidel 34 95 499402 82 Cuba

... ... ... ...

registros, exemplos ou “instances”

campo ou atributo

Atributos no Weka

Exemplo, atributos: Nome, Brasileiro, Partido, Peso, Idade Exemplo, registros (“instance”): Lula, Sim, PT, 80.7, 58 Campo (ou atributo) pode ser: A) Nominal ou Discreto, K possíveis valores (K é um

inteiro) Binários, K=2 - brasileiro? sim ou não Multi-classe, K>2 - partido? PDT, PT, PFL,..., PMDB

B) Contínuos Números reais – peso? 80.7, 23.2, 56.4, ... Inteiros – idade? 1, 2, 3, ...

C) Strings Exemplo: nome? Bush, Saddam, Lula, ...

D) Outros: data, etc.

Formato ARFF do Weka

@relation car

@attribute buying {vhigh, high, med, low}@attribute maint {vhigh, high, med, low}@attribute doors {2, 3, 4, 5more}@attribute persons {2, 4, more}@attribute lug_boot {small, med, big}@attribute safety {low, med, high}@attribute class {unacc, acc, good,

vgood}

vhigh,vhigh,2,2,small,low,unaccvhigh,vhigh,2,2,small,med,unacc...

Obs: CSV + cabeçalho (header)

Pré-processamento (limpeza dos dados)

Discretizar atributos

QUANTIZADORUNIFORME

ENTRADA

SAÍDA

1 2 3 4 -4 -3 -2 -1

Histograma

Base IDH (índice de desenvolvimento humano) 29 exemplos ou “instances”

Analfabe. Mortalid. Exp. Vida Renda IDH

4 8 78 25880 primeira

5 6 78 19510 primeira

10 35 71 4180 segunda

55 86 57 230 Terceira

... ... ... ... ...

Histogramas (uniformes) do atributo “renda”

Com 10 “bins”

0 0.5 1 1.5 2 2.5 3

0.4505 1.3055 2.1605

Com 3 “bins”

Histograma não-uniforme

Exemplo: 5 bins: 4 uniformes e 1 mais largo

0 0.250.50.75 1 3

Regras de associação

Tabela

Regras:Idade=Jovem E Renda=Alta ==> Classe=AIdade=Jovem E Renda=Baixa ==> Classe=BIdade=Idoso ==> Classe=C

Idade Renda Classe Núme.

Jovem Alta A 1402

Jovem Baixa B 1038

Idoso Alta C 786

Idoso Baixa C 1374

Definições úteis

Regra A ==> B

Confidência = P (A e B ocorrerem juntos) / P(A)

= P (B | A)

Suporte = P (A e B ocorrerem juntos)

Regras de associação – venda de carro

Exemplo (algoritmo apriori) para dataset “car”: 1. safety=low 576 ==> class=unacc 576 conf:(1) 2. persons=2 576 ==> class=unacc 576 conf:(1) 3. maint=vhigh 432 ==> class=unacc 360 conf:(0.83) 4. buying=vhigh 432 ==> class=unacc 360 conf:(0.83) 5. lug_boot=small 576 ==> class=unacc 450 conf:(0.78) 6. doors=2 432 ==> class=unacc 326 conf:(0.75) 7. buying=high 432 ==> class=unacc 324 conf:(0.75) 8. maint=high 432 ==> class=unacc 314 conf:(0.73) 9. doors=3 432 ==> class=unacc 300 conf:(0.69)10. lug_boot=med 576 ==> class=unacc 392 conf:(0.68)

Dataset “futebol”

@relation futebol

@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute outofstate {TRUE, FALSE} joga fora?@attribute wins {yes, no}

@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yes...

Regras para “futebol”

Best rules found:

1. outlook=overcast 4 ==> wins=yes 4 conf:(1) 2. outlook=rainy outofstate=FALSE 3 ==> wins=yes 3 conf:(1) 3. outlook=rainy wins=yes 3 ==> outofstate=FALSE 3 conf:(1) 4. humidity='(89.8-92.9]' 3 ==> outofstate=TRUE 3 conf:(1) 5. humidity='(77.4-80.5]' 2 ==> outlook=rainy outofstate=FALSE

wins=yes 2 conf:(1) 6. outlook=rainy humidity='(77.4-80.5]' 2 ==> outofstate=FALSE

wins=yes 2 conf:(1) 7. humidity='(77.4-80.5]' outofstate=FALSE 2 ==> outlook=rainy

wins=yes 2 conf:(1) 8. humidity='(77.4-80.5]' wins=yes 2 ==> outlook=rainy

outofstate=FALSE 2 conf:(1) 9. outlook=rainy humidity='(77.4-80.5]' outofstate=FALSE 2 ==>

wins=yes 2 conf:(1)10. outlook=rainy humidity='(77.4-80.5]' wins=yes 2 ==>

outofstate=FALSE 2 conf:(1)

Problema: Dado um vetor x com parâmetros, ache sua

classe y

Exemplo:

Avaliação: taxa de erro

Compr. Peso Classe y

12 3.2

10 0.5

14 2.8

Classificação

Conjuntode treino

Fase de “teste”:x = (13, 4.2)

classificadorx y

Métodos de avaliação

Testar (obter taxa de erro) usando o próprio conjunto de treino

Testar com conjunto de “teste”, disjunto do de treino

Validação cruzada (“cross-validation”): Repartir o conjunto de treino em N subconjuntos (“folds”) Considerar cada um o conjunto de teste e treinar com os

N-1 restantes

Deixe um de fora (“leave-one-out”) Caso extremo de cross-validation: apenas 1 exemplo

compõe o conjunto de teste e todo o resto é usado para treinar

Matriz de confusões (“confusion-matrix”)

“Over-fitting” e seleção dos parâmetros

Como projetar classificadores?

PirarucuPiranha

Piranha or Pirarucu?

Use “histogramas” obtidosdo conjunto de treinamento

Histograma do comprimento

Regiões de decisão

No caso anterior: um único parâmetro (comprimento do peixe) regiões de decisão eram segmentos de uma reta

Caso mais geral: regiões no espaço k-dimensional Exemplo bidimensional: vogais de Peterson & Barney 2 atributos contínuos F1 e F2 e 1 atributo (classe)

nominal:ER, UW, UH, AO, AA, AH, AE, EH, IH, IY

Exemplos: 1000, 3500, AH 832, 2500, EH ...

P&B vowel dataset

close “how far the tongue is raised” open

sed”

Exemplo de regiões de decisão

Árvore de decisão C4.5 (J4.8)

F2 <= 1600| F1 <= 586| | F2 <= 990: UW (92.0/47.0)| | F2 > 990| | | F2 <= 1200: UH (50.0/17.0)| | | F2 > 1200: ER (63.0/23.0)| F1 > 586| | F2 <= 1250: AA (59.0/33.0)| | F2 > 1250: AH (56.0/24.0)F2 > 1600| F1 <= 490| | F1 <= 350: IY (68.0/5.0)| | F1 > 350: IH (61.0/21.0)| F1 > 490| | F1 <= 652: EH (71.0/34.0)| | F1 > 652: AE (79.0/19.0)

Tamanho: 17 nós e 9 folhas

Dataset IDH (índice de des. humano)

Árvore de decisão (algoritmo C4.5 / J4.8)

Número de folhas: 5Tamanho da árvore: 9

Regras (algoritmo Apriori / requer discretização) 1. IDH=terceira 9 ==> Renda='(-inf-2795]' 9 conf:(1) 2. Mortalidade='(12.2-20.4]' 7 ==> IDH=segunda 7 conf:(1) 3. IDH=primeira 6 ==> Analfabetismo='(-inf-7.3]' Mortalidade='(-inf-12.2]' 6

conf:(1)...

backpropagation neural network

decision tree J4.8 (equivalente ao C4.5)

support vector machine (SVM)

AdaBoost

naïve Bayesetc.

Weka: Algoritmos para treinamento de classificadores

Redes neurais artificiais

Tenta imitar cérebro: unidades são “neurônios”

Perceptron

Precursor das redes neurais atuais Não há “camada escondida”: y = W x

Regiões de decisão para P&B: rede neural

Exemplo de regiões de decisão: árvore

Classificador moderno: SVM

Desenvolvida por Vladimir Vapnik e colaboradores Início: década de 60 Concepção atual: [Cortes & Vapnik, 1995]

Importantes ingredientes básicos: Classificadores lineares de máxima

margem “Truque do kernel” para obtenção de

classificadores não-lineares

Classificadores lineares (problemas binários)

f(x)=sgn(<x, w> + b)

x,w є d, f(x) є {1, 1} e b є (“bias”)

é o produto interno

sgn retorna o sinal, com sgn (0) = 1

w é um vetor normalao hiperplano separador

θcos, wxwx

Exemplo: d=2, x=(x1, x2)

39-6 -4 -2 0 2 4 6

Classificadores lineares (cont.)

f(x)=sgn(<x, w> + b), com w=(2, 4), b=6

hiperplanof(x)=0

Classes “linearmente separáveis”

SVM (hiperplano com máxima

margem)

perceptron

Perceptron versus SVM

Classificadores lineares são limitados

Exemplo clássico: EXOR (ou exclusivo)

Solução:mapeamento Φ(x) não-linear

Ex: x=(x1, x2)

“Maldição da dimensionalidade”

)2,,()( 2122

21 xxxx x

)5.02sgn()( 2122

21 xxxxf x

)2sgn()( 213222

211 bxxwxwxwf x

“Truque do kernel”

w é uma combinação de vetores de treinamento

Representação “dual” do classificador

Usando-se mapeamento Φ não linear

Exemplo: EXOR

iii bbf

',sgn',sgn)'( xxxwx

iii bf

)'(),(sgn)'( xxx

211 ',2)()()'(),( xxxx xxxxxxxx

)2,,()( 2122

21 xxxx x

Não é necessário calcular o mapeamento Φ explicitamente

Escapa-se da “maldição da dimensionalidade” (“statistical learning theory”)

Algoritmos baseados em produtos internos podem ser “kernelizados”

“Truque do kernel” (cont.)

Kernel: produto interno no espaço imagem de Φ

Kernels mais usados: Polinomial

SVM linear, p=1 Gaussiano

Vetores de suporte: exemplos xi para os quais λi

)(),'(),'( iik xxxx

iii bkf

),'(sgn)'( xxx

piik xxxx ,'),'(

)/'exp(),'(2

ck ii xxxx

SVM não-linear - exemplo

2 classes:“círculos” o - mistura de 2 Gaussianas“pontos” ● - mistura de 3 Gaussianas

SVM com kernel Gaussiano

Médias marcadas com “x”

5 vetores de suporte:marcados com círculo extra

Não “modela”, concentra-senas regiões de decisão

Classificador “support vector machine”

entrada x

kernel “compara” x e xi

vetores de suporte: x1, x2, x3 e x4

SVM (cont.)

entrada x

B classificadores binários SVM

Combina decisões f1(x),...,fB(x) via matriz ECOC

Classificadores: ANN versus SVM

Rede neural

Problema do Weka/SVM: tempo de treinamento

Usamos 4 pacotes SVM “open source” Weka (Java) SVMTorch (C++) SVMLight (C) SvmFu (C++)

“dataset” # treino dim.

isolet 6238 26

e-set 2160 9

letter 16000 26

satimage 4435 6

pendigits 7494 10

timitplp40

138839 39

Torchoutros

maior conjunto de treino

101214161820

isolet

igits-

timitp

lp40-a

timitp

lp40-o

SVMLight

Redução da dimensionalidade

Métodos “filters” Ganho de informação AdaBoost

Métodos “wrappers” Depende dos classificadores Problema: complexidade computacional

“Breast-cancer” dataset

Atributos 1. Class: no-recurrence-events, recurrence-events 2. age: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69,

70-79, 80-89, 90-99. 3. menopause: lt40, ge40, premeno. 4. tumor-size: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29,

30-34, 35-39, 40-44, 45-49, 50-54, 55-59. 5. inv-nodes: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-

20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39. 6. node-caps: yes, no. 7. deg-malig: 1, 2, 3. 8. breast: left, right. 9. breast-quad: left-up, left-low, right-up, right-low,

central.10. irradiat: yes, no.

Atributos selecionados Método 1Selected attributes: 3,4,5,6,9 : 5 tumor-size inv-nodes node-caps deg-malig irradiat Método 2Selected attributes: 6,4,3,5,9,1,8,7,2 : 9 0.07701 6 deg-malig 0.069 4 inv-nodes 0.05717 3 tumor-size 0.05126 5 node-caps 0.02582 9 irradiat 0.01061 1 age 0.00885 8 breast-quad 0.00249 7 breast 0.002 2 menopause

Exemplo de experimento prático

1015202530354045

5 25 40 100 all 760 plp 118

info gain

boosting

others

3 x 253 + 1 = 760 “features”SVMs com kernel linear (perceptron)Algoritmo de seleção:

AdaBoost vs. ganho de informação (“info gain”)

Histograma dos parâmetros selecionados

F0, voicing, 4 formants

PLP (39)

Seneff’s synchrony (40)

Seneff’s envelope (40)

MFCC (39)

RASTA (39)

Filter-bank (50)

Predição (ou regressão)

Regressão linear

Regressão não-linear

Regressão linear

Código MatlabN=100; a=3;t=rand(1,N);x=a*t+rand(1,N);plot(t,x,'o');

Linear Regression Model (Weka)

Y = 2.9974 * X + 0.4769

Correlation coefficient 0.9358Mean absolute error 0.2744

0 0.2 0.4 0.6 0.8 10

Regressão não-linear

Código MatlabN=100;a=3;x=rand(1,N);y=a*cos(2*pi*x)+rand(1,N);plot(x,y,'o');

Problema: Linear não resolve

Solução: Redes neurais SVM

0 0.2 0.4 0.6 0.8 1-3

Análise de grupamentos

Algoritmos: K-means EM (“expectation maximization”)

Weka avançado

Usando Weka da linha de comando PATH

DOS: setLinux: bash (export), tcsh (setenv)

CLASSPATH

Modificando o código fonte do Weka Compilador JBuilder

Conclusões

Mineração de dados é uma área multidisciplinar que se beneficia, dentre outras, de técnicas de “reconhecimento de padrões”

Discutimos: regras, classificação, regressão, agrupamentos

Reconhecimento de padrões exige alguma matemática para se entender os algoritmos

Weka é ideal para iniciantes, ou pessoas que desenvolvam algoritmos na área

A competência do profissional é fator essencial para “bamburrar” em conhecimento

Para ler mais:

Data mining: Concepts and techniques. Jiawei Han e Micheline Kamber, Morgan Kaufmann, 2001

Data mining: Practical machine learning tools and techniques with Java implementations. Ian Witten e Eibe Frank, Morgan Kaufmann

http://www.laps.ufpa.br

renato francês e aldebaro klautau universidade federal do pará

Documents

francês inglês csjournal

francês apostila aluno

francês definitivo o Último curso de francês da sua vida

livro francês

apostila francês

francÊs iniciante

sistema francÊs

absolutismo francês

idiomas - francês - curso de francês globo - fascículo 01

francês em montpellier

vocabulário português francês

programa de francÊs

renascimento francês

jardim francês

processamento digital de sinais evaldo gonçalves pelaes...

programa francês profissional

apostila de francês (português francês)

apostila francÊs bÁsico

para o francês os números ordinais...os números ordinais...

code civil francês