cea462 – sistemas de apoio à decisão – slide 1 universidade federal de ouro preto mineração...

CEA462 – Sistemas de Apoio à Decisão – Slide 1

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Mineração de DadosMineração de Dados(Data Mining)(Data Mining)


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Como Construir uma Árvore de Decisão

Encontrar a árvore ótima é computacionalmente inviável

Algoritmo de Hunt:

ID3

C4.5

CART


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 – Iterative Dichotomizer 3

Cada vértice é associado ao atributo mais informativo que ainda não tenha sido considerado.

Para medir o nível de informação de um atributo se utiliza o conceito de entropia.

Menor o valor da entropia, menor a incerteza e mais utilidade tem o atributo para a classificação.


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

O número de combinações possíveis são:

Aspecto: sol, nublado, chuvaTemperatura: quente, agradável, frioUmidade: alta, normalVento: fraco, forte (3 x 3 x 2 x 2 = 36)


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Qual é o atributo mais relevante para prever a classe a qual pertencem os dados ?

– Ganho da Informação: o ganho de informação do atributo X, é a diferença entre a informação necessária para identificar um elemento de T e a informação necessária para identificar um elemento de T depois que o valor de atributo X tenha sido considerado:

Ganho ( X,T) = Info (T) – Σ TX / T * Info (X, T )

O algoritmo ID3


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Conjunto de registros T com 14 registros. Duas partições Sim e Não, com probabilidade 9/14 e 5/14.

Info(T) = I( 9/14, 5/14 ) = -(9/14 . Log2 (9/14) + 5/14 . Log2 (5/14)) = 0.94


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info ( Aspecto, T ) = sol/T * I (sol) + nublado/T * I (nublado) + chuva/T * I (chuva)

Info ( Aspecto, T ) = 5/14 * I (2/5, 3/5) + 4/14 * I (4/4 , 0) + 5/14 * I (3/5,2/5) = 0.693Info ( Aspecto, T ) = 5/14 * I (2/5, 3/5) + 4/14 * I (4/4 , 0) + 5/14 * I (3/5,2/5) = 0.693


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info(T) = 0.94Info(Aspecto, T) = 0.693Ganho ( Aspecto, T ) = 0.94 - 0.693 = 0.247


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Com o objetivo de criar árvores de decisão

pequenos, para identificar poucas regras, o atributo escolhido para nó da árvore é o atributo de maior ganho.

O algoritmo ID3


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Passo 1:

Se todos os dados estão classificados em alguma das classes então parar ;senãoselecionar ( utilizando alguma heurística)algum atributo A com valores v1, v2, . . .,vn e criar um nó de decisão.

O algoritmo ID3


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Passo 2 : particionar o conjunto de dados

de treino T, em subconjuntos t1, t2, . . . , tn de acordo com os valores do atributo A

• Passo 3 : aplicar o algoritmo recursivamente para cada conjunto de dados ti

O algoritmo ID3


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto



Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info ( Sol ) = 0.971Info ( Nublado ) = 0.0Info ( Chuva ) = 0.971

Info ( Aspecto ) = 0.693( 5/14 * 0.971 + 4/14 * 0.0 + 5/14 * 0.971 )Ganho ( Aspecto ) = 0.94 - 0.693 = 0.247


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info ( Quente ) = 1.0Info ( Agradável ) = 0.919Info ( Fria ) = 0.811

Info (Temperatura ) = 0.912( 4/14 * 1.0 + 6/14 * 0.919 + 4/14 * 0.811 )Ganho ( Temperatura ) = 0.94 - 0.912 = 0.028


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info ( Alta ) = 0.984Info ( Normal ) = 0.592

Info (Umidade ) = 0.636( 7/14 * 0.984 + 7/14 * 0.592 )Ganho (Umidade ) = 0.94 - 0.788 = 0.152


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Info ( Forte ) = 1.0Info ( Fraco ) = 0.811

Info ( Vento ) = 0.892( 6/14 * 1.0 + 8/14 * 0.541 )Ganho ( Vento ) = 0.94 - 0.738 = 0.048


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Ganho ( Aspecto ) = 0.247Ganho ( Temperatura ) = 0.028Ganho ( Umidade ) = 0.152Ganho ( Vento ) = 0.048

Aspecto

SolChuva

Nublado

Decisão = Sim

Info ( Sol ) = 0.971Info ( Nublado ) = 0.0Info ( Chuva ) = 0.971


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto



Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Aspecto

SolChuva

Nublado

Decisão = SimUmidade

AltaNormal

Decisão = Sim

Decisão = Não

Vento

Forte

Fraco Decisão = Não

Decisão = Sim


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• É uma extensão do ID3:• Construí árvores de decisão, com valores

desconhecidos para alguns atributos.

• Trabalha com atributos que apresentam valores contínuos.

• Utiliza o conceito de poda (pruning) de árvores.

Algoritmo C4.5


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Quando existem atributos desconhecidos para alguma variável, os mesmos são considerado como uma nova categoria.

• Quando existem variáveis com atributos contínuos , o algoritmo cria intervalos segundo as alterações na variável de decisão.

Algoritmo C4.5


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

• Poda da árvore, significa substituir uma parte da árvore (sub-árvore) por uma folha, com o objetivo de simplificar as regras de decisão.

• A poda tem lugar quando o valor esperado do erro da sub-árvore é maior que o erro da folha que o fico em seu lugar.


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


• O processo de poda pode ser feito da seguinte maneira:

1. Percorre a árvore em profundidade.2. Para cada nó de decisão calcula:

erro no nósoma dos erros nos nós

descendentes3. Se o erro do nó é menor à soma dos

erros dos nós descendentes então o nó é transformado em folha


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Erro de classificação de um nodoErro de classificação de um nodo

N - n + k - 1N - n + k - 1EEst(Nodo) = EEst(Nodo) =

N + kN + k

N - Número de exemplos classificados no N - Número de exemplos classificados no nodonodo

n - Número de exemplos pertencentes à classe n - Número de exemplos pertencentes à classe maioritária (com mais exemplos)maioritária (com mais exemplos)

k - Número de classes total do problemak - Número de classes total do problema


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


Erro Estático = 0.429Erro Estático = 0.429 Erro Estático = 0.333Erro Estático = 0.333(5-3+2-1)/(5+2)...(5-3+2-1)/(5+2)...

n,mn,m significa n exemplos da classe C1 e m exemplos da classe C2 significa n exemplos da classe C1 e m exemplos da classe C2

Erro Estático = 0.375Erro Estático = 0.375


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto


• .


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• CART: Classification And Regression Trees

• Uma árvore de classificação utilizando a Metodologia CART traduz o resultado de uma partição binária recursiva dos dados base da modelagem

• Estabelece uma relação entre as varáveis independentes (X), com uma única variável dependente, ou resposta.

• O modelo é ajustado mediante sucessivas divisões binárias no conjunto de dados , para tornar os sub-conjuntos cada vez mais homogêneos.

• Para selecionar a melhor partição, procura-se minimizar a impureza dos nós utilizando o índice GINI.

O algoritmo CART


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• As árvores obtidas através desse algoritmo possui muitos níveis, o que a torna pouco eficiente

• É flexível, entretanto , é complexo tornando o calculo dos resultados muito demorado para grandes conjuntos de dados

• Pode utilizar diferentes tipos de atributos: contínuas, ordinais e nominais.

O algoritmo CART


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Os procedimentos do CART são:

• Definir o conjunto de regras para realizar a divisão de um nó em dois nós filhos. As perguntas do algoritmo têm como resposta apenas “sim” ou “não”.

• Encontrar a melhor divisão através do critério Gini.• Repetir o processo de divisão até que esta seja

impossível ou interrompida.• Aplicar o processo de pós-podagem para encontrar a

árvore com o menor custo, ou seja, aquela que possui menor taxa de erro e menor complexidade.

O algoritmo CART


Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Exercícios – 1 ponto – Entrega: 17/111- Dada a árvore de decisão, verifique se é necessário a realização da poda, de acordo com o algoritmo C4.5. Justifique sua resposta.

A

[ 3 1 ]B[ 7 2 ]

D = S

D = N

C

D = N

D = S[ 7 1 ]

[ 9 4 ]

[ 0 1 ]

[ 2 0 ]

[ 0 1 ]

cea462 – sistemas de apoio à decisão – slide 1 universidade federal de ouro preto mineração...

Documents