aprendizado baseado em instancias. introdução em contraste aos métodos de aprendizado que...
TRANSCRIPT
![Page 1: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/1.jpg)
Aprendizado Baseado em Instancias
![Page 2: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/2.jpg)
Introdução• Em contraste aos métodos de aprendizado que
constroem uma descrição explicita genérica da função alvo.
• Os métodos baseados em instâncias guardam os exemplos de treinamento
• A generalização é posposta até que uma nova instância deva ser classificada
• Cada vez que uma nova instância é encontrada, seus relacionamentos com os exemplos previamente guardados é examinado para atribuir um valor de função alvo.
![Page 3: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/3.jpg)
IBL
• IBL, instance based learning• Inclui os métodos de vizinho mais
próximo, raciocínio baseado em casos• IBL é um método chamado lazy• IBL é utilizado em funções alvo com
valores discreto ou valores reais.
![Page 4: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/4.jpg)
IBL
• IBL pode utilizar uma representação simbólica mais complexa para as instâncias -> Raciocínio baseado em Casos.
• O custo de classificar uma nova instância é alto
• Indexação eficiente dos exemplos de treinamento
![Page 5: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/5.jpg)
Aprendizado K-Nearest Neighbor
• O método IBL mas basico é o algoritmo k-nearest neighbor
• Este algoritmo assume que todas as instâncias correspondem a um ponto no espaço n-dimensional Rn
• O vizinho mais próximo de uma instância é definido em termos da distância euclidiana.
![Page 6: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/6.jpg)
Distância Euclidiana
• Seja a instância descrita por– (a1(x),a2(x),.........an(x))
• A distância entre 2 instâncias Xi e Xj– d(Xi,Xj)=(∑r=1,n (ar(Xi)-ar(Xj))2)1/2
Esta abordagem é apropriada tanto para funções alvo discretas ou reais.
![Page 7: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/7.jpg)
Algoritmo para funções Alvo Discretas
• Neste caso o valor f(xq) retornado é o f(xq) mais freqüente entre os k vizinhos de f(xq).
• Algoritmo– Fase de treinamento: para cada exemplo de
treinamento (x,f(x)), adicione o exemplo a lista de exemplos.
![Page 8: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/8.jpg)
Classificação
• Dado uma instância Xq a ser classificada• Sejam X1...Xk as instâncias de treinamento
mais próximas de Xq • Retorne
– F(Xq) <- argmax )=(∑i=1,k α(r,f(Xi))• Onde α(a,b)=1 se a=b• Caso contrario α(a,b)=0
![Page 9: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/9.jpg)
Numero de vizinhos
1 vizinho classifica como +5 vizinhos classificam como -
![Page 10: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/10.jpg)
Regressão
• Classificação no caso de valores reais
• f(Xq) =(∑i=1,k,f(Xi))/k
![Page 11: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/11.jpg)
Algoritmo Nearest Neighbor Distâncias Ponderadas
• Um refinamento obvio do algoritmo é atribuir pesos a cada k-vizinho de acordo a sua distância a instância a classificar Xq
• Ex: valores discretos– F(Xq) <- argmax )=(∑i=1,kwi α(r,f(Xi))– Voto de acordo com a distância– Wi = 1/ d(Xq,Xi)2
– Se Xi= Xq -> f(Xq) = f(Xi)
![Page 12: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/12.jpg)
Continuo
• f(Xq) =(∑i=1,k,wi f(Xi))/ ∑i=1,k,wi – Normalizar os pesos– K = todas as instâncias ou constante
• Obs: A introdução de pesos no algoritmo o faz um método altamente efetivo para vários problemas práticos
• É robusto a dados com ruído e efetivo com grandes bases de treinamento
• É sensível ao conjunto de atributos
![Page 13: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/13.jpg)
Regressão Localmente Ponderada
• Esta abordagem usa exemplos de treinamento ponderado por sua distância para formar uma aproximação a f.
• Ex: podemos usar uma função linear, quadrática, rede neural ou alguma outra função.
• Dada uma instância a classificar Xq, a abordagem constrõe uma aproximação f usando os vizinhos de Xq.
• Esta aproximação é utilizada para calcular f(Xq)
![Page 14: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/14.jpg)
Regressão Linear
• f(X) = w0 + w1 a1(x)+ .....+ wnan(x)
• E = ½ ∑i=1,k,( f(X) – fe(x))2
• ∆W=ŋ ∑i=1,k,( f(X) – fe(x)) an(x)
![Page 15: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/15.jpg)
Problemas de Dimensionalidade
• Imagine instâncias descritas por 20 atributos, mais somente 2 são relevantes
• Problemas de recuperação, kd-tree, as instâncias são guardadas nas folhas da arvore, com as instâncias vizinhas no no perto dele. Os nos internos da arvore ordenam a nova instância e a classificam testando seus atributos.
![Page 16: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/16.jpg)
Comentarios IHC
• Baixos requisitos de memoria e processamento
• Uma hipoteses• Sensibilidade a ordem no treinamento,
maior quantidade de instâncias de treinamento para converger
• Menos sensitivo a ruido
![Page 17: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/17.jpg)
Indução de Conceitos Competitivos
![Page 18: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/18.jpg)
Indução de Conceitos Competitivos
• Protótipos• Tarefa– dado um conjunto de instâncias pre-
classificadas– encontrar uma descrição intencional– um conjunto de protótipos
![Page 19: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/19.jpg)
Indução de Conceitos Competitivos
• Esquemas competitivos não podem ser representados isoladamente
• A extensão de um conceito depende de sua descrição e da dos outros
• O operador típico é o calculo da media das instâncias de treinamento.
• A descrição especifica a tendência central das instâncias
![Page 20: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/20.jpg)
Aprendizado baseado em Instâncias
• Guardam instâncias específicas ao invés de uma descrição abstrata
• Protótipos– conjunção de pares atributos valor
![Page 21: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/21.jpg)
Protótipos
A
B
Peso
Altura Altura
Peso
A D
B C
![Page 22: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/22.jpg)
Protótipos
• Usar protótipos para classificação é um processo de três passos:
– Dada uma instância I, – calcula-se sua distância a cada protótipo
• distância euclidiana, • distância de hamming
– Usa-se o resultado para classificar a instância, o protótipo mais perto
![Page 23: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/23.jpg)
Método média das Instâncias
• Realizar a média das instâncias para encontrar o protótipo de cada classe
• Para determinar o valor pi de um atributo para um protótipo (numérico)
– pi= 1/n xij (j=1,n)
![Page 24: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/24.jpg)
Método incremental
• Ao encontrar uma instância de uma classe nova, guarde esta instância como protótipo
• Quando observar uma instância de uma classe conhecida, recalcule o protótipo
– para cada atributo i pi= (xi-pi)/n+1
– para atributos nominais, escolha o valor mais frequente
![Page 25: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/25.jpg)
Método média das Instâncias
• Em termos de eficiência e elegância é um dos melhores
• pouca expressão representacional• linhas de fronteiras
![Page 26: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/26.jpg)
Método dos Pesos
• Um dos problemas do método anterior é tratar todos os atributos de forma equivalente
• Se os atributos tem escalas diferentes– normalizar
• Alguns atributos tem maior importância
![Page 27: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/27.jpg)
Relevância dos atributos
- -
Peso
Altura
+
+ + -
Pesos de atributos iguais Altura 0.93 e peso 0.68
- -
Peso
Altura
+
+ + -
![Page 28: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/28.jpg)
Métrica de distância
i wi (pi-xi)2
• wi ?
• wi = 1 - 1/n( (k=1,c) j=1,nk pki - xji)• n = número total de instâncias de
treinamento• nk = número de instâncias para a
classe c
![Page 29: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/29.jpg)
Modelos Estatisticos
Naive Bayes
![Page 30: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/30.jpg)
Naive Bayes
• 2 presupostos– todos os atributos são igualmente importantes– independencia estatistica (dado o valor da
classe)• A independencia nunca é verdadeira• Na pratica o esquema trabalha bem.
![Page 31: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/31.jpg)
Probabilidades para a base Weather
5/14
5No
9/14
9Yes
Play
3/52/5
32No
3/96/9
36
Yes
TrueFalse
TrueFalse
Windy
1/54/5
14NoYesNoYesNoYes
6/93/9
63
NormalHigh
NormalHigh
Humidity
1/52/52/5122
3/94/92/9342
Cool2/53/9RainyMildHotCoolMildHot
Temperature
0/54/9Overcast3/52/9Sunny23Rainy04Overcast32Sunny
Outlook
NoTrueHighMildRainyYesFalseNormalHotOvercastYesTrueHighMildOvercastYesTrueNormalMildSunnyYesFalseNormalMildRainyYesFalseNormalCoolSunnyNoFalseHighMildSunnyYesTrueNormalCoolOvercastNoTrueNormalCoolRainyYesFalseNormalCoolRainyYesFalseHighMildRainyYesFalseHighHot Overcast NoTrueHigh Hot SunnyNoFalseHighHotSunnyPlayWindyHumidityTempOutlook
![Page 32: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/32.jpg)
5/14
5No
9/14
9Yes
Play
3/52/5
32No
3/96/9
36
Yes
TrueFalse
TrueFalse
Windy
1/54/5
14NoYesNoYesNoYes
6/93/9
63
NormalHigh
NormalHigh
Humidity
1/52/52/5122
3/94/92/9342
Cool2/53/9RainyMildHotCoolMildHot
Temperature
0/54/9Overcast3/52/9Sunny23Rainy04Overcast32Sunny
Outlook
?TrueHighCoolSunnyPlayWindyHumidityTemp.Outlook Um novo dia:
Probabilidade de cada classePara “yes” = 2/9 3/9 3/9 3/9 9/14 = 0.0053Para “no” = 3/5 1/5 4/5 3/5 5/14 = 0.0206
Normalizando entre 0 e 1::P(“yes”) = 0.0053 / (0.0053 + 0.0206) = 0.205P(“no”) = 0.0206 / (0.0053 + 0.0206) = 0.795
Probabilidades para a base Weather
![Page 33: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/33.jpg)
Regra de BayesA Probabilidade de um evento H dada a evidência E:
A proobabilidade de H a priori : Pr[H] A probabilidade de um evento antes de ver a
evidênciaA probabilidade a posteriori de H:Pr[H|E]
A probabilidade de um evento após conhecer a evidência
Thomas BayesNascido: 1702 em London, EnglandMorto: 1761 em Tunbridge Wells, Kent, England
Pr [H∣E ]= Pr [E∣H ]Pr [H ]Pr [E ]
![Page 34: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/34.jpg)
Naive Bayes para Classificação
• Aprendizado: Qual é a probabilidade de uma classe dada uma instância??– Evidência E = Instância– Evento H = valor da classe para a instância
• Os atributos são independentes
Pr[H|E]= Pr[E1|H]Pr[E2|H]...Pr[En|H]Pr[E] Pr[E]
![Page 35: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/35.jpg)
Exemplo
?TrueHighCoolSunnyPlayWindyHumidit
yTemp.Outlook Evidência E
Probabilidade daclasse “yes”
Pr [yes∣E ]=Pr [Outlook=Sunny ∣yes ]
×Pr [Humidity=High ∣yes ]×Pr [Windy=True ∣yes ]
×Pr [yes ]Pr [E ]
=
29 ×3
9 ×39 × 3
9× 914
Pr [E ]
×Pr [Temperature=Cool∣yes ]×Pr [Humidity=High ∣yes ]×Pr [Windy=True ∣yes ]
×Pr [yes ]Pr [E ]
=
29 ×3
9 ×39 × 3
9× 914
Pr [E ]
![Page 36: Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os](https://reader030.vdocuments.com.br/reader030/viewer/2022013013/5706384c1a28abb8238f623e/html5/thumbnails/36.jpg)
Discusão
• Naive Bayes trabalha muito bem mesmo quando existe dependência entre atributos.
• Adicionando muitos atributos redundantes causará problemas