![Page 1: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/1.jpg)
Universidade de São PauloInstituto de Ciências Matemáticas e de Computação
Francisco A. Rodrigues
Departamento de Matemática Aplicada e Estatística - SME
![Page 2: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/2.jpg)
Dada M classes ω1, ω2, ..., ωM e um padrão
desconhecido x, determinar a probabilidade
condicional p(ωi|x) do padrão pertencer a cada
classe i.
Classificar de acordo com a classe mais provável.
Objetivo
![Page 3: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/3.jpg)
Conceitos básicos
• Probabilidade condicional
• Partição do espaço amostral
• Teorema de Bayes
![Page 4: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/4.jpg)
Teorema de Bayes
![Page 5: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/5.jpg)
Teorema de Bayes
![Page 6: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/6.jpg)
Exemplo:
Considere duas urnas. A primeira contém duas bolas brancas e sete bolas pretas e a segunda contém cinco bolas brancas e seis pretas. Nós lançamos uma moeda e retiramos uma bola da primeira ou da segunda urna, dependendo do resultado do lançamento, isto é, cara (urna 1) ou coroa (urna 2). Qual é a probabilidade condicional de que o resultado do lançamento da moeda foi cara, dado que uma bola branca foi retirada?
Teorema de Bayes
![Page 7: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/7.jpg)
Distribuição normal
![Page 8: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/8.jpg)
Teoria da decisão Bayesiana
Vamos começar tratando do caso de duas classes:
•Padrão desconhecido é representado por:
• Sejam ω1 e ω2 duas classes nas quais um dado padrão devem
pertencer.
• Assumimos que conhecemos as probabilidades à priori:
P(ωωωω1) e P(ωωωω2).
• Estas probabilidades podem ser estimadas do conjunto de
treinamento.
[ ]T
lxxxx ,...,, 21=
![Page 9: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/9.jpg)
Teoria da decisão Bayesiana
• Se N é o número total de padrões disponíveis para
treinamento, onde N1 é da classe ω1 e N2 da classe ω2,
então:
P(ω1)~N1/N
P(ω2) ~ N2/N
![Page 10: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/10.jpg)
Teoria da decisão Bayesiana
• Também assumimos que conhecemos as funções
densidades condicionais de probabilidades de cada
classe:
p(x|ωi), i=1,2,
Que descreve a distribuição de probabilidades das
características de cada classe.
![Page 11: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/11.jpg)
Teoria da decisão Bayesiana
![Page 12: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/12.jpg)
Teoria da decisão Bayesiana
• Se p(x|ωi), i=1,2, não são conhecidas, elas podem
ser estimadas.
• p(x|ωi) é chamada também: função de máxima
verossimilhanca de ωi com respeito a x.
![Page 13: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/13.jpg)
Teoria da decisão Bayesiana
• Como conhecemos p(x|ωi) e P(ωi), i=1,2, podemos
usar o teorema de Bayes para determinar:
• Ou seja a probabilidade condicional do padrão
descrito por x pertencer à classe ωi.
![Page 14: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/14.jpg)
Teoria da decisão Bayesiana
• Pela lei da probabilidade total:
• Logo, podemos calcular para cada classe:
![Page 15: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/15.jpg)
Teoria da decisão Bayesiana
• A regra de classificação Bayesiana será então:
• Ou seja:
![Page 16: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/16.jpg)
Teoria da decisão Bayesiana
• Para duas classes equiprováveis:
l = 1d
)( e )( 2211 ωω →→ RR
![Page 17: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/17.jpg)
Teoria da decisão Bayesiana
• Erro associado à classificação:
• Para duas classes: área indicada sob as curvas
l = 1d
![Page 18: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/18.jpg)
Teoria da decisão Bayesiana
• Erro associado à classificação:
l = 1d
Regiãode erro
![Page 19: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/19.jpg)
Teoria da decisão Bayesiana
• Erro associado à classificação:
Se movermos x0 para a esquerda, há um aumento do
erro, indicado pela área em cinza
l = 1d
![Page 20: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/20.jpg)
Minimização da probabilidade de erro
• Podemos mostrar que o classificador Bayesiana é
ótimo com respeito à minimização da probabilidade
de erro na classificação.
• Prova:
O padrão dado por x pertence à R2 e é da classe ω1
![Page 21: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/21.jpg)
Minimização da probabilidade de erro
• Usando a regra de Bayes:
• Obtemos:
![Page 22: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/22.jpg)
Minimização da probabilidade de erro
• Assim, vemos que o erro é minimizado se as regiões
R1 e R2 são escolhidas de tal modo que:
• Ou seja, podemos escrever:
![Page 23: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/23.jpg)
Minimização da probabilidade de erro
• Combinando:
• Obtemos:
![Page 24: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/24.jpg)
Minimização da probabilidade de erro
• Assim, a probabilidade de erro é minimizada se R1
é a região do espaço na qual P(ω1|x) > P(ω2|x).
• R2 se torna a região onde o caso contrário é
verdadeiro.
![Page 25: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/25.jpg)
Minimização da probabilidade de erro
• Esse raciocínio pode ser usado para um número
qualquer de classes, sendo o padrão representado
por x classificado com pertence à classe ωi se
• Tal escolha minimiza o erro de classificação,
conforme verificamos para duas classes.
![Page 26: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/26.jpg)
Minimização do risco médio
• A minimização da probabilidade de erro nem
sempre é a melhor escolha para minimização.
• Em alguns casos, pode ser associada uma
penalidade para cada erro, de modo que algumas
decisões são mais importantes do que outras.
• Por exemplo, é muito mais sério para um doutor
diagnosticar um tumor maligno como sendo benigno
do que o caso contrário.
![Page 27: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/27.jpg)
Minimização do risco médio
• Assim, podemos minimizar uma versão modificada
da probabilidade de erro, isto é:
pesos
Classificação de padrões da classe w1 como sendo da classe w2 tem um efeito maior na função custo do que o erro associado ao segundo termo na soma acima.
![Page 28: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/28.jpg)
Minimização do risco médio
• Para o caso geral de M classes:
• Assuma que o vetor de características x que
pertence à classe ωk caia na região Ri, com k diferente
de i. Logo, este vetor é classificado como pertencente
à classe ωi e um erro é cometido.
• Uma penalidade λki (conhecida como perda) é
associada com esta decisão errada.
![Page 29: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/29.jpg)
Minimização do risco médio
• A função de risco associada com ωk é dada por:
• que representa a probabilidade de um vetor de
características da classe ωk ser classificado como
sendo da classe ωi ponderado por λki.
![Page 30: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/30.jpg)
Minimização do risco médio
• O objetivo agora é escolher a partição das regiões de
classificação onde o risco médio seja minimizado:
• Isto é obtido se cada integral ser minimizada, o que
é equivalente à selecionar as regiões de partição de
tal modo que:
![Page 31: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/31.jpg)
Minimização do risco médio
• Tal minimização é obtida se:
• Assim, a minimização do risco médio é equivalente
à minimização da probabilidade de erro na
classificação.
![Page 32: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/32.jpg)
Minimização do risco médio
• Para o caso de duas classes: M=2
• Classificamos x como sendo da classe ω1 se l1 < l2:
• De maneira geral:Razão de verossimilhança
![Page 33: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/33.jpg)
Minimização do risco médio
• Exemplo:
=
==
−−=
−=
00.1
5.00
2
1)()(
))1(exp(1
)(
)exp(1
)(
21
2
2
2
1
L
PP
xxp
xxp
ωω
πω
πω
![Page 34: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/34.jpg)
2
1
))1(exp()exp( :
0
22
0
=
⇒−−=−
x
xxx
Minimização do risco médio
• Limiar para mínimo Pe:
• Limiar para mínimo r:
2
1
2
)21(ˆ
))1((exp2)(exp :ˆ
0
22
0
<−
=
⇒−−=−
nx
xxx
l
![Page 35: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/35.jpg)
35
Minimização do risco médio
=
00.1
5.00L
![Page 36: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/36.jpg)
SuperfSuperfíícies de decisãocies de decisão
![Page 37: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/37.jpg)
Superfícies de decisão
0)|()()( =−≡ xPxPxg ji ωω
• Se Ri e Rj são regiões vizinhas, a superfície de
decisão é dada pela equação:
)()( :
)()( :
xPxPR
xPxPR
ijj
jii
ωω
ωω
>
>
+
0)( =xg-
![Page 38: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/38.jpg)
ClassificaClassificaçção ão BayesianaBayesiana
para distribuipara distribuiçções normaisões normais
![Page 39: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/39.jpg)
Função densidade de prob. Gaussiana
• Teorema do limite central:
Seja X1, X2, ... Xn uma seqüência de variáveis
aleatórias independentes com E[Xi] =µi e var[Xi] =
σi2, i =1, 2, ... Façamos X = X1 + X2 + ... + Xn, então,
tem aproximadamente a distribuição N(0,1).
∑
∑
=
=
−
=n
i
i
n
i
iX
Zn
1
2
1
σ
µ
![Page 40: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/40.jpg)
Função densidade de prob. Gaussiana
• A gaussiana unidimensional:
![Page 41: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/41.jpg)
Função densidade de prob. Gaussiana
• A gaussiana unidimensional:
![Page 42: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/42.jpg)
Função densidade de prob. Gaussiana
• A gaussiana em l-dimensões:
Matriz de covariância (l X l)
Determinante de Σ
Vetor de médias (l X 1)
![Page 43: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/43.jpg)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância entre as variáveis x1 e x2.
![Page 44: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/44.jpg)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
![Page 45: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/45.jpg)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
![Page 46: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/46.jpg)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
![Page 47: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/47.jpg)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância não-diagonal:
![Page 48: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/48.jpg)
Classes normalmente distribuídas
• Devido à forma exponencial das densidades é
preferível trabalhar com funções logarítmicas:
Função discriminante:
)(ln)(ln))()(ln()( iiiii PxpPxpxg ωωωω +==
ii
iiii
T
ii
C
CPxxxg
Σ−−=
++−Σ−−= −
ln)2
1(2ln)
2(
)(ln)()(2
1)( 1
π
ωµµ
l
• mas:
![Page 49: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/49.jpg)
Classes normalmente distribuídas
• Exemplo: l = 2
=Σ
2
2
0
0
σ
σi
iiii
iii
CP
xxxxxg
+++−
+++−=
)ln()(2
1
)(1
)(2
1)(
2
2
2
12
22112
2
2
2
12
ωµµσ
µµσσ
• Assim, gi(x) se torna:
![Page 50: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/50.jpg)
Classes normalmente distribuídas
• E as regiões de separação:
• São superfícies quádricas: Elipses, hipérboles, pares
de linhas, etc.
0)()( =− xgxg ji
![Page 51: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/51.jpg)
Classes normalmente distribuídas
![Page 52: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/52.jpg)
Classes normalmente distribuídas
![Page 53: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/53.jpg)
Classificadores de distância mínima
• Vamos assumir que as classes são equiprováveis e
com mesma matriz de covariância:
)()(2
1)( 1
i
T
ii xxxg µµ −Σ−−= −
MP i
1)( =ω
• A função discriminante se torna:
![Page 54: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/54.jpg)
Classificadores de distância mínima
• :2Iσ=Σ
iE xd µ−≡
Matriz de covariância diagonal:
Classifique x como sendo da classe ωi se a distância
euclidiana do vetor característica ao vetor média da
classe ωi é mínima:
![Page 55: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/55.jpg)
Classificadores de distância mínima
•
Matriz de covariância não-diagonal:
Classifique x como sendo da classe ωi se a distância
de Mahalanobis do vetor característica ao vetor
média da classe ωi é mínima:
:2Iσ≠Σ
2
1
1 ))()((x i
T
im xd µµ −Σ−= −
Minimização da norma de Σ-1
![Page 56: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/56.jpg)
Classificadores de distância mínima
• Exemplo: Para duas classes, os vetores de
características são gerados por duas distribuições
normais com mesma matriz de covariância:
• E médias:
• Classifique o padrão dado por:
=Σ
9.13.0
3.01.1
3
3 ,
0
0
), ,()(), ,()( e)()(
21
221121
=
=
===
µµ
µωµωωω ΣNxpΣNxpPP
=
2.2
0.1x
![Page 57: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/57.jpg)
Classificadores de distância mínima
• Solução: Vamos calcular a distância de
Mahalanobis para as duas classes:
1ω
2ω
• Logo, o padrão pertence à classe
• OBS: Note que o vetor está mais próximo da classe 2 em
termos da distância euclidiana (verifique).
1ω
![Page 58: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/58.jpg)
EstimaEstimaçção de funão de funçções ões
densidade de probabilidade densidade de probabilidade
desconhecidasdesconhecidas
![Page 59: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/59.jpg)
• Em muitos casos fdp deve ser estimada dos dados
disponíveis.
• Muitas vezes é conhecido o tipo da fdp (gaussiana,
exponencial, etc), mas não seus parâmetros (média,
desvio padrão, etc).
• Em outros casos, não se sabe a forma da fdp, mas
sim seus parâmetros (média, desvio padrão, etc).
Estimação
![Page 60: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/60.jpg)
• Estimação de parâmetros via máxima
verossimilhança
• Objetivo: Estimar os parâmetros da fdp usando um
conjunto de vetores de características de cada classe.
• Sejam x1, x2, ..., xN amostras aleatórias da fdp:
Estimação: máxima verossimilhança
);()( : θθ xpxp ≡
vetores
![Page 61: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/61.jpg)
• Assuma independência entre as amostras. Então:
{ }
);();,...,();(
,...,
121
21
θθθ k
N
kN
N
xpxxxpXp
xxxX
=Π=≡
=
Estimação: máxima verossimilhança
![Page 62: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/62.jpg)
0)(
)(
)(
1
)(
)( :ˆ
);(ln);(ln)(
);(maxarg :ˆ
;
; 1
1
1ML
=∂
∂Σ=
∂
∂
Σ=≡
Π
=
=
=
θ
θ
θθ
θθ
θθθ
θθθ
k
k
N
kML
k
N
k
k
Ν
k
xp
xp
L
xpXpL
xp
• O estimador de máxima verossimilhança de θ:
Estima θ de tal modo que a função de verossimilhança tome seu valor máximo.
Estimação: máxima verossimilhança
![Page 63: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/63.jpg)
• Propriedade do estimador de máxima
verossimilhança de θ:
• Assintoticamente não viesado: Na média, converge
para o valor real quando o número de amostras é
grande.
Vetor:
Estimação: máxima verossimilhança
![Page 64: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/64.jpg)
• Propriedade do estimador de máxima
verossimilhança de θ:
• Assintoticamente consistente: A variância do
estimador tende a zero quando N é grande.
Estimação: máxima verossimilhança
![Page 65: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/65.jpg)
• Propriedade do estimador de máxima
verossimilhança de θ:
• O estimador é assintoticamente eficiente, isto é, ele
obedece à desigualdade de Cramer-Rao.
• Logo, o estimador com menor variância dentre
todos os estimadores possíveis.
Estimação: máxima verossimilhança
![Page 66: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/66.jpg)
• Exemplo 1: Assuma que N pontos x1, x2, ..., xN foram
gerados por uma gaussiana unidimensional com
média conhecida µ, mas variância desconhecida.
Determine o estimador de máxima verossimilhança
para a variância.
Estimação: máxima verossimilhança
![Page 67: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/67.jpg)
• Solução: A função (log) de máxima verossimilhança:
• Tomando a derivada em ambos os lados com
respeito a σ2, obtemos:
Estimação: máxima verossimilhança
![Page 68: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/68.jpg)
• Solução: Assim:
• Esse estimador é não viesado pois:
• Para N grande:
Estimação: máxima verossimilhança
![Page 69: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/69.jpg)
• Exemplo 2: Assuma que N vetores x1, x2, ..., xN
foram providos por uma distribuição normal com
matriz de covariância conhecida, mas média
desconhecida:
• Determine o estimador de máxima verossimilhança
para o vetor média.
Estimação: máxima verossimilhança
![Page 70: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/70.jpg)
• Solução: A função (log) de máxima verossimilhança:
• Tomando o gradiente com relação à µµµµ e igualando a
zero:
• Obtemos:
Estimação: máxima verossimilhança
![Page 71: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/71.jpg)
• Solução: Assim:
• Esse estimador é não viesado pois:
• Para N grande:
Estimação: máxima verossimilhança
![Page 72: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/72.jpg)
Estimação: inferência Bayesiana
• Inferência Bayesiana:
Dado o conjunto X de N vetores de treinamento e uma
informação a priori da fdp p(θ), o objetivo é calcular a
fdp condicional p(x|X).
• Temos:
•onde
![Page 73: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/73.jpg)
Estimação: inferência Bayesiana
• Inferência Bayesiana:
Ou seja:
• Como p(q|X) considera integrais que muitas vezes
não possuem solução exata, é necessária a utilização
de métodos numéricos: Markov Chain Monte Carlo
(MCMC), tais como Gibbs Sampler e Metropolis
Hastings.
![Page 74: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/74.jpg)
Estimação: inferência Bayesiana
• Exemplo:
Seja p(x|µ) uma gaussiana univariada N(µ,σ2) com
parâmetro média desconhecido que também segue
uma gaussiana N(µ0,σ02).
• Usando a metodologia de inferência Bayesiana:
![Page 75: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/75.jpg)
Estimação: inferência Bayesiana
• Observação:
Os métodos de estimação por máxima
verossimilhança e estimação Bayesiana resultam no
mesmo estimador quando o número de conjuntos de
treinamentos N é grande, mas levam a resultados
diferentes para N pequeno.
![Page 76: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/76.jpg)
Estimação: Outros métodos
• Mistura de gaussianas: Expectation maximization
• Estimação máxima à posteriori.
![Page 77: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/77.jpg)
ClassificaClassificaçção ão BayesianaBayesiana
não paramnão paraméétricatrica
![Page 78: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/78.jpg)
• Métodos não paramétricos são variações da
aproximação de fdps por histogramas.
Estimação não-paramétrica
Caixas de tamanhos diferentes.
![Page 79: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/79.jpg)
• No caso do histograma:
Estimação não-paramétrica
Número de pontos dentro da caixa
Largura da caixaPonto médio da caixa
![Page 80: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/80.jpg)
• Janelas de Parzen
• No espaço l-dimensional, ao invés de caixas de
tamanho h, temos hipercubos de lado h e volume hl.
• Seja xi, i=1, 2,..., N os vetores de características
disponíveis. Definamos a função:
• onde xij, i=1,2,.., l são as componentes de xi.
Estimação não-paramétrica
![Page 81: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/81.jpg)
• Janelas de Parzen
• Ou seja, a função é igual a um para todos os pontos
dentro do hipercubo de dimensão unitária e igual a
zero, caso contrário.
Estimação não-paramétrica
![Page 82: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/82.jpg)
• Janelas de Parzen
• Assim:
Estimação não-paramétrica
![Page 83: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/83.jpg)
• Janelas de Parzen
• Parzen em 1962 generalizou a aproximação por
histograma usando uma função mais suave:
Estimação não-paramétrica
Janela de Parzen
![Page 84: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/84.jpg)
• Janelas de Parzen
• Para o caso de uma janela gaussiana N(0,I)
• A fdp aproximada como uma média de N gaussianas,
cada uma centrada em diferentes pontos do conjunto
de treinamento.
• O parâmetro h controla a largura da gaussiana.
Estimação não-paramétrica
![Page 85: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/85.jpg)
• Janelas de Parzen
Estimação não-paramétrica
![Page 86: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/86.jpg)
• Janelas de Parzen
Estimação não-paramétrica
![Page 87: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/87.jpg)
• Janelas de Parzen
Estimação não-paramétrica
h = 0,1 e N= 1,000 h = 0,1 e N= 20.000
![Page 88: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/88.jpg)
% generate synthetic data
X1 = [randn(500,1) randn(500,1)+2];
X2 = [randn(500,1)+5 randn(500,1)];data=[X1; X2];
N = 5;
[bandwidth,density,X,Y]=kde2d(data,N);
% plot the data and the density estimate
contour3(X,Y,density,50), hold onplot(data(:,1),data(:,2),'r.','MarkerSize',5)
• Janelas de Parzen
Estimação não-paramétrica
![Page 89: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/89.jpg)
• Janelas de Parzen: N = 5
Estimação não-paramétrica
![Page 90: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/90.jpg)
• Janelas de Parzen: N = 10
Estimação não-paramétrica
![Page 91: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/91.jpg)
• Janelas de Parzen: N = 50
Estimação não-paramétrica
![Page 92: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/92.jpg)
• Janelas de Parzen: N = 500
Estimação não-paramétrica
![Page 93: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/93.jpg)
• Janelas de Parzen
• No caso em que h tende a zero,
• é um estimador não viesado de p(x).
• Note que esse fato é independente do tamanho da
amostra N.
Estimação não-paramétrica
![Page 94: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/94.jpg)
• Janelas de Parzen
• Classificação:
Estimação não-paramétrica
![Page 95: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/95.jpg)
• Projeto
• Usando os features do projeto anterior.
• Implemente os classificadores de distância mínima
(euclidiana e Mahalanobis).
• Classifique as imagens usando a metodologia
bayesiana paramétrica.
• Escolha duas características e faça a classificação
usando janelas de Parzen.
Estimação não-paramétrica
![Page 96: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado](https://reader031.vdocuments.com.br/reader031/viewer/2022041117/5f2b3b977aaff532f17097f9/html5/thumbnails/96.jpg)
Referências
• C. Bishop, Pattern Recognition and Machine Learning ,
Springer (2006)
• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern
Recognition. Elsevier (2006).