universidade de são paulo instituto de ciências ...jbatista/procimg/aula2_class_bayesiana.pdf ·...
TRANSCRIPT
Universidade de São PauloInstituto de Ciências Matemáticas e de Computação
Francisco A. Rodrigues
Departamento de Matemática Aplicada e Estatística - SME
Dada M classes ω1, ω2, ..., ωM e um padrão
desconhecido x, determinar a probabilidade
condicional p(ωi|x) do padrão pertencer a cada
classe i.
Classificar de acordo com a classe mais provável.
Objetivo
Conceitos básicos
• Probabilidade condicional
• Partição do espaço amostral
• Teorema de Bayes
Teorema de Bayes
Teorema de Bayes
Exemplo:
Considere duas urnas. A primeira contém duas bolas brancas e sete bolas pretas e a segunda contém cinco bolas brancas e seis pretas. Nós lançamos uma moeda e retiramos uma bola da primeira ou da segunda urna, dependendo do resultado do lançamento, isto é, cara (urna 1) ou coroa (urna 2). Qual é a probabilidade condicional de que o resultado do lançamento da moeda foi cara, dado que uma bola branca foi retirada?
Teorema de Bayes
Distribuição normal
Teoria da decisão Bayesiana
Vamos começar tratando do caso de duas classes:
•Padrão desconhecido é representado por:
• Sejam ω1 e ω2 duas classes nas quais um dado padrão devem
pertencer.
• Assumimos que conhecemos as probabilidades à priori:
P(ωωωω1) e P(ωωωω2).
• Estas probabilidades podem ser estimadas do conjunto de
treinamento.
[ ]T
lxxxx ,...,, 21=
Teoria da decisão Bayesiana
• Se N é o número total de padrões disponíveis para
treinamento, onde N1 é da classe ω1 e N2 da classe ω2,
então:
P(ω1)~N1/N
P(ω2) ~ N2/N
Teoria da decisão Bayesiana
• Também assumimos que conhecemos as funções
densidades condicionais de probabilidades de cada
classe:
p(x|ωi), i=1,2,
Que descreve a distribuição de probabilidades das
características de cada classe.
Teoria da decisão Bayesiana
Teoria da decisão Bayesiana
• Se p(x|ωi), i=1,2, não são conhecidas, elas podem
ser estimadas.
• p(x|ωi) é chamada também: função de máxima
verossimilhanca de ωi com respeito a x.
Teoria da decisão Bayesiana
• Como conhecemos p(x|ωi) e P(ωi), i=1,2, podemos
usar o teorema de Bayes para determinar:
• Ou seja a probabilidade condicional do padrão
descrito por x pertencer à classe ωi.
Teoria da decisão Bayesiana
• Pela lei da probabilidade total:
• Logo, podemos calcular para cada classe:
Teoria da decisão Bayesiana
• A regra de classificação Bayesiana será então:
• Ou seja:
Teoria da decisão Bayesiana
• Para duas classes equiprováveis:
l = 1d
)( e )( 2211 ωω →→ RR
Teoria da decisão Bayesiana
• Erro associado à classificação:
• Para duas classes: área indicada sob as curvas
l = 1d
Teoria da decisão Bayesiana
• Erro associado à classificação:
l = 1d
Regiãode erro
Teoria da decisão Bayesiana
• Erro associado à classificação:
Se movermos x0 para a esquerda, há um aumento do
erro, indicado pela área em cinza
l = 1d
Minimização da probabilidade de erro
• Podemos mostrar que o classificador Bayesiana é
ótimo com respeito à minimização da probabilidade
de erro na classificação.
• Prova:
O padrão dado por x pertence à R2 e é da classe ω1
Minimização da probabilidade de erro
• Usando a regra de Bayes:
• Obtemos:
Minimização da probabilidade de erro
• Assim, vemos que o erro é minimizado se as regiões
R1 e R2 são escolhidas de tal modo que:
• Ou seja, podemos escrever:
Minimização da probabilidade de erro
• Combinando:
• Obtemos:
Minimização da probabilidade de erro
• Assim, a probabilidade de erro é minimizada se R1
é a região do espaço na qual P(ω1|x) > P(ω2|x).
• R2 se torna a região onde o caso contrário é
verdadeiro.
Minimização da probabilidade de erro
• Esse raciocínio pode ser usado para um número
qualquer de classes, sendo o padrão representado
por x classificado com pertence à classe ωi se
• Tal escolha minimiza o erro de classificação,
conforme verificamos para duas classes.
Minimização do risco médio
• A minimização da probabilidade de erro nem
sempre é a melhor escolha para minimização.
• Em alguns casos, pode ser associada uma
penalidade para cada erro, de modo que algumas
decisões são mais importantes do que outras.
• Por exemplo, é muito mais sério para um doutor
diagnosticar um tumor maligno como sendo benigno
do que o caso contrário.
Minimização do risco médio
• Assim, podemos minimizar uma versão modificada
da probabilidade de erro, isto é:
pesos
Classificação de padrões da classe w1 como sendo da classe w2 tem um efeito maior na função custo do que o erro associado ao segundo termo na soma acima.
Minimização do risco médio
• Para o caso geral de M classes:
• Assuma que o vetor de características x que
pertence à classe ωk caia na região Ri, com k diferente
de i. Logo, este vetor é classificado como pertencente
à classe ωi e um erro é cometido.
• Uma penalidade λki (conhecida como perda) é
associada com esta decisão errada.
Minimização do risco médio
• A função de risco associada com ωk é dada por:
• que representa a probabilidade de um vetor de
características da classe ωk ser classificado como
sendo da classe ωi ponderado por λki.
Minimização do risco médio
• O objetivo agora é escolher a partição das regiões de
classificação onde o risco médio seja minimizado:
• Isto é obtido se cada integral ser minimizada, o que
é equivalente à selecionar as regiões de partição de
tal modo que:
Minimização do risco médio
• Tal minimização é obtida se:
• Assim, a minimização do risco médio é equivalente
à minimização da probabilidade de erro na
classificação.
Minimização do risco médio
• Para o caso de duas classes: M=2
• Classificamos x como sendo da classe ω1 se l1 < l2:
• De maneira geral:Razão de verossimilhança
Minimização do risco médio
• Exemplo:
=
==
−−=
−=
00.1
5.00
2
1)()(
))1(exp(1
)(
)exp(1
)(
21
2
2
2
1
L
PP
xxp
xxp
ωω
πω
πω
2
1
))1(exp()exp( :
0
22
0
=
⇒−−=−
x
xxx
Minimização do risco médio
• Limiar para mínimo Pe:
• Limiar para mínimo r:
2
1
2
)21(ˆ
))1((exp2)(exp :ˆ
0
22
0
<−
=
⇒−−=−
nx
xxx
l
35
Minimização do risco médio
=
00.1
5.00L
SuperfSuperfíícies de decisãocies de decisão
Superfícies de decisão
0)|()()( =−≡ xPxPxg ji ωω
• Se Ri e Rj são regiões vizinhas, a superfície de
decisão é dada pela equação:
)()( :
)()( :
xPxPR
xPxPR
ijj
jii
ωω
ωω
>
>
+
0)( =xg-
ClassificaClassificaçção ão BayesianaBayesiana
para distribuipara distribuiçções normaisões normais
Função densidade de prob. Gaussiana
• Teorema do limite central:
Seja X1, X2, ... Xn uma seqüência de variáveis
aleatórias independentes com E[Xi] =µi e var[Xi] =
σi2, i =1, 2, ... Façamos X = X1 + X2 + ... + Xn, então,
tem aproximadamente a distribuição N(0,1).
∑
∑
=
=
−
=n
i
i
n
i
iX
Zn
1
2
1
σ
µ
Função densidade de prob. Gaussiana
• A gaussiana unidimensional:
Função densidade de prob. Gaussiana
• A gaussiana unidimensional:
Função densidade de prob. Gaussiana
• A gaussiana em l-dimensões:
Matriz de covariância (l X l)
Determinante de Σ
Vetor de médias (l X 1)
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância entre as variáveis x1 e x2.
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância diagonal:
Função densidade de prob. Gaussiana
• No caso bi-dimensional: l=2
Covariância não-diagonal:
Classes normalmente distribuídas
• Devido à forma exponencial das densidades é
preferível trabalhar com funções logarítmicas:
Função discriminante:
)(ln)(ln))()(ln()( iiiii PxpPxpxg ωωωω +==
ii
iiii
T
ii
C
CPxxxg
Σ−−=
++−Σ−−= −
ln)2
1(2ln)
2(
)(ln)()(2
1)( 1
π
ωµµ
l
• mas:
Classes normalmente distribuídas
• Exemplo: l = 2
=Σ
2
2
0
0
σ
σi
iiii
iii
CP
xxxxxg
+++−
+++−=
)ln()(2
1
)(1
)(2
1)(
2
2
2
12
22112
2
2
2
12
ωµµσ
µµσσ
• Assim, gi(x) se torna:
Classes normalmente distribuídas
• E as regiões de separação:
• São superfícies quádricas: Elipses, hipérboles, pares
de linhas, etc.
0)()( =− xgxg ji
Classes normalmente distribuídas
Classes normalmente distribuídas
Classificadores de distância mínima
• Vamos assumir que as classes são equiprováveis e
com mesma matriz de covariância:
)()(2
1)( 1
i
T
ii xxxg µµ −Σ−−= −
MP i
1)( =ω
• A função discriminante se torna:
Classificadores de distância mínima
• :2Iσ=Σ
iE xd µ−≡
Matriz de covariância diagonal:
Classifique x como sendo da classe ωi se a distância
euclidiana do vetor característica ao vetor média da
classe ωi é mínima:
Classificadores de distância mínima
•
Matriz de covariância não-diagonal:
Classifique x como sendo da classe ωi se a distância
de Mahalanobis do vetor característica ao vetor
média da classe ωi é mínima:
:2Iσ≠Σ
2
1
1 ))()((x i
T
im xd µµ −Σ−= −
Minimização da norma de Σ-1
Classificadores de distância mínima
• Exemplo: Para duas classes, os vetores de
características são gerados por duas distribuições
normais com mesma matriz de covariância:
• E médias:
• Classifique o padrão dado por:
=Σ
9.13.0
3.01.1
3
3 ,
0
0
), ,()(), ,()( e)()(
21
221121
=
=
===
µµ
µωµωωω ΣNxpΣNxpPP
=
2.2
0.1x
Classificadores de distância mínima
• Solução: Vamos calcular a distância de
Mahalanobis para as duas classes:
1ω
2ω
• Logo, o padrão pertence à classe
• OBS: Note que o vetor está mais próximo da classe 2 em
termos da distância euclidiana (verifique).
1ω
EstimaEstimaçção de funão de funçções ões
densidade de probabilidade densidade de probabilidade
desconhecidasdesconhecidas
• Em muitos casos fdp deve ser estimada dos dados
disponíveis.
• Muitas vezes é conhecido o tipo da fdp (gaussiana,
exponencial, etc), mas não seus parâmetros (média,
desvio padrão, etc).
• Em outros casos, não se sabe a forma da fdp, mas
sim seus parâmetros (média, desvio padrão, etc).
Estimação
• Estimação de parâmetros via máxima
verossimilhança
• Objetivo: Estimar os parâmetros da fdp usando um
conjunto de vetores de características de cada classe.
• Sejam x1, x2, ..., xN amostras aleatórias da fdp:
Estimação: máxima verossimilhança
);()( : θθ xpxp ≡
vetores
• Assuma independência entre as amostras. Então:
{ }
);();,...,();(
,...,
121
21
θθθ k
N
kN
N
xpxxxpXp
xxxX
=Π=≡
=
Estimação: máxima verossimilhança
0)(
)(
)(
1
)(
)( :ˆ
);(ln);(ln)(
);(maxarg :ˆ
;
; 1
1
1ML
=∂
∂Σ=
∂
∂
Σ=≡
Π
=
=
=
θ
θ
θθ
θθ
θθθ
θθθ
k
k
N
kML
k
N
k
k
Ν
k
xp
xp
L
xpXpL
xp
• O estimador de máxima verossimilhança de θ:
Estima θ de tal modo que a função de verossimilhança tome seu valor máximo.
Estimação: máxima verossimilhança
• Propriedade do estimador de máxima
verossimilhança de θ:
• Assintoticamente não viesado: Na média, converge
para o valor real quando o número de amostras é
grande.
Vetor:
Estimação: máxima verossimilhança
• Propriedade do estimador de máxima
verossimilhança de θ:
• Assintoticamente consistente: A variância do
estimador tende a zero quando N é grande.
Estimação: máxima verossimilhança
• Propriedade do estimador de máxima
verossimilhança de θ:
• O estimador é assintoticamente eficiente, isto é, ele
obedece à desigualdade de Cramer-Rao.
• Logo, o estimador com menor variância dentre
todos os estimadores possíveis.
Estimação: máxima verossimilhança
• Exemplo 1: Assuma que N pontos x1, x2, ..., xN foram
gerados por uma gaussiana unidimensional com
média conhecida µ, mas variância desconhecida.
Determine o estimador de máxima verossimilhança
para a variância.
Estimação: máxima verossimilhança
• Solução: A função (log) de máxima verossimilhança:
• Tomando a derivada em ambos os lados com
respeito a σ2, obtemos:
Estimação: máxima verossimilhança
• Solução: Assim:
• Esse estimador é não viesado pois:
• Para N grande:
Estimação: máxima verossimilhança
• Exemplo 2: Assuma que N vetores x1, x2, ..., xN
foram providos por uma distribuição normal com
matriz de covariância conhecida, mas média
desconhecida:
• Determine o estimador de máxima verossimilhança
para o vetor média.
Estimação: máxima verossimilhança
• Solução: A função (log) de máxima verossimilhança:
• Tomando o gradiente com relação à µµµµ e igualando a
zero:
• Obtemos:
Estimação: máxima verossimilhança
• Solução: Assim:
• Esse estimador é não viesado pois:
• Para N grande:
Estimação: máxima verossimilhança
Estimação: inferência Bayesiana
• Inferência Bayesiana:
Dado o conjunto X de N vetores de treinamento e uma
informação a priori da fdp p(θ), o objetivo é calcular a
fdp condicional p(x|X).
• Temos:
•onde
Estimação: inferência Bayesiana
• Inferência Bayesiana:
Ou seja:
• Como p(q|X) considera integrais que muitas vezes
não possuem solução exata, é necessária a utilização
de métodos numéricos: Markov Chain Monte Carlo
(MCMC), tais como Gibbs Sampler e Metropolis
Hastings.
Estimação: inferência Bayesiana
• Exemplo:
Seja p(x|µ) uma gaussiana univariada N(µ,σ2) com
parâmetro média desconhecido que também segue
uma gaussiana N(µ0,σ02).
• Usando a metodologia de inferência Bayesiana:
Estimação: inferência Bayesiana
• Observação:
Os métodos de estimação por máxima
verossimilhança e estimação Bayesiana resultam no
mesmo estimador quando o número de conjuntos de
treinamentos N é grande, mas levam a resultados
diferentes para N pequeno.
Estimação: Outros métodos
• Mistura de gaussianas: Expectation maximization
• Estimação máxima à posteriori.
ClassificaClassificaçção ão BayesianaBayesiana
não paramnão paraméétricatrica
• Métodos não paramétricos são variações da
aproximação de fdps por histogramas.
Estimação não-paramétrica
Caixas de tamanhos diferentes.
• No caso do histograma:
Estimação não-paramétrica
Número de pontos dentro da caixa
Largura da caixaPonto médio da caixa
• Janelas de Parzen
• No espaço l-dimensional, ao invés de caixas de
tamanho h, temos hipercubos de lado h e volume hl.
• Seja xi, i=1, 2,..., N os vetores de características
disponíveis. Definamos a função:
• onde xij, i=1,2,.., l são as componentes de xi.
Estimação não-paramétrica
• Janelas de Parzen
• Ou seja, a função é igual a um para todos os pontos
dentro do hipercubo de dimensão unitária e igual a
zero, caso contrário.
Estimação não-paramétrica
• Janelas de Parzen
• Assim:
Estimação não-paramétrica
• Janelas de Parzen
• Parzen em 1962 generalizou a aproximação por
histograma usando uma função mais suave:
Estimação não-paramétrica
Janela de Parzen
• Janelas de Parzen
• Para o caso de uma janela gaussiana N(0,I)
• A fdp aproximada como uma média de N gaussianas,
cada uma centrada em diferentes pontos do conjunto
de treinamento.
• O parâmetro h controla a largura da gaussiana.
Estimação não-paramétrica
• Janelas de Parzen
Estimação não-paramétrica
• Janelas de Parzen
Estimação não-paramétrica
• Janelas de Parzen
Estimação não-paramétrica
h = 0,1 e N= 1,000 h = 0,1 e N= 20.000
% generate synthetic data
X1 = [randn(500,1) randn(500,1)+2];
X2 = [randn(500,1)+5 randn(500,1)];data=[X1; X2];
N = 5;
[bandwidth,density,X,Y]=kde2d(data,N);
% plot the data and the density estimate
contour3(X,Y,density,50), hold onplot(data(:,1),data(:,2),'r.','MarkerSize',5)
• Janelas de Parzen
Estimação não-paramétrica
• Janelas de Parzen: N = 5
Estimação não-paramétrica
• Janelas de Parzen: N = 10
Estimação não-paramétrica
• Janelas de Parzen: N = 50
Estimação não-paramétrica
• Janelas de Parzen: N = 500
Estimação não-paramétrica
• Janelas de Parzen
• No caso em que h tende a zero,
• é um estimador não viesado de p(x).
• Note que esse fato é independente do tamanho da
amostra N.
Estimação não-paramétrica
• Janelas de Parzen
• Classificação:
Estimação não-paramétrica
• Projeto
• Usando os features do projeto anterior.
• Implemente os classificadores de distância mínima
(euclidiana e Mahalanobis).
• Classifique as imagens usando a metodologia
bayesiana paramétrica.
• Escolha duas características e faça a classificação
usando janelas de Parzen.
Estimação não-paramétrica
Referências
• C. Bishop, Pattern Recognition and Machine Learning ,
Springer (2006)
• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern
Recognition. Elsevier (2006).