universidade de são paulo instituto de ciências ...jbatista/procimg/aula2_class_bayesiana.pdf ·...

Universidade de São PauloInstituto de Ciências Matemáticas e de Computação

Francisco A. Rodrigues

Departamento de Matemática Aplicada e Estatística - SME

Dada M classes ω1, ω2, ..., ωM e um padrão

desconhecido x, determinar a probabilidade

condicional p(ωi|x) do padrão pertencer a cada

classe i.

Classificar de acordo com a classe mais provável.

Objetivo

Conceitos básicos

• Probabilidade condicional

• Partição do espaço amostral

• Teorema de Bayes

Teorema de Bayes

Exemplo:

Considere duas urnas. A primeira contém duas bolas brancas e sete bolas pretas e a segunda contém cinco bolas brancas e seis pretas. Nós lançamos uma moeda e retiramos uma bola da primeira ou da segunda urna, dependendo do resultado do lançamento, isto é, cara (urna 1) ou coroa (urna 2). Qual é a probabilidade condicional de que o resultado do lançamento da moeda foi cara, dado que uma bola branca foi retirada?

Teorema de Bayes

Distribuição normal

Teoria da decisão Bayesiana

Vamos começar tratando do caso de duas classes:

•Padrão desconhecido é representado por:

• Sejam ω1 e ω2 duas classes nas quais um dado padrão devem

pertencer.

• Assumimos que conhecemos as probabilidades à priori:

P(ωωωω1) e P(ωωωω2).

• Estas probabilidades podem ser estimadas do conjunto de

treinamento.

[ ]T

lxxxx ,...,, 21=


• Se N é o número total de padrões disponíveis para

treinamento, onde N1 é da classe ω1 e N2 da classe ω2,

então:

P(ω1)~N1/N

P(ω2) ~ N2/N


• Também assumimos que conhecemos as funções

densidades condicionais de probabilidades de cada

classe:

p(x|ωi), i=1,2,

Que descreve a distribuição de probabilidades das

características de cada classe.


• Se p(x|ωi), i=1,2, não são conhecidas, elas podem

ser estimadas.

• p(x|ωi) é chamada também: função de máxima

verossimilhanca de ωi com respeito a x.


• Como conhecemos p(x|ωi) e P(ωi), i=1,2, podemos

usar o teorema de Bayes para determinar:

• Ou seja a probabilidade condicional do padrão

descrito por x pertencer à classe ωi.


• Pela lei da probabilidade total:

• Logo, podemos calcular para cada classe:


• A regra de classificação Bayesiana será então:

• Ou seja:


• Para duas classes equiprováveis:

l = 1d

)( e )( 2211 ωω →→ RR


• Erro associado à classificação:

• Para duas classes: área indicada sob as curvas

l = 1d



l = 1d

Regiãode erro



Se movermos x0 para a esquerda, há um aumento do

erro, indicado pela área em cinza

l = 1d

Minimização da probabilidade de erro

• Podemos mostrar que o classificador Bayesiana é

ótimo com respeito à minimização da probabilidade

de erro na classificação.

• Prova:

O padrão dado por x pertence à R2 e é da classe ω1


• Usando a regra de Bayes:

• Obtemos:


• Assim, vemos que o erro é minimizado se as regiões

R1 e R2 são escolhidas de tal modo que:

• Ou seja, podemos escrever:


• Combinando:

• Obtemos:


• Assim, a probabilidade de erro é minimizada se R1

é a região do espaço na qual P(ω1|x) > P(ω2|x).

• R2 se torna a região onde o caso contrário é

verdadeiro.


• Esse raciocínio pode ser usado para um número

qualquer de classes, sendo o padrão representado

por x classificado com pertence à classe ωi se

• Tal escolha minimiza o erro de classificação,

conforme verificamos para duas classes.

Minimização do risco médio

• A minimização da probabilidade de erro nem

sempre é a melhor escolha para minimização.

• Em alguns casos, pode ser associada uma

penalidade para cada erro, de modo que algumas

decisões são mais importantes do que outras.

• Por exemplo, é muito mais sério para um doutor

diagnosticar um tumor maligno como sendo benigno

do que o caso contrário.


• Assim, podemos minimizar uma versão modificada

da probabilidade de erro, isto é:

pesos

Classificação de padrões da classe w1 como sendo da classe w2 tem um efeito maior na função custo do que o erro associado ao segundo termo na soma acima.


• Para o caso geral de M classes:

• Assuma que o vetor de características x que

pertence à classe ωk caia na região Ri, com k diferente

de i. Logo, este vetor é classificado como pertencente

à classe ωi e um erro é cometido.

• Uma penalidade λki (conhecida como perda) é

associada com esta decisão errada.


• A função de risco associada com ωk é dada por:

• que representa a probabilidade de um vetor de

características da classe ωk ser classificado como

sendo da classe ωi ponderado por λki.


• O objetivo agora é escolher a partição das regiões de

classificação onde o risco médio seja minimizado:

• Isto é obtido se cada integral ser minimizada, o que

é equivalente à selecionar as regiões de partição de

tal modo que:


• Tal minimização é obtida se:

• Assim, a minimização do risco médio é equivalente

à minimização da probabilidade de erro na

classificação.


• Para o caso de duas classes: M=2

• Classificamos x como sendo da classe ω1 se l1 < l2:

• De maneira geral:Razão de verossimilhança


• Exemplo:

=

==

−−=

−=

00.1

5.00

2

1)()(

))1(exp(1

)(

)exp(1

)(

21

2

2

2

1

L

PP

xxp

xxp

ωω

πω

πω

2

1

))1(exp()exp( :

0

22

0

=

⇒−−=−

x

xxx


• Limiar para mínimo Pe:

• Limiar para mínimo r:

2

1

2

)21(ˆ

))1((exp2)(exp :ˆ

0

22

0

<−

=

⇒−−=−

nx

xxx

l

35


=

00.1

5.00L

SuperfSuperfíícies de decisãocies de decisão

Superfícies de decisão

0)|()()( =−≡ xPxPxg ji ωω

• Se Ri e Rj são regiões vizinhas, a superfície de

decisão é dada pela equação:

)()( :

)()( :

xPxPR

xPxPR

ijj

jii

ωω

ωω

>

>

+

0)( =xg-

ClassificaClassificaçção ão BayesianaBayesiana

para distribuipara distribuiçções normaisões normais

Função densidade de prob. Gaussiana

• Teorema do limite central:

Seja X1, X2, ... Xn uma seqüência de variáveis

aleatórias independentes com E[Xi] =µi e var[Xi] =

σi2, i =1, 2, ... Façamos X = X1 + X2 + ... + Xn, então,

tem aproximadamente a distribuição N(0,1).

∑

∑

=

=

−

=n

i

i

n

i

iX

Zn

1

2

1

σ

µ


• A gaussiana unidimensional:


• A gaussiana em l-dimensões:

Matriz de covariância (l X l)

Determinante de Σ

Vetor de médias (l X 1)


• No caso bi-dimensional: l=2

Covariância entre as variáveis x1 e x2.



Covariância diagonal:



Covariância não-diagonal:

Classes normalmente distribuídas

• Devido à forma exponencial das densidades é

preferível trabalhar com funções logarítmicas:

Função discriminante:

)(ln)(ln))()(ln()( iiiii PxpPxpxg ωωωω +==

ii

iiii

T

ii

C

CPxxxg

Σ−−=

++−Σ−−= −

ln)2

1(2ln)

2(

)(ln)()(2

1)( 1

π

ωµµ

l

• mas:


• Exemplo: l = 2

=Σ

2

2

0

0

σ

σi

iiii

iii

CP

xxxxxg

+++−

+++−=

)ln()(2

1

)(1

)(2

1)(

2

2

2

12

22112

2

2

2

12

ωµµσ

µµσσ

• Assim, gi(x) se torna:


• E as regiões de separação:

• São superfícies quádricas: Elipses, hipérboles, pares

de linhas, etc.

0)()( =− xgxg ji

Classificadores de distância mínima

• Vamos assumir que as classes são equiprováveis e

com mesma matriz de covariância:

)()(2

1)( 1

i

T

ii xxxg µµ −Σ−−= −

MP i

1)( =ω

• A função discriminante se torna:


• :2Iσ=Σ

iE xd µ−≡

Matriz de covariância diagonal:

Classifique x como sendo da classe ωi se a distância

euclidiana do vetor característica ao vetor média da

classe ωi é mínima:


•

Matriz de covariância não-diagonal:

Classifique x como sendo da classe ωi se a distância

de Mahalanobis do vetor característica ao vetor

média da classe ωi é mínima:

:2Iσ≠Σ

2

1

1 ))()((x i

T

im xd µµ −Σ−= −

Minimização da norma de Σ-1


• Exemplo: Para duas classes, os vetores de

características são gerados por duas distribuições

normais com mesma matriz de covariância:

• E médias:

• Classifique o padrão dado por:

=Σ

9.13.0

3.01.1

3

3 ,

0

0

), ,()(), ,()( e)()(

21

221121

=

=

===

µµ

µωµωωω ΣNxpΣNxpPP

=

2.2

0.1x


• Solução: Vamos calcular a distância de

Mahalanobis para as duas classes:

1ω

2ω

• Logo, o padrão pertence à classe

• OBS: Note que o vetor está mais próximo da classe 2 em

termos da distância euclidiana (verifique).

1ω

EstimaEstimaçção de funão de funçções ões

densidade de probabilidade densidade de probabilidade

desconhecidasdesconhecidas

• Em muitos casos fdp deve ser estimada dos dados

disponíveis.

• Muitas vezes é conhecido o tipo da fdp (gaussiana,

exponencial, etc), mas não seus parâmetros (média,

desvio padrão, etc).

• Em outros casos, não se sabe a forma da fdp, mas

sim seus parâmetros (média, desvio padrão, etc).

Estimação

• Estimação de parâmetros via máxima

verossimilhança

• Objetivo: Estimar os parâmetros da fdp usando um

conjunto de vetores de características de cada classe.

• Sejam x1, x2, ..., xN amostras aleatórias da fdp:

Estimação: máxima verossimilhança

);()( : θθ xpxp ≡

vetores

• Assuma independência entre as amostras. Então:

{ }

);();,...,();(

,...,

121

21

θθθ k

N

kN

N

xpxxxpXp

xxxX

=Π=≡

=


0)(

)(

)(

1

)(

)( :ˆ

);(ln);(ln)(

);(maxarg :ˆ

;

; 1

1

1ML

=∂

∂Σ=

∂

∂

Σ=≡

Π

=

=

=

θ

θ

θθ

θθ

θθθ

θθθ

k

k

N

kML

k

N

k

k

Ν

k

xp

xp

L

xpXpL

xp

• O estimador de máxima verossimilhança de θ:

Estima θ de tal modo que a função de verossimilhança tome seu valor máximo.


• Propriedade do estimador de máxima

verossimilhança de θ:

• Assintoticamente não viesado: Na média, converge

para o valor real quando o número de amostras é

grande.

Vetor:




• Assintoticamente consistente: A variância do

estimador tende a zero quando N é grande.




• O estimador é assintoticamente eficiente, isto é, ele

obedece à desigualdade de Cramer-Rao.

• Logo, o estimador com menor variância dentre

todos os estimadores possíveis.


• Exemplo 1: Assuma que N pontos x1, x2, ..., xN foram

gerados por uma gaussiana unidimensional com

média conhecida µ, mas variância desconhecida.

Determine o estimador de máxima verossimilhança

para a variância.


• Solução: A função (log) de máxima verossimilhança:

• Tomando a derivada em ambos os lados com

respeito a σ2, obtemos:


• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:


• Exemplo 2: Assuma que N vetores x1, x2, ..., xN

foram providos por uma distribuição normal com

matriz de covariância conhecida, mas média

desconhecida:

• Determine o estimador de máxima verossimilhança

para o vetor média.


• Solução: A função (log) de máxima verossimilhança:

• Tomando o gradiente com relação à µµµµ e igualando a

zero:

• Obtemos:


• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:


Estimação: inferência Bayesiana

• Inferência Bayesiana:

Dado o conjunto X de N vetores de treinamento e uma

informação a priori da fdp p(θ), o objetivo é calcular a

fdp condicional p(x|X).

• Temos:

•onde


• Inferência Bayesiana:

Ou seja:

• Como p(q|X) considera integrais que muitas vezes

não possuem solução exata, é necessária a utilização

de métodos numéricos: Markov Chain Monte Carlo

(MCMC), tais como Gibbs Sampler e Metropolis

Hastings.


• Exemplo:

Seja p(x|µ) uma gaussiana univariada N(µ,σ2) com

parâmetro média desconhecido que também segue

uma gaussiana N(µ0,σ02).

• Usando a metodologia de inferência Bayesiana:


• Observação:

Os métodos de estimação por máxima

verossimilhança e estimação Bayesiana resultam no

mesmo estimador quando o número de conjuntos de

treinamentos N é grande, mas levam a resultados

diferentes para N pequeno.

Estimação: Outros métodos

• Mistura de gaussianas: Expectation maximization

• Estimação máxima à posteriori.

ClassificaClassificaçção ão BayesianaBayesiana

não paramnão paraméétricatrica

• Métodos não paramétricos são variações da

aproximação de fdps por histogramas.

Estimação não-paramétrica

Caixas de tamanhos diferentes.

• No caso do histograma:


Número de pontos dentro da caixa

Largura da caixaPonto médio da caixa

• Janelas de Parzen

• No espaço l-dimensional, ao invés de caixas de

tamanho h, temos hipercubos de lado h e volume hl.

• Seja xi, i=1, 2,..., N os vetores de características

disponíveis. Definamos a função:

• onde xij, i=1,2,.., l são as componentes de xi.



• Ou seja, a função é igual a um para todos os pontos

dentro do hipercubo de dimensão unitária e igual a

zero, caso contrário.



• Assim:



• Parzen em 1962 generalizou a aproximação por

histograma usando uma função mais suave:


Janela de Parzen


• Para o caso de uma janela gaussiana N(0,I)

• A fdp aproximada como uma média de N gaussianas,

cada uma centrada em diferentes pontos do conjunto

de treinamento.

• O parâmetro h controla a largura da gaussiana.




h = 0,1 e N= 1,000 h = 0,1 e N= 20.000

% generate synthetic data

X1 = [randn(500,1) randn(500,1)+2];

X2 = [randn(500,1)+5 randn(500,1)];data=[X1; X2];

N = 5;

[bandwidth,density,X,Y]=kde2d(data,N);

% plot the data and the density estimate

contour3(X,Y,density,50), hold onplot(data(:,1),data(:,2),'r.','MarkerSize',5)



• Janelas de Parzen: N = 5



• No caso em que h tende a zero,

• é um estimador não viesado de p(x).

• Note que esse fato é independente do tamanho da

amostra N.



• Classificação:


• Projeto

• Usando os features do projeto anterior.

• Implemente os classificadores de distância mínima

(euclidiana e Mahalanobis).

• Classifique as imagens usando a metodologia

bayesiana paramétrica.

• Escolha duas características e faça a classificação

usando janelas de Parzen.


Referências

• C. Bishop, Pattern Recognition and Machine Learning ,

Springer (2006)

• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern

Recognition. Elsevier (2006).

universidade de são paulo instituto de ciências ...jbatista/procimg/aula2_class_bayesiana.pdf ·...

Documents