universidade de são paulo instituto de ciências ...jbatista/procimg/aula2_class_bayesiana.pdf ·...

Post on 07-Jul-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Universidade de São PauloInstituto de Ciências Matemáticas e de Computação

Francisco A. Rodrigues

Departamento de Matemática Aplicada e Estatística - SME

Dada M classes ω1, ω2, ..., ωM e um padrão

desconhecido x, determinar a probabilidade

condicional p(ωi|x) do padrão pertencer a cada

classe i.

Classificar de acordo com a classe mais provável.

Objetivo

Conceitos básicos

• Probabilidade condicional

• Partição do espaço amostral

• Teorema de Bayes

Teorema de Bayes

Teorema de Bayes

Exemplo:

Considere duas urnas. A primeira contém duas bolas brancas e sete bolas pretas e a segunda contém cinco bolas brancas e seis pretas. Nós lançamos uma moeda e retiramos uma bola da primeira ou da segunda urna, dependendo do resultado do lançamento, isto é, cara (urna 1) ou coroa (urna 2). Qual é a probabilidade condicional de que o resultado do lançamento da moeda foi cara, dado que uma bola branca foi retirada?

Teorema de Bayes

Distribuição normal

Teoria da decisão Bayesiana

Vamos começar tratando do caso de duas classes:

•Padrão desconhecido é representado por:

• Sejam ω1 e ω2 duas classes nas quais um dado padrão devem

pertencer.

• Assumimos que conhecemos as probabilidades à priori:

P(ωωωω1) e P(ωωωω2).

• Estas probabilidades podem ser estimadas do conjunto de

treinamento.

[ ]T

lxxxx ,...,, 21=

Teoria da decisão Bayesiana

• Se N é o número total de padrões disponíveis para

treinamento, onde N1 é da classe ω1 e N2 da classe ω2,

então:

P(ω1)~N1/N

P(ω2) ~ N2/N

Teoria da decisão Bayesiana

• Também assumimos que conhecemos as funções

densidades condicionais de probabilidades de cada

classe:

p(x|ωi), i=1,2,

Que descreve a distribuição de probabilidades das

características de cada classe.

Teoria da decisão Bayesiana

Teoria da decisão Bayesiana

• Se p(x|ωi), i=1,2, não são conhecidas, elas podem

ser estimadas.

• p(x|ωi) é chamada também: função de máxima

verossimilhanca de ωi com respeito a x.

Teoria da decisão Bayesiana

• Como conhecemos p(x|ωi) e P(ωi), i=1,2, podemos

usar o teorema de Bayes para determinar:

• Ou seja a probabilidade condicional do padrão

descrito por x pertencer à classe ωi.

Teoria da decisão Bayesiana

• Pela lei da probabilidade total:

• Logo, podemos calcular para cada classe:

Teoria da decisão Bayesiana

• A regra de classificação Bayesiana será então:

• Ou seja:

Teoria da decisão Bayesiana

• Para duas classes equiprováveis:

l = 1d

)( e )( 2211 ωω →→ RR

Teoria da decisão Bayesiana

• Erro associado à classificação:

• Para duas classes: área indicada sob as curvas

l = 1d

Teoria da decisão Bayesiana

• Erro associado à classificação:

l = 1d

Regiãode erro

Teoria da decisão Bayesiana

• Erro associado à classificação:

Se movermos x0 para a esquerda, há um aumento do

erro, indicado pela área em cinza

l = 1d

Minimização da probabilidade de erro

• Podemos mostrar que o classificador Bayesiana é

ótimo com respeito à minimização da probabilidade

de erro na classificação.

• Prova:

O padrão dado por x pertence à R2 e é da classe ω1

Minimização da probabilidade de erro

• Usando a regra de Bayes:

• Obtemos:

Minimização da probabilidade de erro

• Assim, vemos que o erro é minimizado se as regiões

R1 e R2 são escolhidas de tal modo que:

• Ou seja, podemos escrever:

Minimização da probabilidade de erro

• Combinando:

• Obtemos:

Minimização da probabilidade de erro

• Assim, a probabilidade de erro é minimizada se R1

é a região do espaço na qual P(ω1|x) > P(ω2|x).

• R2 se torna a região onde o caso contrário é

verdadeiro.

Minimização da probabilidade de erro

• Esse raciocínio pode ser usado para um número

qualquer de classes, sendo o padrão representado

por x classificado com pertence à classe ωi se

• Tal escolha minimiza o erro de classificação,

conforme verificamos para duas classes.

Minimização do risco médio

• A minimização da probabilidade de erro nem

sempre é a melhor escolha para minimização.

• Em alguns casos, pode ser associada uma

penalidade para cada erro, de modo que algumas

decisões são mais importantes do que outras.

• Por exemplo, é muito mais sério para um doutor

diagnosticar um tumor maligno como sendo benigno

do que o caso contrário.

Minimização do risco médio

• Assim, podemos minimizar uma versão modificada

da probabilidade de erro, isto é:

pesos

Classificação de padrões da classe w1 como sendo da classe w2 tem um efeito maior na função custo do que o erro associado ao segundo termo na soma acima.

Minimização do risco médio

• Para o caso geral de M classes:

• Assuma que o vetor de características x que

pertence à classe ωk caia na região Ri, com k diferente

de i. Logo, este vetor é classificado como pertencente

à classe ωi e um erro é cometido.

• Uma penalidade λki (conhecida como perda) é

associada com esta decisão errada.

Minimização do risco médio

• A função de risco associada com ωk é dada por:

• que representa a probabilidade de um vetor de

características da classe ωk ser classificado como

sendo da classe ωi ponderado por λki.

Minimização do risco médio

• O objetivo agora é escolher a partição das regiões de

classificação onde o risco médio seja minimizado:

• Isto é obtido se cada integral ser minimizada, o que

é equivalente à selecionar as regiões de partição de

tal modo que:

Minimização do risco médio

• Tal minimização é obtida se:

• Assim, a minimização do risco médio é equivalente

à minimização da probabilidade de erro na

classificação.

Minimização do risco médio

• Para o caso de duas classes: M=2

• Classificamos x como sendo da classe ω1 se l1 < l2:

• De maneira geral:Razão de verossimilhança

Minimização do risco médio

• Exemplo:

=

==

−−=

−=

00.1

5.00

2

1)()(

))1(exp(1

)(

)exp(1

)(

21

2

2

2

1

L

PP

xxp

xxp

ωω

πω

πω

2

1

))1(exp()exp( :

0

22

0

=

⇒−−=−

x

xxx

Minimização do risco médio

• Limiar para mínimo Pe:

• Limiar para mínimo r:

2

1

2

)21(ˆ

))1((exp2)(exp :ˆ

0

22

0

<−

=

⇒−−=−

nx

xxx

l

35

Minimização do risco médio

=

00.1

5.00L

SuperfSuperfíícies de decisãocies de decisão

Superfícies de decisão

0)|()()( =−≡ xPxPxg ji ωω

• Se Ri e Rj são regiões vizinhas, a superfície de

decisão é dada pela equação:

)()( :

)()( :

xPxPR

xPxPR

ijj

jii

ωω

ωω

>

>

+

0)( =xg-

ClassificaClassificaçção ão BayesianaBayesiana

para distribuipara distribuiçções normaisões normais

Função densidade de prob. Gaussiana

• Teorema do limite central:

Seja X1, X2, ... Xn uma seqüência de variáveis

aleatórias independentes com E[Xi] =µi e var[Xi] =

σi2, i =1, 2, ... Façamos X = X1 + X2 + ... + Xn, então,

tem aproximadamente a distribuição N(0,1).

=

=

=n

i

i

n

i

iX

Zn

1

2

1

σ

µ

Função densidade de prob. Gaussiana

• A gaussiana unidimensional:

Função densidade de prob. Gaussiana

• A gaussiana unidimensional:

Função densidade de prob. Gaussiana

• A gaussiana em l-dimensões:

Matriz de covariância (l X l)

Determinante de Σ

Vetor de médias (l X 1)

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância entre as variáveis x1 e x2.

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância não-diagonal:

Classes normalmente distribuídas

• Devido à forma exponencial das densidades é

preferível trabalhar com funções logarítmicas:

Função discriminante:

)(ln)(ln))()(ln()( iiiii PxpPxpxg ωωωω +==

ii

iiii

T

ii

C

CPxxxg

Σ−−=

++−Σ−−= −

ln)2

1(2ln)

2(

)(ln)()(2

1)( 1

π

ωµµ

l

• mas:

Classes normalmente distribuídas

• Exemplo: l = 2

2

2

0

0

σ

σi

iiii

iii

CP

xxxxxg

+++−

+++−=

)ln()(2

1

)(1

)(2

1)(

2

2

2

12

22112

2

2

2

12

ωµµσ

µµσσ

• Assim, gi(x) se torna:

Classes normalmente distribuídas

• E as regiões de separação:

• São superfícies quádricas: Elipses, hipérboles, pares

de linhas, etc.

0)()( =− xgxg ji

Classes normalmente distribuídas

Classes normalmente distribuídas

Classificadores de distância mínima

• Vamos assumir que as classes são equiprováveis e

com mesma matriz de covariância:

)()(2

1)( 1

i

T

ii xxxg µµ −Σ−−= −

MP i

1)( =ω

• A função discriminante se torna:

Classificadores de distância mínima

• :2Iσ=Σ

iE xd µ−≡

Matriz de covariância diagonal:

Classifique x como sendo da classe ωi se a distância

euclidiana do vetor característica ao vetor média da

classe ωi é mínima:

Classificadores de distância mínima

Matriz de covariância não-diagonal:

Classifique x como sendo da classe ωi se a distância

de Mahalanobis do vetor característica ao vetor

média da classe ωi é mínima:

:2Iσ≠Σ

2

1

1 ))()((x i

T

im xd µµ −Σ−= −

Minimização da norma de Σ-1

Classificadores de distância mínima

• Exemplo: Para duas classes, os vetores de

características são gerados por duas distribuições

normais com mesma matriz de covariância:

• E médias:

• Classifique o padrão dado por:

9.13.0

3.01.1

3

3 ,

0

0

), ,()(), ,()( e)()(

21

221121

=

=

===

µµ

µωµωωω ΣNxpΣNxpPP

=

2.2

0.1x

Classificadores de distância mínima

• Solução: Vamos calcular a distância de

Mahalanobis para as duas classes:

• Logo, o padrão pertence à classe

• OBS: Note que o vetor está mais próximo da classe 2 em

termos da distância euclidiana (verifique).

EstimaEstimaçção de funão de funçções ões

densidade de probabilidade densidade de probabilidade

desconhecidasdesconhecidas

• Em muitos casos fdp deve ser estimada dos dados

disponíveis.

• Muitas vezes é conhecido o tipo da fdp (gaussiana,

exponencial, etc), mas não seus parâmetros (média,

desvio padrão, etc).

• Em outros casos, não se sabe a forma da fdp, mas

sim seus parâmetros (média, desvio padrão, etc).

Estimação

• Estimação de parâmetros via máxima

verossimilhança

• Objetivo: Estimar os parâmetros da fdp usando um

conjunto de vetores de características de cada classe.

• Sejam x1, x2, ..., xN amostras aleatórias da fdp:

Estimação: máxima verossimilhança

);()( : θθ xpxp ≡

vetores

• Assuma independência entre as amostras. Então:

{ }

);();,...,();(

,...,

121

21

θθθ k

N

kN

N

xpxxxpXp

xxxX

=Π=≡

=

Estimação: máxima verossimilhança

0)(

)(

)(

1

)(

)( :ˆ

);(ln);(ln)(

);(maxarg :ˆ

;

; 1

1

1ML

=∂

∂Σ=

Σ=≡

Π

=

=

=

θ

θ

θθ

θθ

θθθ

θθθ

k

k

N

kML

k

N

k

k

Ν

k

xp

xp

L

xpXpL

xp

• O estimador de máxima verossimilhança de θ:

Estima θ de tal modo que a função de verossimilhança tome seu valor máximo.

Estimação: máxima verossimilhança

• Propriedade do estimador de máxima

verossimilhança de θ:

• Assintoticamente não viesado: Na média, converge

para o valor real quando o número de amostras é

grande.

Vetor:

Estimação: máxima verossimilhança

• Propriedade do estimador de máxima

verossimilhança de θ:

• Assintoticamente consistente: A variância do

estimador tende a zero quando N é grande.

Estimação: máxima verossimilhança

• Propriedade do estimador de máxima

verossimilhança de θ:

• O estimador é assintoticamente eficiente, isto é, ele

obedece à desigualdade de Cramer-Rao.

• Logo, o estimador com menor variância dentre

todos os estimadores possíveis.

Estimação: máxima verossimilhança

• Exemplo 1: Assuma que N pontos x1, x2, ..., xN foram

gerados por uma gaussiana unidimensional com

média conhecida µ, mas variância desconhecida.

Determine o estimador de máxima verossimilhança

para a variância.

Estimação: máxima verossimilhança

• Solução: A função (log) de máxima verossimilhança:

• Tomando a derivada em ambos os lados com

respeito a σ2, obtemos:

Estimação: máxima verossimilhança

• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:

Estimação: máxima verossimilhança

• Exemplo 2: Assuma que N vetores x1, x2, ..., xN

foram providos por uma distribuição normal com

matriz de covariância conhecida, mas média

desconhecida:

• Determine o estimador de máxima verossimilhança

para o vetor média.

Estimação: máxima verossimilhança

• Solução: A função (log) de máxima verossimilhança:

• Tomando o gradiente com relação à µµµµ e igualando a

zero:

• Obtemos:

Estimação: máxima verossimilhança

• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:

Estimação: máxima verossimilhança

Estimação: inferência Bayesiana

• Inferência Bayesiana:

Dado o conjunto X de N vetores de treinamento e uma

informação a priori da fdp p(θ), o objetivo é calcular a

fdp condicional p(x|X).

• Temos:

•onde

Estimação: inferência Bayesiana

• Inferência Bayesiana:

Ou seja:

• Como p(q|X) considera integrais que muitas vezes

não possuem solução exata, é necessária a utilização

de métodos numéricos: Markov Chain Monte Carlo

(MCMC), tais como Gibbs Sampler e Metropolis

Hastings.

Estimação: inferência Bayesiana

• Exemplo:

Seja p(x|µ) uma gaussiana univariada N(µ,σ2) com

parâmetro média desconhecido que também segue

uma gaussiana N(µ0,σ02).

• Usando a metodologia de inferência Bayesiana:

Estimação: inferência Bayesiana

• Observação:

Os métodos de estimação por máxima

verossimilhança e estimação Bayesiana resultam no

mesmo estimador quando o número de conjuntos de

treinamentos N é grande, mas levam a resultados

diferentes para N pequeno.

Estimação: Outros métodos

• Mistura de gaussianas: Expectation maximization

• Estimação máxima à posteriori.

ClassificaClassificaçção ão BayesianaBayesiana

não paramnão paraméétricatrica

• Métodos não paramétricos são variações da

aproximação de fdps por histogramas.

Estimação não-paramétrica

Caixas de tamanhos diferentes.

• No caso do histograma:

Estimação não-paramétrica

Número de pontos dentro da caixa

Largura da caixaPonto médio da caixa

• Janelas de Parzen

• No espaço l-dimensional, ao invés de caixas de

tamanho h, temos hipercubos de lado h e volume hl.

• Seja xi, i=1, 2,..., N os vetores de características

disponíveis. Definamos a função:

• onde xij, i=1,2,.., l são as componentes de xi.

Estimação não-paramétrica

• Janelas de Parzen

• Ou seja, a função é igual a um para todos os pontos

dentro do hipercubo de dimensão unitária e igual a

zero, caso contrário.

Estimação não-paramétrica

• Janelas de Parzen

• Assim:

Estimação não-paramétrica

• Janelas de Parzen

• Parzen em 1962 generalizou a aproximação por

histograma usando uma função mais suave:

Estimação não-paramétrica

Janela de Parzen

• Janelas de Parzen

• Para o caso de uma janela gaussiana N(0,I)

• A fdp aproximada como uma média de N gaussianas,

cada uma centrada em diferentes pontos do conjunto

de treinamento.

• O parâmetro h controla a largura da gaussiana.

Estimação não-paramétrica

• Janelas de Parzen

Estimação não-paramétrica

• Janelas de Parzen

Estimação não-paramétrica

• Janelas de Parzen

Estimação não-paramétrica

h = 0,1 e N= 1,000 h = 0,1 e N= 20.000

% generate synthetic data

X1 = [randn(500,1) randn(500,1)+2];

X2 = [randn(500,1)+5 randn(500,1)];data=[X1; X2];

N = 5;

[bandwidth,density,X,Y]=kde2d(data,N);

% plot the data and the density estimate

contour3(X,Y,density,50), hold onplot(data(:,1),data(:,2),'r.','MarkerSize',5)

• Janelas de Parzen

Estimação não-paramétrica

• Janelas de Parzen: N = 5

Estimação não-paramétrica

• Janelas de Parzen: N = 10

Estimação não-paramétrica

• Janelas de Parzen: N = 50

Estimação não-paramétrica

• Janelas de Parzen: N = 500

Estimação não-paramétrica

• Janelas de Parzen

• No caso em que h tende a zero,

• é um estimador não viesado de p(x).

• Note que esse fato é independente do tamanho da

amostra N.

Estimação não-paramétrica

• Janelas de Parzen

• Classificação:

Estimação não-paramétrica

• Projeto

• Usando os features do projeto anterior.

• Implemente os classificadores de distância mínima

(euclidiana e Mahalanobis).

• Classifique as imagens usando a metodologia

bayesiana paramétrica.

• Escolha duas características e faça a classificação

usando janelas de Parzen.

Estimação não-paramétrica

Referências

• C. Bishop, Pattern Recognition and Machine Learning ,

Springer (2006)

• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern

Recognition. Elsevier (2006).

top related