universidade de são paulo instituto de ciências ...jbatista/procimg/aula2_class_bayesiana.pdf ·...

96
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Universidade de São PauloInstituto de Ciências Matemáticas e de Computação

Francisco A. Rodrigues

Departamento de Matemática Aplicada e Estatística - SME

Page 2: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Dada M classes ω1, ω2, ..., ωM e um padrão

desconhecido x, determinar a probabilidade

condicional p(ωi|x) do padrão pertencer a cada

classe i.

Classificar de acordo com a classe mais provável.

Objetivo

Page 3: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Conceitos básicos

• Probabilidade condicional

• Partição do espaço amostral

• Teorema de Bayes

Page 4: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teorema de Bayes

Page 5: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teorema de Bayes

Page 6: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Exemplo:

Considere duas urnas. A primeira contém duas bolas brancas e sete bolas pretas e a segunda contém cinco bolas brancas e seis pretas. Nós lançamos uma moeda e retiramos uma bola da primeira ou da segunda urna, dependendo do resultado do lançamento, isto é, cara (urna 1) ou coroa (urna 2). Qual é a probabilidade condicional de que o resultado do lançamento da moeda foi cara, dado que uma bola branca foi retirada?

Teorema de Bayes

Page 7: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Distribuição normal

Page 8: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

Vamos começar tratando do caso de duas classes:

•Padrão desconhecido é representado por:

• Sejam ω1 e ω2 duas classes nas quais um dado padrão devem

pertencer.

• Assumimos que conhecemos as probabilidades à priori:

P(ωωωω1) e P(ωωωω2).

• Estas probabilidades podem ser estimadas do conjunto de

treinamento.

[ ]T

lxxxx ,...,, 21=

Page 9: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Se N é o número total de padrões disponíveis para

treinamento, onde N1 é da classe ω1 e N2 da classe ω2,

então:

P(ω1)~N1/N

P(ω2) ~ N2/N

Page 10: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Também assumimos que conhecemos as funções

densidades condicionais de probabilidades de cada

classe:

p(x|ωi), i=1,2,

Que descreve a distribuição de probabilidades das

características de cada classe.

Page 11: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

Page 12: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Se p(x|ωi), i=1,2, não são conhecidas, elas podem

ser estimadas.

• p(x|ωi) é chamada também: função de máxima

verossimilhanca de ωi com respeito a x.

Page 13: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Como conhecemos p(x|ωi) e P(ωi), i=1,2, podemos

usar o teorema de Bayes para determinar:

• Ou seja a probabilidade condicional do padrão

descrito por x pertencer à classe ωi.

Page 14: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Pela lei da probabilidade total:

• Logo, podemos calcular para cada classe:

Page 15: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• A regra de classificação Bayesiana será então:

• Ou seja:

Page 16: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Para duas classes equiprováveis:

l = 1d

)( e )( 2211 ωω →→ RR

Page 17: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Erro associado à classificação:

• Para duas classes: área indicada sob as curvas

l = 1d

Page 18: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Erro associado à classificação:

l = 1d

Regiãode erro

Page 19: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Teoria da decisão Bayesiana

• Erro associado à classificação:

Se movermos x0 para a esquerda, há um aumento do

erro, indicado pela área em cinza

l = 1d

Page 20: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Podemos mostrar que o classificador Bayesiana é

ótimo com respeito à minimização da probabilidade

de erro na classificação.

• Prova:

O padrão dado por x pertence à R2 e é da classe ω1

Page 21: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Usando a regra de Bayes:

• Obtemos:

Page 22: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Assim, vemos que o erro é minimizado se as regiões

R1 e R2 são escolhidas de tal modo que:

• Ou seja, podemos escrever:

Page 23: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Combinando:

• Obtemos:

Page 24: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Assim, a probabilidade de erro é minimizada se R1

é a região do espaço na qual P(ω1|x) > P(ω2|x).

• R2 se torna a região onde o caso contrário é

verdadeiro.

Page 25: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização da probabilidade de erro

• Esse raciocínio pode ser usado para um número

qualquer de classes, sendo o padrão representado

por x classificado com pertence à classe ωi se

• Tal escolha minimiza o erro de classificação,

conforme verificamos para duas classes.

Page 26: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• A minimização da probabilidade de erro nem

sempre é a melhor escolha para minimização.

• Em alguns casos, pode ser associada uma

penalidade para cada erro, de modo que algumas

decisões são mais importantes do que outras.

• Por exemplo, é muito mais sério para um doutor

diagnosticar um tumor maligno como sendo benigno

do que o caso contrário.

Page 27: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• Assim, podemos minimizar uma versão modificada

da probabilidade de erro, isto é:

pesos

Classificação de padrões da classe w1 como sendo da classe w2 tem um efeito maior na função custo do que o erro associado ao segundo termo na soma acima.

Page 28: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• Para o caso geral de M classes:

• Assuma que o vetor de características x que

pertence à classe ωk caia na região Ri, com k diferente

de i. Logo, este vetor é classificado como pertencente

à classe ωi e um erro é cometido.

• Uma penalidade λki (conhecida como perda) é

associada com esta decisão errada.

Page 29: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• A função de risco associada com ωk é dada por:

• que representa a probabilidade de um vetor de

características da classe ωk ser classificado como

sendo da classe ωi ponderado por λki.

Page 30: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• O objetivo agora é escolher a partição das regiões de

classificação onde o risco médio seja minimizado:

• Isto é obtido se cada integral ser minimizada, o que

é equivalente à selecionar as regiões de partição de

tal modo que:

Page 31: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• Tal minimização é obtida se:

• Assim, a minimização do risco médio é equivalente

à minimização da probabilidade de erro na

classificação.

Page 32: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• Para o caso de duas classes: M=2

• Classificamos x como sendo da classe ω1 se l1 < l2:

• De maneira geral:Razão de verossimilhança

Page 33: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Minimização do risco médio

• Exemplo:

=

==

−−=

−=

00.1

5.00

2

1)()(

))1(exp(1

)(

)exp(1

)(

21

2

2

2

1

L

PP

xxp

xxp

ωω

πω

πω

Page 34: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

2

1

))1(exp()exp( :

0

22

0

=

⇒−−=−

x

xxx

Minimização do risco médio

• Limiar para mínimo Pe:

• Limiar para mínimo r:

2

1

2

)21(ˆ

))1((exp2)(exp :ˆ

0

22

0

<−

=

⇒−−=−

nx

xxx

l

Page 35: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

35

Minimização do risco médio

=

00.1

5.00L

Page 36: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

SuperfSuperfíícies de decisãocies de decisão

Page 37: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Superfícies de decisão

0)|()()( =−≡ xPxPxg ji ωω

• Se Ri e Rj são regiões vizinhas, a superfície de

decisão é dada pela equação:

)()( :

)()( :

xPxPR

xPxPR

ijj

jii

ωω

ωω

>

>

+

0)( =xg-

Page 38: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

ClassificaClassificaçção ão BayesianaBayesiana

para distribuipara distribuiçções normaisões normais

Page 39: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• Teorema do limite central:

Seja X1, X2, ... Xn uma seqüência de variáveis

aleatórias independentes com E[Xi] =µi e var[Xi] =

σi2, i =1, 2, ... Façamos X = X1 + X2 + ... + Xn, então,

tem aproximadamente a distribuição N(0,1).

=

=

=n

i

i

n

i

iX

Zn

1

2

1

σ

µ

Page 40: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• A gaussiana unidimensional:

Page 41: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• A gaussiana unidimensional:

Page 42: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• A gaussiana em l-dimensões:

Matriz de covariância (l X l)

Determinante de Σ

Vetor de médias (l X 1)

Page 43: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância entre as variáveis x1 e x2.

Page 44: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Page 45: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Page 46: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância diagonal:

Page 47: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Função densidade de prob. Gaussiana

• No caso bi-dimensional: l=2

Covariância não-diagonal:

Page 48: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classes normalmente distribuídas

• Devido à forma exponencial das densidades é

preferível trabalhar com funções logarítmicas:

Função discriminante:

)(ln)(ln))()(ln()( iiiii PxpPxpxg ωωωω +==

ii

iiii

T

ii

C

CPxxxg

Σ−−=

++−Σ−−= −

ln)2

1(2ln)

2(

)(ln)()(2

1)( 1

π

ωµµ

l

• mas:

Page 49: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classes normalmente distribuídas

• Exemplo: l = 2

2

2

0

0

σ

σi

iiii

iii

CP

xxxxxg

+++−

+++−=

)ln()(2

1

)(1

)(2

1)(

2

2

2

12

22112

2

2

2

12

ωµµσ

µµσσ

• Assim, gi(x) se torna:

Page 50: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classes normalmente distribuídas

• E as regiões de separação:

• São superfícies quádricas: Elipses, hipérboles, pares

de linhas, etc.

0)()( =− xgxg ji

Page 51: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classes normalmente distribuídas

Page 52: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classes normalmente distribuídas

Page 53: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classificadores de distância mínima

• Vamos assumir que as classes são equiprováveis e

com mesma matriz de covariância:

)()(2

1)( 1

i

T

ii xxxg µµ −Σ−−= −

MP i

1)( =ω

• A função discriminante se torna:

Page 54: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classificadores de distância mínima

• :2Iσ=Σ

iE xd µ−≡

Matriz de covariância diagonal:

Classifique x como sendo da classe ωi se a distância

euclidiana do vetor característica ao vetor média da

classe ωi é mínima:

Page 55: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classificadores de distância mínima

Matriz de covariância não-diagonal:

Classifique x como sendo da classe ωi se a distância

de Mahalanobis do vetor característica ao vetor

média da classe ωi é mínima:

:2Iσ≠Σ

2

1

1 ))()((x i

T

im xd µµ −Σ−= −

Minimização da norma de Σ-1

Page 56: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classificadores de distância mínima

• Exemplo: Para duas classes, os vetores de

características são gerados por duas distribuições

normais com mesma matriz de covariância:

• E médias:

• Classifique o padrão dado por:

9.13.0

3.01.1

3

3 ,

0

0

), ,()(), ,()( e)()(

21

221121

=

=

===

µµ

µωµωωω ΣNxpΣNxpPP

=

2.2

0.1x

Page 57: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Classificadores de distância mínima

• Solução: Vamos calcular a distância de

Mahalanobis para as duas classes:

• Logo, o padrão pertence à classe

• OBS: Note que o vetor está mais próximo da classe 2 em

termos da distância euclidiana (verifique).

Page 58: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

EstimaEstimaçção de funão de funçções ões

densidade de probabilidade densidade de probabilidade

desconhecidasdesconhecidas

Page 59: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Em muitos casos fdp deve ser estimada dos dados

disponíveis.

• Muitas vezes é conhecido o tipo da fdp (gaussiana,

exponencial, etc), mas não seus parâmetros (média,

desvio padrão, etc).

• Em outros casos, não se sabe a forma da fdp, mas

sim seus parâmetros (média, desvio padrão, etc).

Estimação

Page 60: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Estimação de parâmetros via máxima

verossimilhança

• Objetivo: Estimar os parâmetros da fdp usando um

conjunto de vetores de características de cada classe.

• Sejam x1, x2, ..., xN amostras aleatórias da fdp:

Estimação: máxima verossimilhança

);()( : θθ xpxp ≡

vetores

Page 61: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Assuma independência entre as amostras. Então:

{ }

);();,...,();(

,...,

121

21

θθθ k

N

kN

N

xpxxxpXp

xxxX

=Π=≡

=

Estimação: máxima verossimilhança

Page 62: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

0)(

)(

)(

1

)(

)( :ˆ

);(ln);(ln)(

);(maxarg :ˆ

;

; 1

1

1ML

=∂

∂Σ=

Σ=≡

Π

=

=

=

θ

θ

θθ

θθ

θθθ

θθθ

k

k

N

kML

k

N

k

k

Ν

k

xp

xp

L

xpXpL

xp

• O estimador de máxima verossimilhança de θ:

Estima θ de tal modo que a função de verossimilhança tome seu valor máximo.

Estimação: máxima verossimilhança

Page 63: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Propriedade do estimador de máxima

verossimilhança de θ:

• Assintoticamente não viesado: Na média, converge

para o valor real quando o número de amostras é

grande.

Vetor:

Estimação: máxima verossimilhança

Page 64: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Propriedade do estimador de máxima

verossimilhança de θ:

• Assintoticamente consistente: A variância do

estimador tende a zero quando N é grande.

Estimação: máxima verossimilhança

Page 65: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Propriedade do estimador de máxima

verossimilhança de θ:

• O estimador é assintoticamente eficiente, isto é, ele

obedece à desigualdade de Cramer-Rao.

• Logo, o estimador com menor variância dentre

todos os estimadores possíveis.

Estimação: máxima verossimilhança

Page 66: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Exemplo 1: Assuma que N pontos x1, x2, ..., xN foram

gerados por uma gaussiana unidimensional com

média conhecida µ, mas variância desconhecida.

Determine o estimador de máxima verossimilhança

para a variância.

Estimação: máxima verossimilhança

Page 67: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Solução: A função (log) de máxima verossimilhança:

• Tomando a derivada em ambos os lados com

respeito a σ2, obtemos:

Estimação: máxima verossimilhança

Page 68: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:

Estimação: máxima verossimilhança

Page 69: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Exemplo 2: Assuma que N vetores x1, x2, ..., xN

foram providos por uma distribuição normal com

matriz de covariância conhecida, mas média

desconhecida:

• Determine o estimador de máxima verossimilhança

para o vetor média.

Estimação: máxima verossimilhança

Page 70: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Solução: A função (log) de máxima verossimilhança:

• Tomando o gradiente com relação à µµµµ e igualando a

zero:

• Obtemos:

Estimação: máxima verossimilhança

Page 71: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Solução: Assim:

• Esse estimador é não viesado pois:

• Para N grande:

Estimação: máxima verossimilhança

Page 72: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Estimação: inferência Bayesiana

• Inferência Bayesiana:

Dado o conjunto X de N vetores de treinamento e uma

informação a priori da fdp p(θ), o objetivo é calcular a

fdp condicional p(x|X).

• Temos:

•onde

Page 73: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Estimação: inferência Bayesiana

• Inferência Bayesiana:

Ou seja:

• Como p(q|X) considera integrais que muitas vezes

não possuem solução exata, é necessária a utilização

de métodos numéricos: Markov Chain Monte Carlo

(MCMC), tais como Gibbs Sampler e Metropolis

Hastings.

Page 74: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Estimação: inferência Bayesiana

• Exemplo:

Seja p(x|µ) uma gaussiana univariada N(µ,σ2) com

parâmetro média desconhecido que também segue

uma gaussiana N(µ0,σ02).

• Usando a metodologia de inferência Bayesiana:

Page 75: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Estimação: inferência Bayesiana

• Observação:

Os métodos de estimação por máxima

verossimilhança e estimação Bayesiana resultam no

mesmo estimador quando o número de conjuntos de

treinamentos N é grande, mas levam a resultados

diferentes para N pequeno.

Page 76: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Estimação: Outros métodos

• Mistura de gaussianas: Expectation maximization

• Estimação máxima à posteriori.

Page 77: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

ClassificaClassificaçção ão BayesianaBayesiana

não paramnão paraméétricatrica

Page 78: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Métodos não paramétricos são variações da

aproximação de fdps por histogramas.

Estimação não-paramétrica

Caixas de tamanhos diferentes.

Page 79: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• No caso do histograma:

Estimação não-paramétrica

Número de pontos dentro da caixa

Largura da caixaPonto médio da caixa

Page 80: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• No espaço l-dimensional, ao invés de caixas de

tamanho h, temos hipercubos de lado h e volume hl.

• Seja xi, i=1, 2,..., N os vetores de características

disponíveis. Definamos a função:

• onde xij, i=1,2,.., l são as componentes de xi.

Estimação não-paramétrica

Page 81: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• Ou seja, a função é igual a um para todos os pontos

dentro do hipercubo de dimensão unitária e igual a

zero, caso contrário.

Estimação não-paramétrica

Page 82: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• Assim:

Estimação não-paramétrica

Page 83: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• Parzen em 1962 generalizou a aproximação por

histograma usando uma função mais suave:

Estimação não-paramétrica

Janela de Parzen

Page 84: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• Para o caso de uma janela gaussiana N(0,I)

• A fdp aproximada como uma média de N gaussianas,

cada uma centrada em diferentes pontos do conjunto

de treinamento.

• O parâmetro h controla a largura da gaussiana.

Estimação não-paramétrica

Page 85: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

Estimação não-paramétrica

Page 86: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

Estimação não-paramétrica

Page 87: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

Estimação não-paramétrica

h = 0,1 e N= 1,000 h = 0,1 e N= 20.000

Page 88: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

% generate synthetic data

X1 = [randn(500,1) randn(500,1)+2];

X2 = [randn(500,1)+5 randn(500,1)];data=[X1; X2];

N = 5;

[bandwidth,density,X,Y]=kde2d(data,N);

% plot the data and the density estimate

contour3(X,Y,density,50), hold onplot(data(:,1),data(:,2),'r.','MarkerSize',5)

• Janelas de Parzen

Estimação não-paramétrica

Page 89: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen: N = 5

Estimação não-paramétrica

Page 90: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen: N = 10

Estimação não-paramétrica

Page 91: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen: N = 50

Estimação não-paramétrica

Page 92: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen: N = 500

Estimação não-paramétrica

Page 93: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• No caso em que h tende a zero,

• é um estimador não viesado de p(x).

• Note que esse fato é independente do tamanho da

amostra N.

Estimação não-paramétrica

Page 94: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Janelas de Parzen

• Classificação:

Estimação não-paramétrica

Page 95: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

• Projeto

• Usando os features do projeto anterior.

• Implemente os classificadores de distância mínima

(euclidiana e Mahalanobis).

• Classifique as imagens usando a metodologia

bayesiana paramétrica.

• Escolha duas características e faça a classificação

usando janelas de Parzen.

Estimação não-paramétrica

Page 96: Universidade de São Paulo Instituto de Ciências ...jbatista/procimg/Aula2_Class_Bayesiana.pdf · Vamos começar tratando do caso de duas classes: •Padrão desconhecido érepresentado

Referências

• C. Bishop, Pattern Recognition and Machine Learning ,

Springer (2006)

• Sergios Theodoridis, Konstantinos Koutroumbas, Pattern

Recognition. Elsevier (2006).