3-estimação de parâmetros: máxima verosimilhança e...

63
3-Estimação de Parâmetros: Máxima Verosimilhança e Bayes CT 720 Tópicos em Aprendizagem de Máquina e Classificação de Padrões ProfFernandoGomide DCA-FEEC-Unicamp

Upload: lykhue

Post on 01-Oct-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

3-Estimação de Parâmetros: Máxima Verosimilhança e

Bayes

CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões

ProfFernandoGomide DCA-FEEC-Unicamp

Page 2: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

1. Introdução

2. Estimador de máxima verosimilhança

3. Estimador de Bayes

4. Teoria geral estimadores Bayesianos

5. Problemas de dimensionalidade

6. Modelos de Markov

7. Resumo

Conteúdo

DCA-FEEC-UnicampProfFernandoGomide

Page 3: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

1-Introdução

� Teoria Bayesiana de decisão– assume P(ωi) e p(x/ωi) completamente conhecidos

– na prática estes valores não são conhecidos

– projeto necessita de dados de treinamento

– problema de estimar função → estimar parâmetros

� Este capítulo– apresenta métodos principais de estimação

– problema da dimensão e complexidade

– classificação estática e dinâmica

DCA-FEEC-UnicampProfFernandoGomide

Page 4: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Estimador de máxima verosimilhança– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos

– melhor estimativa: maximiza a probabilidade de obter as observações

� Estimador de Bayes– parâmetros são variáveis aleatórias com distribuições a priori dadas

– observações convertem estas distribuições em a posteriori

� Aprendizagem– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)

– amostras independentemente selecionadas de acordo com p(x/ωi)

– supervisionada: classe (estado) ωi de cada amostra é conhecida

– não supervisionada

Page 5: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

2-Estimador de máxima verosimilhança

� Características– boa convergência quando número de amostras de treinamento aumenta

– mais simples que métodos alternativos (Bayes, EM, etc.)

� Princípio geralD1,...., Dc : c conjuntos de dados

Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)

p(x/ωj) : forma paramétrica é, por hipótese, conhecida

θθθθj: vetor de parâmetros que caracteriza p(x/ωj) de forma única

p(x/ωj) = p(x/ωj,θθθθj)

problema: θθθθj ?

Page 6: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� HipóteseDi : não tem informação sobre θθθθj se i ≠ j

parâmetros são funcionalmente independentes

permite tratar cada classe separadamente

� Problema de estimação

Estimar o vetor de parâmetros θθθθj a partir das amostras em D

amostras estas geradas independentemente a partir de p(x/θθθθ)

D = {x1, ....,xn}

ProfFernandoGomide DCA-FEEC-Unicamp

∏=

=n

kkpp

1)|()|( θxθD likelihood de θθθθ com relação a D (1)

Page 7: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Estimador de máxima verosimilhança (MV)– maximiza p(D/θθθθ)

– valor de θθθθ mais aderente aos dados de treinamento

– em geral usa-selog-likelihood

θ̂

)|(ln)( θθ Dpl =

)(maxargˆ θθθ

l=

∑=

=n

kkpl

1)|(ln)( θxθ

0)|(ln1

=∇=∇ ∑=

n

kkpl θxθθ condição necessária (7)

Page 8: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

Page 9: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

ProfFernandoGomide DCA-FEEC-Unicamp

� Caso Gaussiano:µµµµ desconhecido

)()(2

1||)2ln[(

2

1)|(ln 1

µxΣµxΣµx −−−π−= −k

tk

dkp

)()|(ln 1 µxΣµxµ −=∇ −kkp

0)(1

1 =−∑=

−n

kk µxΣ

∑=

=n

kkn 1

1xµ

(multiplicando por ∑∑∑∑–1 e rearranjando)

Page 10: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Caso Gaussiano:µµµµ e ∑∑∑∑ desconhecidos

21

22 )(

2

12ln[

2

1)|(ln θx

θθxp kk −−π−=θ

θ−+θ

θ−=∇=∇

22

21

2

12

2

)(

2

1

)(1

)|(ln

θ

x

plk

k

k θxθθ

221 e σ=µ= θθ

Page 11: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

0)ˆ(ˆ1

11

2=θ−∑

=

n

kkx

θ

0ˆ2

)ˆ(ˆ2

1

122

21

2=θ−+

θ−∑

=

n

k

k

θ

x

∑=

=µn

kkx

n 1

∑=

µ−=σn

kkx

n 1

222 )ˆ(

1

∑=

=n

kkn 1

1ˆ xµ

tk

n

kkn

)ˆ()ˆ(1ˆ

1µxµxΣ −−= ∑

=

Page 12: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Tendenciosidade (bias)

é um estimador não tendencioso de θθθθ se se somente seθ̂ θθ =]ˆ[E

22

1

2 1)(

1 σ≠σ−=

−∑

= n

nxx

nE

n

kk

tk

n

kkn

)ˆ()ˆ(1

1

1µxµxC −−

−= ∑

=

tendencioso

não tendencioso

Page 13: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

3-Estimador de Bayes

� Densidades condicionais de classe

– P(ωi| x) é essencial em classificação Bayesiana

– como obter P(ωi| x) se P(x|ωi) e P(ωi) dão desconhecidos ?

– usar conhecimento e.g. forma funcional e faixas dos parâmetros

– amostras para treinamento: conjuntoD

– P(ωi| x, D) ?

∑=

=c

jjj

iii

ωPωp

ωPωpωP

1)|(),|(

)|(),|(),|(

DD

DDD

x

xx

Page 14: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Hipóteses

– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)

–D1,...., Dc conjuntos de dados de treinamento

Di : não influencia p(x|ωj, D) se i ≠ j

– classes são tratadas separadamente: c problemas independentes

Di para estimar p(x|ωj, D)

∑=

=c

jjj

iii

ωPωp

ωPωpωP

1)(),|(

)(),|(),|(

D

DD

x

xx

Page 15: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Aprendizagem Bayesiana

Usa um conjunto D de amostras observadas independentemente

de acordo com uma distribuição de probabilidade fixa, mas

desconhecida p(x) para estimar p(x| D)

Page 16: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-Unicamp

� Distribuição de parâmetros

– densidade de probabilidade p(x) desconhecida

– assume-se forma paramétrica de p(x) conhecida: p(x|θθθθ)

– problema: determinar vetor de parâmetros θθθθ– conhecimento a priori sobreθθθθ: p(θθθθ)– observações de D converte p(θθθθ) em p(θθθθ|D )

ProfFernandoGomide

∫= θθxx dpp )|,()|( DD

)|(),|()|,( DDD θθxθx ppp =

),(),|( θxθx pp =D

∫= θθθxx dppp )|()|()|( DD

seleção de x são independentes

(integrar numericamente) (25)

Page 17: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Exemplo: caso Gaussiano

p(θθθθ|D ) = ?, p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ)

1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido

),()|( 2σµ=µ Nxp

),()( 2ooNp σµ=µ

D = {x1, ....,xn}

∏∫ =

µµα=µµµ

µµ=µn

kk pxp

dpp

ppp

1)()|(

)()|(

)()|()|(

D

DD

(26)

Page 18: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

σµ−µ−

σ

σµ−−

σπα=µ ∏

=

22

1 2

1exp

2

1

2

1exp

2

1)|(

o

o

o

kn

k

xp D

σµ−µ+

σ−µ−α′= ∑

=

2

1

2

2

1exp

o

on

k

kx

µ

σµ+

σ−µ

σ+

σ−α ′′= ∑

=

n

k o

okx

n

122

222

12

1

2

1exp

),(~2

1exp

2

1)|(

2

nnn

n

nNp σµ

σµ−µ−

σπ=µ D

(29)

(30)

p(xk|µ) p(µ)

Page 19: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

igualando (29) e (30)

22211

on

n

σ+

σ=

σ

222ˆ

o

on

n

n n

σµ+µ

σ=

σµ

∑=

=µn

kkn x

n 1

oo

no

on

nn

n µσ+σ

σ+µ

σ+σσ=µ

22

2

22

22

222

σ+σσσ=σ

o

on

n

Page 20: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-Unicamp

� Aprendizagem Bayesiana

ProfFernandoGomide

Page 21: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

2) Caso univariado:p(x|D )

∫ θθθ= dpxpxp )|()|()|( DD

),()|( 2σµ=µ Nxp

),(~2

1exp

2

1)|(

2

nnn

n

nNp σµ

σµ−µ−

σπ=µ D

(25)

(26)

(30)

Page 22: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

∫ µµµ= dpxpxp )|()|()|( DD

∫ µ

σµ−−

σπ

σµ−−

σπ= d

xx

n

n

n

22

2

1exp

2

1

2

1exp

2

1

),()(

2

1exp

2

122

2

nn

n

nf

x σσ

σ+σµ−−

πσσ=

∫ µ

σ+σµσ+σ−µ

σσσ+σ−=σσ d

xf

n

nn

n

nn

2

22

22

22

22

2

1exp),(

),|(),(~)|( 22jDD jnn ωxpNxp =σ+σµ

Page 23: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

3) Caso Gaussiano multivariado

p(θθθθ|D ) = ? p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ), p(µµµµ) ~ N(µµµµo, ΣΣΣΣo)

D = {x1, ....,xn}, x1, ....,xn amostras independentes

Após observar as n amostras de D e usando a fórmula de Bayes:

∏=

α=n

kk ppp

1)()|()|( µµxµ D

+−+−α′= ∑

=

−−−− n

kk

tt n1

o1

o11

o1 2)(

2

1exp µΣxΣµµΣΣµ

(39)

Page 24: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

p(µµµµ|D ) tem a forma

),(~)()(2

1exp)|( 1

nnnnt

n Np ΣµµµΣµµµ

−−−α ′′= −D (40)

igualando (39) e (40)

1o

11 −−− Σ+Σ=Σ nn

o1

o11 ˆ µµµ −−− Σ+Σ=Σ nnn n

∑=

=n

kkn n 1

1ˆ xµ

Page 25: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

o

1

o

1

oo11

ˆ1

µΣΣΣµΣΣΣµ

−−

++

+=nnn nn

ΣΣΣΣΣnnn11 1

oo

+=

),()|()|()|( nnNdppp ΣΣµµµµxx +== ∫ DD

Page 26: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

4-Teoria geral estimadores Bayesianos

� Hipóteses

– forma da densidade p(x|θθθθ) é conhecida

– valor de θθθθ não é conhecido exatamente

– conhecimento inicial sobre θθθθ contido densidade a priori p(θθθθ)

– restante do conhecimento sobre θθθθ contido em conjunto D

–D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)

– p(x) desconhecida

Page 27: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Problema básico

determinar distribuição a posteriori p(θθθθ|D) pois com ela calculamos

∫ θθθ= dpxpxp )|()|()|( DD

∫=

θθθ

θθθ

dpp

ppp

)()|(

)()|()|(

D

DD

∏=

=n

kkpp

1)|()|( θxθD

1) fórmula de Bayes

3) hipótese de independência

solução:

(49)

(50)

(51)

Page 28: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Análise

1) p(D|θθθθ) tem um pico em

p(θθθθ) ≠ 0 para e não varia significativamente na vizinhança

(50) → p(θθθθ|D) tem um pico neste ponto

(49) →

mesmo resultado que o de MV se fosse o verdadeiro

2) se pico de p(D|θθθθ) é muito acentuado, a influência da informação

a priori sobre incerteza de θθθθ pode ser desprezada

3) solução Bayesiana usa toda informação disponível

θθ ˆ=

θθ ˆ=

)ˆ|()|( θxpxp ≈D

θ̂

Page 29: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Aprendizagem Bayesiana incremental

1)Dn = {x1,..., xn}

2) de (51), se n > 1

3) densidade a posteriori

)|()|()|( 1θθxθ

n-n ppp DDn =

∫−

−=

θθθ

θθxθ

dpp

ppp

nn

nnn

)|()|(

)|()|()|(

1

1

DD

DD

)()|( 0θθ pp =D

(52)

(53)

Page 30: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Exemplo: caso unidimensional, distribuição uniforme

≤≤

=contráriocaso

Uxp0

θx0θ/1)θ,0(~)|( θ

,10)0((θ)|(θ 0 Upp == )D

D = {4, 7, 2, 8}

1) x1 = 4 e usando (53)

≤≤

=α.c.c0

10θ4θ/1)|(θθ)|()|(θ 01 DD pxpp

Page 31: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

2) x2 = 7 e usando (53)

≤≤=α

.c.c0

10θ7/θ1)|(θθ)|()|(θ

212 DD pxpp

n) xn = 8 (n = 4) e usando (53)

≤≤

=α −

.c.c0

10θ][max/θ1)|(θθ)|()|(θ 1

n

x

nnn pxpp

DDD

Page 32: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

≤≤

=α −

.c.c0

10θ][max/θ1)|(θθ)|()|(θ 1

n

x

nnn pxpp

DDD

p(θ|Dn)

Page 33: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

∫ θθθ= dpxpxp )|()|()|( DD

x

p(x|D )

Bayes

MV

Page 34: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Questões

– como a precisão de classificação depende da:

• dimensão do espaço de atributos

• quantidade de amostras de treinamento

– complexidade computacional do classificador

– overfitting

5-Problemas de dimensionalidade

Page 35: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

� Precisão, dimensão e quantidade dados treinamento

– resultados teóricos para atributos independentes

– exemplo com dois atributos: p(x|ωj) ~ N(µµµµj , ΣΣΣΣ), j = 1, 2

P(ω1) = P(ω2)

erro classificação Bayes

dueePr

u∫∞

−σπ

=2/

2/2

2

1)(

)()( 211

212

µµµµ −Σ−= −tr

Page 36: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-UnicampProfFernandoGomide

– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞

– caso condicionalmente independente ΣΣΣΣ = diag(σ12,...., σd

2)

2

1

212 ∑=

σµ−µ=

d

i i

iir

– atributos mais relevantes: aqueles em que a diferença das

médias é grande comparada com o desvio padrão

– atributo é útil se suas médias para os classificadores diferem

– como reduzir erro? adicionar novos atributos independentes

Page 37: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de
Page 38: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

– observa-se na prática que acrescentar atributos além de

um certo limite deteriora o desempenho do classificador.

– razões principais são as seguintes:

1. hipóteses erradas sobre o modelo

(e.g. Gaussiano, condicionamento)

2. número amostras treinamento pequeno

Page 39: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Complexidade computacional

– parâmetros distribuição normal para o MV

)(ln|ˆ|ln2

12ln

2)ˆ(ˆ)ˆ(

2

1)( 1

ωPd

g t +−π−−−−= −ΣµxΣµxx

O(dn) O(nd2) O(1) O(d2n) O(n)

– classificação: O(d2)

– aprendizagem Bayesiana: mais complexo devido à integração

Page 40: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Overftting

– erro dados de treinamento × generalização

– em geral, interpolação ou extrapolação só pode ser feita

de forma confiável se a solução é sobredeterminada, isto é,

o número de pontos é maior do que o número de parâmetros

a serem determinados.

– heurísticas: e.g. shrinkage

nn

nn

i

iii α+α−

α+α−=α)1(

)1()(

ΣΣΣ

IΣΣ β+β−=β )1()( 0 < α, β < 1

Page 41: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

),0(~)()( 22 σεε+++= Npcbxaxxf

polinômio 10° grau

polinômio 2° grau

Page 42: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

6-Modelos de Markov

� Modelos de Markov de 1a ordem

– ω(t): estado em t

ωωωωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T

exemplo: ωωωω6 = {ω1, ω4, ω2, ω2, ω1, ω2}

– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado

– modelo θθθθ: conjunto de todos os valores aij

probabilidade modelo gerar ωωωωT : produto das probabilidades

exemplo: P(ωωωω6|θθθθ) = a14a42a22a21a14

Page 43: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

Modelo de Markov de 1a ordem discreto: estado em t + 1depende somente do estado em t e das probabilidades detransição.

� Modelo Markov de 1a ordem

Page 44: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Hidden Markov Models de 1a ordem

– ω(t): estado sistema em t

– estado emite símbolos visíveis v(t)

VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis

exemplo: V6 = {v5, v1, v1, v5, v2, v3}

– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk

– ω não é observável; acesso somente a símbolos visíveis

modelos escondidos de Markov de 1a ordem

Page 45: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Modelo escondido de Markov de 1a ordem

Page 46: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Características

– grafos são máquinas de estado finito

– grafos + probabilidades transição = modelos Markov

– MM são estritamente causais

– ergódigos: aij ≠ 0 ∀i, j

– absorção: estado ωo com aoo = 1

))(|)1(( tωtωPa ijij +=

))(|)(( tωtvPb jkjk =

iaj

ij ∀=∑ 1

jak

jk ∀=∑ 1

Page 47: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Problemas importantesem HMM

1) Avaliação: temos HMM com aij e bjk ; qual probabilidade

que uma sequência particular VT foi gerada pelo modelo?

2) Decodificação: temos HMM e VT; determinar a sequência

mais provável de estados escondidos ωωωωT que produziu VT.

3) Aprendizagem: dado a estrutura do modelo e um conjunto

de observações de treinamento, determinar aij e bjk .

Page 48: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

1) Avaliação

dado um modelo HMM, determinar a probabilidade que este

modelo gerou uma sequência particular VT de estados visíveis

)()|()(1

Tr

Tr

r

r

TT PPPmax

ωωVV ∑=

=

)}(,),2(),1({ TωωωTr K=ω

c estados escondidos → rmax= cT termos possíveis

∏=

−=T

i

Tr tωtωPP

1)1(|)(()(ω

∏=

=T

i

Tr

T tωtvPP1

)(|)(()|( ωV

Page 49: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

))1(|)(())(|)(()(1 1∑ ∏= =

−=maxr

r

T

t

T tωtωPtωtvPP V (135)

cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações

P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)

−α==≠=

=α∑ ..)(])1([

inicialestado01

inicialestado00

)(

cctvbat

jt

jt

t

i jkiji

j

bjkv(t): probabilidade bjk associada estado visível v(t)

Page 50: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

Algoritmo HMM Forward

1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)

2 for t ← t + 1

3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

4 until t = T

5 return P(VT) ← α0(T)

O(c2T) ~ 2000 operações para c = 10 e T = 20

classificação: Bayes)(

)()|()|(

T

TT

P

PPP

V

θθVVθ =

Page 51: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

k

c

iii ba 2

122 ])2([)3( ∑

=α=α

Page 52: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Exemplo: avaliação

V4 = {v1, v3, v2, v0}

v0: absorbing state

=

1.00.01.08.0

1.02.05.02.0

4.01.03.02.0

0001

][ ija

=

2.01.02.05.00

1.07.01.01.00

2.01.04.03.00

00001

][ jkb

Page 53: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

P(VT|θ) = 0.0011

Page 54: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

2) Decodificação

dada uma sequênciaVT de estados visíveis, determinar

a sequência mais provável de estados escondidos

Algoritmo HMM Decoding

1 inicialize t ← 0, Path ← {}

2 for t ← t + 1

3 j ← j + 1

4 for j ← j + 1

5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

6 until t = T

7 j' = arg maxj αj(t)

8 Append ωj ' to Path

9 until t = T

10 return Path

Page 55: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

obs: máximos locais → não garante consistência da solução global

Page 56: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

� Exemplo: decodificação (exemplo de avaliação)

solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)

Page 57: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

3) Aprendizagem

determinar os parâmetros do modelo, aij, bjk

algoritmoforward-backward

αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência

de referência atét

βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência

de referência de t + 1 atéT

++β===≠

=∑ ..)1()1(

)(1

)(0

)(β 0

0

cctvbat

Ttωtω

Ttωtω

t

j jkijj

i

i

i (138)

Page 58: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

– supor αi(t) conhecido atéT – 1

– probabilidade que o modelo gerar o último símbolo visível ?

– esta probabilidade éβi(T)

– βi(T) = probabilidade transição para ωi(T)×

probabilidade estado emitir símbolo visível correto

– definição: βi(T) = 0, se ωi(T) ≠ ω0

βi(T) = 1, se ωi(T) = ω0

– logo βi(T – 1) = ∑jaijbjk(T) βi(T)

� Justificativa de (138)

Page 59: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o

modelo gerou toda a sequência de treinamento VT em

qualquer caminho

– definimos γij(t)

)|(

)()1()(

θVTjjkiji

ijP

tbatt

β−α=γ

– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o

modelo gerou a sequência visível VT completamente

Page 60: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

∑ = γTt ij t1 )(

∑ ∑= γTt k ik1

número esperado de transições de ωi(t – 1) para ωj(t)na sequência de treinamento

número total esperado de transições de ωj(t) paraqualquer outro estado

)(

)()(ˆ

1

1

t

tta

tt k ik

Tt ij

ij∑ ∑

=

=

γ

γ=

)(

)(

)(ˆ

1

)(1

t

t

tbtt l jl

T

vtvt

l jl

jkk

∑ ∑

∑ ∑

=

==

γ

γ

=

� Estimativa das probabilidades de transição

(140) (141)

Page 61: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

Algoritmo Forward-Backward

1 inicialize z ← 0, aij, bjk, sequência treinamentoVT, ε convergência

2 do t ← t + 1

3 calcular â(z) usando a(z – 1) e (140)

4 calcular usandob(z – 1) e (141)

5 aij (z) ← âij (z – 1)

6

7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε8 return aij ← aij (z), bij ← bij (z),

)(ˆ zb

jkjk bzb ˆ)( ←

Page 62: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

9-Resumo

� Forma densidades condicionais classe conhecida

� Aprendizagem– estimação de parâmetros MV

– estimação densidades Bayes

� Impacto da dimensão espaço atributos e dados de treinamento

� Decisão sequencial com modelos de Markov

Page 63: 3-Estimação de Parâmetros: Máxima Verosimilhança e Bayesgomide/courses/CT720/transp/CT720Estima… · 1. Introdução 2. Estimador de máxima verosimilhança 3. Estimador de

DCA-FEEC-Unicamp

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.

Observação

ProfFernandoGomide