classificadores - udesc - cct · não se sabe nem quantas e quais classes ... para...

34
Classificadores André Tavares da Silva [email protected]

Upload: nguyenthuy

Post on 12-Feb-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Classificadores

André Tavares da [email protected]

Reconhecimento de padrões(etapas)

• Obtenção dos dados (imagens, vídeos, sinais)– Pré-processamento– Segmentação

• Extração de características

• Classificação

Obs.: ler capítulo 2 de Duda e Hart

Classificação• Reconhecimento de Padrões visa interpretar uma

informação (imagem por exemplo) através de um mapeamento (classificação) que relaciona objetos (conteúdo da imagem) com classes (significado do conteúdo).

• A classificação assume que objetos com características (forma, cor, textura) semelhantes pertencem a uma mesma classe (i.e., estão associados a um mesmo significado ou obedecem um mesmo padrão de características). Por isso essa classificação é denominada de reconhecimento de padrões.

Classificação• A escolha de um classificador depende não

somente do problema em questão, mas principalmente do conhecimento que se têm das informações (classes, rotulações, densidade de probabilidade, etc).

• Existem casos desde onde o modelo é conhecido, casos onde a distribuição de probabilidade é desconhecido e até aqueles que não se sabe nem quantas e quais classes existem.

Classificação

• Começaremos a estudar os classificadores Bayesianos considerando o caso ideal, onde se conhece a priori a estrutura fundamental de probabilidade das categorias.

• Embora este tipo de situação raramente ocorra na prática, isso nos permite determinar qual o classificador ideal (Bayesiano) que podemos comparar outros métodos.

Classificação

• Em alguns problemas, isto nos permite prever o erro que teremos ao generalizar para outros padrões.

• A Capítulo 3 de Duda e Hart (Maximum Likelihood and Bayesian Parameter Estimation) é dedicado aos casos quando a estrutura de probabilidade em relação às categorias não é conhecida.

Classificação

• Outros métodos tentam estimar uma função que separa as classes e o problema passa a ser o de encontrar os parâmetros dessa função, seja ela linear (Capítulo 5 de Duda e Hart) ou não.

• Nos casos onde não são conhecidos os rótulos das classes ou mesmo a quantidade de classes, algoritmos de agrupamento (clustering) são utilizados para classificação (Capítulo 10 de Duda e Hart).

Relembrando o exemplo Salmão x Robalo

ClassificaçãoTeoria de decisão Bayesiana

• Supondo que somos forçados a tomar uma decisão sobre qual o próximo peixe irá aparecer na esteira sem vermos ele.

• Faremos isso sem assumir qualquer risco de classificação incorreta e a única informação que temos é o valor das probabilidades anteriores.

• Se uma decisão deve ser tomada, é lógico usarmos a seguinte regra: decidir por ω1 se P(ω1) > P(ω2) e decidir por ω2 caso contrário.

ClassificaçãoTeoria de decisão Bayesiana

• Se P(ω1) é maior que P(ω2), nossa decisão em favor de ω1 ganhará sempre.

• Se P(ω1) = P(ω2) temos 50% de chance de escolher qualquer um deles.

• Tendo mais classes (tipos de peixes), a probabilidade de acertar a classe/tipo cairá bastante. Neste caso fica estranho usar somente esta suposição para "adivinhar" quais os próximos peixes.

ClassificaçãoTeoria de decisão Bayesiana

• Na maioria dos casos, não somos solicitados a tomar decisões com tão pouca informação.

• No nosso exemplo, poderíamos, por exemplo, usar uma medida de "claridade" (brilho) para melhorar a nossa classificação.

• Peixes diferentes irão produzir diferentes leituras de brilho e expressaremos essa variabilidade em termos probabilísticos.

ClassificaçãoTeoria de decisão Bayesiana

• Se considerarmos x como sendo uma variável aleatória contínua com distribuição condicional, expressamos como P(x | ω1).– Ou seja, sabemos a priori as probabilidades de ter

brilho x dado que é da classe ω1. também chamada de densidade de probabilidade para x condicional a ω1.

– A diferença entre P(x|ω1) and P(x|ω2) descreve a diferença de brilho entre as populações de robalo e salmão.

Teorema de Bayes• Em teoria da probabilidade o Teorema de Bayes

mostra a relação entre uma probabilidade condicional e a sua inversa, como por exemplo, a probabilidade de uma hipótese dada a observação de uma evidência e a probabilidade da evidência dada pela hipótese.

• Esse teorema representa uma das primeiras tentativas de modelar de forma matemática a inferência estatística, feita por Thomas Bayes.

Teorema de Bayes• O teorema de Bayes permite calcular a seguinte

probabilidade:

• Onde: P(A) e P(B) são as probabilidades a priori de A e B; P(B|A) e P(A|B) são as probabilidades a posteriori de B condicional a A e de A condicional a B respectivamente.

P ( A∣B)=P (B∣A)⋅P ( A)

P ( B)

Inferência Bayesiana• Descreve as incertezas de forma probabilística:

onde: H é uma hipótese dada uma evidência E.

P (H∣E )=P (E∣H )⋅P ( H )

P (E )

Exemplo• Em uma caixa, temos maçãs e peras distribuídas

igualmente, ou seja, 50% de cada um dos tipos;

• 60% das frutas são vermelhas e 40% verdes;

• Das maçãs, 75% são vermelhas e 25% são verdes;

• Ao se pegar uma fruta aleatoriamente e constatar que é vermelha, qual a probabilidade de ser maçã?

Exemplo• Em uma caixa, temos maçãs e peras distribuídas

igualmente, ou seja, 50% de cada um dos tipos;

• 60% das frutas são vermelhas e 40% verdes;

• Das maçãs, 75% são vermelhas e 25% são verdes;

• Ao se pegar uma fruta aleatoriamente e constatar que é vermelha, qual a probabilidade de ser maçã?

P ( M∣V )=P (V ∣M )⋅P ( M )

P (V )=

0.75⋅0.50.6

=0.625

Exemplo

maçã pera total

vermelho 75 45 120

verde 25 55 80

total 100 100 200

P ( Maçã∣Vermelho)=75/120=0.625

ClassificaçãoTeoria de decisão Bayesiana

• Para reconhecimento de padrões, as decisões do classificador levam em conta as probabilidades a posteriori de ocorrência de cada classe w

i (i = 1, 2,..., c), mediante uma

observação (característica) x de um dado objeto da base de dados Z.

ClassificaçãoTeoria de decisão Bayesiana

onde P(x|wi) é a densidade de probabilidade

condicionada à classe wi, P(w

i) é a probabilidade a

priori de wi, e P(x) é a densidade de probabilidade de x.

P (w i∣x )=P ( x∣wi)⋅P (wi)

P ( x)

ClassificaçãoTeoria de decisão Bayesiana

é o histograma normalizado de x com dimensão n (scatterogram) e P(x|w

i) é o

histograma normalizado de x dentro da classe w

i.

P ( x)=∑i=1

c

P ( x∣wi)⋅P (wi)

ClassificaçãoTeoria de decisão Bayesiana

• Um classificador Bayesiano deve, portanto, escolher a classe w

i cuja P(w

i|x) > P (w

j|x)

para todo i ≠ j, i,j = 1, 2,..., c.

• Esta escolha se baseia na probabilidade mínima de erro, o que torna o classificador de Bayes ótimo.

ClassificaçãoTeoria de decisão Bayesiana

• Sabendo que a cor da fruta é vermelha, qual a probabilidade de ser maçã? E de ser pera? P(M|V) > P(P|V) ?

• Dado o tamanho do peixe e a cor (brilho) a probabilidade de ser salmão é maior ou menor que ser robalo? P(w

i|x) > P (w

j|x)?

ClassificaçãoTeoria de decisão Bayesiana

• Para utilizar de mais do que uma característica, basta a substituição do escalar x pelo vetor de característica x, onde x pertence a um espaço euclidiano d-dimensional ℜd, chamado de espaço de características.

• Veremos agora ações que não sejam meramente uma classificação, mas também a possibilidade de rejeição, ou seja, a decisão de se recusar a tomar uma decisão em casos muito próximos. Esta indecisão é uma opção útil mas não é muito cara.

ClassificaçãoTeoria de decisão Bayesiana

• Formalmente, a função de perda afirma exatamente o custo de cada ação e é usada para converter uma determinação de probabilidade em uma decisão.

• As funções de custo nos permitem tratar situações nas quais alguns tipos de erros de classificação são mais caros que outros (muitas vezes discutiremos o caso mais simples, onde todos os erros são igualmente caros).

ClassificaçãoTeoria de decisão Bayesiana

• Seja w1,..., w

c o conjunto finito de c categorias e

α1,..., α

a o conjunto finito de a possíveis ações, a

função λ(αi|w

j) descreve a perda por ter tomado

uma ação αi quando a classe correta é w

j.

(lembrando...) P ( x)=∑i=1

c

P ( x∣w i)⋅P (w i)

ClassificaçãoTeoria de decisão Bayesiana

• Neste caso, a escolha de αi está associada a um

risco condicional médio (perda esperada):

R(αi∣x )=∑j=1

c

λ (αi∣w j)⋅P (w j∣x )

ClassificaçãoTeoria de decisão Bayesiana

• Neste caso, temos uma regra de decisãoα(x) ∈{ α

1(x), α

2(x), …, α

a(x) } com risco

global R=∫R(α(x)|x)P(x)dx, a qual escolhe α

i tal que R(αi|x) é mínimo.

– onde dx é a notação para um elemento de volume no espaço d-dimensional

ClassificaçãoTeoria de decisão Bayesiana

• Sejam w1 e w2 duas possíveis classes, e λij = λ(α

i|w

j) a

perda de escolhermos a classe wi quando a classe

verdadeira for wj. Supondo R(α

1|x) < R(α

2|x), a regra de

decisão escolhe w1. Esta escolha se baseia no fato que:

R(α1∣x)=λ11 P (w1∣x )+λ12 P (w2∣x)

R(α2∣x )=λ21 P (w1∣x)+λ22 P (w2∣x)

(λ21−λ11) P (x∣w1) P (w1)>(λ12−λ22) P (x∣w2) P (w2)

P (x∣w1)

P (x∣w2)>

λ12−λ22

λ21−λ11⋅

P (w2)

P (w1)

ClassificaçãoTeoria de decisão Bayesiana

• Sejam w1 e w2 duas possíveis classes, e λij = λ(α

i|w

j) a

perda de escolhermos a classe wi quando a classe

verdadeira for wj. Supondo R(α

1|x) < R(α

2|x), a regra de

decisão escolhe w1. Esta escolha se baseia no fato que:

R(α1∣x)=λ11 P (w1∣x )+λ12 P (w2∣x)

R(α2∣x )=λ21 P (w1∣x)+λ22 P (w2∣x)

(λ21−λ11) P (x∣w1) P (w1)>(λ12−λ22) P (x∣w2) P (w2)

P (x∣w1)

P (x∣w2)>

λ12−λ22

λ21−λ11⋅

P (w2)

P (w1)Razão de verosimilhança

Teoria de decisão BayesianaRisco mínimo

• Se λij = 1 para i ≠ j e λ

ij = 0, para i = j , então:

R(αi∣x )=∑j=1

c

λ11(α i∣w j)P (w j∣x)

R(αi∣x )=∑i≠ j

P (w j∣x )

R(αi∣x )=1−P (w i∣x )

Ou seja, decidimos por wi se P(w

i|x) > P(w

j|x), para todo j ≠ i.

Múltiplas categorias (classes)• Considerando o modelo canônico de um classificador:

• A função discriminante no classificador de Bayes é g

i(x) = P(w

i|x). No entanto, qualquer função f(g

i(x))

crescente pode substituir gi(x) sem alterar os resultados.

x

g1

g2

gc

g1(x)

g2(x)

gc(x)

Máximowi

Função discriminante• Em particular, estamos interessados na modificação f

2

para gi(x).

• Isso simplifica bastante os cálculos quando assumimos que p(x|w

i) é uma distribuição com fator exponencial (Normal,

Rayleigh, Maxwell, Gamma, Poisson,...).

g i=P (w i∣x)

g i=P ( x∣w i) P (wi)

P ( x)f 1(g i)=P ( x∣wi) P (w i)

f 2( g i)= ln( P (x∣w i))+ ln( P (wi))

Projeto de um classificador• O projeto do classificador envolve, portanto, estimar

p(x|wi) e P(w

i) para toda classe w

i, i=1, 2,..., c, com base

nas amostras do conjunto Z1 de treinamento.

• Os métodos se dividem em supervisionados (amostras de Z

1 são rotuladas), não-supervisionados (ignoramos o

rótulo das amostras), paramétricos (p(x|wi) tem forma

conhecida e definida por um vetor de parâmetros) e não-paramétricos (estimamos p(x|w

i) ou P(w

i|x) sem assumir

a forma ou assumimos que gi(x) tem forma conhecida

(linear, por exemplo).