funções discriminantes lineares - recpad.inforecpad.info/arquivos/aula5/aula5_2011.pdf ·...

25/10/2011

1

Funções Discriminantes Lineares

PTC - 5001 Reconhecimento de padrões - 2011

Revisão

Cap. 2 Classificação Bayesiana:

Fdp’s conhecidas, )( iwP e )|( iwxp .

Cap. 3 Formas das fdp’s conhecidas, idem No. de parâmetros.

a) Máxima verossimilhança: parâmetros a determinar têm valores fixos mas desconhecidos.

b) Métodos Bayesianos: parâmetros são variáveis aleatórias com distribuição a prioriconhecida. Observações (vetores de atributos) convertem distribuições a priori emdistribuições a posteriori.

Cap. 4 Técnicas não paramétricas


Consideram-se desconhecidas as formas das densidades de probabilidade, que serãoestimadas diretamente a partir das amostras.

a) estimar )|( jwxp b) estimar )|( xwP j diretamente

25/10/2011

2

Funções discriminantes lineares

U d f d l ifi d é é d j d f õUma das formas de representar classificadores é através de um conjunto de funçõesdiscriminantes

gi(x), i = 1, ..., c

de modo a atribuir um vetor de atributos x à classe wi se gi(x) > gj(x) para todo jdiferente de i.


O classificador calcula c funções discriminantes e seleciona a categoria correspondenteao maior discriminante.

A forma das g(x) não é única. Estaremos representando as funções discriminantes pormeio de redes.

Da aula 2:

Foi visto que, para o caso de taxa de erro mínima,

gi (x) = P (wi|x) (1)

ou seja, a função discriminante máxima corresponde à máxima probabilidadea posteriori.

Foi visto também que (1) é equivalente a

gi (x) = p (x |wi)P(wi) ln p (x |wi) + ln P(wi)


Por meio da última expressão, podemos determinar (analiticamente) a forma da função discriminante, em casos simples, conhecendo as fdps.

Nesta aula 5, veremos como obter gi (x) sem conhecer as fdps, diretamente a par-tir das amostras, por treinamento.

25/10/2011

3

O caso de duas classes:

Considerando uma função discriminante linear, g (x) = wtx + w0, estabelecemos:

Se g (x) > 0, decidir 1

Se g (x) < 0, decidir 2

Se g (x) = 0, considera-se atribuição indefinida.

Implementação típica por meio de rede: Fig. 5.1


Fig. 5.1

Geometria associada à função discriminante

g (x) = 0 define a superfície de decisão entre 1 e 2.

Se g (x) é linear, a superfície de decisão é um hiperplano H de dimensão d-1 noespaço x d dimensionalespaço x d-dimensional.

Sejam x1 e x2 pontos da sup. de decisão.

Então, g (x1) = g (x2) = 0, ou wt (x1 - x2) = 0

Ou seja, w é normal ao hiperplano H.


Pode-se mostrar que g (x) dá uma medida algébrica da distância de x à sup. de de-cisão, e que a distância da origem x = 0 a H é w0 /||w||.

Ver Fig. 5.2

25/10/2011

4

Resumo:

Fig. 5.2


Resumo:

Uma função discriminante linear divide o espaço de atributos por um hiperplano H de decisão, cuja orientação é dada por w. A localização de H é determinada por w0.A função discriminante g(x) é proporcional à distância de x ao hiperplano

O caso de múltiplas categorias

Há mais de uma forma para estender os discriminantes lineares para c classes.A Fig. 5.3 ilustra duas delas , que geram regiões de indefinição:

1) reduzir o problema de separar c classes a c problemas de separar duas classes. Oi-ésimo problema é resolvido por uma função discriminante linear gi(x) que separa pontos atribuídos a i dos pontos não atribuídos a i.


2) solução mais extravagante: usar c(c - 1)/2 discriminantes lineares, um para cadapar de classes.

25/10/2011

5


Fig. 5.3

Uma forma de evitar as regiões de indefinição: Definir c funções discriminanteslineares

gi(x) = wix + wi0 i = 1, ... , c

e atribuir x a i se gi(x) > gj(x) j i.

Hiperplano de separação: gi(x) = gj(x).

Quando x verifica esta igualdade, a classificação é considerada indefinida.

(gi(x) - gj(x))/||wi - wj|| dá a distância algébrica de x a Hij.

Há c(c - 1)/2 pares de regiões, que não precisam ser contíguas. O número total de


segmentos de hiperplanos nas superfícies de decisão freqüentemente é menor do

que c(c - 1)/2, como na Fig. 5.4.

25/10/2011

6

Fi 5 4


Fig. 5.4

As regiões de decisão no discriminante linear são convexas, como pode ser mos-trado. Este fato limita a flexibilidade e a precisão do classificador.

Funções discriminantes lineares generalizadas

d

xwFunção discriminante linear: g(x) = w0 +

Função discriminante quadrática:

Como xi xj = xj xi, podemos assumir que wi wj = wj wi , sem perda de generalidade.

Assim, a função discriminante quadrática possui d(d+1)/2 coeficientes adicionais,

i 1

iixw

d

1i

d

1i

d

1jjiijii0 xxwxw w g(x)


produzindo superfícies de separação mais complicadas.

As superfícies de separação g(x) = 0 são superfícies de segundo grau ou hiperquá-dricas (hiper-esferas, hiper-elipsóides ou hiper-parabolóides - ver Duda).

25/10/2011

7

Função discriminante linear generalizada

g(x) =

ou g(x) = aty

x)(ya i

d

1ii

onde a = vetor de pesos d^-dimensional

As yi(x) (ou funções (x)) são funções arbitrárias de x que mapeiam o espaço d-dimensional x no espaço d^-dimensional y.

A função discriminante resultante da expansão é não linear em x, mas linear em y.


O discriminante homogêneo aty separa pontos no espaço transformado por um hiperplano que passa pela origem.

A solução do problema de classificação é então uma função discriminante linear homogênea.

Exemplo:g(x) = a1 + a2x + a3x2

Neste caso, o vetor tridimensional y = (y1 y2 y3)t é dado por y = (1 x x2)t

Ver Fig. 5.5.

Fi 5 5


Fig. 5.5Comentários:1) Se d^ > d, dados x, com fdp p(x), p^(y) será degenerada. Ex. Fig. 5.5.

2) Regiões de decisão convexas em y serão não convexas em x. Ver ex. da Fig. 5.5 e também o da Fig. 5.6.

25/10/2011

8

No caso da Fig. 5.6, o espaço de entrada bi-dimensional x = (x1 x2)t, será mapeadoem y = (y1 y2 y3)t , tridimensional, dado por y1 = x1, y2 = x2 e y3 = x1x2.

A região R1 no espaço x não é simplesmente conexa, o que dá flexibilidade de classi-ficação.


Fig. 5.6

3) A ‘praga’ da dimensionalidade pode tornar difícil tirar partido da flexibilidade, porexigir complexidade computacional e grande número de dados.

Ex.: uma função discriminante quadrática completa envolve d^ = (d + 1)(d +2)/2termos. Polinômios de ordem k, levam a O(d^k) termos.

Considerando que as d^ componente do vetor de pesos a devem ser determinadas a partir de exemplos de treinamento, então, o número destes deve ser no mínimo d^.

4) Conveniência de escrever g(x) na forma homogênea aty:


4) Conveniência de escrever g(x) na forma homogênea aty:

25/10/2011

9

d

0iii

d

1iii0 xwxw w g(x) com x0 = 1

Deste modo, o problema de encontrar um classificador reduz-se a encontrar um vetor de pesos a no espaço y. Ver Fig. 5.7.


Fig. 5.7

O caso de duas classes linearmente separáveis

Problema: Dadas n amostras y1, ... , yn, divididas entre duas classes 1 e 2, deter-minar o vetor de pesos a de uma função discriminante linear g(x) = aty. Se tal vetorexistir as amostras dizem-se linearmente separáveisexistir, as amostras dizem-se linearmente separáveis.

Pode-se procurar um vetor a t.q. aty > 0 para todas as amostras, simplificando o problema.

Geometria e terminologia (Fig. 5.8)

aty = 0 hiperplano pela origem do espaço de pesos.


região de solução no espaço de pesos.região de decisão no espaço de atributos.

25/10/2011

10


Fig. 5.8

A escolha do vetor solução não é única. Critérios:1) maximizar distância mínima das amostras ao plano separador. 2) aty b, onde b = margem. Ver Fig. 5.9.2) a y b, onde b margem. Ver Fig. 5.9.


Fig. 5.9

25/10/2011

11

Técnicas de descida por gradiente

Enfoque para solução a aty > 0: definir uma função critério J(a) que é minimizadase a for um vetor solução.

P bl d d i i i f ã l dPortanto, o problema reduz-se ao de minimizar uma função escalar, que pode ser resolvido por descida por gradiente. A solução é dada por:

a(k + 1) = a(k) - (k)J(a(k))onde = taxa de aprendizagem. O algoritmo correspondente é:


cuja convergência depende de (k).

Método para determinar a taxa de aprendizagem

Aproximando J(a) até segunda ordem, tem-se:

onde H é a matriz Hessiana Substituindo a(k+1) obtém se:onde H é a matriz Hessiana. Substituindo a(k+1) obtém-se:

J(a(k+1)) pode se minimizado escolhendo-se

onde H depende de a, e portanto de k. Se J(a) é quadrático, H e são constantes.


25/10/2011

12

Método de Newton

Escolhendo-se a(k+1) para minimizar a expansão de 2a. ordem de de J(a), resultano método de Newton de otimização, com

e o seguinte algoritmo:


A aplicação do algoritmo de Newton exige matriz H não singular. Em geral é mais rápido que o método do gradiente, mas a complexidade da inversão matricialpode anular essa vantagem. A Fig. 5.10 compara os caminhos de otimização dosdois algoritmos.


Fig. 5.10

25/10/2011

13

A função critério do Perceptron

Trata-se da função onde é o conjunto de amos-

amostras classificadas erradamente por a Notar que não pode ser negativaamostras classificadas erradamente por a. Notar que não pode ser negativa.

Significado geométrico: é proporcional à soma das distâncias das amostras classificadas com erro ao limiar de decisão.

O gradiente de é e a regra de atualização de


pesos é: onde

é o conjunto das amostras classificadas com erro. O algoritmo Perceptron é dadoa seguir.


Ver Fig. 5.11 para uma ilustração do para um exemplo bidimen-sional, e a Fig. 5.12, para o uso do algoritmo num ex. bi-dim. com a(1)=0 (k)=1.

25/10/2011

14


Fig. 5.11


Fig. 5.12

25/10/2011

15

Caso particular: correção a cada amostra

Notação: y1 y2, ... , yk, onde cada yk é uma amostra mal classificada.num cj. de namostras y1, ... , yn. Para (k) = constante = 1, a regra de atualização então fica:

a(1) arbitrárioa(k+1) = a(k) + yk k 1,a(k 1) a(k) y k 1,

e o algoritmo é:


Obs.: Este algoritmo termina SSE as amostras forem linearmente separáveis (teore-ma da convergência do .Perceptron). A Fig. 5.13 ilustra aplicação do algoritmo.


Fig. 5.13

Convergência do Perceptron: “Se as amostras de treinamento forem linearmente separáveis, a seqüência de vetores peso dada pelo algoritmo 4 termina em um vetora solução”. Demonstração: ver livro (Duda) p. 230-32.

25/10/2011

16

Técnicas de relaxação

São procedimentos que generalizam a minimização do critério Perceptron, incluindooutros critérios de minimização. Um desses critérios é:

d é j d l ifi d d Oonde é o conjunto de amostras classificadas erradamente por a. O gra-diente de Jq é contínuo, contrariamente ao de Jp.

Na prática utiliza-se: onde Y(a) é o cj. de amostras para asquais aty b.

O gradiente de Jr(a) é e a regra de correção para uma amostra


por vez é: onde aty b k.

O algoritmo correspondente é:

A qtd. é a distância de a(k) ao hiperplano atyk = b. Como yk/|| yk||é o vetor unitário normal ao hiperplano, a eq. de correção representa mover a(k) deuma fração da dist. r(k) de a(k) ao hiperplano. Se = 1, a(k) é movido exatamenteao hiperplano, “relaxando” a tensão criada por at(k)yk b. Ver Figs. 5.14 e 5.15.


Fig. 5.14

25/10/2011

17


Fig. 5.15

Comportamento não separável

Tanto o método Perceptron quanto o de relaxação são procedimentos de correção deerro para encontrar um vetor de separação quando as amostras são linearmente sepa-ráveis.

Um vetor que separa as amostras de treinamento pode não funcionar bem com amos-Um vetor que separa as amostras de treinamento pode não funcionar bem com amostras de teste.

Na prática, grandes problemas de separação são quase certamente não separáveis li-nearmente.

Neste caso, como os vetores de peso não podem classificar corretamente cada amos-tra, as atualizações num processo de correção de erro não têm fim.


Verifica-se, entretanto, que o comprimento dos vetores a produzidos por constanteé limitado. Assim, a parada dos processos de correção baseia-se empiricamente nestatendência do comprimento dos vetores flutuar em torno de algum valor limite.

Utiliza-se tb. tomar a média dos vetores de peso p/ evitar poder escolher sol. infeliz.

25/10/2011

18

Técnicas de erro quadrático mínimo

As funções critério até agora utilizadas baseiam-se em amostras classificadas errada-mente. Além disso, o vetor a deveria proporcionar aty > 0.Agora, vamos introduzir um critério que leva em conta todas as amostras, e t.q.aty = bi. Teremos assim um cj. de eqs. lineares. Em forma matricial:

Se Y não singular, a = Y-1b.


Mas Y é retangular, com mais linhas que colunas. A solução consiste em procurar aque minimize alguma função do erro e = Ya - b. A função proposta é:

A solução analítica é obtida da seguinte forma:

onde a matriz é chamada pseudo-inversa de Y. Definindo-se

pode-se mostrar que sempre existirá a solução


Exemplo: Ver livro (Duda) p. 241.

25/10/2011

19

Algoritmo LMSO critério de erro quadrático mínimo pode ser minimizadopor um procedimento de descida de gradiente. Dessa forma, em relação à soluçãoanalítica evitam-se dois problemas:1) Os decorrentes de YtY singular.2) A necessidade de lidar com matrizes grandes.

Como , a regra de correção de pesos é:

Pode-se mostrar que se (k) = (1)/k, onde (1) é qq. constante positiva, este algo-ritmo sempre produz uma solução, independentemente de YtY ser singukar ou não.Q d l i é li d ü i l é h id l i LMS


Quando este algoritmo é aplicado seqüencialmente, é conhecido por algoritmo LMS(least-mean-squared), ou de Widrow-Hoff, cuja regra de atualização é:

E o algoritmo é:

Diferença com o método de relaxação:Neste último trata-se de uma regra de correção de erro, onde as correções prolongam-se indefinidamente. No caso do LMS, a seqüência de pesos tende a convergir para u-ma solução, razoável, embora possa não ser um hiperplano de separação, mesmo seexistir um (Fig. 5.17).


Fig. 5.17 Leituras recomendadas: Seções5.8.3 e 5.8.5 do livro (Duda).

funções discriminantes lineares - recpad.inforecpad.info/arquivos/aula5/aula5_2011.pdf ·...

Documents