funções discriminantes lineares - recpad.inforecpad.info/arquivos/aula5/aula5_2011.pdf ·...
TRANSCRIPT
25/10/2011
1
Funções Discriminantes Lineares
PTC - 5001 Reconhecimento de padrões - 2011
Revisão
Cap. 2 Classificação Bayesiana:
Fdp’s conhecidas, )( iwP e )|( iwxp .
Cap. 3 Formas das fdp’s conhecidas, idem No. de parâmetros.
a) Máxima verossimilhança: parâmetros a determinar têm valores fixos mas desconhecidos.
b) Métodos Bayesianos: parâmetros são variáveis aleatórias com distribuição a prioriconhecida. Observações (vetores de atributos) convertem distribuições a priori emdistribuições a posteriori.
Cap. 4 Técnicas não paramétricas
PTC - 5001 Reconhecimento de padrões - 2011
Consideram-se desconhecidas as formas das densidades de probabilidade, que serãoestimadas diretamente a partir das amostras.
a) estimar )|( jwxp b) estimar )|( xwP j diretamente
25/10/2011
2
Funções discriminantes lineares
U d f d l ifi d é é d j d f õUma das formas de representar classificadores é através de um conjunto de funçõesdiscriminantes
gi(x), i = 1, ..., c
de modo a atribuir um vetor de atributos x à classe wi se gi(x) > gj(x) para todo jdiferente de i.
PTC - 5001 Reconhecimento de padrões - 2011
O classificador calcula c funções discriminantes e seleciona a categoria correspondenteao maior discriminante.
A forma das g(x) não é única. Estaremos representando as funções discriminantes pormeio de redes.
Da aula 2:
Foi visto que, para o caso de taxa de erro mínima,
gi (x) = P (wi|x) (1)
ou seja, a função discriminante máxima corresponde à máxima probabilidadea posteriori.
Foi visto também que (1) é equivalente a
gi (x) = p (x |wi)P(wi) ln p (x |wi) + ln P(wi)
PTC - 5001 Reconhecimento de padrões - 2011
Por meio da última expressão, podemos determinar (analiticamente) a forma da função discriminante, em casos simples, conhecendo as fdps.
Nesta aula 5, veremos como obter gi (x) sem conhecer as fdps, diretamente a par-tir das amostras, por treinamento.
25/10/2011
3
O caso de duas classes:
Considerando uma função discriminante linear, g (x) = wtx + w0, estabelecemos:
Se g (x) > 0, decidir 1
Se g (x) < 0, decidir 2
Se g (x) = 0, considera-se atribuição indefinida.
Implementação típica por meio de rede: Fig. 5.1
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.1
Geometria associada à função discriminante
g (x) = 0 define a superfície de decisão entre 1 e 2.
Se g (x) é linear, a superfície de decisão é um hiperplano H de dimensão d-1 noespaço x d dimensionalespaço x d-dimensional.
Sejam x1 e x2 pontos da sup. de decisão.
Então, g (x1) = g (x2) = 0, ou wt (x1 - x2) = 0
Ou seja, w é normal ao hiperplano H.
PTC - 5001 Reconhecimento de padrões - 2011
Pode-se mostrar que g (x) dá uma medida algébrica da distância de x à sup. de de-cisão, e que a distância da origem x = 0 a H é w0 /||w||.
Ver Fig. 5.2
25/10/2011
4
Resumo:
Fig. 5.2
PTC - 5001 Reconhecimento de padrões - 2011
Resumo:
Uma função discriminante linear divide o espaço de atributos por um hiperplano H de decisão, cuja orientação é dada por w. A localização de H é determinada por w0.A função discriminante g(x) é proporcional à distância de x ao hiperplano
O caso de múltiplas categorias
Há mais de uma forma para estender os discriminantes lineares para c classes.A Fig. 5.3 ilustra duas delas , que geram regiões de indefinição:
1) reduzir o problema de separar c classes a c problemas de separar duas classes. Oi-ésimo problema é resolvido por uma função discriminante linear gi(x) que separa pontos atribuídos a i dos pontos não atribuídos a i.
PTC - 5001 Reconhecimento de padrões - 2011
2) solução mais extravagante: usar c(c - 1)/2 discriminantes lineares, um para cadapar de classes.
25/10/2011
5
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.3
Uma forma de evitar as regiões de indefinição: Definir c funções discriminanteslineares
gi(x) = wix + wi0 i = 1, ... , c
e atribuir x a i se gi(x) > gj(x) j i.
Hiperplano de separação: gi(x) = gj(x).
Quando x verifica esta igualdade, a classificação é considerada indefinida.
(gi(x) - gj(x))/||wi - wj|| dá a distância algébrica de x a Hij.
Há c(c - 1)/2 pares de regiões, que não precisam ser contíguas. O número total de
PTC - 5001 Reconhecimento de padrões - 2011
segmentos de hiperplanos nas superfícies de decisão freqüentemente é menor do
que c(c - 1)/2, como na Fig. 5.4.
25/10/2011
6
Fi 5 4
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.4
As regiões de decisão no discriminante linear são convexas, como pode ser mos-trado. Este fato limita a flexibilidade e a precisão do classificador.
Funções discriminantes lineares generalizadas
d
xwFunção discriminante linear: g(x) = w0 +
Função discriminante quadrática:
Como xi xj = xj xi, podemos assumir que wi wj = wj wi , sem perda de generalidade.
Assim, a função discriminante quadrática possui d(d+1)/2 coeficientes adicionais,
i 1
iixw
d
1i
d
1i
d
1jjiijii0 xxwxw w g(x)
PTC - 5001 Reconhecimento de padrões - 2011
produzindo superfícies de separação mais complicadas.
As superfícies de separação g(x) = 0 são superfícies de segundo grau ou hiperquá-dricas (hiper-esferas, hiper-elipsóides ou hiper-parabolóides - ver Duda).
25/10/2011
7
Função discriminante linear generalizada
g(x) =
ou g(x) = aty
x)(ya i
d
1ii
onde a = vetor de pesos d^-dimensional
As yi(x) (ou funções (x)) são funções arbitrárias de x que mapeiam o espaço d-dimensional x no espaço d^-dimensional y.
A função discriminante resultante da expansão é não linear em x, mas linear em y.
PTC - 5001 Reconhecimento de padrões - 2011
O discriminante homogêneo aty separa pontos no espaço transformado por um hiperplano que passa pela origem.
A solução do problema de classificação é então uma função discriminante linear homogênea.
Exemplo:g(x) = a1 + a2x + a3x2
Neste caso, o vetor tridimensional y = (y1 y2 y3)t é dado por y = (1 x x2)t
Ver Fig. 5.5.
Fi 5 5
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.5Comentários:1) Se d^ > d, dados x, com fdp p(x), p^(y) será degenerada. Ex. Fig. 5.5.
2) Regiões de decisão convexas em y serão não convexas em x. Ver ex. da Fig. 5.5 e também o da Fig. 5.6.
25/10/2011
8
No caso da Fig. 5.6, o espaço de entrada bi-dimensional x = (x1 x2)t, será mapeadoem y = (y1 y2 y3)t , tridimensional, dado por y1 = x1, y2 = x2 e y3 = x1x2.
A região R1 no espaço x não é simplesmente conexa, o que dá flexibilidade de classi-ficação.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.6
3) A ‘praga’ da dimensionalidade pode tornar difícil tirar partido da flexibilidade, porexigir complexidade computacional e grande número de dados.
Ex.: uma função discriminante quadrática completa envolve d^ = (d + 1)(d +2)/2termos. Polinômios de ordem k, levam a O(d^k) termos.
Considerando que as d^ componente do vetor de pesos a devem ser determinadas a partir de exemplos de treinamento, então, o número destes deve ser no mínimo d^.
4) Conveniência de escrever g(x) na forma homogênea aty:
PTC - 5001 Reconhecimento de padrões - 2011
4) Conveniência de escrever g(x) na forma homogênea aty:
25/10/2011
9
d
0iii
d
1iii0 xwxw w g(x) com x0 = 1
Deste modo, o problema de encontrar um classificador reduz-se a encontrar um vetor de pesos a no espaço y. Ver Fig. 5.7.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.7
O caso de duas classes linearmente separáveis
Problema: Dadas n amostras y1, ... , yn, divididas entre duas classes 1 e 2, deter-minar o vetor de pesos a de uma função discriminante linear g(x) = aty. Se tal vetorexistir as amostras dizem-se linearmente separáveisexistir, as amostras dizem-se linearmente separáveis.
Pode-se procurar um vetor a t.q. aty > 0 para todas as amostras, simplificando o problema.
Geometria e terminologia (Fig. 5.8)
aty = 0 hiperplano pela origem do espaço de pesos.
PTC - 5001 Reconhecimento de padrões - 2011
região de solução no espaço de pesos.região de decisão no espaço de atributos.
25/10/2011
10
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.8
A escolha do vetor solução não é única. Critérios:1) maximizar distância mínima das amostras ao plano separador. 2) aty b, onde b = margem. Ver Fig. 5.9.2) a y b, onde b margem. Ver Fig. 5.9.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.9
25/10/2011
11
Técnicas de descida por gradiente
Enfoque para solução a aty > 0: definir uma função critério J(a) que é minimizadase a for um vetor solução.
P bl d d i i i f ã l dPortanto, o problema reduz-se ao de minimizar uma função escalar, que pode ser resolvido por descida por gradiente. A solução é dada por:
a(k + 1) = a(k) - (k)J(a(k))onde = taxa de aprendizagem. O algoritmo correspondente é:
PTC - 5001 Reconhecimento de padrões - 2011
cuja convergência depende de (k).
Método para determinar a taxa de aprendizagem
Aproximando J(a) até segunda ordem, tem-se:
onde H é a matriz Hessiana Substituindo a(k+1) obtém se:onde H é a matriz Hessiana. Substituindo a(k+1) obtém-se:
J(a(k+1)) pode se minimizado escolhendo-se
onde H depende de a, e portanto de k. Se J(a) é quadrático, H e são constantes.
PTC - 5001 Reconhecimento de padrões - 2011
25/10/2011
12
Método de Newton
Escolhendo-se a(k+1) para minimizar a expansão de 2a. ordem de de J(a), resultano método de Newton de otimização, com
e o seguinte algoritmo:
PTC - 5001 Reconhecimento de padrões - 2011
A aplicação do algoritmo de Newton exige matriz H não singular. Em geral é mais rápido que o método do gradiente, mas a complexidade da inversão matricialpode anular essa vantagem. A Fig. 5.10 compara os caminhos de otimização dosdois algoritmos.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.10
25/10/2011
13
A função critério do Perceptron
Trata-se da função onde é o conjunto de amos-
amostras classificadas erradamente por a Notar que não pode ser negativaamostras classificadas erradamente por a. Notar que não pode ser negativa.
Significado geométrico: é proporcional à soma das distâncias das amostras classificadas com erro ao limiar de decisão.
O gradiente de é e a regra de atualização de
PTC - 5001 Reconhecimento de padrões - 2011
pesos é: onde
é o conjunto das amostras classificadas com erro. O algoritmo Perceptron é dadoa seguir.
PTC - 5001 Reconhecimento de padrões - 2011
Ver Fig. 5.11 para uma ilustração do para um exemplo bidimen-sional, e a Fig. 5.12, para o uso do algoritmo num ex. bi-dim. com a(1)=0 (k)=1.
25/10/2011
14
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.11
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.12
25/10/2011
15
Caso particular: correção a cada amostra
Notação: y1 y2, ... , yk, onde cada yk é uma amostra mal classificada.num cj. de namostras y1, ... , yn. Para (k) = constante = 1, a regra de atualização então fica:
a(1) arbitrárioa(k+1) = a(k) + yk k 1,a(k 1) a(k) y k 1,
e o algoritmo é:
PTC - 5001 Reconhecimento de padrões - 2011
Obs.: Este algoritmo termina SSE as amostras forem linearmente separáveis (teore-ma da convergência do .Perceptron). A Fig. 5.13 ilustra aplicação do algoritmo.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.13
Convergência do Perceptron: “Se as amostras de treinamento forem linearmente separáveis, a seqüência de vetores peso dada pelo algoritmo 4 termina em um vetora solução”. Demonstração: ver livro (Duda) p. 230-32.
25/10/2011
16
Técnicas de relaxação
São procedimentos que generalizam a minimização do critério Perceptron, incluindooutros critérios de minimização. Um desses critérios é:
d é j d l ifi d d Oonde é o conjunto de amostras classificadas erradamente por a. O gra-diente de Jq é contínuo, contrariamente ao de Jp.
Na prática utiliza-se: onde Y(a) é o cj. de amostras para asquais aty b.
O gradiente de Jr(a) é e a regra de correção para uma amostra
PTC - 5001 Reconhecimento de padrões - 2011
por vez é: onde aty b k.
O algoritmo correspondente é:
A qtd. é a distância de a(k) ao hiperplano atyk = b. Como yk/|| yk||é o vetor unitário normal ao hiperplano, a eq. de correção representa mover a(k) deuma fração da dist. r(k) de a(k) ao hiperplano. Se = 1, a(k) é movido exatamenteao hiperplano, “relaxando” a tensão criada por at(k)yk b. Ver Figs. 5.14 e 5.15.
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.14
25/10/2011
17
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.15
Comportamento não separável
Tanto o método Perceptron quanto o de relaxação são procedimentos de correção deerro para encontrar um vetor de separação quando as amostras são linearmente sepa-ráveis.
Um vetor que separa as amostras de treinamento pode não funcionar bem com amos-Um vetor que separa as amostras de treinamento pode não funcionar bem com amostras de teste.
Na prática, grandes problemas de separação são quase certamente não separáveis li-nearmente.
Neste caso, como os vetores de peso não podem classificar corretamente cada amos-tra, as atualizações num processo de correção de erro não têm fim.
PTC - 5001 Reconhecimento de padrões - 2011
Verifica-se, entretanto, que o comprimento dos vetores a produzidos por constanteé limitado. Assim, a parada dos processos de correção baseia-se empiricamente nestatendência do comprimento dos vetores flutuar em torno de algum valor limite.
Utiliza-se tb. tomar a média dos vetores de peso p/ evitar poder escolher sol. infeliz.
25/10/2011
18
Técnicas de erro quadrático mínimo
As funções critério até agora utilizadas baseiam-se em amostras classificadas errada-mente. Além disso, o vetor a deveria proporcionar aty > 0.Agora, vamos introduzir um critério que leva em conta todas as amostras, e t.q.aty = bi. Teremos assim um cj. de eqs. lineares. Em forma matricial:
Se Y não singular, a = Y-1b.
PTC - 5001 Reconhecimento de padrões - 2011
Mas Y é retangular, com mais linhas que colunas. A solução consiste em procurar aque minimize alguma função do erro e = Ya - b. A função proposta é:
A solução analítica é obtida da seguinte forma:
onde a matriz é chamada pseudo-inversa de Y. Definindo-se
pode-se mostrar que sempre existirá a solução
PTC - 5001 Reconhecimento de padrões - 2011
Exemplo: Ver livro (Duda) p. 241.
25/10/2011
19
Algoritmo LMSO critério de erro quadrático mínimo pode ser minimizadopor um procedimento de descida de gradiente. Dessa forma, em relação à soluçãoanalítica evitam-se dois problemas:1) Os decorrentes de YtY singular.2) A necessidade de lidar com matrizes grandes.
Como , a regra de correção de pesos é:
Pode-se mostrar que se (k) = (1)/k, onde (1) é qq. constante positiva, este algo-ritmo sempre produz uma solução, independentemente de YtY ser singukar ou não.Q d l i é li d ü i l é h id l i LMS
PTC - 5001 Reconhecimento de padrões - 2011
Quando este algoritmo é aplicado seqüencialmente, é conhecido por algoritmo LMS(least-mean-squared), ou de Widrow-Hoff, cuja regra de atualização é:
E o algoritmo é:
Diferença com o método de relaxação:Neste último trata-se de uma regra de correção de erro, onde as correções prolongam-se indefinidamente. No caso do LMS, a seqüência de pesos tende a convergir para u-ma solução, razoável, embora possa não ser um hiperplano de separação, mesmo seexistir um (Fig. 5.17).
PTC - 5001 Reconhecimento de padrões - 2011
Fig. 5.17 Leituras recomendadas: Seções5.8.3 e 5.8.5 do livro (Duda).