aprendizagem hebbiana e pca prof. júlio cesar nievola ppgia pucpr

44
Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

Upload: internet

Post on 17-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

Aprendizagem Hebbiana e PCA

Prof. Júlio Cesar Nievola

PPGIA

PUCPR

Page 2: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 2

Aprendizagem Hebbiana

A comunicação entre dois neurônios é facilitada pela excitação repetida

A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então

onde é o tamanho do passo

Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede

A regra de Hebb é local ao peso

ijij yxw

Page 3: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 3

Sistemas biológico e artificial

Page 4: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 4

Efeito da atualização Hebbiana

A aprendizagem Hebbiana atualiza os pesos de acordo com

onde n é o número da iteração e o tamanho do passo

Para um PE linear, y = wx e, portanto,

A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes

nynxnwnw 1

nxnwnw 211

Exemplo 01

Page 5: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 5

PE com várias entradas

Em notação vetorial a saída do PE é

Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso

Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores

Os pesos são a memória de longo termo

cos, xwysejaouy TT wxxw

Page 6: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 6

Aprendizagem Hebbiana com várias entradas

PE linear comD entradas

Saída de um PE linear noespaço vetorial

Exemplo 02

Page 7: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 7

Memória

O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos

A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento

O PE Hebbiano implementa um tipo de memória chamada memória associativa

Exemplo 03

Page 8: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 8

Regra de Hebb e Aprendizagem por Correlação

Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação

Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada

A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento

Txx Eonde xxRwRw 0ˆ

Exemplo 04

Page 9: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 9

Representação de Dados em Espaços Multidimensionais

Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada

A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância

É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada

Page 10: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 10

Sistema de coordenadas principais

Page 11: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 11

Regra de Oja

Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos

A forma mais simples foi proposta por Oja

Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por

iii

iii

nxnynw

nxnynwnw

21

nynxnynw

nwnynxnynwnw

ii

iiii

21

1

Page 12: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 12

Regra de Oja

A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada

Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída

Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas

Exemplo 05

Page 13: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 13

A Regra de Oja implementa o Máximo Autofiltro

O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de

autocorrelação de entrada na saída o maior autovalor

O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção

Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada

Page 14: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 14

Projeção de um agrupamento de dados nos componentes principais

Page 15: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 15

Análise da Componente Principal

Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões)

Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características

Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada

A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”)

Page 16: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 16

PCA

PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de

Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial

É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados

T

D

D

Mii Ee yy

,

0

0

,1

1

2

Page 17: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 17

Rede PCA

Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior

autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior

componente principal Repete-se o procedimento até obter ordem M D

Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada

Page 18: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 18

Rede PCA

Page 19: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 19

Regra de Sanger

Assume-se que a rede tem D entradas e M saídas (M D), cada uma dada por

Os pesos são atualizados através da fórmula

Isto implementa a deflação após a convergência do sistema.

A atualização não é local

MinxnwnyD

ijiji ,,1,

1

i

kkkjjiij nynwnxnynw

1

Exemplo 06

Page 20: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 20

PCA em aplicações

Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes

Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade

Exemplo 07

Page 21: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 21

Relação entre autodireções e classificação

Page 22: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 22

Aprendizagem Anti-Hebbiana

A regra anti-Hebbiana inclui um sinal de menos:

A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada

Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados

A saída da rede sempre produzirá saída zero

jiij xxw

Exemplo 08

Page 23: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 23

Aprendizagem Anti-Hebbiana

Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero

Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto

O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada

Page 24: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 24

Convergência da RegraAnti-Hebbiana

A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois

será estável se < 2 / , onde é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser

onde max é o maior autovalor da função de autocorrelação de entrada

nwnw 11

max

2

Exemplo 09

Page 25: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 25

Estimando a Correlação Cruzada em Redes Hebbianas

Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles

A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação

Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d

Page 26: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 26

Rede Hebbiana com várias entradas e várias saídas

Page 27: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 27

Aprendizagem Hebbiana Forçada

Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por

Se wij(0)=0, após N iterações tem-se

Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear

Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador

ijij dxw

N

nijij ndnxNw

1

Exemplo 10

Page 28: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 28

Dissimilaridade

Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d

Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d)

Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um

PE de decorrelação

Exemplo 11

Page 29: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 29

Inibição Lateral

Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana

É um método para construir redes que encontram o espaço da componente principal com uma regra local

Conexões lateraisde inibição

Page 30: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 30

Modelo APEX para PCA

Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de

Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais

A regra é local As componentes principais são aprendidas em

paralelo e não usando deflação

jiijiji

iiii

cnynynyc

wnynxnyw

Page 31: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 31

Topologia APEX para PCA

Page 32: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 32

Whitening Transform

Ela ortogonaliza os dados de entrada e também normaliza os autovalores

Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal

Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem

Page 33: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 33

Whitening Transform

A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é

A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única

Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos

D

kkjkiijij nwnynynwnw

1

11

Page 34: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 34

Memória Associativa Linear (LAM)

O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional

A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa

Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d

Exemplo 12

Page 35: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 35

Crosstalk em LAMs

Assume-se ter K pares de vetores entrada-saída xk dk. A memória associativa é treinada pela apresentação repetida de cada entrada

Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais:

Quando um vetor de entrada xl é apresentado à rede, sua saída é

Tkkk

K

kk xxWWW

cadaonde,1

K

lkkl

Tkkl

Tlll

,1

xxdxxdWxy

Exemplo 13

Page 36: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 36

Crosstalk em LAMs

O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk

Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero)

Neste caso, o associador linear produz recuperação perfeita

Page 37: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 37

Crosstalk em LAMs

Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação

Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais

Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada

O padrão mais próximo à entrada é recuperado

Page 38: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 38

LMS como uma combinação de regras Hebbianas

A regra LMS é expressa por

Portanto,

A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada

Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada

iiijiij ydondexw ,

jijiij xyxdw

Page 39: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 39

Melhorando o desempenho de Memórias Associativas Lineares

Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como

O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM)

Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios

nnnnnnn TTT xyxdxεW

Exemplo 14

Page 40: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 40

LAM e Regressão Linear

As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica?

Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações

A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor)

Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!!

Page 41: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 41

Auto-associação

Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS

O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados

Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero)

Page 42: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 42

Reconstrução de sinal

Page 43: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 43

Auto-associador com W2 = W1T

Exemplo 15

Page 44: Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

PPGIA - PUCPR Prof. Júlio Cesar Nievola 44

Auto-Associador

A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares)

O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução

A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem

Exemplo 16

Exemplo 17

Exemplo 19

Exemplo 18