mlp prof. júlio cesar nievola ppgia - pucpr. prof. júlio cesar nievola2 redes neurais artificiais...
Post on 17-Apr-2015
114 Views
Preview:
TRANSCRIPT
MLP
Prof. Júlio Cesar Nievola
PPGIA - PUCPR
PPGIA - PUCPR Prof. Júlio Cesar Nievola 2
Redes Neurais Artificiais
Redes neurais artificiais são máquinas de aprendizagem
distribuídas adaptativas geralmente não lineares
construídas a partir de muitos elementos de processamento (PE) diferentes
PPGIA - PUCPR Prof. Júlio Cesar Nievola 3
Redes Neurais Artificiais
PPGIA - PUCPR Prof. Júlio Cesar Nievola 4
Redes Neurais Artificiais
RNAs constroem funções discriminantes a partir de seus PEs
A topologia da RNA determina o número e formato das funções discriminantes RNA => classificador semi-paramétrico
Posicionamento das funções discriminantes controlado pelos pesos Pesos ajustados pelos dados sem consideração
sobre a distribuição estatística dos dados
PPGIA - PUCPR Prof. Júlio Cesar Nievola 5
Princípios Gerais de Treinamento de Sistema Adaptativos
PPGIA - PUCPR Prof. Júlio Cesar Nievola 6
PE de McCulloch-Pitts
Equação entrada-saída
Função de ativação f é a função signum
D
iii bxwfnetfy
1
0,1
0,1
netse
netsenetf
Exemplo 01
PPGIA - PUCPR Prof. Júlio Cesar Nievola 7
Não-linearidadesTangente hiperbólica - Saídas em [-1,1]
Logística - Saídas em [0,1]
Ambas são suaves, ou seja, continuamente diferenciáveis
netnetf tanh
netenetf
1
1
Exemplo 02
Exemplo 03
Exemplo 04
PPGIA - PUCPR Prof. Júlio Cesar Nievola 8
Algoritmo de Aprendizagem para uma Máquina Não-Linear
Em relação ao Adaline:
forma funcional igual
não corresponde ao gradiente já que existe uma
não-linearidade descontínua
aprende apenas quando a saída está ERRADA!!!
a atualização se torna mais seletiva
há um grande impacto no desempenho
nxnyndnwnw 1
Exemplo 05
PPGIA - PUCPR Prof. Júlio Cesar Nievola 9
Regra Delta
É uma extensão direta da regra LMS para sistemas não-lineares com não-linearidades suaves
A regra delta é local ao padrão e ao peso
Derivada da função logística e tanh:
nnetfnxnnwnw pipp'1
2
tanh'
logistic'
15.0
1
ii
iii
xnetf
xxnetf
Exemplo 06
PPGIA - PUCPR Prof. Júlio Cesar Nievola 10
Implicações da Não-Linearidade
O relacionamento pesos-desempenho torna-se não-linear (superfície não-convexa)
Não há garantia de um único mínimo
Surgimento de “pontos de sela” (planos)
O “rattling” torna-se vantajoso
A busca do gradiente se torna menos robusta
O novo mínimo global é menor que o mínimo da rede linear: melhor ajuste
Exemplo 07
PPGIA - PUCPR Prof. Júlio Cesar Nievola 11
Perceptron – Rosenblatt, 1950
PPGIA - PUCPR Prof. Júlio Cesar Nievola 12
Perceptron
Criado em 1950 para reconhecimento ótico de caracteres
Mais geral, há M PEs de McCulloch-Pitts, cada um criando a própria função linear discriminante no espaço de dimensão D
Propriedade importante: capacidade de generalização
jijijii bxwfnetfy
Exemplo 08
PPGIA - PUCPR Prof. Júlio Cesar Nievola 13
Superfície de Decisão do Perceptron
O perceptron com M saídas pode dividir o espaço de
padrões em M regiões distintas
Os hiperplanos que contribuem para a definição da
superfície de decisão devem ser contíguos
As regiões de decisão do perceptron sempre são
regiões convexas, pois durante o treinamento exige-
se que uma e somente uma das saídas seja positiva
O perceptron é uma implementação física da
máquina linear de reconhecimento de padrões
Exemplo 09
PPGIA - PUCPR Prof. Júlio Cesar Nievola 14
Perceptron de Margem Larga
Aprendizagem perceptron muito eficiente mas não efetivaA margem do hiperplano ao conjunto de amostras S é definida como
O hiperplano ótimo maximiza a margem entre duas classes, colocando o discriminante entre os limites mais próximos (chamados vetores de suporte)
wxbwxSx edeinternoprodutoorepresentaonde,0,min
PPGIA - PUCPR Prof. Júlio Cesar Nievola 15
Hiperplano com maior margem
PPGIA - PUCPR Prof. Júlio Cesar Nievola 16
Algoritmo AdatronEncontra os parâmetros da função que possui a maior margem
É seqüencial, ótimo e tem taxa de convergência exponencialmente rápida
PPGIA - PUCPR Prof. Júlio Cesar Nievola 17
Algoritmo Adatron
Definir
Escolher multiplicador inicial comum, p.ex. i = 0,1 taxa de aprendizagem pequeno limiar, p.ex. t = 0,01
Enquanto M > t, escolher um padrão xi e calcular a atualização i = [1-g(xi)], e fazer
ii
N
jjijjii xgMebxxddxg min,
1
01,1
01,1
nnsenbnbnn
nnsendnbnbnnn
iiii
iiiiiii
PPGIA - PUCPR Prof. Júlio Cesar Nievola 18
Algoritmo Adatron
É condizente com a implementação local
Localização da fronteira determinada por poucos exemplos próximos à fronteira, chamados vetores suporte (pois a maioria dos tende a zero)
Algoritmo insensível ao formato geral dos clusters de dados, concentra-se na vizinhança dos limites para ajustar a posição dos hiperplanos
PPGIA - PUCPR Prof. Júlio Cesar Nievola 19
Diferenças na distribuição entre o Adatron e a Regra Delta
Exemplo 10
PPGIA - PUCPR Prof. Júlio Cesar Nievola 20
Limitações do Perceptron
Resolve somente problemas lineares
Aprendizagem on-line sofre com dados
ruidosos
Aprendizagem on-line tem maior
possibilidade de evitar mínimos locais
Regiões de decisão convexas, formadas pela
interseção de hiperplanosExemplo 11
PPGIA - PUCPR Prof. Júlio Cesar Nievola 21
MLP com uma camada escondida
Camada escondida: não ligada exteriormente
Os PEs são geralmente sigmóides
Conceitualmente são cascata de perceptrons
PPGIA - PUCPR Prof. Júlio Cesar Nievola 22
Funções Discriminantes da MLP
Mapeamento entrada-saída de uma MLP
O MLP separa o espaço em várias áreas com diferentes saídas. Isto é chamado tesselação
A alteração em um dos pesos altera toda a tesselação, ou seja, MLP não é gulosa (“greedy”)
O forte acoplamento entre os pesos é quem dá poder ao MLP
Diferentes combinações de pesos levam à mesma tesselação
ffy
Exemplo 12
PPGIA - PUCPR Prof. Júlio Cesar Nievola 23
Características do MLPCom uma camada extra no perceptron, altera-se qualitativamente o formato das funções discriminantesO número máximo de regiões distintas no espaço de entrada é controlado pelo número de PEs escondidosOs PEs de saída criam regiões de decisão que não são mais convexasExiste mais de uma combinação de pesos com uma combinação particular de regiões de decisão Exemplo 13
PPGIA - PUCPR Prof. Júlio Cesar Nievola 24
Capacidade de Mapeamento do MLP com 1 camada escondidaCapaz de construir uma saliência no espaço de entradaMLP com uma camada escondida e PEs sigmoidais (com um número adequado de PEs na camada escondida) é um mapeador universal, isto é, pode aproximar arbitrariamente bem qualquer região de decisão contínuaA função de ativação não é muito importante para a capacidade de mapeamento Exemplo 14
PPGIA - PUCPR Prof. Júlio Cesar Nievola 25
Treinamento do MLP com uma camada escondida
É uma aprendizagem com correção do erro, ou seja, aprendizagem supervisionada
Para adaptar os pesos: para calcular o erro no i-ésimo PE usa-se um erro
derivado da camada mais próxima da saída este erro é o erro de saída propagado e escalado a sensibilidade é automaticamente calculada pela
regra da cadeiaExemplo 15
PPGIA - PUCPR Prof. Júlio Cesar Nievola 26
Atualização dos pesos
A atualização dos pesos usando o algoritmo backpropagation é dada por:
nynwnnetfnennetfnwnw jk
kikkiijij
''1
Exemplo 16
PPGIA - PUCPR Prof. Júlio Cesar Nievola 27
Efeito do Número de PEs Escondidos
Com muitos PEs escondidos atinge-se a solução rapidamente, mas o poder de generalização é sacrificadoDurante o treinamento, o sistema posiciona as funções discriminantes que classificam corretamente a maioria dos exemplos, para então lentamente classificar áreas com poucos exemplosO erro estabilizará em um alto valor se os graus de liberdade não forem suficientes
Exemplo 17
Exemplo 18
PPGIA - PUCPR Prof. Júlio Cesar Nievola 28
MLPs com duas camadas escondidas
Funções discriminantes para este caso:
Um MLP com duas camadas escondidas é um aproximador universal, ou seja, realiza qualquer mapeamento entrada-saídaCada PE na primeira camada cria uma saliência. A segunda camada combina estas saliências em regiões disjuntas do espaçoQuantos PEs e quantas camadas???????
fffy
Exemplo 19
PPGIA - PUCPR Prof. Júlio Cesar Nievola 29
Treinamento do MLP 2 camadas escondidas com backpropagation
O uso do backpropagation é sistemáticoUso da matriz de confusão para análiseErros de classificação x MSE: podem variar em sentidos opostos. O MSE é sensível à diferença entre a resposta desejada e a atual, enquanto que o número de classificações erradas é uma quantidade digital que depende somente da maior saídaIniciar com a topologia mais simples
Exemplo 20
PPGIA - PUCPR Prof. Júlio Cesar Nievola 30
Treinamento do MLP 2 camadas escondidas com backpropagation
O algoritmo backpropagation pode ser aplicado a qualquer topologia em avanço
Exemplo 21
PPGIA - PUCPR Prof. Júlio Cesar Nievola 31
Algoritmo backpropagation com a rede dual
Exemplo 22
PPGIA - PUCPR Prof. Júlio Cesar Nievola 32
MLP como classificador ótimo
Um classificador ótimo deve criar funções de discriminação arbitrárias que separem os clusters de dados de acordo com a probabilidade a posteriori
MLP pode fazer isto desde que: hajam PEs suficientes para fazer o mapeamento hajam dados em quantidade e qualidade a aprendizagem convirja para o mínimo global as saídas estejam entre 0 e 1 com = 1 (softmax)
Exemplo 23
Exemplo 24
top related