1998: técnicas de otimização não-linear irrestrita para o treinamento de redes neurais...

TÉCNICAS DE OTIMIZAÇÃO NÃO-TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS TREINAMENTO DE REDES NEURAIS

DE MÚLTIPLAS CAMADASDE MÚLTIPLAS CAMADAS

IA 353 - Redes Neurais

Leandro Nunes de Castro

Fernando José Von Zuben

Tópicos• Introdução (motivação)• Redes de múltiplas camadas• Algoritmo de retropropagação• Treinamento e critérios de parada• Superfícies de erro e mínimos locais• Abordagem (forma de análise)• Aproximação de funções• Algoritmos de otimização• Detalhes de implementação e variações• Taxas de aprendizagem globais• Algoritmos• Exemplos de aplicação

Motivação• Estímulo inicial

• Potencial de aplicação na análise e síntese de problemas não-lineares

• Aplicação de redes MLP a problemas de mundo real

• Utilização de técnicas de otimização não-linear irrestrita para o treinamento de redes do tipo MLP

Garantia de convergência

Taxa de convergência

Teoria deotimização

Aproximação de funções

Teoria de análise numérica

Áreas de atuação científica a serem abrangidas

Redes de múltiplas camadasMLP - Multilayer Perceptron

… …

Camadade entrada

Primeiracamada

escondida

Segundacamada

escondida

Camadade saída

Propagação do sinal

Retro-propagação do erro

Abordagem matricial para o algoritmo de retro-propagação (backpropagation)

Propagação dos sinais

2 (y – s)

Retro-propagaçãodas sensibilidades

(W2)T (W3)T

Treinamento e critérios de parada

• Treinamento:– Local (on-line): atualização imediatamente após a

apresentação de cada amostra.

– Em lote (off-line, batch): atualização após a apresentação de todo o conjunto de dados.

• Critérios de parada:– || || < J() < – J() < – Outras funções de custo

Superfícies de erro e mínimos locais (I)

| |J( ) || = 0

d e sejad o

m ín im oglob a l da

su p er fíc ied e e rro

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

Mínimo local

Mínimo global

Critérios de parada

Mínimos locais

Série de Taylor

...*)()(*)(2

1*)()(*)()(

xxxxxxxxxx

TTT FFFF

)()()()(21

)()()(

Aproximação em Taylor - Exemplo)cos()( xxF

Expansão em Taylor para F(x) em torno do ponto x = 0:

11)( xxxF

Neural Network

DESIGN Taylor Series #1

TAYLOR SERIES APPROXIMATION

Click in the left graph to create a Taylor series approximationof the cosine function.

Click on the check-box buttons at the right of the w indow to turnvarious orders of approximation on and off.

Chapter 8

-6 -3 0 3 6-2

cos(x)

< CLICK ON ME >

-6 -3 0 3 6-2

Mínimos• Local: O ponto x* é um mínimo local de F(x) se existe um escalar > 0,tal que F(x*) < F(x + x) para todo x tal que 0 < ||x|| < .

• Global: O ponto x* é um mínimo global único de F(x) se F(x*) < F(x + x) para todo x 0.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

Mínimo local

Mínimo global

Primeira derivada direcional:

Segunda derivada direcional:

xp )(FT

pxp FT

Derivada direcional

• Qual a direção cuja derivada é nula?

• Qual a direção de maior inclinação (maior crescimento da função)?

Otimalidade & Hessiana (caso quadrático)

Condições de otimalidade:

0)(* xx

xF• Primeira ordem: (Ponto estacionário)

• Segunda ordem: (Hessiana semi-definida positiva)0)(*

Auto-sistema da Hessiana:

max2min λλ p

cF TT xdAxxx2

max2max

maxmax λz

Hessiana - Exemplos

Superfícies de erro e mínimos locais (II)

0 5 10 15 20 25 30 35 40 450.25

Função a ser aproximada Rede para aproximação

-5 0 5 10 15-5

v(1,1)

Superfícies de erro e mínimos locais (III)

v(1,1)w(1,1)

Platô

Superfície do erro quadrático e seu contorno em relação aos pesos v11 e w11

Superfícies de erro e mínimos locais (IV)

-10 -8 -6 -4 -2 0 2 4 6 8 10-10

v(0,1)

v(0,1)w(0,1)

Mínimo global Mínimo local

Superfície do erro quadrático e seu contorno em relação aos limiares v01 e w01

Abordagem

• Representar o treinamento sob a forma de aproximação de funções minimização de um funcional de erro (J)

• Aproximação quadrática do funcional J (Taylor)

• Objetivo: • Processo iterativo de solução:

)θθ)(θ()θθ()θθ()θ()θ()θ( 2ii

Tiiquad JJJJ

)θ(2J

vetor gradientematriz hessiana

0,αθθ 1 iiiii d

)θ(minarg*θθ

• Aproximar: g(.): X m r

• Modelo: :X P r, onde P (P finito)

• Dados: amostrados da forma

* P tal que dist(g(.), ) dist(g(.), ), para

todo P

• Nível de aproximação:

• Otimização:

• Erros:– representação (bias)

– generalização (variância)

– otimização

Aproximação de funções

Nlll 1, sx lll g )(xs

)θ(.,g

)θ(.,g*)θ(.,g

2)θ,(ˆ)(1

)θ( xx

)θ(minarg*θθ

Algoritmos de otimização• Algoritmo padrão (BP)

• Método do gradiente (GRAD)

• Método de Newton (MN)

• Método de Levenberg-Marquardt (LM)

• Método do gradiente conjugado (GC)

• Método de Fletcher & Reeves (FR)

• Método de Polak-Ribère (PR)

• Gradiente conjugado escalonado (SCG)

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

• One-Step Secant (OSS)

1a ordem

2a ordem

2a ordem (grad. conjugado)

2a ordem (quase-Newton)

2a ordem

Algoritmos de otimização

• Algoritmo padrão (BP)– passo fixo

Métodos de 1a ordem (I)

• Método do gradiente (GRAD)– Busca simples do passo

0,θβ.α.θθ 11 iiiii d

momento

)θ(αθθ 1

iiii J

Métodos de 1a ordem (II)

Exemplo 1: Problema XOR (OU-exclusivo)

• Rede: [2-10-1]• SSE: 0.01

Métodos de 1a ordem (III)

Algoritmo padrão com e semmomento

Método do gradiente

Exemplo 1:

• Newton modificado (NM) • Levenberg-Marquardt (LM)

Métodos de 2a ordem (I)

)θ()θ(αθθ12

1 iiiii JJ

0λ)λε()θ(

0λ)θ(][

)θ(αθθ 11 iiiii J

Positivando a Hessiana

jijij rggJ

2)θ,(ˆ)()θ( xx

22 2 rJJ

rJJJ TT 1θ

rJIJJ TT 1μθ

Gauss-Newton

Exemplo 1: Levenberg-Marquardt

Métodos de 2a ordem (II)

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Métodos de 2a ordem (III)Quase-Newton

Aproximação iterativa da inversa da Hessiana: 12 )( lim

θH Ji

iiii J pggq )θ(21

iii dp α

ppHH 1

HqppqH

iii gHd

iiii dαθθ 1

Exemplo 1: Quase-Newton

Métodos de 2a ordem (IV)

DFP BFGS

• Secantes de um Passo (OSS)

Métodos de 2a ordem (V)

iiiiii BA qsgd 1

iii θθ 1 s

i BAqs

Exemplo 1:

• Polak-Ribière (PR) • Fletcher & Reeves (FR)

Métodos de 2a ordem (VI)

Gradiente Conjugado

θθ 1 ii

)θ(βcom

0β)θ(

Passo i

ggg 11β 2

Exemplo 1:

Métodos de 2a ordem (VII)E

• Gradiente conjugado escalonado modificado– evita a busca

unidimensional através de um escalonamento do passo de ajuste [MOLLER,1993]

– modificado: cálculo exato da informação de segunda ordem [PEARLMUTTER,1994]

Métodos de 2a ordem (VIII)

Exemplo 1:

Complexidade ComputacionalP: graus de liberdade do modelo l: número de unidades naN: número de amostras camada intermediária

Detalhes de implementação/Variações• Os métodos de segunda ordem (QN & GC) foram

projetados para problemas quadráticos

• Momento de segunda ordem:

• Variação do ganho da função de ativação:

• Normalização dos dados de entrada:

Busca unidimensional

Reinicializaçãodo algoritmo

0,θγθβαθθ 211 iiiiii d3

tanh(x)xe

n nii xN

n ninii xxN 1

2,, )(

• Minimizar:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0)

• Estratégias:– método do gradiente (GRAD)

– método de Newton (MN)

– método de Davidon-Fletcher-Powell (DFP)

– método de gradiente conjugado (GC)

Algoritmos de otimização não-linear irrestrita

Exemplo 2: Propriedades de convergência

4121 )2()2(),( xxxxxf

Algoritmos de otimização

(139)GRAD

(13)DFP

• Determinação da taxa• Busca inexata

– simples

Taxas de Aprendizagem Globais (I)

TAXAS DE APRENDIZAGEM GLOBAIS

DETERMINAÇÃO(FIXA/DECRESCENTE)

SIMPLES INTERVALO DEINCERTEZAS

MINIMIZAÇÃODA FUNÇÃO

• Busca exata– método de Fibonacci

– método da Seção Áurea

– método da Falsa Posição

• Garantia de ajustes minimizantes

• Encontrar um valor ótimo para i (0, ]

• Subproblema: J(i + idi)

• Busca unidimensional: d P fixo

v(0,1)w(0,1)

Taxas de Aprendizagem Globais (II)

]α,0(α imin

Algoritmos• Busca Simples

• Falsa posição1 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

2 . E n q u a n t o i

θ- θ 1 d N f a ç a :

2 . 1 . )θ()θ(

θθ).θ(θθ

iiiii JJ

3 . T e s t e a c o n d i ç ã o d e p a r a d a

Taxas de Aprendizagem Globais (III)

Exemplo 3: Busca simplesA

Algoritmos - Seção Áurea1 . ( a 1 , b 1 ) - i n t e r v a l o i n i c i a l d e i n c e r t e z a s

2 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

3 . = 618.02

- r a z ã o á u r e a

4 . 1111 α1λ aba e 1111 αμ aba

5 . J ( 1 ) e J (

6 . E n q u a n t o 2

- 1 ba d N f a ç a :

6 . 1 . S e J ( i ) > J (

i ) , v á p a r a 6 . 1 . 1 ; e s e J ( i ) J (

i ) , v á p a r a 6 . 1 . 2

6 . 1 . 1 . F a ç a :

a i + 1 = i e b i + 1 = b i

i + 1 =

i e 1111 αμ iiii aba

J ( i + 1 )

6 . 1 . 2 . F a ç a :

a i + 1 = a i e b i + 1 = i

i + 1 =

i e 1111 α1λ iiii aba

J ( i + 1 )

7 . T e s t e a c o n d i ç ã o d e p a r a d a

Taxas de Aprendizagem Globais (IV)

Exemplo 4: Redução do intervalo de incertezas

121 22),( xxxxxf

• Problema: min f(xi + idi) s.a. (0, 1]

• Onde:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]

• Estratégias:– método da Seção Áurea (GOLD)

– método de Fibonacci (FIB)

– método da Falsa Posição (FP)

Taxas de Aprendizagem Globais (V)

Exemplo 4:

(20)Fibonacci

(20)Seção áurea

(6)Falsa posição

Exemplo

0 100 200 300 400 500 600

Atualização em lote: 625 amostras do Exercício 3

npEQMSSESSEnp

EQM ..1 2

Parâmetros:nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;dn = 0.001; cm = 0.9;

Exemplo - exercício 3

Tempo (seg.)

Flops(xe6)

0 20 40 60 80 100

Epochs

Legenda:

Comportamento do SSE (soma dos erros quadráticos)

• XOR - paridade– k = 2; N = 4 e m = 1

• COD/DEC - paridade– k = 10; N = 10 e m = 10

• sen(x)cos(2x) - aproximação de funções– k = 1; N = 21 e m = 1

• ESP - aproximação de funções– k = 2; N = 75 e m = 5

• SOJA - aproximação de funções– k = 36; N = 144 e m = 1

• IRIS - classificação– k = 4; N = 150 e m = 1

• ECOLI - classificação– k = 7; N = 336 e m = 1

• GLASS - classificação– k = 10; N = 214 e m = 1

Problemas Abordados

• Algoritmo padrão (BP)• Método do gradiente (GRAD)• Fletcher & Reeves (FR)• Pollak-Ribière (PR)• Gradiente conjugado escalonado modificado

(SCGM)• One step secant (OSS) • Davidon-Fletcher-Powell (DFP)• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Algoritmos Implementados

Velocidade de Convergência (I)

Exemplo 5: Problema XOR (OU-exclusivo)Net: [2, 35, 1] SSE: 0.01

P: 141 bp: 0.001

N: 4 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| T(seg.) flops 106

BP 861 0.12879 14.65 5.34

GRAD 85 0.24059 1.48 0.66

FR 151 0.51931 26.94 9.95

PR 19 0.37450 3.93 1.49

OSS 45 0.79577 10.05 3.45

SCGM 9 0.33544 1.10 0.67

DFP 30 0.52997 13.05 153.13

BFGS 23 0.52833 12.71 151.40

Velocidade de Convergência (II)

Exemplo 6: Problema sen(x).cos(2x)

Net: [1, 10, 1] SSE: 0.1

P: 31 bp: 0.005

N: 25 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| flops 106 T(seg.)

BP 15257 0.021516 195.86 374.67

GRAD 11324 0.022548 143.74 342.45

FR 360 0.623722 32.21 60.81

PR 414 0.328516 36.41 65.00

OSS 2709 0.251328 282.89 469.95

SCGM 172 0.717829 17.19 23.63

DFP 134 0.325639 21.39 19.74

BFGS 199 0.568088 35.35 33.23

Velocidade de Convergência (III)

Exemplo 7: Problema GLASSNet: [9, 16, 3] SSE: 0.15

P: 211 bp: 0.001

N: 214 : 0.95

Nci: 10 Inic.: [-0.2; 0.2]

MSE EP ||J()|| flops 106

MSEtr MSEval MSEte

BP 0.205891 2.2426 3.08130 50000 59.3554 8529.80

GRAD 0.324729 2.4465 1.79153 50000 134.632 9942.66

FR 0.156150 12.7743 11.3970 5000 0.6438 7066.38

PR 0.136103 2.3864 4.56294 5000 2.6744 7450.81

OSS 0.307864 2.4813 2.84755 5000 3.2956 9360.64

SCG 0.081086 3.3898 4.29241 5000 104.3746 7545.26

DFP 0.688553 1.8633 2.90665 5000 2.0361 101991.95

BFGS 0.281159 4.9137 1.78893 5000 2.9778 105521.20

Velocidade de Convergência (IV)

Estatísticas: 12.5%

ÉpocasTempo de processamento

Esforço computacional (flops)

Referências (I)• Barnard, E., “Optimization for Training Neural Nets”, IEEE Trans. on Neural Networks,

vol. 3, n° 2, 1992.• Battiti, R., “First- and Second-Order Methods for Learning: Between Steepest Descent

and Newton’s Method”, Neural Computation, vol. 4, pp. 141-166, 1992.• Battiti, R., “Learning with First, Second, and no Derivatives: A Case Study in High

Energy Physics”, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206, 1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.

• Castro, L.N., “Análise e Síntese de Estratégias de Aprendizagem para redes Neurais Artificiais”, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.

• Fahlman, S.E., “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report, September 1988, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z

• Fiesler, E., “Comparing Parameterless Learning Rate Adaptation Methods,” Proceedings of the ICNN’97, pp. 1082-1087, 1997.

• Finschi, L., “An Implementation of the Levenberg-Marquardt Algorithm”, Technical Report, April 1996, URL: http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.

• Groot, C. de & Würtz, D., “Plain Backpropagation and Advanced Optimization Algorithms: A Comparative Study”, NEUCOM 291, vol. 6, pp.153-161, 1994.

• Haygan, M.T., “Training Feedforward Networks with the Marquardt Algorithm”, IEEE Trans. on Neural Networks, vol. 5, n° 6, pp. 989-993, 1994.

• Jacobs, R.A., “Increased Rates of Convergence Through Learning Rate Adaptation”, Neural Networks, vol. 1, pp. 295-307, 1988, URL: http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUM-CS-1987-117

• Jondarr, C.G.H., “Back Propagation Family Album”, Technical Report C/TR96-5, 1996, URL: ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.

• Joost, M. & Schiffman, W., “Speeding Up Backpropagation Algorithms by Using Cross-Entropy Combined With Pattern Normalization”, International Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL: http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz

• Moller, M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, vol. 6, pp. 525-533, 1993.

• Pearlmutter, B.A., “Fast Exact Calculation by the Hessian”, Neural Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohio-state.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.

Referências (II)

• Shepherd, A.J., “Second-Order Methods for Neural Networks – Fast and Reliable Methods for Multi-Layer Perceptrons”, Springer, 1997.

• Shewchuk, J.R., “An Introduction to the Conjugate Gradient Method Without the Agonizing Pain”, Technical Report, 1994, URL: http://www.cs.cmu.edu/ afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.

• Schiffman, W., Joost, M., & Werner, R., “Optimization of the Backpropagation Algorithm for Training Multilayer Perceptrons”, Technical Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff. bp_speedup.ps.Z.

• Stäger, F., & Agarwal, M., “Three Methods to Speed up the Training of Feedforward and Feedback Perceptrons”, Neural Networks, vol. 10, n° 8, pp. 1435-1443, 1997.

• Van Der Smagt, P., P, “Minimization Methods for Training Feedforward Neural networks,” Neural Networks, vol 1, n° 7, 1994, URL: http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz

• Von Zuben, F.J., “Modelos Paramétricos e Não-Paramétricos de Redes neurais Artificiais e Aplicações”, Tese de Doutorado, Faculdade de Engenharia Elétrica, Unicamp, 1996.

Referências (III)

1998: técnicas de otimização não-linear irrestrita para o treinamento de redes neurais...

Documents

redes neurais artificiais com arquiteturas...

aula02 redes neurais artificiais. redes neurais artificiais...

redes neurais artificiais aplicadas em aprendizagem …

redes neurais artificiais aplicadas na identificaÇÃo

1 - introdução à inteligência artificial - (09) redes...

redes neurais artificiais - github pages

redes neurais artificiais aplicadas ... - upav...

introdução às redes neurais artificiais - apostila

redes neurais artificiais - utfpr

redes neurais artificiais...

aplicabilidade de redes neurais artificiais para …

redes neurais artificiais teoria e aplicacoes.sorackalves.uv

redes neurais artificiais na modelagem digital: …

redes neurais artificiais - departamento de informática e...

redes neurais artificiais (rna): introdução

introdução Às redes neurais artificiais

redes neurais artificiais

redes neurais artificiais -...

1 aplicação de otimização irrestrita: treinamento de...

160277_redes neurais artificiais