1998: técnicas de otimização não-linear irrestrita para o treinamento de redes neurais...

TÉCNICAS DE OTIMIZAÇÃO NÃO-TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS TREINAMENTO DE REDES NEURAIS

DE MÚLTIPLAS CAMADASDE MÚLTIPLAS CAMADAS

IA 353 - Redes Neurais

Leandro Nunes de Castro

Fernando José Von Zuben

2

Tópicos• Introdução (motivação)• Redes de múltiplas camadas• Algoritmo de retropropagação• Treinamento e critérios de parada• Superfícies de erro e mínimos locais• Abordagem (forma de análise)• Aproximação de funções• Algoritmos de otimização• Detalhes de implementação e variações• Taxas de aprendizagem globais• Algoritmos• Exemplos de aplicação

3

Motivação• Estímulo inicial

• Potencial de aplicação na análise e síntese de problemas não-lineares

• Aplicação de redes MLP a problemas de mundo real

• Utilização de técnicas de otimização não-linear irrestrita para o treinamento de redes do tipo MLP

Garantia de convergência

Taxa de convergência

Teoria deotimização

Aproximação de funções

Teoria de análise numérica

Áreas de atuação científica a serem abrangidas

4

Redes de múltiplas camadasMLP - Multilayer Perceptron

… …

Camadade entrada

Primeiracamada

escondida

Segundacamada

escondida

Camadade saída

Propagação do sinal

Retro-propagação do erro

5

Abordagem matricial para o algoritmo de retro-propagação (backpropagation)

f1

W1

b1

u1

x

1f2

W2

b2

u2

y1

1f3

W3

b3

u3

y2

1

y3

f1.

f2.

f3.

Propagação dos sinais

2 (y – s)

321

Retro-propagaçãodas sensibilidades

(W2)T (W3)T

2 3

6

Treinamento e critérios de parada

• Treinamento:– Local (on-line): atualização imediatamente após a

apresentação de cada amostra.

– Em lote (off-line, batch): atualização após a apresentação de todo o conjunto de dados.

• Critérios de parada:– || || < J() < – J() < – Outras funções de custo

)θ(J

7

Superfícies de erro e mínimos locais (I)

*

| |J( ) || = 0

x 0

d e sejad o

m ín im oglob a l da

su p er fíc ied e e rro

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

-15

-10

-5

0

5

10

Mínimo local

Mínimo global

Critérios de parada

Mínimos locais

8

Série de Taylor

...*)()(*)(2

1*)()(*)()(

*

2

*

xxxxxxxxxx

xxxx

TTT FFFF

T

nF

xF

xF

xF

)()()()(21

xxxx

T

nnn

n

n

Fx

Fxx

Fxx

Fxx

Fx

Fxx

Fxx

Fxx

Fx

F

)()()(

)()()(

)()()(

)(

2

2

2

2

1

2

2

2

22

2

12

21

2

21

2

21

2

2

xxx

xxx

xxx

x

9

Aproximação em Taylor - Exemplo)cos()( xxF

Expansão em Taylor para F(x) em torno do ponto x = 0:

42

24

1

2

11)( xxxF

Neural Network

DESIGN Taylor Series #1

TAYLOR SERIES APPROXIMATION

Click in the left graph to create a Taylor series approximationof the cosine function.

Click on the check-box buttons at the right of the w indow to turnvarious orders of approximation on and off.

Chapter 8

-6 -3 0 3 6-2

-1

0

1

2

x

cos(x)

< CLICK ON ME >

-6 -3 0 3 6-2

-1

0

1

2

F0(x)

F4(x)

F2(x)

10

Mínimos• Local: O ponto x* é um mínimo local de F(x) se existe um escalar > 0,tal que F(x*) < F(x + x) para todo x tal que 0 < ||x|| < .

• Global: O ponto x* é um mínimo global único de F(x) se F(x*) < F(x + x) para todo x 0.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

-15

-10

-5

0

5

10

Mínimo local

Mínimo global

11

Primeira derivada direcional:

Segunda derivada direcional:

p

xp )(FT

2

2 )(

p

pxp FT

Derivada direcional

• Qual a direção cuja derivada é nula?

• Qual a direção de maior inclinação (maior crescimento da função)?

12

Otimalidade & Hessiana (caso quadrático)

Condições de otimalidade:

0)(* xx

xF• Primeira ordem: (Ponto estacionário)

• Segunda ordem: (Hessiana semi-definida positiva)0)(*

2 xx

xF

Auto-sistema da Hessiana:

max2min λλ p

AppT

cF TT xdAxxx2

1)(

max2max

maxmax λz

Azz T

Z1

(min)

Z2

(max)

13

Hessiana - Exemplos

14

1 1

x y

w01

w11

v01

w12

v02

v11

v21

Superfícies de erro e mínimos locais (II)

0 5 10 15 20 25 30 35 40 450.25

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0.75

Função a ser aproximada Rede para aproximação

15

-5 0 5 10 15-5

0

5

10

15

v(1,1)

w(1

,1)

Superfícies de erro e mínimos locais (III)

-50

510

15

-5

0

5

10

150

2

4

6

8

10

v(1,1)w(1,1)

Vales

Platô

Superfície do erro quadrático e seu contorno em relação aos pesos v11 e w11

16

Superfícies de erro e mínimos locais (IV)

-10 -8 -6 -4 -2 0 2 4 6 8 10-10

-8

-6

-4

-2

0

2

4

6

8

10

v(0,1)

w(0

,1)

-10-5

05

10

-10

-5

0

5

100

0.5

1

1.5

v(0,1)w(0,1)

Mínimo global Mínimo local

Superfície do erro quadrático e seu contorno em relação aos limiares v01 e w01

17

Abordagem

• Representar o treinamento sob a forma de aproximação de funções minimização de um funcional de erro (J)

• Aproximação quadrática do funcional J (Taylor)

• Objetivo: • Processo iterativo de solução:

)θθ)(θ()θθ()θθ()θ()θ()θ( 2ii

Tii

Tiiquad JJJJ

)θ(J

)θ(2J

vetor gradientematriz hessiana

0,αθθ 1 iiiii d

)θ(minarg*θθ

JP

18

• Aproximar: g(.): X m r

• Modelo: :X P r, onde P (P finito)

• Dados: amostrados da forma

* P tal que dist(g(.), ) dist(g(.), ), para

todo P

• Nível de aproximação:

• Otimização:

• Erros:– representação (bias)

– generalização (variância)

– otimização

Aproximação de funções

Nlll 1, sx lll g )(xs

)θ(.,g

)θ(.,g*)θ(.,g

N

l

ggN

J1

2)θ,(ˆ)(1

)θ( xx

)θ(minarg*θθ

JP

19

Algoritmos de otimização• Algoritmo padrão (BP)

• Método do gradiente (GRAD)

• Método de Newton (MN)

• Método de Levenberg-Marquardt (LM)

• Método do gradiente conjugado (GC)

• Método de Fletcher & Reeves (FR)

• Método de Polak-Ribère (PR)

• Gradiente conjugado escalonado (SCG)

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

• One-Step Secant (OSS)

1a ordem

2a ordem

2a ordem (grad. conjugado)

2a ordem (quase-Newton)

2a ordem

20

Algoritmos de otimização

21

• Algoritmo padrão (BP)– passo fixo

Métodos de 1a ordem (I)

• Método do gradiente (GRAD)– Busca simples do passo

0,θβ.α.θθ 11 iiiii d

)θ(

)θ(

J

J

d

momento

)θ(

)θ(αθθ 1

i

iiii J

J

22

Métodos de 1a ordem (II)

Exemplo 1: Problema XOR (OU-exclusivo)

-1 1

1

-1

-1

-1+ 1

+ 1

• Rede: [2-10-1]• SSE: 0.01

23

Métodos de 1a ordem (III)

Algoritmo padrão com e semmomento

Método do gradiente

Exemplo 1:

Err

o

24

• Newton modificado (NM) • Levenberg-Marquardt (LM)

Métodos de 2a ordem (I)

)θ()θ(αθθ12

1 iiiii JJ

0λ)λε()θ(

0λ)θ(][

min][

min2

][min

2

iiii

iii

seJ

seJ

IM

M

)θ(αθθ 11 iiiii J

M

Positivando a Hessiana

q

kl

N

i

m

jijij rggJ

1

2

1 1

2)θ,(ˆ)()θ( xx

Tq

T

r

r

1

J

q

kkk

T rJ1

22 2 rJJ

rJJJ TT 1θ

rJIJJ TT 1μθ

Gauss-Newton

25

Exemplo 1: Levenberg-Marquardt

Métodos de 2a ordem (II)

Err

o

26

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Métodos de 2a ordem (III)Quase-Newton

Aproximação iterativa da inversa da Hessiana: 12 )( lim

θH Ji

i

iiii J pggq )θ(21

iii dp α

iiTi

iTiii

iTi

Tii

iiqHq

HqqH

qp

ppHH 1

iTi

iTii

Tiii

iTi

iiTi

iTi

Tii

iiqp

HqppqH

qp

qHq

qp

ppHH

11

iii gHd

iiii dαθθ 1

27

Exemplo 1: Quase-Newton

Métodos de 2a ordem (IV)

DFP BFGS

Err

o

28

• Secantes de um Passo (OSS)

Métodos de 2a ordem (V)

iiiiii BA qsgd 1

iii θθ 1 s

iTi

iTi

ii

Ti

iTi

iTi

iTi

iTi

iTi

i BAqs

gs

qs

gq

qs

gs

qs

qq

;1

Exemplo 1:

Err

o

29

• Polak-Ribière (PR) • Fletcher & Reeves (FR)

Métodos de 2a ordem (VI)

Gradiente Conjugado

.)θ(

θθ 1 ii

Ti

iTi

iiJ

dQdd

d

iTi

iT

i

iiii

J

iJ

J

Qdd

Qd

dd

d

)θ(βcom

0β)θ(

)θ(

1i

11

00

Passo i

i

Ti

iiTi

igg

ggg 11β 2

21β

i

ii

g

g

30

PR FR

Exemplo 1:

Métodos de 2a ordem (VII)E

rro

31

• Gradiente conjugado escalonado modificado– evita a busca

unidimensional através de um escalonamento do passo de ajuste [MOLLER,1993]

– modificado: cálculo exato da informação de segunda ordem [PEARLMUTTER,1994]

Métodos de 2a ordem (VIII)

Exemplo 1:

Err

o

32

Complexidade ComputacionalP: graus de liberdade do modelo l: número de unidades naN: número de amostras camada intermediária

33

Detalhes de implementação/Variações• Os métodos de segunda ordem (QN & GC) foram

projetados para problemas quadráticos

• Momento de segunda ordem:

• Variação do ganho da função de ativação:

• Normalização dos dados de entrada:

Busca unidimensional

Reinicializaçãodo algoritmo

0,θγθβαθθ 211 iiiiii d3

1βγ

tanh(x)xe

xfβ1

γ)(

i

inini

xxx

σ,

,

N

n nii xN

x1 ,

1

N

n ninii xxN 1

2,, )(

1

1σ

34

• Minimizar:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0)

• Estratégias:– método do gradiente (GRAD)

– método de Newton (MN)

– método de Davidon-Fletcher-Powell (DFP)

– método de gradiente conjugado (GC)

Algoritmos de otimização não-linear irrestrita

Exemplo 2: Propriedades de convergência

221

4121 )2()2(),( xxxxxf

35

Algoritmos de otimização

(139)GRAD

(1)MN

(9)GC

(13)DFP

36

• Determinação da taxa• Busca inexata

– simples

Taxas de Aprendizagem Globais (I)

TAXAS DE APRENDIZAGEM GLOBAIS

DETERMINAÇÃO(FIXA/DECRESCENTE)

BUSCA

SIMPLES INTERVALO DEINCERTEZAS

MINIMIZAÇÃODA FUNÇÃO

• Busca exata– método de Fibonacci

– método da Seção Áurea

– método da Falsa Posição

37

• Garantia de ajustes minimizantes

• Encontrar um valor ótimo para i (0, ]

• Subproblema: J(i + idi)

• Busca unidimensional: d P fixo

-10-5

05

10

-10

-5

0

5

100

0.5

1

1.5

v(0,1)w(0,1)

Taxas de Aprendizagem Globais (II)

α

]α,0(α imin

38

Algoritmos• Busca Simples

• Falsa posição1 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

2 . E n q u a n t o i

ii

θ

θ- θ 1 d N f a ç a :

2 . 1 . )θ()θ(

θθ).θ(θθ

1

11

ii

iiiii JJ

J

3 . T e s t e a c o n d i ç ã o d e p a r a d a

39

Taxas de Aprendizagem Globais (III)

Exemplo 3: Busca simplesA

lfa

40

Algoritmos - Seção Áurea1 . ( a 1 , b 1 ) - i n t e r v a l o i n i c i a l d e i n c e r t e z a s

2 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

3 . = 618.02

15

- r a z ã o á u r e a

4 . 1111 α1λ aba e 1111 αμ aba

5 . J ( 1 ) e J (

1 )

6 . E n q u a n t o 2

- 1 ba d N f a ç a :

6 . 1 . S e J ( i ) > J (

i ) , v á p a r a 6 . 1 . 1 ; e s e J ( i ) J (

i ) , v á p a r a 6 . 1 . 2

6 . 1 . 1 . F a ç a :

a i + 1 = i e b i + 1 = b i

i + 1 =

i e 1111 αμ iiii aba

J ( i + 1 )

6 . 1 . 2 . F a ç a :

a i + 1 = a i e b i + 1 = i

i + 1 =

i e 1111 α1λ iiii aba

J ( i + 1 )

7 . T e s t e a c o n d i ç ã o d e p a r a d a

41

Taxas de Aprendizagem Globais (IV)

Exemplo 4: Redução do intervalo de incertezas

2214

121 22),( xxxxxf

• Problema: min f(xi + idi) s.a. (0, 1]

• Onde:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]

• Estratégias:– método da Seção Áurea (GOLD)

– método de Fibonacci (FIB)

– método da Falsa Posição (FP)

42

Taxas de Aprendizagem Globais (V)

Exemplo 4:

(20)Fibonacci

(20)Seção áurea

(6)Falsa posição

43

Exemplo

0 100 200 300 400 500 600

-2

-1

0

1

2

3

4

Atualização em lote: 625 amostras do Exercício 3

npEQMSSESSEnp

EQM ..1 2

44

Parâmetros:nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;dn = 0.001; cm = 0.9;

Exemplo - exercício 3

45

0

50

100

150

200

250

Tempo (seg.)


0

50

100

150

200

250

300

350

400

Flops(xe6)

BP

GRAD

FR

PR

OSS

SCGM

DFP

BFGS

46


0 20 40 60 80 100

100

101

102

103

104

SSE

Epochs

GRAD

BPM

PR

FR

BFGS

DFP

SCGM

OSS

Legenda:

Comportamento do SSE (soma dos erros quadráticos)

47

• XOR - paridade– k = 2; N = 4 e m = 1

• COD/DEC - paridade– k = 10; N = 10 e m = 10

• sen(x)cos(2x) - aproximação de funções– k = 1; N = 21 e m = 1

• ESP - aproximação de funções– k = 2; N = 75 e m = 5

• SOJA - aproximação de funções– k = 36; N = 144 e m = 1

• IRIS - classificação– k = 4; N = 150 e m = 1

• ECOLI - classificação– k = 7; N = 336 e m = 1

• GLASS - classificação– k = 10; N = 214 e m = 1

Problemas Abordados

48

• Algoritmo padrão (BP)• Método do gradiente (GRAD)• Fletcher & Reeves (FR)• Pollak-Ribière (PR)• Gradiente conjugado escalonado modificado

(SCGM)• One step secant (OSS) • Davidon-Fletcher-Powell (DFP)• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Algoritmos Implementados

49

Velocidade de Convergência (I)

Exemplo 5: Problema XOR (OU-exclusivo)Net: [2, 35, 1] SSE: 0.01

P: 141 bp: 0.001

N: 4 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| T(seg.) flops 106

BP 861 0.12879 14.65 5.34

GRAD 85 0.24059 1.48 0.66

FR 151 0.51931 26.94 9.95

PR 19 0.37450 3.93 1.49

OSS 45 0.79577 10.05 3.45

SCGM 9 0.33544 1.10 0.67

DFP 30 0.52997 13.05 153.13

BFGS 23 0.52833 12.71 151.40

50

Velocidade de Convergência (II)

Exemplo 6: Problema sen(x).cos(2x)

Net: [1, 10, 1] SSE: 0.1

P: 31 bp: 0.005

N: 25 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| flops 106 T(seg.)

BP 15257 0.021516 195.86 374.67

GRAD 11324 0.022548 143.74 342.45

FR 360 0.623722 32.21 60.81

PR 414 0.328516 36.41 65.00

OSS 2709 0.251328 282.89 469.95

SCGM 172 0.717829 17.19 23.63

DFP 134 0.325639 21.39 19.74

BFGS 199 0.568088 35.35 33.23

51

Velocidade de Convergência (III)

Exemplo 7: Problema GLASSNet: [9, 16, 3] SSE: 0.15

P: 211 bp: 0.001

N: 214 : 0.95

Nci: 10 Inic.: [-0.2; 0.2]

MSE EP ||J()|| flops 106

MSEtr MSEval MSEte

BP 0.205891 2.2426 3.08130 50000 59.3554 8529.80

GRAD 0.324729 2.4465 1.79153 50000 134.632 9942.66

FR 0.156150 12.7743 11.3970 5000 0.6438 7066.38

PR 0.136103 2.3864 4.56294 5000 2.6744 7450.81

OSS 0.307864 2.4813 2.84755 5000 3.2956 9360.64

SCG 0.081086 3.3898 4.29241 5000 104.3746 7545.26

DFP 0.688553 1.8633 2.90665 5000 2.0361 101991.95

BFGS 0.281159 4.9137 1.78893 5000 2.9778 105521.20

52

Velocidade de Convergência (IV)

Estatísticas: 12.5%

75.0%

12.5%

FR

SCG

DFP

16.7%

66.7%

16.7%

GRAD

SCG

DFP

33.3%

66.7%

GRAD

SCG

ÉpocasTempo de processamento

Esforço computacional (flops)

53

Referências (I)• Barnard, E., “Optimization for Training Neural Nets”, IEEE Trans. on Neural Networks,

vol. 3, n° 2, 1992.• Battiti, R., “First- and Second-Order Methods for Learning: Between Steepest Descent

and Newton’s Method”, Neural Computation, vol. 4, pp. 141-166, 1992.• Battiti, R., “Learning with First, Second, and no Derivatives: A Case Study in High

Energy Physics”, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206, 1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.

• Castro, L.N., “Análise e Síntese de Estratégias de Aprendizagem para redes Neurais Artificiais”, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.

• Fahlman, S.E., “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report, September 1988, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z

• Fiesler, E., “Comparing Parameterless Learning Rate Adaptation Methods,” Proceedings of the ICNN’97, pp. 1082-1087, 1997.

• Finschi, L., “An Implementation of the Levenberg-Marquardt Algorithm”, Technical Report, April 1996, URL: http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.

• Groot, C. de & Würtz, D., “Plain Backpropagation and Advanced Optimization Algorithms: A Comparative Study”, NEUCOM 291, vol. 6, pp.153-161, 1994.

54

• Haygan, M.T., “Training Feedforward Networks with the Marquardt Algorithm”, IEEE Trans. on Neural Networks, vol. 5, n° 6, pp. 989-993, 1994.

• Jacobs, R.A., “Increased Rates of Convergence Through Learning Rate Adaptation”, Neural Networks, vol. 1, pp. 295-307, 1988, URL: http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUM-CS-1987-117

• Jondarr, C.G.H., “Back Propagation Family Album”, Technical Report C/TR96-5, 1996, URL: ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.

• Joost, M. & Schiffman, W., “Speeding Up Backpropagation Algorithms by Using Cross-Entropy Combined With Pattern Normalization”, International Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL: http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz

• Moller, M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, vol. 6, pp. 525-533, 1993.

• Pearlmutter, B.A., “Fast Exact Calculation by the Hessian”, Neural Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohio-state.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.

Referências (II)

55

• Shepherd, A.J., “Second-Order Methods for Neural Networks – Fast and Reliable Methods for Multi-Layer Perceptrons”, Springer, 1997.

• Shewchuk, J.R., “An Introduction to the Conjugate Gradient Method Without the Agonizing Pain”, Technical Report, 1994, URL: http://www.cs.cmu.edu/ afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.

• Schiffman, W., Joost, M., & Werner, R., “Optimization of the Backpropagation Algorithm for Training Multilayer Perceptrons”, Technical Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff. bp_speedup.ps.Z.

• Stäger, F., & Agarwal, M., “Three Methods to Speed up the Training of Feedforward and Feedback Perceptrons”, Neural Networks, vol. 10, n° 8, pp. 1435-1443, 1997.

• Van Der Smagt, P., P, “Minimization Methods for Training Feedforward Neural networks,” Neural Networks, vol 1, n° 7, 1994, URL: http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz

• Von Zuben, F.J., “Modelos Paramétricos e Não-Paramétricos de Redes neurais Artificiais e Aplicações”, Tese de Doutorado, Faculdade de Engenharia Elétrica, Unicamp, 1996.

Referências (III)

1998: técnicas de otimização não-linear irrestrita para o treinamento de redes neurais...

Documents