1998: técnicas de otimização não-linear irrestrita para o treinamento de redes neurais...
DESCRIPTION
TRANSCRIPT
TÉCNICAS DE OTIMIZAÇÃO NÃO-TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS TREINAMENTO DE REDES NEURAIS
DE MÚLTIPLAS CAMADASDE MÚLTIPLAS CAMADAS
IA 353 - Redes Neurais
Leandro Nunes de Castro
Fernando José Von Zuben
2
Tópicos• Introdução (motivação)• Redes de múltiplas camadas• Algoritmo de retropropagação• Treinamento e critérios de parada• Superfícies de erro e mínimos locais• Abordagem (forma de análise)• Aproximação de funções• Algoritmos de otimização• Detalhes de implementação e variações• Taxas de aprendizagem globais• Algoritmos• Exemplos de aplicação
3
Motivação• Estímulo inicial
• Potencial de aplicação na análise e síntese de problemas não-lineares
• Aplicação de redes MLP a problemas de mundo real
• Utilização de técnicas de otimização não-linear irrestrita para o treinamento de redes do tipo MLP
Garantia de convergência
Taxa de convergência
Teoria deotimização
Aproximação de funções
Teoria de análise numérica
Áreas de atuação científica a serem abrangidas
4
Redes de múltiplas camadasMLP - Multilayer Perceptron
… …
Camadade entrada
Primeiracamada
escondida
Segundacamada
escondida
Camadade saída
Propagação do sinal
Retro-propagação do erro
5
Abordagem matricial para o algoritmo de retro-propagação (backpropagation)
f1
W1
b1
u1
x
1f2
W2
b2
u2
y1
1f3
W3
b3
u3
y2
1
y3
f1.
f2.
f3.
Propagação dos sinais
2 (y – s)
321
Retro-propagaçãodas sensibilidades
(W2)T (W3)T
2 3
6
Treinamento e critérios de parada
• Treinamento:– Local (on-line): atualização imediatamente após a
apresentação de cada amostra.
– Em lote (off-line, batch): atualização após a apresentação de todo o conjunto de dados.
• Critérios de parada:– || || < J() < – J() < – Outras funções de custo
)θ(J
7
Superfícies de erro e mínimos locais (I)
*
| |J( ) || = 0
x 0
d e sejad o
m ín im oglob a l da
su p er fíc ied e e rro
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20
-15
-10
-5
0
5
10
Mínimo local
Mínimo global
Critérios de parada
Mínimos locais
8
Série de Taylor
...*)()(*)(2
1*)()(*)()(
*
2
*
xxxxxxxxxx
xxxx
TTT FFFF
T
nF
xF
xF
xF
)()()()(21
xxxx
T
nnn
n
n
Fx
Fxx
Fxx
Fxx
Fx
Fxx
Fxx
Fxx
Fx
F
)()()(
)()()(
)()()(
)(
2
2
2
2
1
2
2
2
22
2
12
21
2
21
2
21
2
2
xxx
xxx
xxx
x
9
Aproximação em Taylor - Exemplo)cos()( xxF
Expansão em Taylor para F(x) em torno do ponto x = 0:
42
24
1
2
11)( xxxF
Neural Network
DESIGN Taylor Series #1
TAYLOR SERIES APPROXIMATION
Click in the left graph to create a Taylor series approximationof the cosine function.
Click on the check-box buttons at the right of the w indow to turnvarious orders of approximation on and off.
Chapter 8
-6 -3 0 3 6-2
-1
0
1
2
x
cos(x)
< CLICK ON ME >
-6 -3 0 3 6-2
-1
0
1
2
F0(x)
F4(x)
F2(x)
10
Mínimos• Local: O ponto x* é um mínimo local de F(x) se existe um escalar > 0,tal que F(x*) < F(x + x) para todo x tal que 0 < ||x|| < .
• Global: O ponto x* é um mínimo global único de F(x) se F(x*) < F(x + x) para todo x 0.
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20
-15
-10
-5
0
5
10
Mínimo local
Mínimo global
11
Primeira derivada direcional:
Segunda derivada direcional:
p
xp )(FT
2
2 )(
p
pxp FT
Derivada direcional
• Qual a direção cuja derivada é nula?
• Qual a direção de maior inclinação (maior crescimento da função)?
12
Otimalidade & Hessiana (caso quadrático)
Condições de otimalidade:
0)(* xx
xF• Primeira ordem: (Ponto estacionário)
• Segunda ordem: (Hessiana semi-definida positiva)0)(*
2 xx
xF
Auto-sistema da Hessiana:
max2min λλ p
AppT
cF TT xdAxxx2
1)(
max2max
maxmax λz
Azz T
Z1
(min)
Z2
(max)
13
Hessiana - Exemplos
14
1 1
x y
w01
w11
v01
w12
v02
v11
v21
Superfícies de erro e mínimos locais (II)
0 5 10 15 20 25 30 35 40 450.25
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
0.7
0.75
Função a ser aproximada Rede para aproximação
15
-5 0 5 10 15-5
0
5
10
15
v(1,1)
w(1
,1)
Superfícies de erro e mínimos locais (III)
-50
510
15
-5
0
5
10
150
2
4
6
8
10
v(1,1)w(1,1)
Vales
Platô
Superfície do erro quadrático e seu contorno em relação aos pesos v11 e w11
16
Superfícies de erro e mínimos locais (IV)
-10 -8 -6 -4 -2 0 2 4 6 8 10-10
-8
-6
-4
-2
0
2
4
6
8
10
v(0,1)
w(0
,1)
-10-5
05
10
-10
-5
0
5
100
0.5
1
1.5
v(0,1)w(0,1)
Mínimo global Mínimo local
Superfície do erro quadrático e seu contorno em relação aos limiares v01 e w01
17
Abordagem
• Representar o treinamento sob a forma de aproximação de funções minimização de um funcional de erro (J)
• Aproximação quadrática do funcional J (Taylor)
• Objetivo: • Processo iterativo de solução:
)θθ)(θ()θθ()θθ()θ()θ()θ( 2ii
Tii
Tiiquad JJJJ
)θ(J
)θ(2J
vetor gradientematriz hessiana
0,αθθ 1 iiiii d
)θ(minarg*θθ
JP
18
• Aproximar: g(.): X m r
• Modelo: :X P r, onde P (P finito)
• Dados: amostrados da forma
* P tal que dist(g(.), ) dist(g(.), ), para
todo P
• Nível de aproximação:
• Otimização:
• Erros:– representação (bias)
– generalização (variância)
– otimização
Aproximação de funções
Nlll 1, sx lll g )(xs
)θ(.,g
)θ(.,g*)θ(.,g
N
l
ggN
J1
2)θ,(ˆ)(1
)θ( xx
)θ(minarg*θθ
JP
19
Algoritmos de otimização• Algoritmo padrão (BP)
• Método do gradiente (GRAD)
• Método de Newton (MN)
• Método de Levenberg-Marquardt (LM)
• Método do gradiente conjugado (GC)
• Método de Fletcher & Reeves (FR)
• Método de Polak-Ribère (PR)
• Gradiente conjugado escalonado (SCG)
• Davidon-Fletcher-Powell (DFP)
• Broyden-Fletcher-Goldfarb-Shanno (BFGS)
• One-Step Secant (OSS)
1a ordem
2a ordem
2a ordem (grad. conjugado)
2a ordem (quase-Newton)
2a ordem
20
Algoritmos de otimização
21
• Algoritmo padrão (BP)– passo fixo
Métodos de 1a ordem (I)
• Método do gradiente (GRAD)– Busca simples do passo
0,θβ.α.θθ 11 iiiii d
)θ(
)θ(
J
J
d
momento
)θ(
)θ(αθθ 1
i
iiii J
J
22
Métodos de 1a ordem (II)
Exemplo 1: Problema XOR (OU-exclusivo)
-1 1
1
-1
-1
-1+ 1
+ 1
• Rede: [2-10-1]• SSE: 0.01
23
Métodos de 1a ordem (III)
Algoritmo padrão com e semmomento
Método do gradiente
Exemplo 1:
Err
o
24
• Newton modificado (NM) • Levenberg-Marquardt (LM)
Métodos de 2a ordem (I)
)θ()θ(αθθ12
1 iiiii JJ
0λ)λε()θ(
0λ)θ(][
min][
min2
][min
2
iiii
iii
seJ
seJ
IM
M
)θ(αθθ 11 iiiii J
M
Positivando a Hessiana
q
kl
N
i
m
jijij rggJ
1
2
1 1
2)θ,(ˆ)()θ( xx
Tq
T
r
r
1
J
q
kkk
T rJ1
22 2 rJJ
rJJJ TT 1θ
rJIJJ TT 1μθ
Gauss-Newton
25
Exemplo 1: Levenberg-Marquardt
Métodos de 2a ordem (II)
Err
o
26
• Davidon-Fletcher-Powell (DFP)
• Broyden-Fletcher-Goldfarb-Shanno (BFGS)
Métodos de 2a ordem (III)Quase-Newton
Aproximação iterativa da inversa da Hessiana: 12 )( lim
θH Ji
i
iiii J pggq )θ(21
iii dp α
iiTi
iTiii
iTi
Tii
iiqHq
HqqH
qp
ppHH 1
iTi
iTii
Tiii
iTi
iiTi
iTi
Tii
iiqp
HqppqH
qp
qHq
qp
ppHH
11
iii gHd
iiii dαθθ 1
27
Exemplo 1: Quase-Newton
Métodos de 2a ordem (IV)
DFP BFGS
Err
o
28
• Secantes de um Passo (OSS)
Métodos de 2a ordem (V)
iiiiii BA qsgd 1
iii θθ 1 s
iTi
iTi
ii
Ti
iTi
iTi
iTi
iTi
iTi
i BAqs
gs
qs
gq
qs
gs
qs
;1
Exemplo 1:
Err
o
29
• Polak-Ribière (PR) • Fletcher & Reeves (FR)
Métodos de 2a ordem (VI)
Gradiente Conjugado
.)θ(
θθ 1 ii
Ti
iTi
iiJ
dQdd
d
iTi
iT
i
iiii
J
iJ
J
Qdd
Qd
dd
d
)θ(βcom
0β)θ(
)θ(
1i
11
00
Passo i
i
Ti
iiTi
igg
ggg 11β 2
21β
i
ii
g
g
30
PR FR
Exemplo 1:
Métodos de 2a ordem (VII)E
rro
31
• Gradiente conjugado escalonado modificado– evita a busca
unidimensional através de um escalonamento do passo de ajuste [MOLLER,1993]
– modificado: cálculo exato da informação de segunda ordem [PEARLMUTTER,1994]
Métodos de 2a ordem (VIII)
Exemplo 1:
Err
o
32
Complexidade ComputacionalP: graus de liberdade do modelo l: número de unidades naN: número de amostras camada intermediária
33
Detalhes de implementação/Variações• Os métodos de segunda ordem (QN & GC) foram
projetados para problemas quadráticos
• Momento de segunda ordem:
• Variação do ganho da função de ativação:
• Normalização dos dados de entrada:
Busca unidimensional
Reinicializaçãodo algoritmo
0,θγθβαθθ 211 iiiiii d3
1βγ
tanh(x)xe
xfβ1
γ)(
i
inini
xxx
σ,
,
N
n nii xN
x1 ,
1
N
n ninii xxN 1
2,, )(
1
1σ
34
• Minimizar:• Mínimo: f (2, 1) = 0
• Ponto inicial: (x1, x2) = (0, 0)
• Estratégias:– método do gradiente (GRAD)
– método de Newton (MN)
– método de Davidon-Fletcher-Powell (DFP)
– método de gradiente conjugado (GC)
Algoritmos de otimização não-linear irrestrita
Exemplo 2: Propriedades de convergência
221
4121 )2()2(),( xxxxxf
35
Algoritmos de otimização
(139)GRAD
(1)MN
(9)GC
(13)DFP
36
• Determinação da taxa• Busca inexata
– simples
Taxas de Aprendizagem Globais (I)
TAXAS DE APRENDIZAGEM GLOBAIS
DETERMINAÇÃO(FIXA/DECRESCENTE)
BUSCA
SIMPLES INTERVALO DEINCERTEZAS
MINIMIZAÇÃODA FUNÇÃO
• Busca exata– método de Fibonacci
– método da Seção Áurea
– método da Falsa Posição
37
• Garantia de ajustes minimizantes
• Encontrar um valor ótimo para i (0, ]
• Subproblema: J(i + idi)
• Busca unidimensional: d P fixo
-10-5
05
10
-10
-5
0
5
100
0.5
1
1.5
v(0,1)w(0,1)
Taxas de Aprendizagem Globais (II)
α
]α,0(α imin
38
Algoritmos• Busca Simples
• Falsa posição1 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )
2 . E n q u a n t o i
ii
θ
θ- θ 1 d N f a ç a :
2 . 1 . )θ()θ(
θθ).θ(θθ
1
11
ii
iiiii JJ
J
3 . T e s t e a c o n d i ç ã o d e p a r a d a
39
Taxas de Aprendizagem Globais (III)
Exemplo 3: Busca simplesA
lfa
40
Algoritmos - Seção Áurea1 . ( a 1 , b 1 ) - i n t e r v a l o i n i c i a l d e i n c e r t e z a s
2 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )
3 . = 618.02
15
- r a z ã o á u r e a
4 . 1111 α1λ aba e 1111 αμ aba
5 . J ( 1 ) e J (
1 )
6 . E n q u a n t o 2
- 1 ba d N f a ç a :
6 . 1 . S e J ( i ) > J (
i ) , v á p a r a 6 . 1 . 1 ; e s e J ( i ) J (
i ) , v á p a r a 6 . 1 . 2
6 . 1 . 1 . F a ç a :
a i + 1 = i e b i + 1 = b i
i + 1 =
i e 1111 αμ iiii aba
J ( i + 1 )
6 . 1 . 2 . F a ç a :
a i + 1 = a i e b i + 1 = i
i + 1 =
i e 1111 α1λ iiii aba
J ( i + 1 )
7 . T e s t e a c o n d i ç ã o d e p a r a d a
41
Taxas de Aprendizagem Globais (IV)
Exemplo 4: Redução do intervalo de incertezas
2214
121 22),( xxxxxf
• Problema: min f(xi + idi) s.a. (0, 1]
• Onde:• Mínimo: f (2, 1) = 0
• Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]
• Estratégias:– método da Seção Áurea (GOLD)
– método de Fibonacci (FIB)
– método da Falsa Posição (FP)
42
Taxas de Aprendizagem Globais (V)
Exemplo 4:
(20)Fibonacci
(20)Seção áurea
(6)Falsa posição
43
Exemplo
0 100 200 300 400 500 600
-2
-1
0
1
2
3
4
Atualização em lote: 625 amostras do Exercício 3
npEQMSSESSEnp
EQM ..1 2
44
Parâmetros:nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;dn = 0.001; cm = 0.9;
Exemplo - exercício 3
45
0
50
100
150
200
250
Tempo (seg.)
Exemplo - exercício 3
0
50
100
150
200
250
300
350
400
Flops(xe6)
BP
GRAD
FR
PR
OSS
SCGM
DFP
BFGS
46
Exemplo - exercício 3
0 20 40 60 80 100
100
101
102
103
104
SSE
Epochs
GRAD
BPM
PR
FR
BFGS
DFP
SCGM
OSS
Legenda:
Comportamento do SSE (soma dos erros quadráticos)
47
• XOR - paridade– k = 2; N = 4 e m = 1
• COD/DEC - paridade– k = 10; N = 10 e m = 10
• sen(x)cos(2x) - aproximação de funções– k = 1; N = 21 e m = 1
• ESP - aproximação de funções– k = 2; N = 75 e m = 5
• SOJA - aproximação de funções– k = 36; N = 144 e m = 1
• IRIS - classificação– k = 4; N = 150 e m = 1
• ECOLI - classificação– k = 7; N = 336 e m = 1
• GLASS - classificação– k = 10; N = 214 e m = 1
Problemas Abordados
48
• Algoritmo padrão (BP)• Método do gradiente (GRAD)• Fletcher & Reeves (FR)• Pollak-Ribière (PR)• Gradiente conjugado escalonado modificado
(SCGM)• One step secant (OSS) • Davidon-Fletcher-Powell (DFP)• Broyden-Fletcher-Goldfarb-Shanno (BFGS)
Algoritmos Implementados
49
Velocidade de Convergência (I)
Exemplo 5: Problema XOR (OU-exclusivo)Net: [2, 35, 1] SSE: 0.01
P: 141 bp: 0.001
N: 4 : 0.95
Nci: 20 Inic.: [-1.0; 1.0]
ÉPOCAS ||J()|| T(seg.) flops 106
BP 861 0.12879 14.65 5.34
GRAD 85 0.24059 1.48 0.66
FR 151 0.51931 26.94 9.95
PR 19 0.37450 3.93 1.49
OSS 45 0.79577 10.05 3.45
SCGM 9 0.33544 1.10 0.67
DFP 30 0.52997 13.05 153.13
BFGS 23 0.52833 12.71 151.40
50
Velocidade de Convergência (II)
Exemplo 6: Problema sen(x).cos(2x)
Net: [1, 10, 1] SSE: 0.1
P: 31 bp: 0.005
N: 25 : 0.95
Nci: 20 Inic.: [-1.0; 1.0]
ÉPOCAS ||J()|| flops 106 T(seg.)
BP 15257 0.021516 195.86 374.67
GRAD 11324 0.022548 143.74 342.45
FR 360 0.623722 32.21 60.81
PR 414 0.328516 36.41 65.00
OSS 2709 0.251328 282.89 469.95
SCGM 172 0.717829 17.19 23.63
DFP 134 0.325639 21.39 19.74
BFGS 199 0.568088 35.35 33.23
51
Velocidade de Convergência (III)
Exemplo 7: Problema GLASSNet: [9, 16, 3] SSE: 0.15
P: 211 bp: 0.001
N: 214 : 0.95
Nci: 10 Inic.: [-0.2; 0.2]
MSE EP ||J()|| flops 106
MSEtr MSEval MSEte
BP 0.205891 2.2426 3.08130 50000 59.3554 8529.80
GRAD 0.324729 2.4465 1.79153 50000 134.632 9942.66
FR 0.156150 12.7743 11.3970 5000 0.6438 7066.38
PR 0.136103 2.3864 4.56294 5000 2.6744 7450.81
OSS 0.307864 2.4813 2.84755 5000 3.2956 9360.64
SCG 0.081086 3.3898 4.29241 5000 104.3746 7545.26
DFP 0.688553 1.8633 2.90665 5000 2.0361 101991.95
BFGS 0.281159 4.9137 1.78893 5000 2.9778 105521.20
52
Velocidade de Convergência (IV)
Estatísticas: 12.5%
75.0%
12.5%
FR
SCG
DFP
16.7%
66.7%
16.7%
GRAD
SCG
DFP
33.3%
66.7%
GRAD
SCG
ÉpocasTempo de processamento
Esforço computacional (flops)
53
Referências (I)• Barnard, E., “Optimization for Training Neural Nets”, IEEE Trans. on Neural Networks,
vol. 3, n° 2, 1992.• Battiti, R., “First- and Second-Order Methods for Learning: Between Steepest Descent
and Newton’s Method”, Neural Computation, vol. 4, pp. 141-166, 1992.• Battiti, R., “Learning with First, Second, and no Derivatives: A Case Study in High
Energy Physics”, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206, 1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.
• Castro, L.N., “Análise e Síntese de Estratégias de Aprendizagem para redes Neurais Artificiais”, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.
• Fahlman, S.E., “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report, September 1988, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z
• Fiesler, E., “Comparing Parameterless Learning Rate Adaptation Methods,” Proceedings of the ICNN’97, pp. 1082-1087, 1997.
• Finschi, L., “An Implementation of the Levenberg-Marquardt Algorithm”, Technical Report, April 1996, URL: http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.
• Groot, C. de & Würtz, D., “Plain Backpropagation and Advanced Optimization Algorithms: A Comparative Study”, NEUCOM 291, vol. 6, pp.153-161, 1994.
54
• Haygan, M.T., “Training Feedforward Networks with the Marquardt Algorithm”, IEEE Trans. on Neural Networks, vol. 5, n° 6, pp. 989-993, 1994.
• Jacobs, R.A., “Increased Rates of Convergence Through Learning Rate Adaptation”, Neural Networks, vol. 1, pp. 295-307, 1988, URL: http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUM-CS-1987-117
• Jondarr, C.G.H., “Back Propagation Family Album”, Technical Report C/TR96-5, 1996, URL: ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.
• Joost, M. & Schiffman, W., “Speeding Up Backpropagation Algorithms by Using Cross-Entropy Combined With Pattern Normalization”, International Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL: http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz
• Moller, M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, vol. 6, pp. 525-533, 1993.
• Pearlmutter, B.A., “Fast Exact Calculation by the Hessian”, Neural Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohio-state.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.
Referências (II)
55
• Shepherd, A.J., “Second-Order Methods for Neural Networks – Fast and Reliable Methods for Multi-Layer Perceptrons”, Springer, 1997.
• Shewchuk, J.R., “An Introduction to the Conjugate Gradient Method Without the Agonizing Pain”, Technical Report, 1994, URL: http://www.cs.cmu.edu/ afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.
• Schiffman, W., Joost, M., & Werner, R., “Optimization of the Backpropagation Algorithm for Training Multilayer Perceptrons”, Technical Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff. bp_speedup.ps.Z.
• Stäger, F., & Agarwal, M., “Three Methods to Speed up the Training of Feedforward and Feedback Perceptrons”, Neural Networks, vol. 10, n° 8, pp. 1435-1443, 1997.
• Van Der Smagt, P., P, “Minimization Methods for Training Feedforward Neural networks,” Neural Networks, vol 1, n° 7, 1994, URL: http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz
• Von Zuben, F.J., “Modelos Paramétricos e Não-Paramétricos de Redes neurais Artificiais e Aplicações”, Tese de Doutorado, Faculdade de Engenharia Elétrica, Unicamp, 1996.
Referências (III)