aprendizado construtivo para redes neurais com uma camada … · a rede neural resultante apresenta...

.J

Aprendizado construtivo para redes neurais com uma camada intermediária

Fernando José Von Zuben e Márcio Luiz de Andrade Netto

Departamento de Computação e Automação Industrial (DCA) Faculdade de Engenharia Elétrica. Universidade Estadual de Campinas (UNICAMP)

c.P. 6101 - CEP: 13081-970, Campinas, SP, Brasil e-mail: vonzuben@~dca . fee.unicamp.br

[email protected]

Resumo - A capacidade de aproximação universal allreSentada por redes neurais com uma camada intermediária é empregada na aproximação de funções multidimensionais contínuas e definidas em um universo comllacto. A abordagem aqui desenvolvida apresenta inúmeras vantagens com relação ao uso tradicional do perceptron sujeito ao treinamento por retro-propagação. O aprendizado construtivo está fundamentado na introdução, quando necessário, de novos neurônios à medida que o treinamento supervisionado evolui. Os neurônios têm seus Ilarâmetros ajustados individualmente, sendo que a função de ativação de cada neurônio é definida iterativamente a partir de uma base de funções ortonormais. A rede neural resultante apresenta um número mínimo de neurônios na camada intermediária, o que contribui para garantir um bom desempenho a nÍl'el de generalização.

I. INTRODUÇÃO

Técnicas conexionistas baseadas em aprendizado supervisionado têm sido empregadas com sucesso na aproximação de' funções contínuas a partir de um conjunto de dados de entrada-saída. Desde que providas de um número suficiente de neurônios, redes neurais com uma única camada intermediária são aproximadores universais [4]. Particularmente, se o número de neurônios na camada intermediária for igual ao número de exemplos (dados de entrada-saída para treinamento), a rede neural é teoricamente capaz de aproximar exatamente estes exemplos [I]. Mesmo assumindo que os dados de entrada-saída contêm informação suficiente acerca da função a ser aproximada, aproximação exata geralmente não é o objetivo do treinamento, pois conduz à impossibilidade de implementação prática (rede neural com dimensões elevadas) e à ausência de flexibilidade para generalização na presença de dados de entrada-saída que não foram utilizados na fase de treinamento.

Devido à sua estrutura em camadas, o mapeamento realizado pela rede neural com uma camada intermediária é o resultado da ' combinação linear dos mapeamentos individuais executados em cada neurônio da camada intermediária. Neste caso, a definição arbitrária de funções de ativação pode dificultar, ou mesmo impedir, a realização da tarefa de aproximação. Para cada problema de aproximação é necessário que as funções de ativação~ individualmente ou combinadas linearmente, apresentem os mesmos tipos de nãolinearidades que a função a ser aproximada ao menos na região fechada e limitada onde deve se dar a aproximação.

Fica claro, portanto, que a dimensão da rede neural com uma camada intermediária e o tipo de função de ativação de cada neurônio devem ser definidos na fase de treinamento supervisionado. Neste contexto, imposições arbitrárias de dimensão e do tipo de ativação, mesmo que ainda garantam a capacidade de aproximação universal, acabam por produzir ferramentas de aproximação não-otimizadas. Portanto, o treinamento supervisionado não deve se restringir a um processo de ajuste de parâmetros previamente estabelecidos, já que o sucesso desta etapa depende da adequação da configuração da rede neural e de suas funções de ativação [2].

O processo de aprendizado construtivo para redes neurais com uma camada intermediária permite a introdução de neurônios adicionais em qualquer fase do treinamento [1], sendo que a determinação de funções de ativação ótimas com relação ao conjunto de dados de entrada-saída para treinamento pode ser implementada iterativamente utilizando modelos para métricos gerados a partir de uma base de funções ortonormais [5] .

11. APROXIMADORES UNIVERSAIS BASEADOS EM REDES NEURAIS

Considerando o caso multidimensional, os pares de vetores de entrada-saída que formam o conjunto de dados para treinamento supervisionado são dados por

(x(1) 'S(1) = ([xIJ x12 ••• x lm ] , [s11 s12 ... slr])' 1=1 ,2, ... ,N, (1)

onde N representa a dimensão do conjunto gerado a partir de um mapeamento desconhecido

G l xm l xr (.): 9l --+ iR na forma:

S(l) = G(x(l)' 1=1,2, ... ,N. (2)

Este trabalho foi desenvolvido com o apoio financeiro do CNPq - Brasil

284 2~ SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE

Definindo o vetor S E ~ I :· r como sendo a média dos dados de treinamento correspondentes à saída desejada, temos:

- [- - -] 1 2:N S = SI s'2 000 sr = - s(/) .

N 1=1 (3)

Neste caso, uma rede neural com uma camada intermediária mapeando de ~ I xm para ~ I >1 pode estimar explicitamente a matriz de saída, S E ~Nxr, dada a matriz de variáveis independentes, X E 9lN xm

, como segue:

S'k = Sk + i[Wil;~. (i: VijX"]]' k=l, ... ,r; l=l, ... ,N 1=1 1=1

(4)

onde vij (V E mmxn) representa o peso da camada intermediária conectando o i-ésimo elemento da entrada com o j-ésimo neurônio da camada intermediária, ).~;k (W E 9lnxr

) representa o peso da camada de saída conectando o j-ésimo neurônio da camada intermediária com a k-ésima saída, e jj: m ~ m representa a função de ativação doj-ésimo neurônio da camada intermediária.

Denominando a j-ésima coluna de V por 'j, e a l-ésima linha de. X por X(/), é possível eX']Jressar as funções de ativação na forma:

alj =~(2::IVij. XIi) = Jj(X(I)\'i)' l=l, ... ,N; j=l, ... ,n. (5)

Com isso, a condição para aproximação exata é que o sistema de equações lineares

rall al1 a1nlrlj'1l wl2 w1rl rSíl Sí2 Sír l la?l : 1.IW?1 : 1=1~1 : I=>~:.w=s la~) aNnJ lli-:nl wnrJ lS~1 sNrJ

(6)

tenha uma solução. Observe que Szk = s/k - SI; (/=l, ... ,N; k=l, ... ,r). Portanto, a condição para aproximação

exata exige que cada vetor-coluna de S , denominado Sk (k=I, .. . ,r), pertença ao subespaço linear gerado pelos

vetores-coluna de L , denominados ai (j=l, ... ,n). É importante salientar que a matriz de pesos W não contribui para a aproximação exata.

Dada a matriz de variáveis independentes X E mNxm, sempre vai existir' alguma matriz V E mmxn e

funções de ativação jj: m ~ 91 (j=l,o.o,n) tal que L tenha N colunas linearmente independentes, garantindo a

solução da equação (6) para qualquer S E mN x r• Logo, a aproximação exata pode ser garantidamente obtida se

n ~ N, implicando na existência de um número de neurônios na camada intermediária igualou maior ao número de padrões de entrada-saída para treinamento.

Por ser demasiadamente conservativa, esta condição para aproximação exata geralmente conduz a dimensões de tal forma elevadas que inviabiliZ?m qualquer iniciativa de implementação prática. Além disso, aproximação exata com relação aos dados de entrada-saída não é o objetivo do treinamento, pois pode comprometer o desempenho da rede neural em termos de generalização [3] .

Deste ponto em diante, será considerado o caso n < N, sendo também assumido que n ~ rank( S ). Neste caso, a condição para aproximação exata implica na determinação de V E mmxn ejj: m ~ m (j=l, .. o,n) de tal forma que o subespaço linear gerado por {a\,a2, .. . , an } contenha os vetores Sk (k=l, ... ,r). Particularmente,

esta condição é verdadeira se pelo menos um vetor ai (j=l, ... ,n) estiver alinhado em paralelo ou anti-paralelo a cada vetor Sk (k=I, ... ,r).

III. O PROCESSO DE APRENDIZADO CONSTRUTIVO

Como uma generalização das idéias apresentadas por Bãrmann e Biegler-Kõnig em [1], será desenvolvido na seqüência um processo de aprendizado construtivo que parte de uma rede neural com apenas um neurônio na camada intermediária e dinamicamente adiciona outros neurônios até que o nível de aproximação desejado seja atingido. Enquanto em [1] é assumida uma mesma função de ativação (limitada, contínua e monotônica) para todos os neurônios da camada intermediária, os resultados a seguir permitem a utilização de funções de ativação (limitadas e contínuas) diferentes para cada neurônio. Além disso, enquanto o cálculo da matriz W em [1] é realizado iterativamente, produzindo uma solução sub-ótima se houver convergência, apresentamos a seguir uma solução ótima em forma fechada para W.

Denominando aj-ésima coluna de L por aj e aj-ésima linha de W por w0), temos:

'.\

2~ SIMPÓSIO BRASilEIRO DE AUTOMAÇÃO INTELIGENTE

L·W=~1l a o.w( O)=S L....)=l } }

Iniciando com apenas um neurônio (n = 1), o seguinte sistema de equações lineares

fa1ll fS;1 S;2 •.. S;r l a"1 [ ] I $11 ". : I -S :- 'W)1 u'12 .•• w lr = : ~a1·w(J)=

LCJ~1 J lS~1 .. 0 SNr J

285

(7)

(8)

deve ter uma solução que conduza à correta estimação da matriz S . De acordo com os resultados apresentados

na seção anterior, o objetivo é assegurar o alinhamento ótimo entre a) e cada coluna de S . No sentido dos quadrados mínimos, a direção que fornece o alinhamento ótimo coincide com o componente principal da matriz

--T --T de correlação SS . Se À. 1 ~ ;"2 ~ ... ~ ')"N ~ O são os autovalores de SS , com autovetores respectivamente

dados por u 1 ' u 2 ' "', U N (uI E 91N"o1; 1=1, ... ,}./), então o componente principal de SST é u 1 (ou

equivalentemente -u 1 ). Assim, a1 é ótimo para algum \') E 91mx1 eJi: 91 ~ 91 que maximize o produto escalar

normalizado:

• (a T U )2

a I = argmax 1T

1 (9) °1 aI aI

Neste caso. W(l) ótimo é dado por:

A •• -."

Certamente, o estimador S = a I W (1) é exato se e somente se as colunas de S forem linearmente

dependentes. Caso contrário, enquanto

E=IIS-Sll= ~L:HL~,(Sík-SS] (11)

for maior que um limiar adequadamente especificado, introduz-se um neuromo adicional na camada intermediária, fixando os parâmetros referentes aos neurônios já existentes. A tarefa de aproximação do

neurônio adicional (n+ 1) é estimar o resíduo I:l = S - S , onde S assume a forma:

S = :L:;=I a ~w~i) . (12)

Com este processo de aprendizado construtivo, o número mínimo de neurônios na camada intermediária pode ser determinado de forma eficaz.

IV. MODELAGEM PARAMÉTRICA PARA A FUNÇÃO DE ATIVAÇÃO

Utilizando redes neurais com uma camada intermediária, o modelo de aproximação proposto toma cada componente da saída como uma combinação linear de funções de ativação fi (j=l, ... ,n), como descrito na equação (4). A seguir, para cada), é apresentada uma forma de determinar funções de ativação ótimas, com as restrições adicionais de continuidade e diferenciabilidade (pelo menos) até segunda ordem. Basicamente, as funções fi (j=l, ... ,n) são tomadas como combinações lineares de funções não-lineares ortonormais [5], para valores fixos de v) E 91mx1 e \\'(.1) E 91 l xr

.

Para cada). dado a ~ E 91Nx) (j= 1, ... ,n) e fixado 'jo E 91mx

I, dispõem-se de N pares de entrada-saída (

(Zl 'YI) = (X(l) v), a ~o ) , l=l, ... ,N (13)

descrevendo o mapeamento a ser realizado pela função de ativação fi. Com o objetivo de definir um

mapeamento suave j j que melhor aproxime estes N, é aplicado um modelo paramétrico unidimensional

baseado em uma combinação linear de funções ortonormais. Devido à facilidade de avaliação do valor das funções e de suas derivadas em qualquer ponto. funções de Hermite podem ser empregadas com sucesso [5]. Os polinômios de Hermite são definidos recursivamente na forma:

Ho (z) = 1; Hl (z) = 2z; ... : H p+1 (z) = 2(zHp (z) - pH p_1 (z)), p? 1 (14)

Estes polinômios permitem a definição de funções ortogonais [7] quando associados à função de ponderação

4>(z) = 1t-1/4e-Z::/2, em todo o intervalo (-00.00). e padronizados pela relação:

286 22 SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE

fCIJ ., () () () {O, se pl :;t. p2 -ClJ <P - z Hpl Z H I':. Z dz= p!2 P , se pl=p2=p

Desse modo, as funções ortonormais de Hermite são definidas na forma:

1 hp(z)= r.:-; Hp(z)<p(z). -oo<z< oo .

...;p!2 P

Utilizando funções de Hermite até ordem P, YI (/=l , ... ,lv) pode ser estimado como segue: p

~(zd = LCphp(z/) . p=1

Definindo

r 111 (Z I ) h:. (ZI) .. . hp (ZI ) l r c l l r YI l H=I hl(~2 ) ". : I, e=1 c? 1 e Y=I ·~2 1 ,

lhlÚN) I1 p (zN)J lc~J lY~J a solução ótima no sentido dos quadrados mínimos para o problema de otimização

arg minll~; - Hell produz. assumindo P ~ N,

• ( T )-1 T C = H H H y

(15)

(16)

(17)

(18)

(19)

(20)

Observe que sempre é possível encontrar P ~ I (número de colunas de H) que forneça um número de condição [6] para HTH que garanta sua inversão sem a ocorrência de problemas numéricos. Problemas numéricos poderiam surgir para valores elevados de P, pois sendo Nfinito e ZI (/=I , ... ,N) restrito a um intervalo limitado, a ortonormalidade entre as colunas de H deixa de ser satisfeita.

Utilizando a propriedade especial dos polinômios de Hermite [7] :

dHp(z) dz = 2pH p-J (z) (21)

obtém-se

dhp(z) r;;-: d2 I1p(z) r;;-: .,

~=,,2php_l(z)-zhp(z) e dz :' =2~p(p-l)hJr2 (Z)-2v2pzhp-J(z)+(Z- -1)l1p (z) . (22)

Sendo assim, derivadas de ordem 1 e 2 para }j (z) podem ser obtidas analiticamente na forma :

e (23)

pennitindo a aplicação de algoritmos de otimização não-linear utilizando diferenciação [6] para ajustar os pesos ' :"e9lm x J do neurônio} da camada intermediária. '

v. O AJUSTE DE PESOS DA CAMADA INTERMEDIÁRIA

Para cada}, fixando-se a função de ativação.,G, é possível definir ~' : 9lNxm x9lm x! 4 9lN

>: ! na fonna:

fj(x,\'j)=cr j = [.0' (X(1 )\'j) .0,(x(2)"j) ... .0 (X (N)vj)f (24)

Os valores ótimos dos pesos ' :' E 9lmx! que conectam cada elemento do vetor de entrada com o

neurônio} da camada intermediária, são obtidos resolvendo-se o problema de otimização apresentado na equação (9), reescrifo na forma:

• (f j (x, v j ) T . U j ) '2

\' j = arg max T' (25) "~ i f j (x , \' j ) • f j (x, \' j )

Como os resultados apresentados na seção anterior, \,~, pode ser obtido utilizando os mais eficientes

algoritmos de otimização não-linear irrestrita disponíveis [6].

I

\.

. , "

J ..

2! SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE

VI. O ALGORITMO DE TREINAMENTO

287

O processo de aprendizado construtivo ajusta os parâmetros de cada neurônio da camada intermediária individualmente e, quando necessário, introduz novos neurônios no sentido de melhorar o nível de aproximação até então obtido. Especificamente, é aplicado um método linear de quadrados mínimos para calcular os pesos da camada de saída, um procedimento de regressão não-linear paramétrica para obter as funções de ativação dos neurônios da camada intermediária, e um método de otimização não-linear utilizando informações de segunda ordem para determinar os pesos da camada intermediária.

Os parâmetros são atualizados neurônio-a-neurônio repetidas vezes até a convergência. Se com a configuração atual da rede neural, a convergência não produzir um valor de E (veja equação (11») menor que um limiar adequadamente especificado, um novo neurônio é adicionado na camada intermediária e o processo de ajuste é, então, repetido.

Algoritmo de Treinamento (lNxr é a matriz de dimensão Nxr com todos os elementos iguais a I): Dados X E mNxm e S E mNxr faça:

A.I. Tomej=O, D = S, e defina valores arbitrariamente pequenos para B, 8 e y;

A.2. Façaj=j+1 e atribua valores iniciais para 'J E mmxl e para os parâmetros de jj (.); A.J. Calcule os valores médios m (j) E m I x r das colunas de D, e faça fi = D - IN xr • m (j) ;

A.4. Determine a direção Uj (o componente principal de jijiT);

A.S. Calcule aj utilizando a equação (24) e faça P I = (O'~ ui) 2 / O'~ a i ;

A.6. Fixando 'j E mmxI, determine um novo jj (.) utilizando as equações (13), (17) e (20).

A. 7. Dado o novo ~" (.), calcule v ~ E mmxI, solução ótima da equação (25). Neste trabalho, este cálculo foi

realizado utilizando o Método de Newton Modificado [6];

A.8. Calcule ai utilizando a equação (24) e faça P 2 = (O'~ Ui) 2 / a~ a i ;

A.9. Se IpI - P2 1/PI "> B, faça PI = P2 e repita os passos A.6 até A.9.

A.IO. Obtenha "'{j) = (a~ai )-Ia~fi;

A.II. Calcule S = ±( ao w(a) + INxr • ma) e faça EI = IIS - Sll; 0=1

A.12. Para cada b (b=I, ... J) faça:

Calcule D = S - ±(aaW(a) + IN xr ' ma), tome} = b, e repita os passos A.J até A.9; 0=1 a~b

A.IJ. Calcule S = ±( ao w(a) + IN xr • ma) e faça E 2 = IIS - SII; 0=1

A.14. Se IEI-E21/EI > y, tome~1 = E2 e repita os passos A.12 até A.14;

A.IS. Faça D = fi - S . Se IIDII > 8, retome ao passo A.2.

VII. RESULTADOS DE SIMULAÇÃO

O algoritmo de treinamento proposto (A TP) foi testado em cinco exemplos de aproximação com duas variáveis independentes (m=2) e uma saída (r=I). Estes exemplos foram também utilizados por Hwang et ai. [5] para comparar o algoritmo de retro-propagação e um procedimento estatístico de aproximação denominado "projection pursuit learning" (PPL). Cada exemplo considera para o problema de aproximação uma das cinco

funções não-lineares G(K):[0,1]2 ~ m (K=I, ... ,5) apresentadas a seguir:

I) Função de Interação Simples: G(1)(xI ,x2) = 10,391,[(xI -0,4),(x2 -0,6)+0,36];

2) Função Radial: G(2) (XI' x2) = 24,234· [r 2 (0,75-r 2)] , com r 2 = (x1 - 0,5)2 + (x2 -0,5)2;

3) Função Harmônica: G(3) (x1 ,x2) = 42,659 .[0,I+x1 (0,05+xt -IOx/xi +5xi)], com x1/2 = X1/2 -0;5;

4) Função Aditiva: G(4\X1 ,x2) = 1,3356· [l,5(I-xJ )+e2X!-1se~31t(xJ -0,6)2) +e3X2-1,5se~ 41t(X2 -0,9)2)];

5) Função de Interação Complicada: G(5) (XI ,X2) = 1,9· [1,35+e X!-X2 sen(13(x1 -0,6)2) .sen(7X2 )].

288 2º SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE

As variáveis independentes {XII, X12} (/=1, ... ,225) foram geradas com base em uma distribuição unifonne de valores aleatórios no intervalo [0,1]. A matriz de variáveis independentes X E m225x2 é a mesma para os cinco exemplos. O nível de aproximação é avaliado através da comparação dos valores preditos pelo modelo (usando rede neural com uma camada internlediária) com os valores de um conjunto de dados de entrada-saída para teste (independente dos dados para treinamento), com dimensão N=10000. A comparação é baseada na fração de variância não-explicada (FVNE) dada na fOrnla:

L~l (ê;(l0 (X (1) ) - G(K) (X(I)) 2 FVNE K = 2' com K=I, ... ,5 (26)

L~1 (G(J,.') (X(I) - C(K) (X(I))

Quando comparado com o PPL, o A TP fornece os seguintes resultados (n representa o número de neurônios na camada internlediária):

G1 G2 G3 G4 G5

PPL ATP PPL ATP PPL ATP PPL ATP PPL ATP

I n 3 2 3 3 5 5 3 3 5 5 IFVNE .00000 .00000 .00860 .00222 .00001 .00000 .00076 .00004 .01531 .01785

Após convergência, os resultados fornecidos pelos dois algoritmos são semelhantes. No entanto, como a matriz de pesos W (veja equação (6» não contribui para a obtenção de aproximação exata, o ATP fornece uma solução ótima para W através de uma expressão algébrica, isto após a definição iterativa dos outros parâmetros. Este procedimento faz com que o A TP seja mais eficiente que o PPL, que só pode chegar a valores sub-6timos para W através de iterações sucessivas de todo o algoritmo.

VIII. CONCLUSÃO

O aprendizado construtivo utilizando combinações lineares de funções ortonornlais como ativação para os neurônios da camada internlediária mostrou-se eficaz na aproximação de diversos tipos de mapeamentos não-lineares. Para cada problema de aproximação, o principal fator que contribui para este desempenho favorável está diretamente relacionado à possibilidade de se obter funções de ativação ótimas com relação aos dados para treinamento supervisionado, sem abrir mão de propriedades como continuidade e diferenciabilidade em todos os pontos do domínio.

Dada a tarefa de aproximação, a rede neural resultante contém um número mínimo de neurônios na camada intennediária~ uma propriedade importante na garantia de bom desempenho a nível de generalização, além de representar uma possibilidade de implementação serial mais rápida ou uma implementação paralela mais econômica a nível de recursos computacionais.

Finalmente, os resultados de simulação pernlitem verificar o desempenho do algoritmo de treinamento proposto, mais eficiente que o "projection pursuit learning", o qual, por sua vez, já foi demonstrado ser pelo menos tão eficiente quanto o tradicional algoritmo de retro-propagação aplicado ao perceptron multi-camadas [5].

IX. REFERÊNCIAS CITADAS

[1] F. Bãnnann and F. Biegler-Kõnig "On a Class of Efficient Leaming AIgorithms for Neural Networks", Neural Networks, vo1. 5, no. I, pp. 139-144, 1992.

[2] l Ghosh and K. Tumer, "Structural Adaptation and Generalization in Supervised Feed-forward Networks", Joumal of Artificial Neural Networks, vo1. 1, no. 4, pp. 431-458,1994.

[3] R. Hecht-Nielsen, Neurocomputing, Addison-Wesley Publishing Company, 1990. [4] K. Homik, "Multilayer feedforward networks are universal approximators", Neural Networks, vo1. 2, no. 5,

pp. 359-366, 1989. [5] l-No Hwang, S.-R. Lay, M. Maechler, R.D. Martin and J. Schimert, "Regression Modeling in Back

Propagation and Projection Pursuit Learning", IEEE Transactions on Neural Networks, vo1. 5, no. 3, pp. 342-353, 1994.

[6] D.G. Luenberger, Linear and Nonlinear Programming, Addison-Wesley Publishing Company, 1989. [7] W. Magnus, F. Oberhettinger and R.P. Soni, Formulas and Theorems for the Special Functions of

Mathematical Physics, Springer-Verlag, 1966.

,/

'-;

'11

aprendizado construtivo para redes neurais com uma camada … · a rede neural resultante apresenta...

Documents