estruturas de controle preditivo neural com … · diferenciais dos estudos de newton e leibniz. no...

Anais do 14O Encontro de Iniciação Científica e Pós-Graduação do ITA – XIV ENCITA / 2008

Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, Outubro, 20 a 23, 2008.

ESTRUTURAS DE CONTROLE PREDITIVO NEURAL COM DERIVADAS

MÉDIAS PARA REPRESENTAÇÃO E CONTROLE EM PROBLEMAS DINÂMICOS NÃO-LINEARES

Ricardo Itiro Sabota Tominaga

ITA - Instituto Tecnológico de Aeronáutica, H8-C, 325 Praça Mal. Eduardo Gomes, nº50 - Campus do CTA, 12228-900, São José dos Campos - SP Bolsista PIBIC-CNPq [email protected] Paulo Marcelo Tasinaffo

ITA - Instituto Tecnológico de Aeronáutica, Divisão de Ciência da Computação Praça Mal. Eduardo Gomes, nº50 - Campus do CTA, 12228-900, São José dos Campos - SP [email protected]

Resumo. A representação matemática de um sistema dinâmico não-linear passa, necessariamente, por uma série de análises. A

primeira delas, que é um dos objetivos desse projeto, é a utilização de redes neurais para a referida representação. Partindo-se

desse princípio vêm escolhas subseqüentes baseadas na análise do problema em questão. Primeiramente, a definição do tipo de

sistema dinâmico e, em seguida, a seleção de um integrador numérico adequado para esse sistema. Então, define-se a rede neural e

com ela a metodologia, topologia e algoritmos de treinamento. Depois de treinada a rede neural com a aproximação desejada,

realiza-se o controle, ou seja, calcula-se qual deve ser a função que rege as variáveis de controle para que o sistema se aproxime de

trajetórias de referência pré-determinadas. Neste trabalho são utilizadas estruturas de controle preditivo que através da otimização

de um funcional quadrático, cujo vínculo, é uma rede neural, consegue-se o rastreio e controle através de uma trajetória de

referência. A rede neural é projetada com o conceito de derivas médias acoplada a uma estrutura de integração simples do tipo

Euler. No final são apresentados dois estudos de caso, um referente ao sistema massa-mola linear de segunda-ordem e outro não-

linear referente ao pêndulo invertido.

Palavras-chave: rede neural, estruturas de controle preditivo, sistema dinâmico não-linear, algoritmos de treinamento

neural, algoritmo backpropagation, filtro de Kalman.

1. Introdução. 1.1. Pequeno histórico

No século XVII, aproximadamente, surgiram o cálculo diferencial e integral e as primeiras equações diferenciais dos estudos de Newton e Leibniz. No século XVIII, Gauss e Legendre contribuíram para o desenvolvimento da teoria da estimação ou mínimos-quadrados a partir do cálculo diferencial e integral. No fim do século XIX, Poincaré veio à tona com a teoria qualitativa das equações diferenciais, as quais permitem a análise de estabilidade de soluções de sistemas dinâmicos autônomos. Nesta época já se constatava que a solução geral para sistemas dinâmicos não-lineares era um questão muito difícil de ser considerada. No início do século XX C. Runge e M. W. Kutta desenvolveram integradores numéricos de alta ordem, permitindo a solução discreta de sistemas dinâmicos não-lineares e não-autônomos determinísticos. Em 1957, Kolmogorov prova a possibilidade de se representar qualquer função do espaço n-dimensional através de uma combinação linear de funções não-lineares limitadas e unidimensionais, ou seja, surge a possibilidade de um interpolador universal de funções.

Em 1989, Hornik et al. [1] adapta o trabalho de Kolmogorov para as redes neurais artificiais, demonstrando definitivamente a existência de um interpolador universal de funções. Entre 1990 e 1992, Narendra, Parthsavarathy, Hunt e Sbarbaro [4] realizam a representação de sistemas dinâmicos a partir das redes backpropagation aplicados em teoria de controle. Em 1998, Wang e Lin [8] fazem a representação de sistemas dinâmicos a partir das redes backpropagation inseridas em estruturas de integração numérica de alta ordem. Entre 2002 e 2006 Rios Neto e Tasinaffo [3][6][7]apresentam um conjunto de papers abordando redes neurais e estruturas de integração numérica na representação de sistemas dinâmicos não-lineares e aplicação em controle.

Este trabalho proprõe uma aplicação de modelagem dinâmica não-linear aplicada a controle e através de uma estrutura de controle preditivo neural [5][6]. Esta metodologia consiste em resolver um problema de estimação não-linear, cujo o vínculo é uma rede neural com arquitetura feedforward. Para tanto, antes é preciso definir a metodologia de modelagem neural utilizada. A literatura apresenta três metodologias distintas para isto: Metodologia NARMA (NonLinear Auto Regressive Moving Average) [4][5], método das derivadas instantâneas [7][8] e método das derivadas médias [3]. Aqui é utilizado o método das derivadas médias para representação da dinâmica não-linear proposta, que utiliza uma rede neural inserina numa estrutura de integração numérica simples do tipo Euler. É provado por Tasinaffo,

Anais do XIV ENCITA 2008, ITA, Outubro, 20-23, 2008

,

2003 [3] que esta metodologia consegue qualquer precisão equivalente aos integradores de mais alta ordem. O treinamento neural é realizado através de um aprendizado supervisionado utilizando dois algoritmos distintos, o algoritmo clássico backpropagation e o filtro de Kalman com processamento recursivo e paralelo [9]. Finalizado o trienamento neural, a rede feedforward é inserida como um vínculo num funcional quadrático, que caracteriza as estruturas de controle preditivo e um novo algoritmo de otimização é utilizado para encontrar trajetórias de controle suaves, que rastreem uma trajetória de referência pré-fixada. É importante observar que o treinamento da rede feedforward é realizado em off time, enquanto que o problema de controle deve ser resolvido em tempo real. Desta forma, este artigo está dividido da seguinte forma: na seção 2 é dada uma introdução sobre redes neurais artificiais, na seção 3 são desenvolvidos os métodos de modelagem dinâmica neural através da metodologia NARMA e pelas Derivadas Médias, na seção 4 são apresentadas as descrições das metodologias de treinamentos neurais, na seção 5 uma breve introdução à teoria de controle envolvendo as estruturas de controle preditivo, na seção 6 são apresentados resultados e simulações computacionais para dois estudos de caso, e, finalmente, na seção 7 conclusões e considerações finais.

2. Redes neurais artificiais. 2.1. O que são redes neurais artificiais? Existem diversas formas de se definir uma rede neural artificial [10]. Pode-se definir rede neural artificial como uma notação gráfica para uma classe de algoritmos que surgiram nas últimas décadas. Pode-se entender rede neural artificial como uma “imitação” de uma rede neural natural, ou seja, o ser humano está tentando simular, em parte, as funcionalidades de uma rede neural que ocorre na natureza. E também, para um melhor entendimento do aspecto computacional, pode ser vista como uma interconexão de neurônios, sendo que as saídas de um neurônio estão conectadas a outros neurônios através de pesos. Além disso, as redes neurais artificiais do tipo feedforward são, com relação ao aspecto matemático, aproximadores universais de funções [1]. 2.2. Aplicações das redes neurais. A utilidade das redes neurais artificiais se baseia no fato de que elas têm a capacidade de “aprender” padrões empiricamente, ou seja, basta a apresentação de dados coerentes com um modelo, ou sistema, em numero suficiente e utilizando-se a metodologia correta que a rede aprenderá a “lógica” do evento. Algumas das utilidades das redes neurais artificiais são: reconhecimento de padrões, sistemas de auxílio ao diagnóstico, robótica inteligente, previsões, sistemas de controle, processamento de sinais, processamento de linguagem natural e mineração de dados. A figura 1 representa o neurônio generalizado.

Figura 1 - Representação do Neurônio Generalizado.

A dinâmica linear pode ser representada matematicamente da seguinte forma:

0 1x x Sα α+ =& (1)

onde, 0 1e α α são constantes e )x(a é o termo não-linear. Um exemplo particular para o neurônio generalizado é o

neurônio perceptron, utilizado nas redes feedforward, onde 0 1=0 e 1 x Sα α = ⇒ = e


,

1

12

( ) 11

x

x

e

a xe

x

λ

λ

−

−

+

= −+

(2)

Na equação (2) a primeira função é denominada logsig, a segunda função tansig e a terceira puramente linear. 2.4. Classificação das redes. 2.4.1. Rede feedforward. As principais características das redes feedforward são: estática, por essa razão os problemas de instabilidade são irrelevantes, possui aprendizado supervisionado, ou seja, os dados de entrada e saída são fornecidos para treinamento e teste das redes, e podem ser conectadas em cascata para formarem redes multicamadas. 2.4.2. Rede feedback. As principais características das redes feedback são: dinâmica, possui aprendizado não supervisionado através de retroalimentação, pode ser conectada em cascata. 2.4.3. Arquitetura backpropagation. A arquitetura backpropagation é uma das mais usadas atualmente. Ela permite a classificação de problemas não-lineares. A função de ativação do neurônio perceptron na camada oculta deve ser limitada, contínua e não-decrescente. O número de neurônios na camada oculta é determinado por tentativa e erro, ou seja, pelo método empírico. Pode-se tentar utilizar mais de uma camada oculta com o objetivo de se diminuir o número total de neurônios da rede.

Figura 2 - Arquitetura da Rede Backpropagation.

A figura 2 mostra uma configuração típica da arquitetura backpropagation, bem como as conexões entre neurônios e as modificações que a informação sofre ao passar pelos diversos setores e camadas da rede. A entrada principal é u , a qual é simplesmente distribuída pelos primeiros neurônios e atingem a matriz de pesos 1w ,

transformando-se em 1.u w . Essa informação chega ao neurônio perceptron, que a transforma em v e a redistribui para


,

atingir a matriz de pesos 2w , transformando-se em 2.v w . Os últimos neurônios simplesmente somam o valor de 2.vw ,

transformando-o em x , que sai da rede. 2.5. Treinamento de uma rede feedforward backpropagation. Existem, atualmente, diversos algoritmos de treinamento de uma rede feedforward com arquitetura backpropagation. Dentre eles estão o método do gradiente, método de Levenberg-Marquardt [12] e o filtro de Kalman [9] [11]. O método de Levenberg-Marquardt se baseia numa aproximação do método de Newton, já o filtro de Kalman utiliza conceitos de variáveis aleatórias para a determinação dos pesos sinápticos. O método do gradiente será exposto a seguir. 2.5.1. Método do gradiente. O método do gradiente se baseia na retropropagação do erro de camadas subseqüentes. Quando um padrão é passado pela rede e atinge a camada de saída, o erro quadrático é computado. Esse erro será utilizado para alterar os pesos que ligam os neurônios da camada de saída aos da camada anterior. Para as camadas internas, o erro também é computado, não tão facilmente quanto o da camada de saída, uma vez que é uma compilação de erros de várias camadas, e é utilizado para variar os pesos que ligam a camada em questão à camada anterior. A expressão para a correção dos pesos da camada de saída K é:

, , 1K p K p K

ij i j

p

w Oγ δ −∆ = ∑ (3)

, , , ,( )( )p K p K p K p K

i i i if a d Oδ ′= − (4)

, , 1p K p K

i ij j i

j

a w O θ−= −∑ (5)

Onde, i refere-se ao i -ésimo neurônio na camada K , j refere-se à j -ésima entrada o i -ésimo neurônio,

p refere-se ao p -ésimo padrão de treinamento, iO refere-se à saída do i -ésimo neurônio, id é a saída esperada para

o i -ésimo neurônio, γ é a taxa de aprendizado, f é a função de ativação dos neurônios e ijw é o peso da j -ésima

entrada do i -ésimo neurônio.

A expressão K

ijw∆ da correção dos pesos da camada de saída depende apenas dos valores de saída e de entrada

da própria camada bem como a saída do padrão de treinamento, ou seja, é onde o erro é gerado. Assim, a expressão da

correção dos pesos das camadas internas k , ou seja, k

ijw∆ pode ser expressa por:

, , 1k p k p k

ij i j

p

w Oγ δ −∆ = ∑ (6)

, , 1 1( )p k p K k k

i i ij j

j

f a wδ δ+ +′= ∑ (7)

Desta forma, a expressão k

ijw∆ da correção dos pesos da camada de saída depende dos valores de entrada da

própria camada e do δ da camada seguinte, o que implica saber os δ de todas as camadas seguintes até a camada de saída, ou seja, o erro é propagado de camada em camada desde a camada de saída. 3. Representação de sistemas dinâmicos. Serão abordadas duas metodologias principais de representação de sistemas dinâmicos: NARMA e derivadas médias.


,

3.1. Metodologia NARMA. A metodologia NARMA se baseia na técnica de entradas atrasadas [13]. Essa técnica utiliza dados de estados em tempos anteriores para propagar uma solução. Suponha um sistema dinâmico de primeira ordem cuja dinâmica já foi "aprendida" por uma rede neural utilizando-se a metodologia NARMA e passo t∆ . Assim, dado o estado ( )y t ,

deseja-se saber o estado ( )y t n t+ ∆ , para n inteiro. Tem-se então, que passar por todos os estados intermediários para

propagar a solução até esse momento, ou, de forma esquemática:

Figura 3 - Esquemática da Simulação de uma RN com Metodologia NARMA.

Para um sistema de ordem k , m variáveis de estado e p variáveis de controle o esquema da rede será o

seguinte:

Figura 4 - Representação das Entradas e Saídas de uma Rede com Metodologia NARMA.

Os padrões de treinamento têm que ser tais que respeitem a configuração de entradas e saídas. Um sistema de ordem k deve possuir, para a metodologia NARMA, necessariamente, k entradas atrasadas. 3.2. Metodologia de derivadas médias. . O método das derivadas médias baseia-se no treinamento da rede com a função de derivadas médias, que é a função que descreve a tangente do ângulo formado entre os pontos ( , ( )) e ( , ( ))t y t t t y t t+ ∆ + ∆ e o eixo das abscissas.

3.2.1 Treinamento por derivadas médias. Para se representar um sistema dinâmico através de suas derivadas médias deve-se fornecer como entradas os

valores de 1 1( ),..., ( ), ( ),..., ( )m p

y t y t u t u t , e como saídas os valores de

1 1

1 1

( ) ( )( ) ( ),..., ,

( ) ( )( ) ( ),...,

m m

p p

y t t y ty t t y t

t t

u t t u tu t t u t

t t

+ ∆ −+ ∆ −

∆ ∆

+ ∆ −+ ∆ −

∆ ∆

(8)

3.2.2 Simulação Para simular o sistema dinâmico cuja função de derivadas médias já foi "aprendida" por uma rede neural utilizando a metodologia de derivadas médias, basta fornecer o estado inicial para a rede ( )y t e multiplicar o sinal de

saída pelo passo t∆ somando esse valor ao sinal de entrada, tem-se então o estado final ( )y t t+ ∆ .


,

4. Algoritmos de treinamento neural.

4.1. Detalhes teóricos. Os métodos de treinamento utilizados aqui se baseiam na utilização de dois algoritmos clássicos: o método do gradiente [4] e o filtro de Kalman com processamento paralelo e recursivo [9]. Primeiramente, devem-se analisar algumas características dos dois algoritmos. Abaixo está a tabela 1 comparativa entre os dois algoritmos.

Tabela 1 - Tabela Comparativa Entre os Algoritmos de Treinamento Utilizados.

Características\Algoritmo Método do Gradiente

Filtro de Kalman

Velocidade de convergência Rápida Lenta

Estagnação Grande

possibilidade

Pequena

possibilidade

Nº. de iterações Grande Pequeno

Regressão* de treinamento Ocorre Não ocorre

OBS: A tabela Tab.1 foi obtida por observação do comportamento de curvas de treinamento e teste em termos do erro quadrático médio. A tabela 1 mostra que o método do gradiente tem velocidade de convergência rápida em relação ao filtro de Kalman, portanto, dever-se-ia preferir a utilização daquele algoritmo a esse. No entanto, o método do gradiente pode apresentar estagnação e regressão, o que impediria de se atingir o erro esperado, ou deixaria o treinamento muito lento. Então, caso esses eventos aconteçam, pode-se interromper o treinamento e aplicar o filtro de Kalman temporariamente, até que o treinamento volte a prosseguir como desejado, uma vez que, o filtro de Kalman garante certa margem de segurança com relação à regressão e à estagnação. O filtro de Kalman, apesar dessa margem de segurança, não deve ser utilizado longamente, pois sua velocidade de convergência é lenta em relação ao método do gradiente. *A regressão ocorre quando a curva de treinamento ou teste começa a "subir", ou seja, o erro médio quadrático começa a aumentar, ao invés de diminuir.

4.2 Descrição Breve dos Algoritmos. O método será descrito por passos.

1. Primeiramente, treina-se a rede com o método do gradiente. Poderão ocorrer três eventos durante o treinamento: Estagnação (passo 2), regressão (passo 2) ou o erro médio quadrático objetivado ser atingido (passo 3).

2. Em caso de estagnação ou regressão, interrompe-se o treinamento, e aplica-se o filtro de Kalman (passo 4).

3. Ao se atingir o erro médio quadrático objetivado, finaliza-se o treinamento. 4. A aplicação do filtro de Kalman serve para retirar o "estado de treinamento da rede" da zona de

estagnação. Portanto, aplica-se o filtro de Kalman até que as curvas de treinamento e teste voltem a "cair", e saiam da zona de estagnação. Fora da zona da estagnação, pode-se voltar a treinar a rede com o método do gradiente (passo 5).

5. Ao se retornar à aplicação do método do gradiente, poderá ocorrer um salto de regressão, o qual deverá ser ignorado por enquanto, uma vez que é esperada uma subseqüente queda nas curvas de treinamento e teste. Caso as curvas de treinamento e teste estejam indicando uma possível estagnação, deve-se esperar que a rede consiga um erro médio quadrático menor que o imediatamente anterior ao salto de regressão, interrompe-se o treinamento e retorna-se ao filtro de Kalman (passo 4), ou utiliza-se a rede imediatamente anterior ao salto de regressão para voltar ao filtro de Kalman (passo 4). Alternativamente, se as curvas de treinamento e teste apresentarem queda íngreme, continua-se o treinamento até atingir o erro médio quadrático objetivado (passo 3).

5. Controle. O assunto "controle" em si é muito abrangente e aborda diversos problemas. O problema em questão para esse projeto consiste em se encontrar funções que descrevam o comportamento de determinada variável de controle, para que o sistema dinâmico, o qual é representado por uma rede neural, persiga determinadas trajetórias de referência. Para


,

se determinar essas funções, algumas condições são necessárias: a situação imposta pelas trajetórias de referência deve ser controlável, o controle deve ser feito de forma que o sistema não saia do intervalo de treinamento e a variável de controle não pode ultrapassar o intervalo de treinamento, sua função deve ser suave e, como se está considerando um sistema dinâmico real, deve-se representar uma situação aplicável. O método de controle preditivo neural consiste em resolver um problema de otimização de um índice quadrático de desempenho, cujo vínculo é a rede já treinada com a dinâmica do sistema desejado [2]. O próprio modelo da rede neural é utilizado como modelo de resposta para determinar a política de controle suave [4] ou [5]. No esquema da figura 5 os problemas associados ao treinamento da rede neural feedforward e da determinação da política de controle suave são ambos vistos e tratados de uma maneira integrada como problemas de estimação linear estocástica de parâmetros. O tipo de abordagem elaborada aqui permite ver o problema de controle ótimo em uma estrutura estocástica mais geral e derivar versões de algoritmos de controle com processamento paralelo ou não [7] que são formalmente equivalentes às versões do filtro de Kalman derivadas e utilizadas para o problema de treinamento da rede neural feedforward [9].

Figura 5 - Esquema de Otimização Neural para a Determinação da Política de Controle Suave u(t) que

Rastreará a Trajetória de Referência r(t).

O problema que se deseja resolver é o de controlar o sistema dinâmico dado por, u)f(x,x =& (9) onde um modelo de entrada/saída não-linear discretizado no tempo é utilizado para predizer respostas aproximadas do sistema dado em (9):

w)),u(t ..., ),u(t );y(t ..., ),f(y(t)(tyun-j1-jyn-j1-jj = (10.a)

onde,

tjtt j ∆⋅+= (10.b)

O esquema de controle preditivo neural utiliza-se de uma rede feedforward que possui a habilidade de aprender com precisão desejada um mapeamento como aquele representado por (10.a) para modelar o sistema dinâmico da equação (9). O modelo interno representado pela rede será então o modelo de resposta que poderá ser utilizado para determinar as ações de controle suaves que rastrearão a trajetória de referência por minimizar um índice de performance preditivo quadrático [4][5] em uma estrutura de controle preditivo. O índice de performance ou funcional desta estrutura de controle é dado por:

]/2)]u(t-)[u(t(t)r)]u(t-)[u(t

)](ty-)(t[y(t)r)](ty-)(t[y[J

1-n

0j

1-jj1-

uT

1-jj

n

1j

jjr1-

yT

jjr

∑

∑

=

=

⋅⋅

+⋅⋅=

(11)

onde,

)(ty jr ... trajetória de referência no instante tj;

n ... horizonte em que as ações de controle e trajetórias de referência são consideradas;

)(tr jy e )(tr ju ... matrizes de pesos definidas positivas;

)(ty j ... saída da rede feedforward treinada para aproximar o modelo do sistema dinâmico.


,

A saída da rede feedforward )(ty j é representada pela expressão (10.a). Os parâmetros ou pesos w desta rede já

devem ter passado por um treinamento que produza uma saída na rede com um erro dentro de uma tolerância aceitável. O primeiro termo do funcional da equação (11) está associado ao rastreio da trajetória de referência e o segundo termo na determinação de uma política de controle suave. Quando este funcional é minimizado espera-se que estas duas condições sejam satisfeitas simultaneamente Em uma estrutura de controle preditivo basicamente visa-se rastrear continuamente uma trajetória de referência e, portanto trabalha-se em malha fechada. Por outro lado, a trajetória de referência pode ser determinada, por exemplo, por técnicas numéricas de controle ótimo numérico visando-se encontrar trajetórias de mínimo tempo ou mínimo combustível. Deste modo, a determinação da trajetória de referência, em geral, se dá em malha aberta. O problema de determinação das ações de controle preditivo pode ser tratado também como uma estimação linear ótima de parâmetros permitindo, assim, a derivação e utilização de um algoritmo do tipo Filtro de Kalman. 6. Resultados e Testes. Esta seção é dividia em três partes: a primeira com resultados referentes ao treinamento neural de dois estudos de caso, a segunda com teste e simulação aleatórios para validação dos treinamentos obtidos e a terceira com relação à simulação do controle sobre trajetórias de referência pré-estabelecidas. 6.1 Simulação da Dinâmica. Serão apresentadas duas aplicações em controle, um no sistema massa mola amortecido e outra no sistema pêndulo invertido. Para isso, será mostrado todo o processo de obtenção do controle final. Assim, inicialmente para o sistema massa/mola linear , que é dado pelo seguinte sistemas de equações diferenciais lineares,

1 2

2 1 2( ) /

x x

x F kx cx m

=

= − −

&

& (12)

Para este primeiro estudo de caso, obteve-se a configuração de treinamento dada pela tabela 02 expressa abaixo.

Tabela 02 – Desempenho da Aprendizagem Supervisionada para o Exemplo do Sistema Dinâmico Linear de Segunda-Ordem Massa-Mola.

DADOS DE TREINAMENTO – Sistema Linear Massa/Mola - Constantes da Dinâmica m=1.0, k=1.0 e c=0.1

Algoritmo de Treinamento Método do Gradiente Metodologia Utilizada Método das Derivadas Médias

Total de Variáveis de Estado 2 Total de Variáveis de Controle 1 Total de Padrões de

Treinamento 800 Porcentagem de Padrões

Deixada para Teste 20%

Domínio Inferior da Variável de Estado 1/2

-0.10 Domínio Superior da Variável de Estado ½

0.10


-0.10 Domínio Superior da Variável de Estado 2/2

0.10

Domínio Inferior da Variável de Controle 1/1

-0.15 Domínio Superior da Variável de Controle 1/1

0.15

Discretização do Tempo 0.01 Número TOTAL de Neurônios da Camada INTERNA Número

1/1

2 Função de Ativação dos Neurônios da Camada Interna

TANSIG (Lambida = 2)

Função de ativação dos neurônios da camada de saída

Puramente Linear

Taxa de Aprendizado do Algoritmo de Treinamento [0,1]

0.01 Erro Máximo a Ser Alcançado Pelo Treinamento de Rede

10^-7

Número Máximo de Iterações (Épocas) do Treinamento

100000

Desempenho Computacional Alcançado Pelo Treinamento Término na Iteração Número 47400/100000 com ERRO(Padrões de TESTE) = 7.0784e-006

No segundo estudo de caso considerado, e mais interessante, é o do pêndulo invertido, cujo sistema de equações diferenciais não-lineares é dado por:


,

1 2

2 2 21 2 4 3 3 3

2 2 23

3 4

21 2 4 3 3 3

4 2 23

[ sin( )]( ) ( ) sin( ) cos( )

( )( ) [ cos( )]

{[ sin( )]cos( ) ( ) sin( )}

[ cos( )] ( )( )

x x

u bx mlx x I ml ml g x xx

I ml M m ml x

x x

u bx mlx x x M m g x mlx

ml x I ml M m

=

− + + + = + + −

= − + + + =

− + +

&

&

&

&

(13)

Para este segundo estudo de caso, obteve-se a configuração de treinamento dada pela tabela 03 expressa abaixo. Tabela 03 – Desempenho da Aprendizagem Supervisionada para o Exemplo do Sistema Dinâmico Não-Linear de

Segunda-Ordem do Pêndulo Invertido. DADOS DE TREINAMENTO – Sistema Não-Linear -

Constantes da Dinâmica M=1.0, m=0.4, l=0.5, I=0.05, b=0.1 e g=10.0. Algoritmo de Treinamento Método do Gradiente -> Filtro de Kalman com Processamento Paralelo e Recursivo -> Método do Gradiente.

Metodologia Utilizada Método das Derivadas Médias Total de Variáveis de Estado 4 Total de Variáveis de Controle 1

Total de Padrões de Treinamento

1200 Porcentagem de Padrões Deixada para Teste

20%


-5 Domínio Superior da Variável de Estado 1/4

+5



+4


-1.2 Domínio Superior da Variável de Estado ¾

+1.2



+5

Domínio Inferior da Variável de Controle 1/1

-5 Domínio Superior da Variável de Controle 1/1

+5

Discretização do Tempo 0.01 Número TOTAL de Neurônios da Camada INTERNA Número

1/1

31 Função de Ativação dos Neurônios da Camada Interna

TANSIG (Lambida = 2)

Função de ativação dos neurônios da camada de saída

Puramente Linear

Taxa de Aprendizado do Algoritmo de Treinamento [0,1]

0.01 Erro Máximo a Ser Alcançado Pelo Treinamento de Rede

10^-7

Número Máximo de Iterações (Épocas) do Treinamento

150000

Desempenho Computacional Alcançado Pelo Treinamento do Gradiente Término na Iteração Número 59500/150000 com ERRO(Padrões de TESTE)=2.1468e-005

Desempenho Computacional Alcançado Pelo Treinamento do Filtro de Kalman com Processamento Recursivo e Paralelo TAXA DE APRENDIZADO do Algoritmo de Treinamento [0,1]: 0.01

ERRO MÁXIMO a Ser Alcançado Pelo Treinamento da Rede [0,10]: 10^-7 Número Máximo de ITERAÇÕES (ÉPOCAS) do Treinamento: 100

Valor do ruído: 10^-4 Grau de paralelismo da camada INTERNA: 1 Grau de paralelismo da camada de SAÍDA: 1

Término na Iteração Número 100/100 com ERRO(Padrões de TESTE)=1.9791e-005 Desempenho Computacional Alcançado Pelo Treinamento do Gradiente

Término na Iteração Número 19800/100000 com ERRO(Padrões de TESTE)=7.0543e-006

6.2 Simulação com controle aleatório. Esta seção mostra a simulação dos sistemas dinâmicos com condições iniciais diferentes de zero e política de controle aleatória. O objetivo aqui é mostrar a proximidade da resposta da rede neural com a do sistema integrado numericamente pelo método numérico Runge-Kutta. A tabela 4 mostra os dados numéricos utilizados para o exemplo do sistema Massa/Mola e a figura 6 mostra os resultados gráficos obtidos. Por outro lado, a tabela 05 e a figura 07 mostram, respectivamente, os dados numéricos utilizados na simulação para o caso do pêndulo invertido não-linear e os resultados gráficos.


,

Tabela 04 – Dados de Simulação Para o Sistema Massa/Mola. Parâmetros de Simulação

Condição Inicial Número 1: -0.05 Condição Inicial Número 2: -0.05 Instante Inicial da Simulação Dinâmica: 0 Instante Final da Simulação Dinâmica: 20 Intervalo Inferior da Variável de Controle Número 1:

-0.01

Intervalo Superior da Variável de Controle Número 1:

+0.01

Figura 6 - Resposta do Sistema (Variáveis de Estado) Com Zoom In da Variável de Estado 2 (VE2).

Tabela 05 – Dados de Simulação Para o Sistema Não-Linear do Pêndulo Invertido.

Parâmetros de Simulação Condição Inicial Número 1: -0.5 Condição Inicial Número 2: +0.1 Condição Inicial Número 3: +0.1 Condição Inicial Número 4: -0.1 Instante Inicial da Simulação Dinâmica: 0 Instante Final da Simulação Dinâmica: 5 Intervalo Inferior da Variável de Controle Número 1: -0.1 Intervalo Superior da Variável de Controle Número 1: +0.1

Figura 7 - Resposta do Sistema (Variáveis de Estado) com Zoom In da Variável de Estado 2 (VE2).

A partir destas simulações gráficas pode-se dizer que as redes neurais aproximaram bem os sistemas dinâmicos propostos, uma vez que as reações obtidas, tanto pela integração com Runge-Kutta sobre os modelos teóricos propostos, quanto pela aprendizagem das redes neurais consideradas estão bem próximas umas das outras.


,

6.3 Controle. Esta seção mostra o comportamento da variável de controle, bem como as trajetórias de referência e reação do sistema à política de controle. A tabela 06 e as figuras 08 e 09 ilustram os resultados gráficos para o sistema-linear massa/mola considerado. Por outro lado, a tabela 07 e as figuras 10 e 11 ilustram os resultados obtidos na simulação para o sistema não-linear considerado, ou seja, para o caso do pêndulo invertido.

Tabela 06 – Dados de Simulação e Controle Para o Sistema Massa/Mola. Parâmetros de Simulação

Horizontes de Controle a Frente: 1 Instante Inicial da Estimação: 0 Instante Final da Estimação: 20 Constante [0,1] que Garante a Hipótese de Linearização: 0.01 Número Máximo de Iterações do Filtro de Kalman de Cada Previsão: 30 Ponderação da Matriz de Covariâncias de Vu: 1 Ponderação da Matriz de Covariâncias de Vy: 10^-4 Valor Constante dos Controles a Priori: 0 Área Absoluta Máxima Diferencial Desejável: 10^-2

Figura 8 - Resposta do Sistema (Variáveis de Estado) à Política de Controle e as Trajetórias de Referência

Propostas.

A trajetória de referência foi obtida utilizando-se alguns pontos provenientes da integração do sistema por Runge-Kutta, o que garante a controlabilidade do sistema. Mesmo assim, percebe-se pela figura 8 que a trajetória realizada ainda está um pouco fora da de referência, isso se deve ao fato de os pontos de referência terem sido interpolados por um polinômio de alta ordem.

Figura 9 - Política de Controle (Função Correspondente à Força).

Pode-se observar que a função obtida correspondente à força é suave.

Tabela 07 – Dados de Simulação e Controle Para o Sistema Não-linear ou Pêndulo Invertido. Parâmetros de Simulação

Horizontes de Controle a Frente: 5 Instante Inicial da Estimação: 0 Instante Final da Estimação: 5 Constante [0,1] que Garante a Hipótese de Linearização: 0.01 Número Máximo de Iterações do Filtro de Kalman de Cada Previsão: 50 Ponderação da Matriz de Covariâncias de Vu: 1 Ponderação da Matriz de Covariâncias de Vy: 10^-4 Valor Constante dos Controles a Priori: 0 Área Absoluta Máxima Diferencial Desejável: 10^-2


,

A trajetória de referência foi obtida utilizando-se alguns pontos provenientes da integração do sistema por Runge-Kutta, o que garante a controlabilidade do sistema. Mesmo assim, percebe-se pela figura 10 que a trajetória realizada se distancia bastante da referência a partir do tempo igual a 4 segundos, isso se deve ao fato de os pontos de referência terem sido interpolados por um polinômio de alta ordem, e a parte final da trajetória de referência não representar mais uma situação bem controlável. A função correspondente à força é suave, excetuando-se um momento após o tempo de 4 segundos, exatamente quando a referência é deformada pela interpolação com o polinômio de alta ordem.

Figura 10 - Resposta do Sistema (Variáveis de Estado) à Política de Controle e Trajetórias de Referência.

Figura 11 - Política de Controle (Função Correspondente à Força).

6. Conclusão. A primeira parte do projeto consistiu basicamente da coleta e estudo de bagagem teórica para que posteriormente pudesse ser realizada a parte de aplicação. Este primeiro contato com os assuntos de sistemas dinâmicos, integradores, redes neurais e representação de sistemas dinâmicos permitiu uma visão geral, mas com foco prático. A segunda parte permitiu o aprendizado de todo o processo de obtenção de um controle seguindo uma seqüência de passos, os quais envolveram o treinamento e simulação de uma rede neural, a obtenção de trajetórias de referência controláveis e a obtenção do controle preditivo em si. O estudo do controle preditivo neural é muito importante para qualquer atividade mecânica que exija automatização, uma vez que permite o controle suave e com atualização em tempo real. 7. Agradecimentos. O aluno gostaria de agradecer ao professor Paulo Marcelo Tasinaffo pelo apoio e atenção dispensados na realização desse projeto, sem os quais seria impossível a realização dele. Um agradecimento especial ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) que gerou a oportunidade de desenvolver um projeto de grande interesse para a ciência. 8. Referências. [1] Hornik, K.; Stinchcombe, M.; White, H. Multilayer feedforward networks are universal approximators. Neural

Networks, v. 2, n. 5, p. 359-366, 1989. [2] Mills, P. M.; Zomaya, A. Y.; Tadé, M. O. Adaptative model-based control using neural networks. Int. J. Control, v. 60, n. 6, p. 1163-1192, 1994.


,

[3] Tasinaffo, P. M. Estruturas de integração neural feedforward testadas em problemas de controle preditivo. 2003. 230 p. INPE-10475-TDI/945. Tese (Doutorado em Ciências Espacial) – Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 2003. [4] Hunt, K. J.; Sbarbaro, D.; Zbikowski, R.; Gawthrop, P. J. Neural networks for control systems – A survey. Automatica, v. 28, n. 6, p. 1083-1112, Nov. 1992. [5] Norgaard, M.; Ravn, O.; Poulsen, N. K.; Hansen, L. K. Neural networks for modelling and control of dynamic

systems. London: Spring, 2000. [6] Tasinaffo, P.M.; Rios Neto; A. Integração Neural em uma Estrutura de Controle Preditivo. 2004. 56 p. INPE-11484-RPQ/778. Relatório Interno (Tecnologia e Engenharia Espaciais) – Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 2004. [7] Rios Neto, A. Dynamic systems numerical integrators in neural control schemes. In: CONGRESSO BRASILEIRO DE REDES NEURAIS, 5., 2001, Rio de Janeiro, RJ, Brasil. Anais ... Rio de Janeiro: Conselho Nacional de Redes Neurais, 2001, p. 85-88. 1 CD-ROM. [8] Wang, Y.-J.; Lin, C.-T. Runge-Kutta neural network for identification of dynamical systems in high accuracy. IEEE

Transactions On Neural Networks, v. 9, n. 2, p. 294-307, March 1998. [9] Rios Neto, A. Stochastic optimal linear parameter estimation and neural nets training in systems modeling. RBCM –

J. of the Braz. Soc. Mechanical Sciences, v. XIX, n. 2, p. 138-146, 1997. [10] Zurada, J. M. Introduction to Artificial Neural System. St. Paul, MN, USA: West Pub. Co., 1992. [11] Chandran, P. S. Comments on “comparative analysis of backpropagation and the extended kalman filter for training multilayer perceptrons”. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 16, n. 8, p. 862-863, Aug. 1994. [12] Hagan, M. T.; Menhaj, M. B. Training feedforward networks with the Marquardt algorithm. IEEE Transactions on

Neural Networks, v. 5, n. 6, p. 989-993, Nov. 1994. [13] Chen, S.; Billings, S. A. Neural networks for nonlinear dynamic system modelling and identification. Int. J.

Control, v. 56, n. 2, p. 319-346, 1992.

estruturas de controle preditivo neural com … · diferenciais dos estudos de newton e leibniz. no...

Documents