controle de um pÊndulo invertido por meio redes … · cada ao controle de sistemas complexos...

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999

CONTROLE DE UM PÊNDULO INVERTIDO POR MEIO DE REDESNEURAIS ARTIFICIAIS TREINADAS EVOLUTIVAMENTE

CARVALHO, Daniel [email protected]

JOTA, Fábio Gonç[email protected]

Laboratório de Controle de Processos IndustriaisCPDEE / EE - Universidade Federal de Minas Gerais

Av. Pres.. Antônio Carlos, 6627 - Belo Horizonte - 31270-901

Resumo - É abordado nesse artigo o problema de controlede um pêndulo invertido por meio de uma RNA. Ênfase es-. pecial é dada ao treinamento evolucionário da rede, em par-ticular, à função de custo usada para "quantificar" o desem-penho do sistema controlado. Um novo modelo não-linearfoi desenvolvido especialmente para representar o compor-tamento do pêndulo real em aplicações de controle. Resul-tados experimentais são apresentados para demonstrar acapacidade de controle da rede treinada. Estes resultadossão promissores e encorajam maiores esforços nessa direção.

Palavras-chave: Pêndulo invertido, RNA, avaliação dedesempenho, programação evolucionária.

1 INTRODUÇÃOO controle eficaz de sistemas não-lineares é um desafio pa-ra a comunidade de controle. Estes se tornam ainda maiscomplexos quando se trata de problemas que, além de se-rem não-lineares, são instáveis por natureza. As técnicasde inteligência artificial têm se mostrado adequadas para asolução de alguns destes desafios (Adeli and Hung 1995).

Dentre as técnicas de inteligência artificial podemos des-tacar a Rede Neural Artificial (RNA) (Wasserman 1989,Haykin 1994). Esta pode, sob certas condições, ser apli-cada ao controle de sistemas complexos (Pham and Xing1995, Adeli and Hung 1995). Apesar de bons resultadosjá terem sido obtidos na área de redes, o modo de trei-namento mais comum para as RNAs é o treinamento poraprendizado supervisionado (Haykin 1994). Neste, o apren-dizado é feito por meio de exemplos que são fornecidos àrede, através de um método de minimização de erros . Adesvantagem mais clara deste tipo de técnica é a necessi-dade de se ter disponível um conjunto de dados de treina-mento. Estes dados são exemplos de como a RNA deve secomportar para diversas situações, isto é, numa aplicaçãoem controle, pares de entrada e saída do controlador. Pa-ra se obter estes dados (exemplos) é necessário se ter, apriori, uma estratégia de controle definida. Muitas vezesisto não é possível e nem desejável jáque o que se queré exatamente obter a melhor estratégia de controle. Alémdisto, alguns dos algoritmos mais comuns de minimizaçãode erros possuem características indesejáveis, tais como en-

512

calhar em mínimos locais da hipersuperfície de erro (Goriand Tesi 1992). A técnica mostrada no presente artigo,apesar de não ser totalmente imune a este problema, temtambém como objetivo reduzir a possibilidade de encalharem mínimos locais .

Neste trabalho utilizam-se técnicas de programação evo-lucionária para encontrar um controlador. Para tanto senecessita apenas de um modelo para o processo a ser con-trolado e um índice capaz de medir o desempenho de umcontrolador qualquer. Assim, o conhecimento a priori nãoé necessário, e o algoritmo de minimização é razoavelmen-te imune ao problema de encalhar em mínimos locais , co-mo será mostrado no artigo. Um processo real, não-linear(pêndulo invertido) será usado para testar a estratégia pro-posta.

2 O PÊNDULO INVERTIDOO pêndulo invertido é um problema de controle que apre-senta certas características dinâmicas que o tornam um ex-celente verificador da eficácia e qualidade de sistemas decontrole (por ser, por exemplo, não-linear e instável). Poreste motivo, pêndulos invertidos são muito utilizados comoteste para técnicas de controle (Geva and Sitte 1993). Oproblema do pêndulo invertido simples pode ser descrito,de maneira simples, da seguinte forma.

Seja um carrinho com uma haste vertical (pêndulo). Opêndulo e o carrinho podem se movimentar livremente eo objetivo do sistema de controle é equilibrar o pêndulona posição vertical. A variável manipulada é a força quese exerce no carrinho. A figura 1 mostra um esquema doproblema.

Pode-se ver que há três grandezas básicas envolvidas. Fé a força que se aplica ao carrinho, e é a única forma dese atuar no processo (a figura. mostra o sentido que seráconvencionado como positivo para a força). Há tambémlimites para o valor absoluto de F, que representa outranão-linearidade. Este limite será chamado de Fmax . Tem-se então que a força F estará dentro dos limites IFI ::;'para Frnax > O.

Figura 2: Diagrama de blocos mostrando a RNA como umcontrolador para o pêndulo invertido.F

40. SBAI - Simpósio Brasileiro de Automação Inteligente, São Paulo, SP, 08-10 de Setembro de 1999I11I: w .....-r--"1I

x

Figura 1: O pêndulo invertido. As principais grandezasenvolvidas (x, B e F) estão representadas.

Fmax = 24NXmax = 0,50mJ.Lc=6,98Ns/mJ.Lp = 0,000100 Nm s/rad

1= O, 446.mM = 2,85kgm =O,969kg'l/J = -0,230 (2)

onde 9 = 9,81 m/s2 é a aceleração da gravidade, M é amassa do carrinho, m é a massa do pêndulo, 1 é a alturado centro de massa do pêndulo, J.Lc é o coeficiente de atritodo carrinho com o trilho, J.Lp é o coeficiente de atrito dopêndulo em seu eixo e 'lj1 é uma constante adimensional, queestá relacionada à distribuição de massa do pêndulo (que nocaso do presente artigo não é uniformemente distribuída).

Determinou-se, por tentativa e erro, comparando-se a res-posta real e a modelada, que estas constantes, no pênduloreal utilizado para testar a técnica.proposta, valem:

O ângulo B é medido a partir da posição vertical, no sen-tido horário como mostrado na figura . Considerando seuslimites físicos, tem-se que 101 :::; BmaJo onde Omax :::; 90°.Se IBI > Bmax assume-se que foi atingida uma situação defalha do controlador, pois o pêndulo caiu de forma irre-cuperável. Bmax corresponde a um ângulo tal que, mesmoque se acionasse a força máxima possível não se conseguiriamais estabilizar o pêndulo. Uma maneira de se levantar opêndulo novamente seria usar uma técnica de auto -ereção,mas este problema está fora do escopo do presente artigo.

A grandeza x. é a distância do carrinho ao centro da faixapercorrível pelo carrinho. Esta é contada no sentido indi-cado pela figura 1. Os limites que o carrinho tem para semover são determinados por: Ixl :::; Xm a..x' Assim, como como ângulo, tem-se uma condição de falha se Ixl > Xmax '

Será adotado o S.I. (Sistema Internacional de medidas)e.. portanto tem-se [F] = N, [B] = rad , [O] = rad/s,[B] = rad/s2 , [x] = m, [x] = m/s e [x] = m/s2 • O compor-tamento dinâmico do pêndulo invertido pode ser descritopelas seguintes equações (não-lineares):

Determinou-se também, através de uma análise ' dasfreqüências envolvidas em dados do pênduloreal, que um período de amostragem adequado para opêndulo vale T =0,05 s.O pêndulo invertido deverá ser controlado pela RNA, trei-nada por uma técnica evolucionária, que será explicada pos-teriormente. Espera-se que o controlador consiga obter omelhor desempenho possível (no sentido de minimizar umafunção de custo pré-estabelecida), sem deixar o pêndulocair . À medida de desempenho chamaremos função objeti-vo.

(3)

j lekl < €

; ek €, Uk < 100; ek :::; -f, Uk > O; outros casos

"J (,,,;,• .)

l lOOsat100

3 A FUNÇÃO OBJETIVOComo já mencionado anteriormente, a RNA fará o papeldo controlador para o pêndulo. Para uma dada RNA (con-trolador) qualquer, é necessário que se tenha uma nota, aqual se chamará de função objetivo (f). Necessita-se , então,de um critério de avaliação de controladores. Neste traba-lho, o critério utilizado é baseado no proposto em (Jota etaI. n.d.). Define-se um "set-point" padrão w para N amos-tragens (no trabalho N = 400). Para uma RNA qualquer aser avaliada o pêndulo é solto de uma posição quase estávele uma simulação do controle é feita para os N pontos (ve-ja a figura 2). Sejam Xk, Bk, Fk e Wk, respectivamente, ovalor de x, B, F e w na k-ésima amostragem (1 :::; k :::; N) .Deve-se normalizar estas medidas para que todas estejamentre Oe 100. Chamaremos estas de Xk, 8k, Fk e Wk . Sejamtambém os eITOS ei") = Wk - Xk e eiO) = 50 - êk • Deve-se lembrar que, como o "set-point" para Ok é sempre zero,então este normalizado valerá 50. As formas de calcular oerro mostradas nem sempre são adequadas para uma avalia-ção de desempenho, pois não levam em conta que o esforçoreal de controle necessário para se corrigir um eventual errodepende também do valor da variável manipulada (Jota etal. n.d .). Por esta razão define-se um erro normalizado êtal que:

(1)

0= (M +m)[mlg sen(B) - J.LpO] +ml2[('lj1 + l)(M +m) - mcos2(0)]ml cos(O)fJ.Lcx - ml02 sen(O) - F]ml2[('lj1 + l)(M +m) - mcos2(B)]

fi = F - mIOcos(O) +mlÓ2 sen(O) - J.LcxM+m

513

onde


4 A RNAA RNA terá como entrada um vetor y:

e onde e é uma tolerância (no tr abalho lO = O). Define-setambém:

sat(z) = {; Izl ::; 1; Izl > 1

(4)

(8)

(9)

Seja q = (Ql,Q2,Q3,q4) um vetor, onde cada elemento re-presenta um peso da RNA. Assim, a RNA é uma funçãodo tipo Fk = Fmax tanh(q . y). O aprendizado da re-de visa encontrar um valor de q que minimize f (q). Oajuste da RNA foi feito através de um algoritmo de pro-gramação evolucionária, que será explicado a seguir. Estetipo de algoritmo foi desenvolvido no início dos anos 60corno uma ferramenta para a solução de problemas com-plexos de minimização, através de um processo estocásticoe numérico, que possui semelhanças com processos natu-rais de evolução (Thierens et ai. 1993). Algumas das re-ferências importantes neste tipo de aprendizado são (Harpet ai. 1989, Thierens et ai-. 1993, Syed 1995, Harrald andKamstra 1997). Utiliza-se um conjunto de possíveis RNAs,representadas por :

Ao se experimentar qual seria a melhor configuração depara controlar o pêndulo invertido optou-se pela fi-

losofia de se utilizar a menor RNA que conseguisse rea-lizar a tarefa. Como uma RNA de apenas um neurôniose mostrou adequada para o controle desejado, adotou-seuma rede com Um neurônio. Poderia-se tentar outras con-figurações de RNAs, mas, na visão dos autores , isto seriaexcessivo. Deve-se sempre optar pelo mais simples, quan-do possível. No caso de se procurar fazer um controladorcom mais neurônios que o necessário para a tarefa em vista,corre-se o perigo de se observar problemas devido a RNAestar com mais pesos que o necessário . Isto ocorre porque onúmero de pesos em uma RNA está ligado à sua "memória" ,ou capacidade de aprendizado. Quanto mais a RNA se tor-na redundante, mais ela perde sua característica de gene-ralização . Tendo estas considerações em vista, os autoresoptaram pela RNA mais simples que resolve o problemaproposto.

Nesta equação tem-se ek = Wk - Xk. A saída da RNAserá a força F k a ser aplicada. Mas, como a saída de umneurônio com função não-linear tanhf -) está sempre entre-1 e 1, então, na realidade, a saída da RNA é Fk/Fmax . Afigura 2 mostra a RNA como controlador para o pênduloinvertido.

(5)

(6)

(7)

N. _ 1 '" _(9), h - N L)ek I

k=l

g( Z) =!F

Tem-se, finalmente, que

onde

corresponde às "notas" dadas pela função objetivo para ca-da RNA no vetor Q (isto é 1; = l(qi». Para o algoritmo

O valor M é a "população" de RNAs sendo testadas a cadaiteração (no trabalho M =50). O vetor

Os valores ÁXmID" ÁÔmax e AFmax são as vanaçoesmáximas, em uma amostragem, das respectivas variáveis.Os pesos ai podem ser diversos e são dependentes dos ob-jetivos de controle que se quer alcançar. Representar-se-áos pesos como um vetor A = (aI ,a2, ... ,ag). Esta funçãof mostrou-se um excelente indicador da qualidade de umcontrolador para o pêndulo. Ela deve ser minimizada peloalgoritmo que irá determinar a melhor RNA. Como se podeobservar , o valor de 1 estará sempre entre Oe 100.

F = [h,h, .. · ,1M) (10)

514

Os resultados apresentados podem ser comparados tambémcom os resultados da dissertação de mestrado de Syed (Syed1995). No trabalho citado, utiliza-se técnincas de treina-mento de RNAs parecidas com as do presente trabalho,bons controladores são encontrados, mas todos os resulta-dos apresentados mostram controladores bastante lentos,e muitos deles com caracteríscticas bastante oscilatórias.Uma análise quantitativa é impossiível, mas uma análisequalitativa demonstra que os controladores obtidos no pre-sente trabalho são melhores que os mostrados no trabalhode Syed.

O pêndulo invertido vem com programas de controle forne-cidos pelo fabricante. A figura 5 mostra o pêndulo inver-tido sendo controlado pelo controlador do fabricante emum situação semelhante à já mostrada para o controla-dor desenvolvido. Utilizou-se o critério de avaliação dedesempenho para julgar este controlador. Para um A =(1;0, 5; 1;O, 5;0, 5;0,5; 0, 33;0, 33;O, 33) obteve-se f = 5,82 .Escolheu-se este valor de A pois este é um critério equilibra-do, mas deve-se ressaltar que, utilizando-se outros critérios,o mesmo controlador poderia ter notas melhores ou piores.Observou-se que o controlador do fabricante é mais conser-vador do que os obtidos neste trabalho. O sinal de contro-le se mantém sempre com baixas amplitudes (no máximo30%) e o ângulo também nunca passa de 2,5 graus. Apesardisto o controlador é lento para corrigir erros em x, levan-do um tempo de 5 segundos para chegar ao valor desejado,além de apresentar muito "overshoot".

(11)

(12)


apresentado necessita-se de um conjunto de (M - 1) pesos eficiente. Uma característica muito boa do controlador en-variando entre dois valores máximo e mínimo, com uma contrado é a rapidez com que ele ajusta a variável x a umdistribuição logarítmica. Define-se então um conjunto de novo "set-point". Por exemplo, quando o tempo vale 4s(M -1) valores tem-se uma variação em w de 20.cme o pêndulo leva me-

nos que 1,5 s para quase igualar w e x . Note-se tambémque o valor de () se mantém dentro de uma faixa de poucosgraus.

para 2 i M, onde 7a = In("(min) e 7b = In(7max). Osvalores 7min e 7max são escolhidos de acordo com a faixade variação desejada para r . No trabalho 7min = 0,05 e7max = 30,O. O algoritmo de treinamento adotado segueos seguintes passos:

1. Escolhe-se um valor inicial aleatório para Q,atribuindo-se valores aleatórios para os vetores qr.

2. Determina-se fI para ql .3. Até que o critério de parada seja alcançado faz-se:

(a) Para cada q i (2 i M) determina-se li-(b) Seja fmin o menor valor de fi (1 i M) en-

contrado e seja <Imin a RNA equivalente . ·Faz-se<lJ. = e fI = fm in .

(c) Faz-se qi = ql + 7i . epara 2 i M, onde éum vetor de números aleatórios com distribuiçãogaussiana de média Oe variância 1 e com o mesmonúmero de elementos que q .

onde

4. Após o critério de parada ter sido atingido ql é a RNAa ser utilizada como controlador.

O critério de parada pode ser, por exemplo, fmin fobj,onde fobj é o valor de f que se quer atingir. O algoritmoacima se mostou eficiente para resolver o problema propos-to. Tentou-se também utilizar algoritmos genéticos pararesolver o mesmo problema, tendo-se encontrado. resulta-dos equivalentes.

5 RESULTADOSTreinou-se uma RNA com um neurônio,utilizando-se o método já descrito, com A =(1;O, 5; 1;O, 5;0,5;0, 5;O, 33;0, 33;0, 33). Este critériorepresenta um equilíbrio entre os pesos. O q obtido paraum fmin=2,75 foi:

6 CONCLUSÕESMostrou-se um método de se obter um controlador paraum problema difícil (não-linear e instável) tendo-se apenasum modelo para o processo e uma função objetivo. Osresultados obtidos demonstram que a técnica é útil, poisconseguiu-se controladores que funcionassem bem na plantareal.

Os resultados obtidos até aqui são encorajadores, pois umacomparação com o controlador do fabricante do pênduloe com resultados obtidos por outros autores mostram quea técnica descrita é muito boa . Novos experimentos estãosendo feitos e espera-se obter resultados ainda melhores.Os autores esperam continuar o desenvolvimento deste tra-balho para aprimorar a técnica já desenvolvida.

AGRADECIMENTOS

q = (-4,392; -3,382; 11, 70; 2, 017) . (13)

Os autores gostariam de agradecer às inst ituições de apoioà pesquisa CAPES, CNPq, FAPEMIG e MEC.

A figura 3 mostra a simulação para este controlador.Utilizou-se então este controlador no pêndulo real. A fi-gura 4 mostra os resultados. Pode-se ver que a RNA real-mente aprendeu a controlar o pêndulo invert ido de maneira

REFERÊNCIAS BIBLIOGRÁFICASAdeli, Hojjat and Shih-Lin Hung (1995). Machine Leaming.

John Wiley & Sons, Inc.. New York, EUA.

515

40. SBAI _ Simpósio Brasileiro de Automação Inteligente, São Paulo , SP, 08-10 de Setembro de 1999

.. .. .. .... .. .. ........ .... .. ...

.. ... .. ..... ' . ' .... ...

.. ... ........... ....... ..1\ 11 .. .. .............

\ \W' J 1'/.... ....... ... ..

' " .. .. .. ... .. .. .....

... . ...

..... ... . ....

.. .... .. .. .. . .......

.... ... ... ... . .. .... ...

AI .. . .... ... .

A. .A .1.. .MA, .1Jv.. M .A••.AA

..

'V' :,W "'V' ., V" ''V'/ lIj1 /:..".. .. ... ....... .....

V'.... .... . ....... .. .

10

8

6

4

íil 2::J

O.9co -2

-4

-6

.-8

-10O 5 10

Tempo (s)15 20

12

10

8

6

-2

-4

-6

o 5 10Tempo (5)

15 20

2015

11\\

\

10Tempo (5)

5

; · .. · · l

0.5.-------,-------.-----,------,

·····..·..· -: ; -I

-0.50L-- - - -=-- - - ---:'::-- - - -:'=-- - - -7

· · ··..·: ·•·..· :..·· · ·, ·: -1

(.. ; ,

-0.3

201510Tempo (s)

5

I

1\

!. .. .. ... . .........

\-0.3

- 0.4

-0.50

-0.2

0.2

0.3

0.4

0.5

O.

I ox-0.1

... ..... ...... "h" ... . . ..

.. ....... .. .. ..... ......

.......... .. .. ....... ..

... ... .. .. .. . .... ...... ....

1Ili. 'fv'--li" "... ... .. .. ..o ••• • •• • ••• •• .. . .. .... ................... .. .. . . .....

.. .... ... .. .... .......

.. .. ....... . .. .. . .. .....

o

100

80

60

40

20;go-U. -20

-40

-60

-80

-100o 5 10

Tempo (s)15 20

100

80 ....•... •. ... ' ...

60

40

- 20;::go o-U. -20

-40

-60 ............... ..

-ao-100 ..... .... •.• . . . •.o 5 . 10

Tempo (s)15 20

Figura 3: Resultado simulado . Figura 4: Resultado prático.

516

2

1.5 .....


Geva, Shlomo and Joaquin Sitte (1993). A cartpole experi-ment benchmark for trainable controllers. IEEE Con-trol 8ystems Magazine 13(5), 40-5l.

Gori, Marco and Alberto Tesi (1992). On the problem oflo-cal minima in backpropagation. IEEE 1ransactíons onPattem Analysis and Machine Inteligence 14(1), 76-86.

- 1lo .... ·················;···············..·..··..;·······..·....····· 111 ·'..··....·······..·..··..,

- 1.5 10 · ..··..·..·..·....····;·....··....··..··....·..;·..···· ..··........ ··11·· ;.·· ..·..·....·····• · ,

Harp , Steven Alex, Tariq Samad and Aloke Guha (1989).Towards the genetic synthesis of neural networks.In: Proceedings of the Third Intemational Conferenceon Genetic Alqoritivm« (J. D. Schaffer, Ed .). MorganKaufman. San Mateo, CA.

Harrald, Paul G. and Mark Kamstra (1997) . Evolvingartificial neural networks to combine financial fore-casts . IEEE Transactions on EtJolutionary Computa-tion 1(1), 40-52.

Haykin, Simon (1994). Neural Networks: a OomprehensioeFoundation. Prentice-Hall, Inc.. New York, EUA.

Jota, Fábio G., Anisio R. Braga and Ronaldo T . Pena(n.d.). On-líne performance assessment of control sys- 'tems. Relatório Técnico , LCPljUFMG, 1998, Subme-tido para publicação.

Pham, Duc Truong and Liu Xing (1995). Neural Networksfor Identificat ion, Prediction and Controlo Springer-Verlag. Berlim, Alemanha.

Syed, Ornar (1995). Applying genetic algorithms to recur-rent neural networks for learning network parametersand architecture. Mast er's thesis. Case Western Reser-ve University. Cleveland .

Thierens, D., J . Suykens, J . Vandewalle and B. DeNoor(1993). Genetic weight optimization of a feedforwardneural network controller. In: Artificial Neural Netsand Genetic Algorithms (Rudolf F. Albrecht , Nigel C.Steele and Colin R. Reeves, Eds .). Springer Verlag.Wien. pp. 658-663.

Wasserrnan, Philip D. (1989). Neural Computing: Theo-ry and Practice. Van Nostrand Reinhold. New York,EUA.

20

20

15

15

10Tempo (5)

10Tempo (5)

5

5

._.-v>I \

/ \ . .. .. . .. . ..... ...._.

o

0.5

0.4

0.3

-0.2

-0.3

0.5(\l

.9 Oco

0.2

0.1

K Ox-0.1

100

ao60

40

.........o-u..

-40

- 60

-80

-100o 5 10 15 20

Tempo (s)

Figura 5: Resultado prático para o controlador fornecidopelo fabricante.

517

controle de um pÊndulo invertido por meio redes … · cada ao controle de sistemas complexos...

Documents