mapa auto-organizável para controle e gerenciamento de locomoção artificial

Mapa Auto-Organizvel para Controle eGerenciamento de Locomoo Artificial.

Por

Orivaldo Vieira de Santana JniorDissertao de Mestrado

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

Recife, Agosto/2010

Universidade Federal de Pernambuco

Centro de InformticaPs-graduao em Cincia da Computao

Orivaldo Vieira de Santana Jnior

Mapa Auto-Organizvel para Controle eGerenciamento de Locomoo Artificial.

Trabalho apresentado ao Programa de Ps-graduao emCincia da Computao do Centro de Informtica da Univer-sidade Federal de Pernambuco como requisito parcial paraobteno do grau de Mestre em Cincia da Computao.

Orientador: Aluizio Fausto Ribeiro Arajo

Recife, Agosto/2010

Eu dedico esta dissertao aos meus pais como fruto doinvestimento em minha educao.

Agradecimentos

Agradeo ao meu orientador, Aluzio Arajo, pela presena constante, pelo apoio,pelo incentivo, por ter sido de fato um guia em todos os momentos da execuo destetrabalho, sem ele este trabalho no teria sido realizado.

A minha me, Girlde Santana, pelo amor de me que se fazer presente mesmoa centenas de quilmetros de distncia. Ao meu pai, Orivaldo Santana, por ter dadoincio ao meu processo de formao educacional. A minha irm simplesmente porfazer parte da minha vida e do meu processo de formao como pessoa.

Aos meus tios, Jos Maria, Orlando, Osvaldino, Olderico, aos meus primos Fabrcioe Aise Anne, aos membros da famlia aqui no citados por estarem disponveis paraajudar em qualquer momento.

Aos amigos que fiz em Pernambuco, Andr Tiba, Hansenclever, Flvia, Davi, Miguele todos os outros aqui no citados, pela horas compartilhadas de trabalho e diverso.

Os professores do Centro de Informtica que contriburam para minha formao nomestrado.

A toda minha famlia e amigos que direta ou indiretamente contriburam para arealizao do mestrado.

Aos membros da banca pela contribuies na verso final desta dissertao.

iv

Resumo

Este trabalho esta situado na rea de controle e gerenciamento de locomoo de robscom membros e apresenta um novo modelo de rede neural, o STRAGIC (Geradorde Trajetrias de Estados com Inter-Conexes), bem como outros modelos de redesneurais aplicadas a este domnio do conhecimento. O STRAGIC foi projetado a partirdo STRAGEN, um mapa auto-organizvel de topologia varivel. O STRAGIC controlaa locomoo do rob por meio de uma trajetria de estados que descreve a postura dorob em intervalos regulares de tempo. Alguns ambientes de teste foram elaboradospara verificar a capacidade do STRAGIC em: controlar o rob com um determinadomodo de locomoo; controlar o rob a partir de dados ruidosos; controlar o rob apartir de uma base de dados com estados de diferentes trajetrias; gerenciar a transioentre modos de locomoo; e por fim extrair trajetrias de estados a partir da locomoode um animal real. Alm disso, faz um estudo de dois parmetros importantes doSTRAGEN.

Palavras-chave: Gerador Central de Padres, CPG, Redes Neurais, Mapas Auto-Organizveis, Robs com Membros, Locomoo.

v

Abstract

This work is placed within the area of Control and Management of Legged Robotslocomotion and presents a new model of neural networks: the STRAGIC (StatesTrajectories Generator with Inter-Connection) as well as others models and neuralnetworks applied to this knowledge domain. The STRAGIC was designed from theSTRAGEN that is a self-organized map of variable topology. The STRAGIC controls therobots locomotion by the states trajectories that describe robots posture in regular in-tervals of time. Some environments of test were made to verify the STRAGICs capacityto: control the robot with a determined locomotion mode; control the robot with noisydata; control the robot from a database with states of different trajectories; managetransitions between gaits; and finally extract states trajectories from the locomotion ofa real animal. Furthermore, studies two important parameters of the STRAGIC.

Keywords: CPG, Central Pattern Generator, Neural Networks, Self-Organized Maps,Legged Robots, Locomotion

vi

Sumrio

vii

Lista de Figuras

viii

Lista de Tabelas

ix

Lista de Acrnimos

CCMT Componente Construtor de Mapa Topolgico.

CNN Rede Neural No-linear Celular.

CPG Gerador Central de Padres.

DTW Comparador Dinmico no Tempo (Dynamic Time Warping).

GCS Estruturas Celulares Crescentes (Growing Cells Structures).

GNG Gs Neural Crescente (Growing Neural Gas)

GWR Cresce Quando Necessrio (Grow When Required).

MCL Mdulo Controle de Locomoo.

MGL Mdulo Gerenciamento de Locomoo.

MLR Regio Locomotora Mesenceflica (Mesencephalic Locomotor Region).

NASA Administrao Nacional do Espao e da Aeronutica (National Aeronautics andSpace Administration).

SOM Mapa Auto-Organizvel (Self-Organizing Map).

STRAGEN Gerador de Trajetrias de Estados (State Trajectories Generator).

STRAGIC Gerador de Trajetrias de Estados com Interconexes (State TrajectoriesGenerator with Interconections).

x

1Introduo

Os robs so utilizados com bastante sucesso na produo industrial. Em uma linha demontagem de uma fbrica, um brao robtico pode mover se com grande velocidade epreciso para executar tarefas repetitivas como pintar e soldar, Figura ??. De acordocom ?), apesar do sucesso de aplicao na indstria o espao fsico de ao de um braorobtico limitado, pois este tipo de rob fica preso em uma determinada posio nafbrica.

Figura 1.1: Rob manipulador industrial (KUKA).

A caracterstica marcante dos robs mveis justamente a sua capacidade de loco-moo por um ambiente. No entanto, robs com membros possuem maior capacidadede adaptar-se a terrenos diversos. Embora o controle de robs caminhantes seja maiscomplexo do que o de mquinas com rodas. Na natureza, de acordo com ?), a locomo-o com patas a forma mais comum dos animais deslocarem-se por diversos tiposde terrenos. Por esta razo, solues biologicamente inspiradas frequentemente soadotadas para construir robs com membros.

Os robs mveis podem ser aplicados em diversas tarefas tais como guia turstico,defesa nacional, explorao de recursos, explorao subaqutica, desarmamento debomba, busca de sobreviventes em escombros (?). ?) apresentam um rob com rodasutilizado para a inspeo de dutos de ar e tambm um rob guia de turismo capaz deinteragir com pessoas e apresentar exposies de uma forma educativa. Um exemplode rob de seis membros apresentado por ?) para a deteco de minas terrestres,Figura ??. ?) construram um rob biologicamente inspirado na lagosta para reconhecermudanas na gua do mar, localizar e desarmar minas subaquticas, Figura ??.

Este trabalho faz um estudo de tcnicas que utilizam redes neurais no controlede locomoo de robs com membros inferiores e prope uma abordagem baseada

1

Figura 1.2: Rob para detectar minas terrestres (imagem obtida emhttp://www.iai.csic.es/users/silo6/SILO6_WalkingRobot.htm).

Figura 1.3: Rob biologicamente inspirado na lagosta para localizar minas subaquticas.

em um mapa auto-organizvel para o controle de locomoo robs com membros.As abordagens mais citadas na literatura para o controle de locomoo de robs commembros so biologicamente inspiradas em um circuito neural chamado de GeradorCentral de Padres (CPG) (?). Um CPG composto de osciladores neurais que produzpadres (sinais) repetitivos envidados para os msculos dos membros do animal. Comoos osciladores do CPG atuam sincronizadamente, os msculos so ativados de maneirasincronizada e rtmica provocando o deslocamento do animal. Normalmente um CPG modelado matemtica atravs de equaes diferenciais, mais especificamente comequaes de osciladores no-lineares (??). Este tipo de modelagem implica em ajustarum conjunto de parmetros ou at mesmo modificar equaes para produzir o controlede locomoo desejado.

A abordagem proposta, chamada de STRAGIC (Gerador de Trajetrias de Estadoscom Interconexes), possui algumas caractersticas extradas dos CPGs. So elas:executar a transio entre velocidades de deslocamento do rob atravs de um simplescomando. No CPG este comando um sinal vindo do tronco cerebral; os sinais de sadagerados so sincronizados e rtmicos, assim como nos CPGs. A abordagem propostaneste trabalho inovadora, pois no foi encontrado nenhum registro na literatura deabordagens semelhantes para robs caminhantes.

O mapa auto-organizvel escolhido foi o STRAGEN (?), pois entre alguns mapasauto-organizveis de topologia varivel, o STRAGEN foi aplicado com sucesso a umproblema semelhante, o controle de manipuladores robticos. Os dados fornecidosao modelo proposto so obtidos de um rob simulado ou um animal real, mas semconsiderar informaes cronolgicas. Estes dados so organizados de maneira aut-noma pela rede gerando uma estrutura semelhante a um grafo. Cada neurnio darede considerado um n e possui um estado contendo informaes relacionadas aoposicionamento dos membros.

O controle de locomoo consiste basicamente em construir uma trajetria de esta-dos e utilizar as informaes contidas nos estados para determinar o posicionamentodos membros do rob durante a locomoo. De maneira simplificada, a abordagemproposta captura informaes da locomoo de um agente externo, gera uma repre-sentao interna e utiliza este representao interna para controlar o rob. O agente

2

externo pode ser um rob ou animal real e o rob controlado pela abordagem propostaprecisa ser o mais similar possvel ao agente externo.

Este trabalho tem como principal objetivo propor e implementar um modelo paracontrole de locomoo de um rob com membros inferiores. O modelo deve tomarcomo base um mapa auto-organizvel. Os objetivos especficos podem ser definidos aseguir:

Investigar a aplicabilidade de modelos de redes neurais baseados em MapasAuto-Organizveis (SOM Self-OrganizingMaps), derivando adaptaes ou novosmodelos segundo as necessidades inerentes ao problema;

Montar um ambiente de simulao;

Desenvolver mecanismos de simulao e testes para a avaliao do modeloproposto;

Verificar a capacidade do modelo em gerar os mesmos sinais de sada de um CPGe gerenciar a mudana de velocidade;

Investigar a capacidade do modelo proposto em lidar com dados extrados dalocomoo de um animal real.

Uma contribuio relevante deste trabalho a proposio de um modelo para ocontrole de locomoo de robs articulados baseado em uma abordagem inovadora. Aprincipal caracterstica desta nova abordagem construir de maneira autnoma ummecanismo de controle a partir de dados extrados da locomoo de um agente externo,seja este agente um rob ou um animal real. O modelo tambm capaz de lidar comdados ruidosos. A autonomia do modelo ocorre por meio da utilizao de uma mapaauto-organizvel de topologia varivel. Alm disso, a proposta do modelo inclui ummecanismo para a transio entre diferentes modos de locomoo.

Os experimentos esto divididos em duas partes, uma para dados artificiais extra-dos de uma locomoo artificial e outra com dados reais. Os dados artificiais foramgerados para um rob hexpode (com seis pernas) controlado com o algoritmo de ?).As seguintes questes so consideradas nos experimentos com dados artificiais:

O controle de locomoo e gerenciamento da transio entre modos de locomoode um determinando rob hexpode;

Um estudo paramtrico do STRAGIC (Gerador de Trajetrias de Estados comInterconexes) analisando dois dos seus parmetros, denominados de limiar de

3

atividade e o fator de poda. O limiar de atividade influencia na quantidade deneurnios presentes na rede produzida pelo STRAGIC e o fator de poda influenciana quantidade de conexes;

A capacidade do modelo proposto em gerar uma trajetria de estados paracontrolar um determinado modo de locomoo;

Testar a capacidade do modelo em diferenciar alguns modos de locomoo. Paratanto, dados relativos aos trs modos de locomoo foram armazenados em umas base de dados de forma aleatria, sem informao das sequncias dos estadosem cada trajetria;

Comportamento do modelo diante de dados ruidosos;

O gerenciamento da transio entre modos de locomoo. A situao propostapara avaliar esta questo foi colocar em uma nica base de dados de estados dostrs modos de locomoo (lento, mdio e rpido). Assim, o modelo teria queautomaticamente identificar a qual trajetria um dado estado pertence, montaresta trajetria e as transies entre diferentes trajetrias.

A capacidade do modelo em lidar com dados obtidos a partir da locomoo deum animal real. Os dados sobre a locomoo foram extrados de um vdeo de umcachorro de mdio porte, obtido no youtube1.

Esta dissertao est organizada da seguinte maneira, o Captulo ?? caracteriza alocomoo em animais e robs com membros, faz um contextualizao entre CPGse controle de locomoo alm de relacionar o controle de locomoo com trajetriasde estados. O Captulo ??, em essncia, faz um estudo da abordagem biologicamenteinspirada e da abordagem baseada na CNN (Rede Neural No-linear Celular) parao controle de locomoo. Antes de propor a soluo do problema no Captulo ?? oCaptulo ?? descreve os mapas auto-organizveis mais relevantes para a proposio doSTRAGEN, base para o STRAGIC. Os experimentos esto descritos no Captulo ??. Aconcluso e os trabalhos futuros esto presentes no Captulo ??.

1http://www.youtube.com/watch?v=-StFMBw3W-U

4

2Descrio do Problema

A robtica, um campo relativamente recente da tecnologia moderna, ultrapassa as fron-teiras da engenharia tradicional. Entender a complexidade dos robs e suas aplicaesrequer conhecimento em engenharia eltrica, engenharia mecnica, cincia da compu-tao, matemtica etc. O termo rob aplicado a uma grande variedade de dispositivosmecnicos possuidores de algum grau de autonomia, podendo ser teleoperados (?).

Os robs geralmente so projetados para realizar algum tipo de trabalho, porexemplo, manipulao industrial. O uso da robtica oferece diversas vantagens, comoa diminuio do custo do trabalho, aumento da preciso e produtividade. Os robsgeralmente so utilizados em trabalhos nos quais o ser humano submetido a condiesmontonas, repetitivas ou perigosas. A robtica no aplicada somente na indstria,mas em reas onde o uso de humanos impraticvel ou indesejado, como: a exploraodo fundo do mar ou de outro planeta; reparo ou resgate de satlite; desarmamentode dispositivos explosivos e trabalho em ambiente radioativo (?). Eles so aplicadostambm em reas onde a comercializao de robs vivel, como: polimento no cho;vigilncia de uma fbrica; corte de grama; passeios em um museu; orientaes em umsupermercado (?).

Em ambientes hostis, perigosos ou inabitveis, a aplicao de sistemas teleope-rados torna-se cada vez mais comum. Para explorar a superfcie de Marte, a NASA(Administrao Nacional do Espao e da Aeronutica National Aeronautics and SpaceAdministration ) utilizou um rob em modo teleoperado (Controlado a partir da Terra),Figura ??. A Plustech desenvolveu um rob caminhante para carregar madeira parafora da floresta, Figura ??, onde a navegao feita por um operador dentro do robe a coordenao entre pernas automtica (?). Um exemplo de rob semi-autnomocapaz de navegar de maneira independente ou teleoperada no ambiente o rob deseis membros proposto por ?) para a deteco de minas terrestres.

5

Figura 2.1: Rob mvel Sojourner usado pela NASA durante a misso de exploraode Marte em 1997.

Figura 2.2: Rob caminhante projetado pela Plustech.

Em robs teleoperados, a complexidade por trs do mecanismo de controle de loco-moo geralmente torna impossvel para o operador humano controlar o deslocamentodo rob. O homem executa as atividades cognitivas e de localizao, mas depende doesquema de controle interno do rob para conduzir sua locomoo (?).

Segundo ?), o controle de locomoo, bem como a reproduo de um determinadomodo de locomoo, em um rob cujos membros inferiores possuam mltiplos grausde liberdade um problema complexo e desafiador . Algumas das abordagens maiscomuns (??????) para resolver o problema de locomoo de robs com membrosinferiores esto relacionadas ao CPG (Central Pattern Generator). O CPG controla omovimento peridico executado por cada membro, bem como o sincronismo entremembros. Sob o ponto de vista da biologia, um CPG um circuito neural capaz deproduzir sinais neurais rtmicos sem receber estmulos rtmicos. Este circuito neural,constitudo de osciladores neurais, encontrado principalmente na medula espinhal deanimais vertebrados durante a locomoo produz descargas peridicas de impulsosnervosos. Estes impulsos ativam os motoneurnios produzindo sequncias alternadasentre flexo e extenso em vrios msculos de um membro.

As caractersticas dos sinais gerados pelo CPG influenciam o movimento de cadamembro. Considerando que o CPG composto de osciladores e que o movimento deuma articulao controlado por um conjunto de osciladores, as oscilaes geradasinfluenciam diretamente o movimento da articulao. Logo, caractersticas como,frequncia, amplitude e formas dos sinais gerados modulam o movimento de cadaarticulao, influenciam na eficincia do controle motor, consequentemente, no modode locomoo resultante (?).

Em animais, um determinado modo de locomoo caracterizado pelo ciclo detrabalho e pela fase relativa de cada membro. Um passo, isto , um ciclo de locomoodo membro, dividido em duas fases, uma chamada de apoio e outra de balano.?) caracterizam a fase de apoio pelo contato do membro com o cho e a fase debalano pelo membro livre no ar e sem contato com o cho. Em cada instante detempo, um determinado membro est em um posicionamento dentro da sequnciade posicionamentos que compe o passo. Cada modo de locomoo tem sua prpriamaneira de posicionar os membros em cada instante. Logo, um modo de locomoo de

6

2.1. GERADOR CENTRAL DE PADRES - CPG

um ser articulado pode ser descrito como a movimentao coordenada dos membros,isto , o momento e a localizao de apoiar e levantar cada p coordenados com omovimento do corpo a fim de conduzir o corpo de um lugar a outro do espao. Ummodo de locomoo determina a velocidade e a direo da movimentao de umanimal ou rob caminhante (??).

?) descrevem alguns modos de locomoo de quadrpedes da seguinte forma: (i)no modo de locomoo caminhada, cada membro atinge o cho um aps o outro, e ointervalo entre cada descida de 1/4 do ciclo da durao de um passo; (ii) no modotrote, os membros nos cantos diagonais do corpo trabalham sincronizadamente; (iii)no galope leve, um p frontal e um p traseiro diagonal tocam o cho juntos; (iv) umgalope um modo de locomoo rpido no qual a sequncia de passadas acontece emtorno de um ciclo .

A locomoo de robs com pernas caracterizada por uma sequncia de pontosde contato entre os membros do rob e cho. Durante a locomoo, uma parte dosmembros est em contato com o cho e a outra parte esta livre no ar. A principalvantagem de um rob com membros a adaptabilidade e a capacidade de manobra emterrenos irregulares. Pois apenas um conjunto de pontos de contato necessrio paramanter o rob equilibrado e deslocando-se, no importando as caracterstica do solo. Orob apenas precisa manter os membros livres e distantes do solo de maneira que noatrapalhe seu deslocamento. Alm disso, um rob caminhante capaz de atravessarum buraco ou uma fenda enquanto seu corpo passa sobre o buraco (?).

Outra vantagem da locomoo com pernas o potencial de manipular habilidosa-mente objetos do ambiente. Um exemplo a locomoo do escaravelho, inseto capazde rolar uma bola com as patas traseiras enquanto locomove-se habilidosamente comas patas frontais (?).

A principal desvantagem da locomoo com pernas inclui a complexidade mecnicae energtica. A perna, que pode possuir vrios graus de liberdade, deve ser capaz desustentar uma parte do peso total do rob. Alm disso, alta capacidade de manobraser vivel apenas se as pernas possurem um nmero suficiente de graus de liberdade.

2.1 Gerador Central de Padres - CPG

Geradores centrais de padres (Central Pattern Generators CPGs) so circuitos neuraisencontrados tanto em animais vertebrados quanto em invertebrados que podem produ-zir padres rtmicos de atividades neurais de forma autnoma. Estes padres rtmicossurgem atravs de interaes entre as unidades de processamento deste circuito neural

7


e produzem os padres motores responsveis pelo deslocamento animal. Assim, ospadres rtmicos tornam movimentos peridicos viveis, tais como andar em velo-cidade constante, mastigar, respirar e digerir. Neste circuito neural, a realimentaosensorial (vinda do sistema nervoso perifrico) no necessria para gerar oscilaesrtmicas. Nos animais vertebrados a medula espinhal quem faz o papel dos CPGs.Embora a realimentao sensorial no seja necessria para gerar os sinais rtmicos, elaexerce um papel muito importante na formao destes sinais rtmicos e na manutenoda coordenao entre CPGs e os movimentos do corpo. A existncia dos CPGs j foidemonstrada em muitos vertebrados tais como peixes, anfbios, gatos e humanos (????).

Um sinal eltrico simples o bastante para induzir uma mudana de comporta-mento no CPG. Em muitos animais vertebrados, estmulos eltricos vindos de umaregio especfica no tronco cerebral chamada MLR (Regio Locomotora Mesenceflica Mesencephalic Locomotor Region) provocam alteraes no comportamento locomotor. AMLR, uma importante regio locomotora, possui vias de interligao com a MedulaEspinhal. A variao do estmulo aplicado ao CPG permite a modulao da velocidadee da direo de locomoo. Nveis mais baixos de estmulos na MLR levam a movimen-tos lentos, e nveis mais altos de estmulos levam a movimentos rpidos. Como a MLR divida em duas partes, direita e esquerda, ao aplicar nveis diferentes de estmulos naMLR direita e esquerda a direo de locomoo alterada (??).

Outra questo tratada nos estudos sobre CPGs a integrao da realimentaosensorial com controle de locomoo. Os sinais sensoriais proprioceptivos1 identificama postura e so muito importantes na locomoo de animais com patas. Fatores comovelocidade, carga e posio da perna fornecem impulsos sensoriais que afetam os CPGs.Por exemplo, uma perna pode deslizar em uma superfcie molhada, representandouma situao instvel para o sistema que dificilmente pode ser controlada por umcomando padro. Outra situao comportamental crtica para animais caminhantes a falta repentina de apoio para os ps quando andando. Outro exemplo que aoultrapassar obstculos de vrios tipos e localizaes pode exigir um ajuste em temporeal do padro motor. Assim, a realimentao sensorial modula a atividade do CPGinduzindo o rob a realizar uma locomoo mais estvel em um terreno complexo(????).

Existem diferentes maneiras de aplicar algoritmos de aprendizagem e otimizaoaos CPGs. As abordagens basicamente so divididas em duas categorias: aprendiza-gem supervisionada e no-supervisionada. Tcnicas de aprendizagem supervisionada

1Propriocepo a capacidade de reconhecer a posio e o movimento dos membros do corpo.Informaes estas, obtidas atravs da atividade de receptores localizados nos msculos.

8


so aplicadas quando um desejado padro rtmico produzido pelo CPG conhecido.Tcnicas de aprendizagem no-supervisionada so usadas quando o comportamentodesejado do CPG no definido por um padro especfico, mas por um critrio dedesempenho de alto-nvel, por exemplo, mover o mais rpido possvel. Entre astcnicas de aprendizagem no-supervisionada, os algoritmos evolucionrios so ex-tensivamente aplicados para projetar modelos como CPG, apesar de possurem adesvantagem de serem lentos e necessitarem de um uso prolongado de simulao (?).

2.1.1 Modelos de CPGs

Modelos de CPGs foram construdos principalmente para insetos e vertebrados infe-riores. Muitos modelos de CPG so inspirados no circuito de natao da lampreia,construdos a partir de redes no-lineares celulares ou sistemas de osciladores acopla-dos. Um CPG muito investigado o da lampreia sendo modelado de vrias maneiras:biofsica, conexionista, sistemas de osciladores acoplados e simulao neuromecnica(?).

O interessante trabalho de ?) na linha de robs biologicamente inspirados testa ummodelo de CPG de uma salamandra2 real em um rob anfbio inspirado na salamandra.Este modelo, baseado no trabalho de ?), composto de 20 osciladores de fase deamplitude-controlada. Os osciladores recebem um sinal representando o estmulodescendente da Regio Locomotora Mesenceflica. As sadas do CPG so valores parao posicionamento angular das articulaes enviados para um controlador proporcional-derivativo para controlar os membros do rob.

O modelo de CPG desenvolvido por ?) utiliza CNNs (Redes No-lineares Celulares Cellular Nonlinear Networks). Neste caso, as CNNs so transformadas em um conjuntode osciladores acoplados para compor o CPG. Este modelo tambm prope um novomtodo para selecionar um modo de locomoo, onde a transio entre um modo delocomoo e outro suave. Isto viabilizado atravs de um controle de alto-nvelbaseado em um mapa motor, baseado em um mapa auto-organizado. Este mapa,inspirado no crtex motor, recebe como entrada a velocidade do rob e produz comosada os parmetros dos osciladores CNNs, controlando assim o modo de locomooresultante.

?) investigaram alguns modelos de neurnios para CPGs, como por exemplo, o mo-delo sigmoidal. A tratabilidade analtica do modelo sigmoidal facilita o treinamento deredes feedforward utilizando algoritmos de gradiente descendente como backpropagation,

2As salamandras so anfbios possuidores de cauda, assemelham-se aos lagartos e nadam comoserpentes.

9


aplicados ao controle de robs insetos caminhantes. Para ?) ficou claro que modelosmais completos so mais fceis de treinar para uma tarefa de controle, produzindopassos repetidos e aparentemente mais estveis. Isto pode estar relacionado com a faci-lidade de neurnios mais complexos produzirem movimentos oscilatrios e tambm asimplicidade de evolurem os poucos pesos das redes menores.

?) apresentaram um mtodo de aprendizagem por reforo aplicado ao problema decontrole automtico em um simulador de rob bpede. O rob controlado por seistorques, cada um aplicado a uma junta. O CPG bsico uma rede composta por seisosciladores neurais. Cada oscilador neural gera torques de controle para uma juntacorrespondente. A recompensa varia de acordo com a altura do p e da cintura, com avelocidade horizontal da cintura, e com as penalidades aplicadas quando o rob cai.

2.1.2 Projeto de CPGs

Ainda no existe uma metodologia bem estabelecida para projetar CPGs (??) e diferen-tes abordagens tm sido investigadas tais como osciladores no-lineares, modelagembiolgica de neurnios, redes celulares no-lineares, etc. Para que o CPG construdocom algumas destas abordagens comporte-se da maneira desejada necessrio queos parmetros destas abordagens sejam configurados corretamente. Para chegar aestes parmetros, algumas tcnicas so utilizadas, como os algoritmos evolucionrios(???), aprendizagem por reforo (?) ou uma metodologia especfica para ajustar essesparmetros (?).

?) define alguns itens presentes no projeto de CPGs:

1. A arquitetura geral do CPG, incluindo o tipo e nmero de neurnios;

2. As conexes entre neurnios, que determinam a sincronizao entre os osciladorese influencia no modo de locomoo resultante;

3. As oscilaes determinando as trajetrias executadas por cada junta durante umciclo;

4. O efeito dos sinais de entrada, isto , como o controle de parmetros modula afrequncia, a amplitude, a fase de movimento das pernas ou as oscilaes;

Para construir CPGs baseados em osciladores no-lineares ou at mesmo em mo-delos matemticos de neurnios reais necessrio conhecer diversos modelos paraencontrar um que se comporte de maneira desejada. Caso tal modelo no seja encon-trado, o modelo possuidor do comportamento mais prximo do desejado escolhido e

10

2.2. TRAJETRIA DE ESTADOS

adaptado. Para conseguir esta adaptao, parmetros das equaes que descrevem omodelo precisam ser modificados, adicionados ou retirados (?). O Captulo ?? descreveem detalhes duas abordagens utilizadas para projetar CPGs.

2.2 Trajetria de Estados

Um estado no contexto deste trabalho armazena informaes que definem a posturado rob. Uma postura determinada pela posio angular de cada articulao ouespao euclidiano tridimensional de cada articulao. Assim, os estados de um sistemacontm a configurao, situao ou descrio daquele sistema em um dado momento(?).

Um espao de estados de um sistema, de acordo com ?), o conjunto E de estadosque caracterizam este sistema, onde cada ponto e E uma configurao nica eno-redundante deste espao de estados. Uma descrio sobre modelo de estado podeser encontrada em ??).

Uma trajetria o conjunto de transies entre estados de sistema partindo deum estado possuidor de uma configurao inicial (eini) at outro estado com umaconfigurao pr-definida ou de destino (edest). Durante a execuo da trajetria,diferentes estados intermedirios so assumidos dentro do espao de estados possveisdo sistema. Assim, uma trajetria T definida como uma sequncia finita de estados:

T = {eini, ...,ei, ...,edest}, 2.1

onde eini RD um estado do sistema configurado como sendo um vetor de dimensoD.

De acordo com a Equao ??, a locomoo do rob pode ser descrita por umatrajetria de estados, onde cada estado contm informaes sobre a postura do robdurante um passo. O intervalo de tempo de coleta dos estados no precisa ser maiordo que o tempo de um passo completo, j que o movimento executado pelo rob nospassos seguintes so repetidos. Assim, eini a postura inicial do passo, ei uma posturaintermediria e edest a postura final do passo, que neste caso a mesma postura inicial.

2.3 Consideraes

O controle de locomoo atravs de CPGs requer o conhecimento de alguma metodolo-gia para construir um modelo capaz de gerar padres que se repetem constantemente

11

2.3. CONSIDERAES

durante o tempo, i.e., oscilaes. Os artigos, investigados e publicados antes de 2010,indicam a no existncia de uma metodologia bem definida para projetar CPGs, verSeo ??. A maneira mais comum de construir estes CPGs atravs de equaesdiferenciais no sendo um processo trivial, ver Seo ??.

Por outro lado o STRAGIC evita o esforo de modelagem de equaes matemticas.Pois no STRAGIC as informaes sobre as oscilaes so passadas como entradapara o seu treinamento ao invs de criar equaes matemticas para reproduzirem asoscilaes. Assim, o STRAGIC depois de treinado possui o mesmo comportamento deum CPG, mesmo no sendo um CPG.

12

3CPGs e Redes Neurais

Os assuntos tratados nesta seo esto relacionados a duas abordagens utilizadas parao controle de locomoo de robs com pernas, uma baseada em um modelo de CPGbiolgico e a outra baseada em uma rede no-linear celular. Estas abordagens demaneira geral so biologicamente inspiradas, cada uma com um nvel de abstrao.A Seo ?? faz uma breve introduo de alguns estudos sobre CPGs biologicamenteinspirados. J a Seo ?? mostra como alguns CPGs so modelados matematicamente.A Seo ?? apresenta a abordagem com maior grau de inspirao biolgica. Estaabordagem abstrai o circuito neural de controle de locomoo biolgico em nvelde neurnio, modelando o neurnio levando em considerao a organizao dosneurnios dentro do CPG. A segunda abordagem, descrita na Seo ?? abstrai o CPG,em nvel de comportamento, projetando uma rede no-linear celular para comportar-sede maneira semelhante a um circuito neural de controle de locomoo. Para facilitar oentendimento da segunda abordagem, a rede no-linear celular descrita na Seo ??.

3.1 CPGs Biologicamente Inspirados

Esta seo apresenta alguns modelos de CPGs modelados utilizando uma abordagembiologicamente inspirados, principalmente os trabalhos relacionados a Ijspeert. Osprimeiros estudos de Ijspeert reportam a aplicao de algoritmos evolucionrios paraajustar os parmetros de um modelo neural de controlar de locomoo da lampreia emum ambiente simulao. Este modelo neural foi desenvolvido a partir do modelo biol-gico da lampreia proposto por Ekeberg. ?) tambm apresentaram uma abordagem queutilizava um algoritmo gentico para evoluir a arquitetura de um modelo conexionistacapaz de determinar a atividade muscular durante a execuo do nado da lampreiasimulada. ?) propuseram outra abordagem baseada em programao gentica para

13

3.1. CPGS BIOLOGICAMENTE INSPIRADOS

Figura 3.1: 4 segmentos de rede do controlador biolgico, onde cada segmento de rede composto de 8 neurnios. Quatro tipos de neurnios esto presente nos osciladores:trs tipos de interneurnio (EIN, CIN e LIN) e os motoneurnios MN. Os controlado-res podem receber realimentao das clulas excitatrias (EC). As linhas tracejadasmostram as interconexes entre segmentos vizinhos. Figura extrada de ?).

evoluir programas que codificavam o crescimento de uma rede neural dinmica.?), inspirado na rede neural biolgica responsvel pelo movimento do corpo da

lampreia, desenvolveu um modelo de controle neural com neurnios individualmentesimplificados, porm com conectividade semelhante ao modelo biolgico. Nestemodelo, cada unidade representa uma populao de neurnios reais que possuemfuncionalidades semelhantes. Alm disso, Ekeberg tambm descreveu como os sinaisgerados pelo modelo de controle neural so transformados em movimentos.

O controlador neural proposto por ?) biologicamente inspirado no CPG da lampreia composto de 100 segmentos de rede interconectadas, ver Figura ??. Cada segmentode rede um oscilador neural feito por dois motoneurnios (MN), dois interneurniosexcitatrios (EIN), dois interneurnios inibitrios contralaterais (CIN) e dois inter-neurnios inibitrios laterais (LIN). A nomenclatura de cada neurnio descreve suasconexes eferentes. Cada neurnio, individualmente, representa uma populao deneurnios funcionalmente similares na lampreia real, que recebem sinais excitatriosdo tronco cerebral. Uma interconexo uma conexo entre dois neurnios pertencentesa dois segmentos vizinhos na rede.

Um neurnio modelado como um leaky-integrator, ver equaes ??. Sua sada uequivale a frequncia de disparo ( [0,1]) calculada como a seguir:

+ =1D

( i+

uiwi +) 3.1

=1D

( i

uiwi ) 3.2

=1A(u )

3.3u =

{1 exp{( +)} (u > 0)0 (u 0)

3.4onde wi o peso sinptico, + e representam os grupos de neurnios excitatriose inibitrios pr-sinpticos respectivamente, + e so as reaes atrasadas paraentradas excitatrias e inibitrias, e representa a adaptao da frequncia observada

14

3.2. MODELOS MATEMTICOS DE NEURNIOS DE CPG

em alguns neurnios reais (?). D um limiar para a ativao, uma constante deganho, e controla o nvel de adaptao (?).

Prosseguindo os estudos sobre CPG, ?) desenvolveu um modelo de CPG biolo-gicamente plausvel da salamandra. O circuito neural controlador da locomoo dasalamandra semelhante ao CPG da lampreia, mas incrementado com CPGs que con-trolam os membros. Este modelo era composto de 14 articulaes, 10 distribudas pelotronco e cauda, mais 1 para cada membro contabilizando 4 articulaes nos membros.Os parmetros deste circuito neural eram determinados por algoritmo gentico. Omodelo resultante simulava tanto o corpo quanto o circuito locomotor da salamandrasendo capaz de fazer a transio do modo de locomoo aqutico para o terrestre.

Ijspeert no se restringiu ao estudo da lampreia e da salamandra, desenvolvendoseus trabalhos com outros tipos de robs. ?) introduziram uma metodologia paraprojetar controladores de robs humanoides rastejantes, baseada no paradigma CPG.Assim como nos outros trabalhos, esta metodologia segue uma abordagem biologica-mente inspirada e apresenta um modelo matemtico de CPG baseado em osciladoresno-lineares acoplados.

Alguns trabalhos elaboram CPGs levando em conta as interaes dos neurnios comos msculos das pernas como o caso de ??) que prope um modelo biologicamenteinspirado na neurofisiologia da locomoo de gatos. Capaz de controlar habilidosa-mente um rob quadrpede em terrenos irregulares, fazer a transio entre modos delocomoo de maneira autnoma e compatvel com a velocidade de deslocamento dorob.

3.2 Modelos Matemticos de Neurnios de CPG

Alguns modelos matemticos baseados no comportamento dos neurnios reais soutilizados para compor o CPG. Dentre eles est o famoso modelo H-H de ?), um modelocomplexo e com muitos parmetros (?). Uma simplificao do modelo H-H o modeloFitzHugh-Nagumo (??) definido por:

xi = c(yi + xi +

x3i3+ fci

),

yi = (xi a+ byi)/c, 3.5

onde xi, o potencial da membrana do i-simo neurnio; fci um sinal de controle noneurnio i; a,b e c so constantes e no correspondem a nenhum parmetro fisiolgico.

15

3.2. MODELOS MATEMTICOS DE NEURNIOS DE CPG

Notao xi utilizada para descrever a primeira derivada de x em relao ao tempo.Um modelo baseado no neurnio real e voltado para a produo de sinal oscilatrio

na sada o modelo de ?), descrito matematicamente por:

xi = a( xi + 11+ exp( fci byi + bzi)

),

yi = xi pyi, 3.6

zi = xi qzi, 3.7

onde xi representa o potencial da membrana do i-simo oscilador; a uma constanteque afeta a frequncia de oscilao; fci um sinal de controle para o oscilador i; bpermite ao modelo adaptar-se as mudanas de estmulos; q e p controlam a taxa deadaptao.

O modelo de ?) do tipo Leaky-Integrator definido matematicamente pela Equaes??, descreve o comportamento bsico dos neurnios reais:

Tru+ ui = n

j=1

wijyj vi + si,

Tavi + vi = yi, 3.8

yi = g(ui) = max(ui,0), 3.9

onde ui o potencial da membrana do i-simo neurnio; vi uma varivel que repre-senta o grau de adaptao do neurnio i; Tr e Ta so constantes do tempo de crescimentoe do tempo de adaptao; wij o peso da sinapse inibitria da conexo que sai doneurnio j para o i; o parmetro que determina a taxa de disparos; si uma entradaexterna, e yi a sada do neurnio.

O neurnio de um CPG pode ser entendido como um oscilador no-linear, pois opapel do neurnio no CPG justamente produzir periodicamente sinais oscilatrios.Entre os modelos de osciladores no-lineares esto o modelo de Kuramoto e o de Hopf(?). O modelo de Kuramoto (?) um oscilador simples que consiste em uma populaode N osciladores de fase acoplados, descrito matematicamente por:

i = wi +N

j=1

Kij sin(j i), i = 1,2, ...,N, 3.10

onde i a fase do i-simo oscilador; wi a frequncia natural do i-simo oscilador;Kij > 0 a fora do acoplamento do oscilador j para o oscilador i.

16

3.3. MODELAGEM BIOLGICA DO CPG DA SALAMANDRA

O oscilador de Hopf pode ser descrito por:

x = ( r2)x+ wy,y = ( r2)y+ wx,

3.11onde r =

x2 + y2; > 0 determina a amplitude do sinal de sada; o parmetro w

controla a frequncia do oscilador. O oscilador tem um ciclo limite estvel com raio e velocidade angular w rad/s.

3.3 Modelagem Biolgica do CPG da Salamandra

?) descrevem um modelo de CPG para controlar a locomoo de um rob salamandra.Este modelo inspirado no CPG biolgico da salamandra que por sua vez baseadono modelo biolgico do CPG da lampreia. Alm de controlar o modo de locomoo dasalamandra, este modelo capaz de fazer a transio entre os modos de locomoonadar e andar. Para modelar matematicamente este CPG, algumas questes relaciona-das ao modo de locomoo de vertebrados foram levantadas. Estas questes tratam:da estrutura do circuito neural capaz de controlar tanto o modo de locomoo nadarquanto andar; da coordenao dos membros; e da mudana entre modos de locomooapenas alterando intensidade do estmulo eltrico aplicado ao tronco cerebral.

No modelo de CPG da salamandra de ?) a rede distribuda ao longo da medulaespinhal formando uma cadeia dupla de centros oscilatrios localizados em ambos oslados da medula espinhal. Este conjunto de centros oscilatrios so responsveis porcontrolar o nado da salamandra. Os centros oscilatrios encarregados de movimentaros membros frontais esto localizados no segmento cervical e os membros traseirosesto localizados no segmento torcico-lombar.

?) explicam o funcionamento da rede CPG da lampreia da seguinte maneira:

1. O CPG do corpo inteiro dividido em dois CPGs, um controla os movimentos aolongo do corpo e o outro controla o movimento dos membros. O CPG do corpo semelhante ao da lampreia e espontaneamente produz oscilaes movimentandoo corpo de maneira ondulatria. Quando a rede CPG dos membros entra ematividade, o CPG do corpo inteiro gera os padres de locomoo para o modoandar.

2. A rede CPG dos membros capaz de induzir a rede CPG do corpo a mudar domodo nadar para o modo andar. J que os acoplamentos entre osciladores dos

17

3.3. MODELAGEM BIOLGICA DO CPG DA SALAMANDRA

membros e do corpo so mais fortes que os acoplamentos entre os osciladorescorpo.

3. Ao aumentar a intensidade do estmulo eltrico aplicado ao tronco cerebral acon-tece a mudana entre os modos de locomoo andar e nadar. Os nveis maisbaixos de estmulos, menores que um determinado limiar, levam a um modoandar lentamente enquanto estmulos mais intensos induzem a uma mudanapara o modo nadar rapidamente. Em ambos os modos, a frequncia de movimen-tao proporcional a intensidade do estmulo. Para que ocorra esta transioos osciladores dos membros no oscilam em altas frequncias. Eles saturam eparam de oscilar para altos nveis de estmulos. Logo, as frequncias do modonadar so sistematicamente mais elevadas que as do modo caminhar. Duranteo aumento da intensidade do estmulo, os osciladores passam por trs fases: (i)uma fase de oscilao abaixo do limiar sem atividade, (ii) uma fase de oscilaoonde a amplitude e a frequncia aumentam de acordo com o estmulo e (iii) umafase de saturao onde os centros param de oscilar.

4. As frequncias dos osciladores aumentam rapidamente quando acontece a mu-dana do modo andar para nadar. J que os osciladores dos membros possuemmenores frequncias que os osciladores do corpo, assim quando os osciladoresdos membros saturam, a frequncia dos osciladores do corpo j est elevada.

O CPG de ?) implementado como um sistema de osciladores no-lineares acopla-dos baseado no modelo de Kuramoto (?). Semelhante ao modelo da lampreia de ?), osneurnios so modelados como osciladores de fase com amplitude controlada:

i = 2pivi +jrjwij sin(j i ij),

ri = ai( ai

4(Ri ri) ri

),

xi = ri(1+ cos(i)),

onde i e ri so as variveis de estado representando a fase e a amplitude do oscilador i,vi e Ri determinam a sua frequncia e amplitude intrnseca e ai uma constante positiva.O acoplamento entre osciladores so definidos pelos pesos wij e a fase enviesada ij. Osinal oscilatrio xi representa a fase de atividade do centro.

Os parmetros de acoplamento wij e ij so configurados de tal maneira que o CPGdo corpo produza movimentos oscilatrios em forma de ondas e o CPG dos membrosproduza os passos da salamandra. Existem acoplamentos unidirecionais vindos dos

18

3.4. REDE CELULAR NO-LINEAR

Figura 3.2: Uma CNN de dimenso MxN

osciladores dos membros para os osciladores do corpo cuja fora maior que a dosacoplamentos entre os osciladores do corpo, desta maneira o comportamento do CPGdos membros influencia no comportamento do CPG do corpo (?).

3.4 Rede Celular No-linear

As CNNs ( Cellular Nonlinear Networks Redes Celulares No-lineares) tornam possvelimplementar dinmicas no-lineares atravs de sistemas de osciladores acoplados,fornecendo caractersticas importantes na implementao de CPG para o controle delocomoo (?). A clula ou neurnio artificial de uma CNN funciona como um proces-sador analgico dinmico. Duas caractersticas marcantes na CNN so: capacidade deprocessamento paralelo e interconexes essencialmente locais entre clulas. No entanto,devido sua dinmica de propagao, toda a rede interage direta ou indiretamente.Esta uma caracterstica que distingui a CNN das demais redes (???). Uma CNN deduas dimenses e de tamanho MxN mostrada na Figura ??. Embora a CNN possaassumir qualquer dimenso, o foco deste texto em duas dimenses, pois a CNNestudada neste trabalho para o controle robtico possui tal dimenso.

3.4.1 A Clula CNN

Em vrios trabalhos sobre CPGs baseados em osciladores acoplados, o neurnio re-presenta o oscilador e na CNN ele definido como uma clula (?). Na estrutura deuma CNN cada clula um sistema dinmico, conectada apenas a sua vizinhanasatisfazendo algumas propriedades: interaes limitadas a uma vizinhana de raiofinito; e todas as variveis de estado so de valores contnuos (??). A vizinhana deuma clula em uma CNN de tamanho MxN expressa pela Equao ??:

Nr(i, j) = {C(k, l)|max{|k i|, |l j|}6 r,16 k6M,16 l 6 N}, 3.12

onde C(i, j) denota a clula da i-sima linha e j-sima coluna. O raio r da CNN utilizadaneste trabalho tem tamanho 1.

19


3.4.2 Modelagem Matemtica

Segundo ?), uma CNN caracterizada pelo conjunto de equaes diferenciais a seguir:

Cdxij(t)dt

= 1Rx

xij(t) + C(k,l)Nr(i,j)

A(i, j;k, l)ykl(t) + C(k,l)Nr(i,j)

B(i, j;k, l)ukl(t) + zij,

16 i6M;16 j6 N 3.13yij = f (xij) =

12(|xij + 1| |xij 1|), 16 i6M;16 j6 N

3.14uij = Eij, 16 i6M;16 j6 N

3.15Algumas restries:

|xij(0)|6 1, 16 i6M;16 j6 N 3.16

|uij|6 1, 16 i6M;16 j6 N 3.17

A clula bsica CNN nij possui um estado xij, uma entrada uij, um limiar zij, umasada yij e uma corrente de entrada sinptica INij . Esta corrente sinptica depende daentrada ui+k,j+l(t) e do estado xi+k,j+l de todas as clulas localizadas na vizinhanade tamanho r de nij, caso r = 1, k e l {1,0,1}. A contribuio vinda da entradaui+k,j+l(t) de cada clula vizinha modelada por uma fonte controlada do tipo linearbklui+k,j+l(t). A contribuio de cada estado xi+k,j+l(t) de cada clula vizinha ni+k,j+l modelada por um fonte controlada do tipo no-linear akl f (xi+k,j+l), onde f () descreveuma funo escalar no-linear, ver Equao ??. Os coeficientes akl pertencem ao templatede retroalimentao A e os coeficientes bkl pertencem ao template de entrada ou decontrole B. O template aparece na forma A(i, j,k, l), onde: A o nome do template; i e jidentificam a clula; k e l identificam um elemento dentro do template. Um template derealimentao A de tamanho 3x3 e com uma vizinhana de raio 1 mostrado na Tabela??. O coeficiente central a0,0 do template A est relacionado realimentao da prpriaclula nij. Uma clula CNN dita autnoma quando no possui entradas externas ouseja uij = ui+k,j+l = 0.

A modelagem da corrente sinptica em uma clula CNN semelhante ao compor-tamento biolgico onde cargas eltricas chegam aos dendritos de uma clula vindasdos axnios de outras clulas, atravs da sinapse. Um ilustrao de como uma clula

20


Figura 3.3: Clula autnoma CNN (uij = ui+k,j+l = 0). Cada sinapse (fonte de correntecontrolada) mostrada como uma funo no-linear de seu estado atual xij e seusestados vizinhos xi+k,j+l.

a1,1 a1,0 a1,1a0,1 a0,0 a0,1a1,1 a1,0 a1,1

Tabela 3.1: Template A

nij relaciona-se com suas vizinhas atravs da corrente sinptica INij (t), apresentada naFigura ?? e a definio matemtica na Equao ??.

INij = kl 6=0,0

akl f (xi+k,j+l) + kl 6=0,0

bklui+k,j+l 3.18

De acordo com ?), a clula bsica pode ser descrita utilizando uma equao deestado de primeira ordem como a Equao ??:

xij = 1C[xijR a00 f (xij) b00uij zij INij

] 3.193.4.3 Viso de Circuito Eltrico

Figura 3.4: Um circuito eltrico de uma clula CNN.

Sob o ponto de vista eltrico, a clula CNN composta de elementos linearescomo capacitores, resistores e fontes. Possui tambm fontes de corrente no-linearescomo ilustrado na Figura ??. Segundo ?), cada clula C(i, j) da CNN contm: umafonte de tenso independente Eij; uma fonte de corrente independente Z = zij; umcapacitor linear C; dois resistores lineares Rx e Ry; fontes de correntes lineares Ixue Ixy. As fontes de corrente lineares so descritas por Ixy(i, j,k, l) = A(i, j,k, l)ykl eIxu(i, j,k, l) = B(i, j,k, l)ukl, onde k e l so os ndices para as clulas vizinhas. Para todoC(k, l) Nr(i, j), ukl a voltagem de entrada e ykl a voltagem de sada de cada clulavizinha. Em cada clula o elemento no linear a fonte de corrente controlada portenso Iyx = (1/Ry) f (xij) .

21


Figura 3.5: Grfico do estado interno xij versos a sada yij de uma clula CNN.

0 1 01 -4 10 1 0

Tabela 3.2: Template A

3.4.4 A CNN Difuso de Reao

Na modelagem de CPG proposta por ?), a CNN utilizada do tipo Difuso de Reao.Esta CNN uma rede simples de duas camadas capaz de gerar ondas autnomas.Algumas caractersticas marcantes nas ondas autnomas so: possuir forma constantedurante a propagao; e no ser afetadas por interferncias (?). As conexes entre asclulas so definidas por um template de difuso de reao e cada clula um circuitono linear de segunda-ordem que independente de sua vizinhana comporta-se comoum oscilador no-linear (?). A autonomia da rede devido ao fato de no existir sinaisde entrada. Ela chamada de difuso de reao porque descrita matematicamente poruma verso discretizada de um sistema de equaes diferenciais parciais no-lineares,geralmente referenciadas na literatura como equaes de difuso de reao (?).

As duas camadas da RD-CNN (CNN de Difuso de Reao) interagem dentrode cada clula gerando oscilaes, sendo que a interao com a vizinhana obtidaseparadamente por meio de dois templates de difuso, um para a primeira camada eoutro para a segunda camada. No existe interao direta entre a camada 1 de umaclula C(i, j) e a camada 2 das clulas de sua vizinhana e vice versa (?). Os templatesde difuso de reao so baseados no Laplaciano, cujo intuito ponderar o efeito dasvariveis de estado das clulas vizinhas (??). Para exemplificar, um template Laplacianodiscretizado em duas dimenses apresentado na Tabela ??. As clulas da RD-CNNpara gerar as ondas autnomas so descritas pelo seguinte sistema de segunda ordem(?):

x1,i,j = x1,i,j + (1+ + )y1,i,j s1y2,i,j + i1 3.20

x2,i,j = x2,i,j + s2y1,i,j + (1+ )y2,i,j + i2 3.21

Com i = 0,1, ...,M 1 e j = 0,1, ...,N 1. A influncia das constantes e s no compor-tamento de um sistema dinmico autnomo simples, semelhante ao de uma clulaRD-CNN, descrito no apndice ??. Os sinais dos estados internos e das sadas de umarede com dois neurnios so expressos nos grficos da Figura ??.

22

3.5. O MODELO DE ARENA

Figura 3.6: Grfico dos valores dos estados internos (x1 e x2) e das sadas (y1 e y2) parauma rede CNN com dois neurnios A e B cada um com duas camadas. A linha verdeindica os valores de y e a linha azul indica os valores de x.

A representao vetorial da RD-CNN (??) descrita pela Equao ??:

xij = xij + A yij + B uij + I 3.22

onde xij =[x1;i,j x2;i,j

]T, xij =

[x1;i,j x2;i,j

]T, yij =

[y1;i,j y2;i,j

]Te uij =

[u1;i,j u2;i,j

]Trepresentam a variao no tempo do estado interno, o estado interno propriamentedito, a sada e a entrada da CNN, respectivamente. A, B e I representam os templates derealimentao, de controle e de bias, respectivamente. O template A, de difuso discreta,define a relao das clulas com seus vizinhos sendo expresso da seguinte maneira:

A =

(A11 A12A21 A22

); B = 0; I =

(i1i2

).

A12 = A21 =

0 0 00 s 00 0 0

, 3.23A11 e A22 so matrizes 3x3 e definem a relao com as clulas vizinhas para as camadas1 e 2 respectivamente. O operador de convoluo bidimensional para um template T definido por ?) como:

T xij = C(k,l)Nr(i,j)

T(k i, l j)xkl; 3.24

onde T(m,n) um elemento do template cujos ndices m e n pertencem ao conjunto{1,0,1}. T(0,0), por exemplo, o elemento central da matriz. Esta forma de indexao melhor ilustrada na Tabela ??.

3.5 O Modelo de Arena

?) investigaram o problema de locomoo artificial em um rob caminhante de seispatas para reproduzir o caminhar de insetos. Eles utilizaram uma CNN para construirum gerador central de padres. ?) tambm desenvolveram um mecanismo de controleadaptativo de alto-nvel capaz de encontrar os parmetros que definem o comporta-

23


mento do CPG durante a locomoo do rob. Estes parmetros so organizados naforma de templates, um estudo mais detalhado sobre estes templates apresentado naSeo ??. O controle adaptativo elaborado com base em um mapa motor, descrito naSeo ??.

Os movimentos locomotores de um membro so controlados por uma clula daCNN, j a coordenao entre membros esta relacionada s conexes entre as clulas.Os neurnios oscilam na mesma frequncia e possuem fase constante entre eles. O quediferencia um modo de locomoo de outro justamente a defasagem entre perna, ouseja, a defasagem entre as oscilaes dos neurnios. Modos distintos de locomoo soexecutados atravs do uso de conexes distintas, correspondendo a conjuntos distintosde templates (?).

Os modos de locomoo mais bsicos como andar, mover em velocidade moderadae correr podem ser combinados para formar um modo de locomoo intermedirio econsequentemente uma transio mais suave entre estes modos de locomoo bsicos.Esta transio alcanada ativando mais de um template ao mesmo tempo, j que cadatemplate define um modo de locomoo (?). O modo de locomoo contnuo definidoatravs do template de realimentao Ar como a seguir:

Ar = A f + Am + Aw, 3.25

onde o primeiro termo da equao representa o modo de locomoo rpido A f , osegundo representa o modo de locomoo moderado Am e o terceiro, o modo delocomoo lento Aw. Os parmetros , e variam entre 0 e 1 (?), sendo o controledestes parmetros (, e ) feito por meio de um mapa motor, que a partir de umavelocidade de referncia capaz de determinar cada um deles.

3.5.1 Abordagem Multi-Template

Na RD-CNN, a criao de um determinado modo de locomoo depende de como arede esteja estruturada. O sincronismo entre clulas esta relacionado maneira como aclulas so conectadas. Como cada clula esta conectada a uma perna, o sincronismoentre clulas dita a defasagem do movimento das pernas. Template determina a estru-tura da RD-CNN, logo o modo de locomoo resultante, no entanto escolher o templateapropriado para obter um determinado modo de locomoo no uma tarefa trivial (?)

?) desenvolveram um heurstica chamada de Abordagem Multi-Template paraencontrar a estrutura da RD-CNN que gera o padro de locomoo desejado. Ento,a partir de uma RD-CNN estruturada em um anel de clulas, vrios padres de

24


locomoo podem ser obtidos. Bastando apenas reconfigurar as conexes entre asclulas. Para mudar o padro de locomoo basta usar um nmero diferente de clulasque constituem o anel e rearrumar as conexes entre neurnios (clulas RD-CNN). Istocorresponde reorganizao da topologia biolgica da rede neural. As sinapses soreorganizadas envolvendo novos neurnios ou diminuindo o numero de neurnios narede. Para obter o respaldo biolgico o modelo de propagao do sinal (pulso eltrico)da RD-CNN manteve-se compatvel com uma modelagem matemtica da sinapsequmica.

Baseado no comportamento da sinapse qumica (?) propuseram uma heurstica paraauxiliar na construo de uma RD-CNN que se comportasse de maneira desejada. Parafacilitar a manipulao da RD-CNN e projetar o CPG, o problema foi decomposto emuma estrutura simples semelhante a um anel formada por um ncleo composto apenasde dois neurnios. A partir desta rede simples novos neurnios so acoplados paraalcanar o CPG desejado. As conexes sinpticas entre os neurnios desta rede podemser do tipo excitatria ou inibitria. O tipo de sinapse determina o sentido em que asequncia de disparos dos neurnios ocorrem, podendo ser horria ou anti-horria. Naconstruo desta rede em forma de anel o nmero de fases N contidas em um modode locomoo indica a quantidade inicial de neurnios, por exemplo, no modo delocomoo trpode alternado (trs pernas sincronizadas) que possui duas fases (N = 2)a quantidade de neurnios no anel ser 2. Mas, ao projetar um CPG a quantidade finalde neurnios n escolhida a mesma quantidades de membros controlados pela rede.

As recomendaes heursticas para montar um CPG, chamadas de abordagemmulti-template (??), so descritas a seguir:

1. A quantidade de diferentes fases N que o CPG gera est relacionada a mesmaquantidade inicial de neurnios N presentes no anel;

2. n N neurnios so adicionados a rede, as conexes so estabelecidas e tambmo sincronismo dos novos neurnios com os neurnios j existentes;

3. Os pesos sinpticos influenciam no perodo de oscilao. O mesmo valor escolhido para todas as sinapses da rede. Este peso sinptico escolhido como objetivo de garantir a estabilidade do padro de sincronizao no qual cadaneurnio dispara em uma fase diferente. Para que o total de pesos sinpticos naentrada de um neurnio permanea a mesma em todos os neurnios, /k onde k a quantidade de pesos na entrada de um neurnio.

Depois de estabelecida a estrutura da rede, o prximo passo escrever o conjuntode templates correspondente a esta estrutura. Para elaborar estes templates, as conexes

25

3.6. CONSIDERAES

entre neurnios so levadas em conta. Neste caso, o template dependente do espao,ou seja, da posio que a clula ocupa na rede. Cada conjunto de templates gera ummodo de locomoo, logo, mudar entre modos de locomoo significa alterar o conjuntode templates atuantes neste sistema (?).

3.5.2 Mapas Motores

A formao da topologia que constitui os mapas motores no crebro fundamentada narepresentao de sinais de entrada sensoriais e na habilidade de executar uma ao emreposta a um dado estmulo. Neurnios no crebro so organizados em agrupamentoslocais aptos a executar tarefas como enviar o sinal apropriado para o msculo. Estesagrupamentos neurais, inspiradas no paradigma de Mapas de Kohonen, mapeiam asexcitaes em movimentos. Desta forma, estas redes so aptas a reagir s excitaesdisparando um movimento como o crtex motor no crebro (??).

Um Mapa Motor possui uma arquitetura em duas camadas: uma dedicada a ar-mazenar os pesos da entrada e outra dedicada ao pesos da sada. Ao apresentar umavelocidade de referncia para a rede, um neurnio da camada de entrada ativadoque por sua vez ativa um conjunto de neurnios da camada de sada, selecionandoum conjunto de parmetros definidores dos pesos da Equao ??. Como visto anterior-mente, a Equao ?? determina o modo de locomoo corrente, por tanto a velocidaderesultante de deslocamento do rob. A fase de aprendizagem lida com a atualizaotanto dos pesos de entrada quanto dos da sada, permitindo ao mapa aprender aesrelacionadas ao controle motor. O algoritmo de aprendizagem uma extenso doalgoritmo vencedor-leva-tudo (winner-take-all). O Mapa Motor aprende uma novavelocidade de referncia apenas se a variao da funo de recompensa, Equao ??,for maior que um determinado limiar.

Reward = (Vre f v)2 3.26

3.6 Consideraes

Este captulo apresentou duas abordagens usadas na implementao de CPGs, umabiologicamente inspirada no CPG da lampreia e a outra construda a partir de umarede celular no-linear. Em ambas as abordagens, a modelagem matemtica do CPGfoi realizada atravs de equaes diferenciais, mais especificamente equaes de os-ciladores no-lineares (??). Estas abordagens implicam no ajuste de um conjunto de

26

3.6. CONSIDERAES

parmetros ou at mesmo na modificao destas equaes para produzir o modo delocomoo desejado.

As tcnicas mais utilizadas para resolver o problema de locomoo so biologi-camente inspiradas em CPGs. O objetivo inicial deste trabalho era transformar ummapa auto-organizvel em um CPG, mas esta estratgia tornou-se invivel, pois asmodelagens dos CPGs encontradas na literatura no so compatveis com as mode-lagens de mapas auto-organizveis. Os CPGs so descritos por equaes diferenciaisenquanto que os mapas auto-organizveis so descritos algoritmicamente e precisamde uma base de dados para produzirem alguma resposta. Ento, o caminho seguidopara projetar um modelo de controle de locomoo de robs com membros levando emconta um mapa auto-organizvel de topologia varivel foi escolher dentre os modelosde CPGs aquele que tivesse maior relao com os mapas auto-organizveis. O modeloescolhido foi o de ?) que utiliza em sua modelagem um mapa motor, uma derivao demapa auto-organizvel. Embora Arena modele matematicamente os osciladores doCPG por meio da CNN.

A abordagem proposta nesta dissertao possui duas caractersticas interessantes.Primeiro, no necessita de modelagem com base em equaes diferenciais. Segundo inovadora, pois no foi encontrado nenhum registro na literatura de alguma abordagemsemelhante para o controle de locomoo de robs com membros. O STRAGENproposto por ?), utilizado como base do modelo apresentado no Captulo ??, destaca-se dos outros mapas por sua flexibilidade. Pois o critrio de vizinhana pode serselecionando de qualquer parte da amostra e o mesmo pode ser feito para o critrio deatividade.

O Captulo ?? apresenta o modelo proposto nesta dissertao. Este modelo capazde construir o movimento oscilatrio a partir de posturas do rob, dadas como amostraspara o modelo, fazendo um mapeamento direto entre o comportamento observado e ocomportamento resultante. Diferentemente do que acontece nas abordagens baseadasem osciladores no-lineares onde o comportamento observado precisa ser modeladomatematicamente atravs de equaes diferenciais e a partir destas equaes produziro comportamento desejado.

27

4Mapas Auto-Organizveis

Os mapas auto-organizveis em essncia constroem um mapeamento de um espao deentrada de alta dimensionalidade em um espao de estruturas topolgicas de baixadimenso. Neste mapeamento, elementos vizinhos no espao de entrada so mapeadosem regies vizinhas do espao de estruturas topolgicas.

Para melhor entender o STRAGEN (State Trajectories Generator ) utilizado na pro-posio do modelo tratado nesta dissertao, este captulo apresenta alguns mapasauto-organizveis relacionados ao STRAGEN. O primeiro modelo apresentado oclssico modelo de Kohonen, o ponto de partida dos mapas auto-organizveis. Emseguida apresenta o modelo GCS (Estruturas Celulares Crescentes) projetado parasuperar algumas limitaes do modelo de Kohonen, originadas devido a sua estruturargida. Os outros modelos so: o GNG, muito semelhante ao GCS; e o GWR que trazalgumas novidades em relao aos modelos citados anteriormente.

4.1 Algumas Definies

Antes de mostrar os modelos de mapas auto-organizveis algumas definies precisamser levadas em conta: (?????):

Estmulo de entrada, sinal de entrada, ou apenas entrada da rede um vetor dedados n-dimensional, = [12...,n], isto , uma lista de nmeros que represen-tam os valores do estmulo em cada dimenso;

Neurnio, unidade, n ou clula ni possui um conjunto de valores numricos oupesos sinpticos, wi. O vetor wi = [wi1,wi2, ...,win] possui a mesma dimenso de e pode ser considerado uma posio no espao de entrada;

28

4.2. SOM

O neurnio vencedor s possui vetor sinptico ws, tambm conhecido como neur-nio mais adaptado, aquele que possui o maior grau de semelhana com oestmulo de entrada;

Vrtice ou conexo, um conceito comum nos mapas auto-organizveis, unem osneurnios para formar a sua vizinhana;

4.2 SOM

Segundo ?), um SOM (Mapa Auto-Organizado Self-Organizing Map ) uma ferra-menta matemtica para visualizao de dados de alta-dimensionalidade. Ele cria ummapeamento de uma distribuio de alta-dimenso em uma grade regular de baixa-dimenso. Sendo capaz de compactar informaes preservando os relacionamentostopolgicos e as mtricas mais importantes dos dados originais. Com base nestascaractersticas dois aspectos so evidenciados, o de abstrao e exibio simplificadada informao. Estes dois aspectos podem ser utilizados de diversas maneiras emuma variedade de aplicaes prticas como em reconhecimento de voz, anlise deimagem, processos industriais de controle, organizao automtica de documentosnuma biblioteca, visualizao de registros financeiros etc

Os estmulos chegam para todas as unidades na rede, no entanto a unidade maisativa aquela cujo vetor de pesos wi mais prximo do estmulo de entrada. Estaunidade chamada de vencedora ws, mantm-se ativa induzindo ativao dos neur-nios vizinhos. Um requisito para a auto-organizao que os pesos sinpticos deuma unidade sejam modificados apenas na vizinhana local da unidade vencedora etodos os pesos modificados assemelhem-se ao estmulo atual com mais preciso que nopassado. Diferentes sinais de entrada em diferentes tempos afetam regies diferentesna grade de unidades. Deste modo, depois de muitos passos de aprendizagem, ospesos sinpticos (wi) comeam a adquirir valores que se relacionam suavemente dentrodesta grade de maneira equivalente aos estmulos do espao de entrada () (?).

A unidade vencedora ws aquela possuidora do maior grau de semelhana com oestmulo de entrada. A equao ?? descreve o processo de comparao:

i,(t)ws(t) (t)wi(t). 4.1

A mtrica de comparao normalmente escolhida a distncia Euclidiana (???).O algoritmo SOM modifica os pesos sinpticos das unidades vizinhas da unidade

vencedora de modo a aumentar o grau de semelhana entre estas unidades e estmulo

29

4.3. GCS

de entrada. A vizinhana do neurnio vencedor pode ser descrita pala funo devizinhana hci na equao ??, que atinge seu mximo para o vencedor, isto i = s. Estafuno hsi normalmente descrita pela curva Gaussiana e retorna um valor escalar:

hsi = (t)exp(ri rs

22(t)

),

4.2onde 0< (t) < 1 a taxa de aprendizagem, ri R2 e rs R2 so as posies vetoriaisdos elementos na grade, e (t) corresponde a largura ou raio da funo de vizinhana.Os parmetros (t) e decrescem monotonicamente com o decorrer tempo t (??).

Na etapa de aprendizagem um estmulo de entrada (t) modifica os valores dospesos sinpticos wi(t) para novos valores wi(t+ 1), t indica a iterao atual. A Equao?? mostra como a atualizao dos pesos sinpticos da unidade vencedora e de suasvizinhas dependem dos estmulos de entrada: quanto maior a diferena entre o estmuloe os pesos sinpticos de uma unidade, maior ser o salto em direo ao vetor querepresenta o estmulo de estrada (?).

wi(t+ 1) = wi(t) + hsi(t)((t)wi(t)). 4.3

4.3 GCS

Algumas limitaes do SOM motivaram a criao de um modelo de rede neural detopologia varivel. As limitaes do SOM esto relacionadas estrutura e dimenso fixadecididas previamente. Como a distribuio de probabilidade dos dados de entradano conhecida, a configurao da estrutura da rede decidida previamente pode nocapturar bem este dados de entrada, consequentemente comprometendo a preciso darede. A rede GCS (Growing Cell Structures) proposta por ?), semelhante rede SOM, capaz de mapear um estmulo de entrada n-dimensional, denotado por V =Rn, emum estrutura com topologia varivel A de k dimenses. Este mapeamento contm asseguintes propriedades:

Estmulos similares de entrada so mapeados em unidades de A topologicamenteprximas;

Elementos topologicamente prximos em A possuem sinais similares de entrada;

Regies de V onde a densidade de probabilidade da distribuio do vetor deentrada alta deve ser representada por muitas unidades correspondentes em A.

30

4.3. GCS

A topologia inicial da rede A um simplex de dimenso k. Para k = 1 o simplex umsegmento de reta, para k= 2 um tringulo e para k= 3 ou maior, um tetraedro ou hiper-tetraedros. Os vrtices do simplex so os neurnios, as arestas ou conexes representama relao de vizinhana topolgica. Durante o processo de auto-organizao, novosneurnios so adicionadas rede e neurnios no relevantes so removidas. Aotermino de cada iterao a rede inteira mantm sua estrutura simplex consistente comdimenso k (?).

Cada neurnio ni est associada a um vetor sinptico wi de dimenso n. Estevetor pode ser entendido como a posio de ni no espao vetorial de entrada. Ummapeamento w do espao vetorial de entrada V para a rede A definido como omapeamento entre o estmulo de entrada e o neurnio vencedor. Formalmente escritopor ?):

w : V A, ( V) 7 (w() A) 4.4

onde w() = ws o vetor sinptico do neurnio vencedor encontrado matematica-mente com a equao ??. Com o mapeamento w que associa cada estmulo de entrada a um vetor sinptico wi, V particionado em regies Fi (i A), cada uma formadade localizaes que possuem em comum o vetor sinptico wi mais prximo. Este parti-cionamento conhecido como decomposio de Voronoi, e as regies so denotadascomo regies de Voronoi (?).

A princpio, a adaptao dos vetores sinpticos no GCS feita como Kohonenprops:

1. Determine a unidade mais semelhante para o estmulo de entrada atual.

2. Torne a unidade mais semelhante e a sua vizinhana topolgica ainda maissemelhante a este estmulo.

No modelo de Kohonen, a taxa de aprendizagem, chamada de fora de adaptaopor ?), diminui com o decorrer das iteraes. Alm disso a vizinhana topolgica escolhida grande no incio e tambm diminui com o tempo. Existem, no entanto, duasdiferenas importantes entre o GCS e o SOM, so elas:

A fora de adaptao constante no tempo, mais especificamente os parmetrosde adaptao s e n relacionados a unidade mais semelhante e aos neurniosvizinhos respectivamente;

Apenas a unidade mais semelhante e seus vizinhos topologicamente diretos soadaptados.

31

4.3. GCS

O passo de adaptao do algoritmo GCS pode ser descrita como a seguir ?):

1. Escolha um estmulo de entrada levando em conta a distribuio de probabili-dade P();

2. Encontre o neurnio vencedor s;

3. Mova s e sua vizinhana topolgica direta em direo a :

ws = s( ws) 4.5

wns = n( wns) (ns Ns), 4.6

onde Ns denota o conjunto dos vizinhos topolgicos do neurnio s;

4. Incremente o contador de vitrias de s,

s = 1, 4.7

5. Decremente todos os contadores de vitrias:

i = i (i A), 4.8

assim, as vitrias mais recentes recebem uma ponderao mais forte do que osanteriores.

A distribuio de probabilidade P() no conhecida explicitamente, mas pode serestimada com contador local de vitrias. Este contador indica a frequncia relativa dosestmulos de entrada recebidos por um neurnio. A frequncia relativa de vitrias deum neurnio i dada por

hi = i/jA

j. 4.9

Espera-se que a frequncia relativa de vitrias de cada neurnio seja similar. Um valorelevado de hi, portanto, indica um boa posio para inserir um novo neurnio desdeque o novo neurnio seja capaz de reduzir este valor elevado ?).

Sempre depois de um nmero fixo de passos de adaptao o neurnio q com aseguinte propriedade determinado

hq > hii A). 4.10

32

4.4. GNG

Depois, o vizinho f de q que possui a maior distncia para o espao de entrada determinado, de acordo com

w f wq> wi wq (i Nq). 4.11

O novo neurnio r inserido entre q e f . Este novo neurnio conectado comoutros neurnios de maneira que a estrutura da rede continue consistente com simplicesde dimenso k. O vetor sinptico r inicializado como

wr = 0.5(wq + w f ). 4.12

A insero de r gera a uma nova regio de Voronoi Fr dentro do espao de entrada. Aomesmo tempo as regies de Voronoi na vizinhana topolgica de r diminuem. Estamudana reflete nos contadores, i, da seguinte maneira

i =|F(novo)i | |F(velho)i |

|F(velho)i |i (para todo i Nr).

4.13Onde |Fi| o volume da regio Fi de dimenso n. O valor inicial do contador de vitriasdo novo neurnio definido como

r = iNr

i. 4.14

4.4 GNG

A rede GNG (Growing Neural Gas) proposta por ?) outro modelo de topologia varivelmuito semelhante ao GCS e caracterizado da seguinte maneira:

Um conjunto A de neurnios, em que cada neurnio i A tem um vetor sinpticoassociado wi Rn.

Um conjunto N de conexes entre pares de neurnios. Estas conexes no ponde-radas tm o propsito de definir a estrutura topolgica da rede.

O estmulo de entrada obedece a alguma funo de densidade de probabilidadeP() desconhecida

O crescimento do GNG ocorre levando em conta uma avaliao local com medidasestatsticas obtidas nas iteraes ou passos de adaptao do passado, semelhante ao

33

4.4. GNG

modelo GCS de ?). O algoritmo GNG apresentado a seguir:

1. Inicie com duas unidades a e b em posies aleatrias wa e wb em Rn.

2. Obtenha um estmulo de entrada a partir da distribuio de probabilidade P();

3. Encontre a unidade vencedora s1 e a segunda unidade vencedora s2.

4. Incremente a idade de todas as conexes de s1.

5. Acumule o erro local de s1:

error(s1) = ws1 2 4.15

6. Mova s1 e seu vizinhos topologicamente diretos na direo de proporcional-mente a s e n, respectivamente, segundo:

ws1 = s( ws1) 4.16

wn = n( wn), n Ns1 4.17

7. Se s1 e s2 possui uma conexo, atribua o valor zero a esta conexo. Se tal conexono existe, crie.

8. Remova conexes com idade maior que amax. Se resultar em neurnios descone-xos, remova-os.

9. Se o nmero de estmulos de entrada apresentados a rede at o momento for ummltiplo de um parmetro , insira um novo neurnio como a seguir:

Determine o neurnio q com o mximo erro acumulado;

Insira um novo neurnio r na metade da distncia entre q e seu vizinho fcom o maior erro:

wr = 0.5(wq + w f ). 4.18

Insira conexes entre novo neurnio r e os neurnios q e f , e remova aconexo original entre q e f ;

Decremente a varivel de erro de q e f multiplicando por uma constante .Inicialize a varivel de erro de r com o mesmo valor da varivel de erro de q.

10. Decremente todas as variveis de erro, multiplicando-as por uma constante d.

34

4.5. GWR

11. Se nenhum critrio de parada (exemplo, tamanho da rede ou alguma medida dedesempenho) for atingido retorne ao passo 1.

4.5 GWR

A rede GWR (Grow When Required) proposta por ?) tem dois componentes importantes,os neurnios e as conexes. Tanto os neurnios quanto as conexes podem ser criadose destrudos durante o processo de aprendizagem. Diferente do GNG, que adicionaum neurnio a cada iteraes, o GWR adiciona um neurnio a qualquer momento. Oposicionamento deste novo neurnio depende da entrada e do neurnio vencedor, aoinvs de adicionar onde o erro acumulado maior, como no GNG.

Um novo neurnio adicionado quando a atividade do neurnio vencedor no alta o suficiente. A atividade de um neurnio calculada atravs da funo de distnciaEuclidiana entre seu vetor de pesos e o vetor de entrada. Cada neurnio equipadocom uma varivel para registrar a sua frequncia de vitrias (?).

Uma maneira de registrar a frequncia de vitrias armazenar o valor 1 em umavarivel e fazer o valor desta varivel decrescer exponencialmente de 1 para 0 a medidaque o neurnio v vencendo. Deste modo, um neurnio novo ter o valor 1 e osneurnios que disparam frequentemente tero o valor prximo a 0. Os vizinhos doneurnio vencedor tambm so atualizados, mas o valor armazenado decresce maislentamente (?).

Ao apresentar uma entrada rede, a atividade de cada neurnio no mapa calculadae o vencedor escolhido. Se este neurnio vencedor representar bem a entrada ento aatividade deste neurnio ser prxima a 1. Neste caso, o nvel de adaptao aplicadoao neurnio vencedor bem como sua vizinhana pequeno. Entretanto, se a atividadeda rede menor que o limiar de insero aT, ento o neurnio vencedor foi adicionadorecentemente rede ou ele e o padro de entrada so diferentes ento o neurniovencedor precisa ser adaptado. Se o neurnio foi adicionado recentemente ento avarivel que registra os disparos ter um valor elevado, perto de 1. Caso contrrio, umnovo neurnio adicionado entre o neurnio vencedor e a entrada (?).

Um limiar de ativao identifica quando o estmulo de entrada j foi aprendido pelarede, caso o estmulo de entrada provoque uma atividade na rede menor que o limiarestabelecido, ento este estmulo deve ser aprendido pela rede. Assim, baixa atividadesignifica pouca semelhana entre a rede e a entrada. O valor do limiar de insero aTexerce grande influncia na quantidade de neurnios inseridos na rede. Se o valor configurado bem prximo a 1 ento mais neurnios sero produzidos e a entrada ser

35

4.5. GWR

bem representada. Para valores pequenos de aT poucos neurnios so adicionados (?).Para o algoritmo descrito a seguir, considere A o conjunto de todos os ns do

mapa e C A A o conjunto de conexes entre ns contidos no mapa. A distribuiodos dados de entrada representada por p(), e a entrada por . O vetor de pesos doneurnio ni como wi (?).

Inicializao: Coloque dois ns no conjunto A

A = {n1,n2}, 4.19

com n1 e n2 inicializados randomicamente a partir de p(). O conjunto de conexes C inicializado vazio

C = . 4.20

O algoritmo apresentado a seguir:

1. Apresente para a rede uma amostra dos dados de entrada;

2. Para cada n i da rede, calcule a distncia para amostra de entrada wi.

3. Selecione o n mais semelhante, e o segundo mais semelhante ao padro deentrada, isto , os ns s1, s2 A tal que

s1 = argminnA wn

4.21e

s1 = arg minnA/{s}

wn 4.22

onde wn o vetor de pesos do n n.

4. Caso no exista uma conexo entre s1 e s2, crie

C = C {(s1, s2)}, 4.23

caso exista, atribua o valor 0 para a idade da conexo.

5. Calcule a atividade da unidade mais semelhante

a = exp( ws1). 4.24

6. Se a atividade a for menor que o limiar de atividade aT e a quantidade de ativaesdo neurnio for alta (o valor presente na varivel que registra os disparos menor

36

4.5. GWR

que o limiar hT), ento um novo neurnio deve ser adicionado entre os doisneurnios mais semelhantes (s1 e s2) ao padro de entrada

Adicione um novo neurnio, r

A = {r}. 4.25

Crie o novo vetor de pesos, atribuindo aos pesos a mdia entre pesos doneurnio vencedor e o vetor de entrada

wr = (ws1 + )/2. 4.26

Insira conexes entre r e s1, e entre r e s2

C = C {(r, s1), (r, s2)}. 4.27

Remova a conexo entre s1 e s2

C = C/{(s1, s2)}. 4.28

7. Se um novo neurnio no for adicionado, ajuste a posio do neurnio vencedore dos neurnios conectados a ele, os vizinhos i,

ws1 = b hs1 ( ws1) 4.29

wi = n hi ( wi), i Ns1 4.30

onde 0< n < b < 1 e hs1 o valor do registrador de disparos do n s1.

8. Incremente a idade das conexes que chegam ao neurnio s1

age(s1,i) = age(s1,i) + 1 4.31

9. Reduza o registrador de vitrias do neurnio s1 de acordo com

hs1(t) = h0 S(t)b

(1 e(bt/b)) 4.32

37

4.6. CONSIDERAES

e de seus vizinhos (i)

hi(t) = h0 S(t)n (1 e(nt/n))

4.33onde hi(t) o valor do registrador de disparos do neurnio i, h0 o valor inicialpara o registrador de vitrias, e S(t) a fora do estmulo, normalmente 1. Asconstantes n, b , n, e b controlam o comportamento da curva. O registrador dedisparos do vencedor reduz mais rapidamente que dos seus vizinhos. A equao?? a soluo da seguinte equao diferencial

bdhs1(t)

dt= b[h0 hs1(t)] S(t),

4.34que o modelo de reduo da eficcia da sinapse com o passar do tempo.

10. Verifique se existe qualquer neurnio ou conexo a ser deletada, isto , se existequalquer neurnio que no possui mais nenhum vizinho, ou conexo que maisvelha que o maior valor permitido, ento delete.

11. Se existirem mais entradas disponveis, ento retorne ao passo 1, caso nenhumcritrio de parada tenha sido alcanado.

4.6 Consideraes

Este captulo apresentou os mapas auto-organizveis mais importantes para entendero STRAGEN. As caractersticas destes mapas mais marcantes e presentes no STRAGENso: a estrutura topolgica varivel, como no GCS, GNG e GWR; o crescimento deacordo com a resposta da rede a um dado estmulo, caso a rede no responda bem a esteestmulo ento a rede dever aprender este estmulo, semelhante ao comportamentodo GWR.

Os assuntos mais importantes para a compreenso da abordagem proposta noprximo Captulo, o ??, esto presentes nos Captulos ?? e ??.

38

5Proposio do Modelo: STRAGIC

A proposta de soluo para o problema tratado no Captulo ?? consiste em construirtrajetrias de estados contendo informaes uteis para o controle de locomoo de umrob com membros. Estas trajetrias so formadas a partir de dados capturados durantea locomoo de um rob simulado semelhante ao rob que se deseja controlar. Estesdados podem ser ngulos das articulaes, sinais de sada dos osciladores aplicados asarticulaes, ou as posies das articulaes no espao Euclidiano 3D. Embora o textoesteja focando no sinal de sada do CPG por ser uma informao comumente utilizadapara controlar a locomoo de um rob com membros.

A proposta de soluo denominada STRAGIC (Gerador de Trajetrias de Estadoscom Interconexes). O STRAGIC um modelo projetado a partir do STRAGEN(State Trajectories Generator Gerador de Trajetrias de Estados) para desempenhar umcomportamento semelhante a um CPG artificial. A estrutura interna da rede geradapelo STRAGIC diferente dos modelos de CPGs artificiais vistos no Captulo ??. Noentanto, o STRAGIC capaz de gerar trajetrias de estados que descrevem o mesmosinal produzido por osciladores que compem um CPG. O STRAGEN proposto por ?) um modelo de Rede Neural Artificial de topologia varivel capaz de gerar trajetriasde estados a partir do mapeamento do espao de estados de um sistema.

Um trajetria de estados pode ser vista como uma sequncia de estados que partede um determinado estado inicial para um estado final desejado. A trajetria de estadosque descreve a locomoo de um rob contm informaes que determinam a posturado rob durante um passo. Um estado pode conter uma descrio da postura do robou um conjunto de nveis dos sinais gerados pelos CPG que definem a postura. Apostura o conjunto das posies angulares de todas as articulaes dos membros dorob em um instante de tempo. As informaes contidas nos estados so coletadasem um intervalo de tempo regular durante um passo do rob. Quanto menor este

39

intervalo de tempo, mais estados estaro contidos na trajetria de estados que descreveo passo do rob.

A locomoo do rob realizada com a execuo constante dos passos do rob.Uma trajetria que descreve um passo do rob uma trajetria fechada, j que o inciodo passo coincide com o final. Assim, o rob se locomover ao executar uma trajetriafechada sucessivas vezes.

Algumas caractersticas ou propriedades do funcionamento dos modelos de CPGbiologicamente inspirados so incorporadas no modelo proposto:

O comportamento da sada dos CPGs so sinais oscilatrios que podem servisualizados em cada instante de tempo como um estado. Deste ponto de vista,o STRAGIC tambm gera sinais oscilatrios contidos em estados. Embora aestrutura interna dos modelos seja completamente diferente.

Um estmulo eltrico simples vindo do tronco cerebral capaz de controlaros padres de sada do CPG e consequentemente a velocidade e o modo delocomoo (?). O STRAGIC pode receber comandos para aumentar ou diminuir avelocidade sendo que cada velocidade resultante est associada a um modo delocomoo.

Um CPG composto de osciladores neurais conectados aos neurnios motores.Estes neurnios motores estimulam os msculos para movimentar os membros(?). O STRAGIC no reproduz a estrutura interna de um CPG, mas mantm umcomportamento semelhante em relao a sua sada. Ele gera os movimentosrtmicos nos membros atravs de trajetrias cclicas de estados.

O sincronismo entre osciladores de um CPG determina o modo de locomoo. OSTRAGIC captura um conjunto de amostras de posturas e constri uma trajetriade estados com a mesma sequncia dos estados originais gerados durante alocomoo, logo o STRAGIC mantm o mesmo sincronismo presente nas amostrasde entrada.

Alm dessas caractersticas, o STRAGIC capaz de construir trajetrias at mesmoquando as amostras so originadas de uma fonte ruidosa. A construo dos movimen-tos pode ser realizada atravs do balbuciamento1 motor (?), um procedimento quepossui plausibilidade no modo que os bebs aprendem seus primeiros movimentos.Os nodos do STRAGIC podem tratar diferentes tipos de informao, pois a dinmica

1Balbuciar: falar imperfeitamente, como as crianas, ou hesitando.

40

5.1. A ESTRUTURA DO STRAGIC

Figura 5.1: Treinamento do STRAGIC.

da rede pode ser modificada atravs da escolha do critrio de vizinhana. O STRAGICtem capacidade de lidar com dados que caracterizam a locomoo (ex. postura) noimportando a abordagem utilizada para gerar estes dados.

Uma vantagem do STRAGIC em relao aos modelos tratados no Captulo ?? queo STRAGIC no precisa preocupar-se com a defasagem entre membros, j que estainformao est embutida indiretamente nas informaes dos estados.

5.1 A Estrutura do STRAGIC

O STRAGIC est dividido em dois mdulos, o Mdulo de Gerenciamento de Locomo-o (MGL) e o Mdulo de Controle de Locomoo (MCL). O MCL constri trajetriasde estados que determinam os modos de locomoo do rob, j o MGL constri asinterligaes entre trajetrias. O MCL possui um Componente Construtor de MapaTopolgico (CCMT), um Montador de Trajetrias e um Identificador de sub-redes. OMGL possui um Classificador de Sub-Redes e um Gerador de Inter-Conexes, verFigura ??.

Para treinar o STRAGIC o primeiro passo fornecer uma base de dados contendoestados originados de modos de locomoo de um rob. Esta base de dados passadaao (MCL) que constri sub-redes associadas a um modo de locomoo. O CCMTconstri uma rede contendo sub-redes, o Montador de Trajetrias cria trajetrias cclicasa partir de uma sub-rede e o Identificador de Sub-Redes a partir dos estados de controledetermina quais neurnios pertencem a uma sub-rede.

Depois de identificadas as sub-redes so passadas para o MGL, o Classificadorde Sub-Redes do MGL identifica a velocidade associada a cada sub-rede ordena. OGerador de Inter-Conexes constri interligaes entre redes que representam veloci-dades prximas. Com a realizao das interligaes a rede resultante capaz de fazer atransio entre sub-redes ou permanecer em uma sub-rede de acordo com o comandorecebido.

5.1.1 Mdulo de Controle de Locomoo

No Mdulo de Controle de Locomoo (MCL), cada neurnio representa um estadodo rob que na etapa de aprendizagem as amostras (estados) so apresentadas a redeneural aleatoriamente de acordo com a distribuio uniforme.

41

5.1. A ESTRUTURA DO STRAGIC

O MCL possui um Componente Construtor de Mapa Topolgico (CCMT) imple-mentado com o STRAGEN. No decorrer da fase de aprendizagem o ComponenteConstrutor de Mapa Topolgico recebe um conjunto de estados aleatrios relacionado-os de maneira a representarem uma trajetria de estados que descreve a locomoodo rob. Considerando que estados de diferentes trajetrias sejam apresentados, oConstrutor de Mapa Topolgico capaz de construir cada trajetria presente nestesestados. Considerando que uma trajetria de estado descreve um modo de locomoo,o CCMT a partir destes estados aprende diferentes modos de locomoo. Depois datrajetria de estados construda pelo CCMT, as informaes sobre as posturas contidasnestes estados so utilizadas para determinar as posturas do rob durante a locomoo.

O STRAGEN original foi projetado para gerar trajetrias de estados para repre-sentar sistemas que tenham suas configuraes determinadas por estados possveis, eum conjunto vlido de transies entre estados. Um dos problemas resolvidos peloSTRAGEN o controle de manipuladores robticos interpretado como um problemade gerar trajetrias de estados. Redes neurais com topologia varivel como a GCS,GNG e GWR podem ser utilizadas para aprender um conjunto de dados de exemplospara representar o espao de estados do problema. No entanto, estas redes modifi-cam as informaes contidas nos estados, em relao aos dados originais, devido amovimentao dos neurnios (?). Neurnios com informaes diferentes das amostrasoriginais resultam em trajetrias tambm diferentes das originais.

Para a construo do mapa topolgico, considere C o conjunto de conexes entreestes nodos, uma amostra de entrada, wi o vetor de pesos associado ao nodo i.Inicialize o conjunto A com dois nodos n1 e n2 posicionados em wn1 e wn2 , em R

D,representando dois padres aleatrios do conjunto de dados, sendo D a dimenso dosdados de entrada, assim A = {n1,n2}. Inicialize o conjunto de conexes vazio comuma conexo entre n1 e n2, C = {cn1,n1}.

Cada vetor de pesos wi pode conter informaes heterogneas, divididas em mgrupos com elementos pertencentes a um mesmo domnio. Dois destes m grupos tmmaior importncia no algoritmo, so eles o grupo wa usado para calcular a atividadedo neurnio e o grupo wn usado para criar a vizinhana da rede. O grupo wa pode serdivido em outro l subgrupos, desta forma o limiar de atividade pode conter l elementos,a = [a1a2...al]T. O v

mapa auto-organizável para controle e gerenciamento de locomoção artificial

Documents