ipenpelicano.ipen.br/posg30/textocompleto/benedito dias... · 2009. 3. 2. · 2.2 arquiteturas de...

ipen AUTARQUIA ASSOCIADA À UNIVERSIDADE

DE SÃO PAULO

REDES NEURAIS PARA CONTROLE DE SISTEMAS

DE REATORES NUCLEARES

BENEDITO DIAS BAPTISTA FILHO

Tese apresentada como parte dos requisitos para obtenção do Grau de Doutor em Ciências na Área de Tecnologia Nuclear - Reatores.

Orientador: Dr. Adalberto José Soares

São Paulo 1998

INSTITUTO DE PESQUISAS ENERGÉTICAS E NUCLEARES Autarquia associada à Universidade de São Paulo

REDES NEURAIS PARA CONTROLE DE SISTEMAS DE REATORES NUCLEARES

BENEDITO DIAS BAPTISTA FILHO

Tese apresentada como parte dos reguisitos para obtenção do grau de Doutor em Ciências na Área de Tecnologia Nuclear: Reatores.

Orientador: Dr. Adalberto José Soares

SÃO PAULO

1998

A minha mãe, Ana Maria, à minha esposa, Cecília, e ao meu filho, Ricardo.

u

AGRADECIMENTOS

Ao colega Dr. Eduardo L. L. Cabral, pela sua valiosa contribuição durante todo o

desenvolvimento deste trabalho, destacando sua orientação no desenvolvimento dos

modelos de robótica e seus conselhos e sugestões em todos os aspectos do trabalho.

Ao Dr. Adalberto J. Soares, orientador e amigo, pela sugestão do tema, pelo contínuo

incentivo e atenção.

111

REDES NEURAIS PARA CONTROLE DE SISTEMAS DE REATORES NUCLEARES

Benedito Dias Baptista Filho

RESUMO

Foi desenvolvida uma nova arquitetura de redes neurais artificiais com o

objetivo de contribuir para o desenvolvimento de novos sistemas de controle para

instalações nucleares e robótica. Os novos conceitos introduzidos com essa arquitetura

foram baseados no projeto de redes dedicadas à tarefa, na utilização de múltiplos contatos

sinápticos com uma nova fijnção de transferência, e no uso de processos de modificação de

forças de ligação sinápticas similares aos de organismos biológicos. Esses conceitos

aproveitam os aspectos evolucionários dos sistemas biológicos, tanto na sua arquitetura,

quanto nos processos de transmissão de sinais, memória e aprendizado, propiciando uma

capacidade de generalização não obtida por meio de redes neurais artificiais clássicas tipo

Jeed-forward" (F-F).

Os novos conceitos foram aplicados ao controle de um manipulador robótico

bi-articulado no plano e ao controle de um sistema termo-hidráuüco operando em

circulação natural. Sua eficiência e capacidade de generalização foram comparadas com um

modelo clássico de redes neurais artificiais tipo F-F, treinada pelo algoritmo de retro-

propagação. O excelente desempenho obtido, principalmente no problema do manipulador

que caracteriza um sistema de dinâmica mais complexa, demonstrou que a utiüzação dessa

nova rede especializada por tarefa produz resultados muito melhores que os resultados

obtidos com a utilização de redes genéricas, como a rede tipo F-F. A tarefa de treinamento

da rede proposta foi cerca de 150 vezes mais rápida do que o treinamento da rede tipo F-F

com o método de retro-propagação associado à rede tipo F-F. Os resultados mostraram

ainda que os erros de posicionamento com o novo modelo foram até 60 vezes menores do

que os erros encontrados com a rede tipo F-F.

IV

NEURAL NETWORKS FOR CONTROL OF NUCLEAR REACTORS SYSTEMS

Benedito Dias Baptista Filho

ABSTRACT

A new architecture of artificial neural networks was developed with the

objective of contributing with the development of new control systems for nuclear facilities

and robotics. The new concepts introduced with this architecture were based in the design

of task dedicated networks, in the use of multiple synaptic contacts with new transfer

functions, and in the use of synaptic plasticity processes similar to that of biological

organisms. These concepts take advantage of the evolutionary aspects of biological systems

in their architecture, signal transmission, and memory and learning processes, given rise to a

generalization capacity not obtained with classical feed-forward (F-F) neural networks.

The new concepts were applied to the control of a planar two-link robotic

manipulator and to the control of a natural circulation water loop. Its efficiency and

generalization capacity were compared with a classic neural network in F-F, trained with the

back propagation algorithm. The excellent performance obtained, mainly m the

manipulator's problem, that characterizes a system of dynemiic more complex, demonstrated

that the use of the new task specialized network, produces much better results than the

results obtained with the use of generic F-F networks. The training task in the new

proposed neural network was 150 times faster than the F-F neural network training with

back-propagation. The resuhs showed that the positioning errors with the new model were

up to 60 times smaller than the errors found with the F-F network.

SUMARIO

Página

INTRODUÇÃO 1

11 Motivação para o trabalho 1

1.2 Panorama atual e delimitação do assunto 2

1.3 Objetivos da Pesquisa 3

1.4 Organização da Tese 4

PRINCIPAIS ASPECTOS DAS REDES NEURAIS ARTIFICIAIS 6

2.1 Aspectos Históricos 6

2.1.1 Neurônio de McCulloch 6

2.1.2 PERCEPTRON 7

2.1.3 ADALINE 8

2.1.4 Aprendizado Competitivo e Retro-Propagação 9

2.2 Arquiteturas de Redes Neurais Artificiais 11

2.3 Principais Algoritmos de Aprendizado 13

2.3.1 Regras de Correção de Erro 14

2.3.2 Regras de Gradiente 15

2.3.3 Algoritmo de Retro-Propagação 17

2.4 Oportunidades de Inovação 21

2.4.1 Funções de Transferência 21

2.4.2 Métodos de Treinamento e Arquitetura 22

2.4.3 Conceituação e Implementação 24

2.4.4 Paradigmas e Proposta de Investigação 24

PESQUISA NA NEUROFISIOLOGIA 26

3.1 O Princípio Evolucionário do Processamento Neuronal . . . . 27

3.2 Princípios de Organização do Cérebro 28

3.3 Transmissão de Sinais no Cérebro 38

3.3.1 Sinalização 38

3.3.2 Transmissão Sináptica e Potencial Pós-Sináptico . . . . 39

3.4 O Aprendizado e os Mecanismos da Memória 44

VI

3.4.1 Processos de Aprendizado 46

3.4.2 Mecanismos de Armazenamento de Memória 54

DESENVOLVIMENTO DE UM NOVO CONCEITO DE REDES 59

4.1 Arquitetura e Fluxo de Informações no novo conceito 59

4.2 Transmissão de Sinais - "Sinalização" 60

4.3 Aprendizado e Mecanismos de Memória 68

4.4 Conceito de Unidade de Controle Motor 71

MANIPULADOR BI-ARTICULADO NO PLANO 77

5.1 Modelo da Dinâmica do Manipulador Bi-articulado no Plano 11

5.2 Acoplamento da Dinâmica do Manipulador com os

Controladores 81

5.3 Solução numérica. Parâmetros e dados do sistema 84

5.3.1 Solução numérica da dinâmica do manipulador . . . . 84

5.3.2 Implementação dos modelos da rede neural 86

5.3.3 Parâmetros e Dados Utilizados nos Modelos 90

5.4 Resultados 91

5.4.1 Treinamento da Rede 91

5.4.2 Testes de desempenho da Rede 93

5.5 Estabilidade do Processo de Treinamento 100

5.6 Comparação com modelos clássicos de redes neurais artificiais 106

BANCADA DE CIRCULAÇÃO NATURAL 118

6.1 Caracteristicas do Circuito de Circulação Natural 119

6.2 Modelo da Dinâmica do Circuito de Circulação Natural . . . 121

6.2.1 Conservação de Massa e Quantidade de Movimento . . 122

6.2.2 Equações de Energia 125

6.2.3 Modelo para o trocador de calor 127

6.2.4 Modelo para válvula de regulagem de água de resfria

mento 129

6.3 Acoplamento da Dinâmica da Bancada com ima Rede Neural 130

6.4 Solução numérica. Parâmetros e dados do sistema 131

6.4.1 Solução numérica da dinâmica da Bancada 131

vil

6.4.2 Implementação dos modelos da rede neural 139

6.4.3 Dados para simulação 139

6.5 Resultados 148

6.5.1 Treinamento da Rede 148

6.5.2 - Testes de Desempenho 152

7 CONCLUSÕES 159

8 RECOMENDAÇÕES PARA TRABALHOS FUTUROS 162

APÊNDICE 1 - PROGRAMA DE SIMULAÇÃO DO MANIPULA

DOR BI-ARTICULADO 165

APÉNDICE 2 - PROGRAMA DE SIMULAÇÃO DA BANCADA DE

CIRCULAÇÃO NATURAL 168

REFERÊNCIAS BIBLIOGRÁFICAS 173

- • r • o " .P TES.

vin

LISTA DE FIGURAS

Página

Figura 2.1 - "Neurônio" de McCulloch 6

Figura 2.2 - Perceptron de Rosenblatt 8

Figura 2.3 - Discriminador Linear Não Implementa Função "XOR" 8

Figura 2.4-ADALINE de WIDROW (1960) 9

Figura 2.5 - Tipos de Arquitetura de Redes 12

Figura 2.5 - Classificação de Algoritmos de Aprendizado 15

Figura 2.6 - Processo do "Gradiente Descendente" 16

Figura 2.8- Rede em 'Teed-Forward" 17

Figura 2.9 - Unidade Elementar da Rede 18

Figura 2.10- Função Sigmóide e Tangente Hiperbólica 18

Figura 2.11 - "Armadilha" dos Mínimos Locais 23

Figura 3 .1 - Microestrutura de um circuito nervoso 27

Figura 3.2 - Vista centro-lateral do cérebro humano 29

Figura 3.3 - Grandes regiões do cérebro 29

Figura 3.4 - Principais localizações fiincionais 30

Figura 3.5 - Exemplo de circuito divergente 33

Figura 3.6 - Exemplo de circuito convergente 34

Figura 3.7 - Célula Purkinje do Cerebelo 35

Figura 3.8 - Chaveamento por intemeurônios 36

Figura 3.9 - Chaveamento por inibição pré-sináptica 36

Figura 3.10- Exemplo de circuito reverberante 37

Figura 3.11- Circuito ritmico alternador 37

Figura 3.12- Sinalização neuronal 38

Figura 3.13 - Esquema simplificado de Sinapse Química de Ach 41

Figura 3.14- Ampliação de um aglomerado de canais iónicos de Ach 41

Figura 3.15- Distribuição de pulsos de corrente em uma junção neuromuscular 42

Figura 3.16- Potencial de ação pós-sináptico 44

Figura 3.17- Efeito do mecanismo de habituação 49

Figura 3.18- Circuito neuronal envolvendo a sensitização 50

Figura 3.19- Mecanismo de Sensitização 50

IX

Figura 3.20 - Mecanismo de Condicionamento 52

Figura 3.21 - Tipos de Conexões Sinápticas 56

Figura 4 . 1 - Estrutura típica de um circuito de controle 60

Figura 4.2 - Conceito de sinapses múltiplas 62

Figura 4.3 - Exemplo da Função de Transferência Sináptica 63

Figura4.4 - Aproximação deS = x 65

Figura 4.5 - Inflexões indesejáveis 66

Figura 4.6 - Aproximação sem inflexões indesejáveis 67

Figura 4.7 - Circuito Esquemático de "plastificação sináptica" 71

Figura 4.8 - Unidade de Controle Motor 74

Figura 5 .1- Representação do Problema do Manipulador Bi-articulado 78

Figura 5.2 - Fator de atrito no mancai combinado 81

Figura 5.3 - Acoplamento de duas unidades de controle motor com

o manipulador 83

Figura 5.4 - Esquema do Manipulador Bi-articulado 84

Figura 5.5 - Seqüência de posições comandadas para o treinamento 92

Figura 5.6 - Forças Sinápticas após treinamento 94

Figura 5.7 - Trajetória do manipulador no 1° teste 95

Figura 5.8 - Evolução da distância da extremidade do manipulador ao alvo 96

Figura 5.9 - Evolução do erro angular dos segmentos do manipulador 97

Figura 5.10- Evolução do torque nos motores 98

Figura 5.11- Instantâneos da posição do manipulador 99

Figura 5.12- Evolução da distância ao alvo 99

Figura 5.13- Controlador para manipulador de uma única articulação 101

Figura 5.14- Velocidade angular vs. Posição ^para 0^ = O 105

Figura 5.15- Esquema Típico de Rede 'Teed-Forward" com Retro- 108

Propagação

Figura 5.16- Esquema utilizado com a retro-propagação 109

Figura 5.17- Evolução do peso w(jj, 1,1) na primeira solução obtida 111

Figura 5.18- Evolução do peso w(jj, 1,1) 112

Figura 5.19- Evolução da somatória do erro quadrático 113

Figura 5.20 - Trajetória do manipulador após 4608 rodadas 114

Figura 5.21 - Trajetória do manipulador após 5328 rodadas 115

Figura 5.22 - Evolução da distância da extremidade do manipulador ao alvo 115

Figura 5.23 - Evolução dos erros angulares 116

Figura 5.24 - Comparação das distâncias ao alvo entre o novo modelo e a

rede F-F 117

Figura 6 .1- Arranjo do Circuito 120

Figura 6.2 - Fluxograma do Modelo do Circuito de Circulação Natural 122

Figura 6.3 - Discretização para Energia no Fluido 126

Figura 6.4 - Tipos de "nós" 126

Figura 6.5 - Esquema para o Modelo do Trocador de Calor 127

Figura 6.6 - Detalhamento de regiões no Trocador de Calor 128

Figura 6.7 - Modelo para o Cv da válvula 129

Figura 6.8 - Unidade de controle com dois sinais adicionais do sistema

sensório 132

Figura 6.10- Definição das Regiões modeladas 133

Figura 6.11 - Exemplo de coordenadas 139

Figura 6.12 - Medidas experimentais e balanço térmico no T.C. 143

Figura 6.13 - Diagrama de temperaturas no T.C. 143

Figura 6.14 - Cálculos de ATLOG e estimativa do produto UA no T.C.

Figura 6.15- Comparação da evolução das temperaturas e vazão calculadas

com as medidas no teste de validação 147

Figura 6.16 - Forças de ligação sináptica após V Etapa 150

Figura 6.17- Forças de ligação sináptica após 2 Etapa 151

Figura 6.18- Forças de ligação sináptica após 3* Etapa 151

Figura 6.19- Evolução das temperaturas no primário e secundário do T.C. 155

Figura 6.20 - Perturbações relativas 156

Figura 6.21 - Perturbações absolutas e resuhados observados 157

Figura 6.22 - Evolução do erro de temperatura absoluto 158

Figura 8 .1- Deslocamento do manipulador para atender trajetória retilínea 164

Figura A l i - Caixa de Diálogo do Programa do Manipulador 166

Figura Al .2 - Tela Principal do Programa do Mampulador 167

Figura A2.1 - Tela Principal de acompanhamento do processo 169

XI

Figura A2.2 - Tipos possíveis de interface entre regiões 171

Figura A2.3 - Caixa de Diálogo Inicial 172

Figura A2.4 - Caixa de Diálogo de Condições Gerais 172

LISTA DE TABELAS

Página

Tabela 5.1 - Características do Manipulador simulado 90

Tabela 5.2 - Características das unidades de controle motor 91

Tabela 5.3 - Forças Sinápticas após treinamento 93

Tabela 6.1 - Definições de nós e interfaces 140

Tabela 6.2 - Dados para Perda de Carga 140

Tabela 6.3 - Dados gerais de posição, áreas e volumes 141

Tabela 6.4 - Coeficientes de transferência de calor assumidos por região do TC 145

Tabela 6.5 - Dados da rede neural 146

Tabela 6.6 - Dados de variação na Temperatura desejada 149

Tabela 6.7 - Dados de variação na Temperatura da água de resfiiamento 149

Tabela 6.8 - Dados de variação na abertura da válvula da água de resfiiamento 149

Tabela 6.9 - Forças de Ligação Sináptica após treinamento 152

Tabela 6.10 - Dados para apresentação dos testes de desempenho 153

INTRODUÇÃO

1.1 Motivação para o trabalho

A Engenharia Nuclear sempre foi reconhecida como geradora de tecnologia

de ponta pelos aspectos inovadores incorporados às plantas nucleares, pelas caracteristicas

de confiabilidade e segurança de todas as instalações nucleares desenvolvidas e pela eterna

preocupação dos seus engenheiros em oferecer sistemas de informação e apoio aos opera

dores visando reduzir as possibilidades de erros de operação.

Essas caracteristicas avançadas sempre foram desenvolvidas dentro de prin

cípios de segurança que regulamentam o projeto e construção de plantas nucleares de po

tência, e que na área de controle obrigaram o desenvolvimento de sistemas de controle e de

proteção separados fisica e fiincionalmente, com altíssima confiabilidade, e inclusive com

diversidade fiincional em componentes redundantes.

Paradoxalmente, para se atingir a robustez exigida e assegurar taxas de falha

admissíveis, o projeto dos sistemas de proteção de plantas nucleares considera o uso de até

quatro canais redundantes, além de utilizar somente a tecnologia comprovada dos sistemas

analógicos, que certamente apresentam inúmeras limitações em relação à tecnologia digital,

ou seja, até o presente a engenharia nuclear está defasada em relação a outras aplicações em

grande parte de seus sistemas de controle pois a adequação de sistemas de proteção basea

dos em computador ainda não é comprovada (Hunns e Wainwrigth, 1991).

Os métodos clássicos de controle utilizados têm dificuldade em lidar simulta

neamente com essas questões de segurança, de confiabilidade e com sistemas de dinâmica

muito complexa. Quando os processos são muito complexos, é necessário um grande esfor

ço experimental e/ou computacional para o desenvolvimento dos sistemas de controle, e

mesmo assim, quando as incertezas são grandes, não se pode assegurar a princípio que o

controle clássico irá oferecer a robustez necessária.

O desenvolvimento de sistemas de controle tais que uma falha simples não

cause riscos às fiinções de proteção irá permitir a concentração dos esforços da engenharia

nas áreas onde o desempenho é o mais importante, levando ao desenvolvimento de instala

ções além de seguras, de muito menor custo.

1.2 Panorama atual e delimitação do assunto

Há muito tempo o homem observa que sistemas de controle biológicos são

extremamente bem sucedidos no tratamento de problemas complexos de controle. Dentro

desse contexto foram desenvolvidos os conceitos de controle adaptativo que inclui o campo

de redes neiirais artificiais.

Para aplicações de controle, a vantagem de um controlador baseado em re

des neurais é decorrente dos seguintes aspectos: a) em princípio não é necessário o conhe

cimento teórico do processo que será controlado; b) a grande robustez dos sistemas bioló

gicos que, devido ao seu paralelismo, podem manter um bom desempenho mesmo quando

sujeitos a danos e até mesmo a perda de parte de seus componentes; e, c) a rapidez de res

posta devido à sua simplicidade e também devido ao seu grande paralelismo. Por outro lado

ainda há muito que fazer no sentido de se obter a qualificação de sistemas baseados em re

des neurais ou inteligência artificial, mesmo porque sua implementação, até o momento, é

feita utilizando-se sistemas digitais, cuja qualificação ainda é um problema sem solução.

As redes neurais artificiais são baseadas na idéia de se imitar o cérebro hu

mano utilizando modelos simplificados das unidades de processamento, representando os

neurônios, associadas em grande quantidade e organizadas em paralelo e em camadas.

Entretanto, a implementação dessa idéia nas redes neurais artificiais, tem

mostrado limitada capacidade de aprendizado e adaptação, não propiciando generalização e

demandando excessivo esforço. Isso ocorre em muito devido o domínio de redes que utih-

zam algoritmos de treinamento supervisionado. Sabendo que, a menos dessas limitações, as

redes neurais artificiais oferecem possibilidades inusitadas em termos de eficiência e robus

tez, é essencial a solução dos aspectos de treinamento e generalização para ser possível sua

utilização em fiituros sistemas de controle de centrais nucleares.

1.3 Objetivos da Pesquisa

O objetivo do trabalho é o desenvolvimento de um novo conceito de redes

neurais artificiais para controle de sistemas dinâmicos com base nos mais recentes conheci

mentos da neurofisiologia. A ênfase na neurofisiologia objetiva aproveitar, da maneira mais

efetiva possível, o aspecto evolucionário dos sistemas biológicos, reduzindo os aspectos

limitantes de treinamento supervisionado das redes neurais artificiais atualmente utilizadas

em controle.

O conceito desenvolvido deverá ter aplicação comprovada em sistemas não-

lineares e de alta complexidade dinâmica, para isso serão consideradas duas aplicações:

- controle de um manipulador robótico bi-articulado no plano; e,

- controle de um sistema termo-hidráulico não-linear.

o controle de manipuladores tem aplicação na robótica, independentemente

do tipo de manipulador, e se destaca pela extrema complexidade dinâmica e alta não-

linearidade. O controle de sistemas de reatores apresenta um grande desafio por se tratar de

um processo não-linear que pode também demonstrar a capacidade de previsão e de gene

ralização do sistema desenvolvido.

Para comprovar o novo conceito de redes neurais artificiais serão desenvol

vidos modelos numéricos dos processos propostos, tanto do manipulador robótico quanto

do processo termo-hidráulico e as redes serão simuladas digitalmente, sendo o trabalho

concluido com base nesses modelos.

1.4 Organização da Tese

Neste Capítulo é apresentada esta introdução que situa o tema da tese e defi

ne os objetivos do trabalho. No Capítulo 2 são abordados os principais aspectos teóricos

dos atuais conceitos considerados nas redes neurais artificiais e são abordadas as áreas com

oportunidade de inovação. No Capítulo 3 é resumida a pesquisa realizada no campo da neu

rofisiologia, relacionando-a com os aspectos congruentes e com os aspectos divergentes em

relação às redes neurais artificiais. No Capitulo 4 é desenvolvido o conceito inovador de

rede neural artificial na forma de "unidades de controle motor". No Capítulo 5 é desenvol

vido o modelo para simulação da dinâmica de um manipulador robótico bi-articulado no

plano e sua associação com unidades de controle motor. São apresentados os modelos e

detalhados os métodos de solução numérica empregados. É apresentada uma avaliação de

desempenho da rede e do processo de treinamento por meio de simulações de comandos de

posicionamento. A eficiencia e capacidade de generalização do novo conceito é comparada

com um modelo clássico de redes neurais artificiais tipo 'Jeed-forward" com o algoritmo

de retro-propagação. Ainda nesse capítulo, é apresentada uma análise sobre a estabilidade

do novo controlador neural no problema do manipulador bi-articulado no plano. No Capí

tulo 6 são apresentados o modelo e os resultados da simulação e controle de uma bancada

experimental que reproduz um sistema de resfriamento de emergência típico de um Reator

PWR avançado e, também, empregado em aplicações navais. O modelo da rede neural para

controle de potência do aquecedor dessa bancada foi elaborado a partir dos conceitos des

envolvidos no Capítulo 4 adicionados a novos artifícios que ilustram como tomar o modelo

mais versátil. O Capítulo 7 contém um sumário das principais conclusões e, finalmente, o

Capítulo 8 contém algumas recomendações para prosseguimento da pesquisa com novos

trabalhos.

PRINCIPAIS ASPECTOS DAS REDES NEURAIS ARTIFICIAIS

2.1 Aspectos Históricos

Apesar de relativamente recente, o desenvolvimento no campo das redes

neurais artificiais, objeto do estudo de pesquisadores das mais diferentes áreas, está presente

em vasta literatura voltada para as mais variadas aplicações. Para os objetivos deste trabalho

serão apenas referidos alguns dos desenvolvimentos mais conhecidos que poderão auxiliar

na avaliação da nova abordagem desenvolvida, principalmente nos aspectos conceituais.

2.1.1 Neurônio de McCulloch

Inspirada na neurociência, a teoria de redes neurais artificiais tem evoluído

principalmente com base na investigação feita por matemáticos, fisicos e engenheiros. No

início da década de quarenta, o neurofisiologista Warren McCulloch e o matemático Walter

Pitts (1943) propuseram, como modelo de um neurônio, a unidade binaria ilustrada na Figu

ra 2.1.

y = sign (v -

) V - \i.

Figura 2.1 - "Neurônio" de McCulloch.

Apesar do grande interesse despertado e da boa vontade dos pesquisadores

da época, o desenvolvimento da teoria de redes neurais foi muito difícil no seu início. As

primeiras dificuldades surgiram com a falta de máquinas adequadas e robustas o suficiente

para implementação de modelos. Só na metade da década de cinqüenta John von Neumann

(1956) iniciou a solução do problema de se construir máquinas confiáveis com componentes

não confiáveis introduzindo o conceito de redundância e originando a geração dos atuais

computadores digitais.

A partir do modelo de neurônio de McCulloch, com o avanço da eletrônica,

as pesquisas para desenvolvimento de um computador baseado em redes neurais evoluíram

passando por períodos de entusiasmo, crítica e descrença, e novamente de entusiasmo.

2.1.2 PERCEPTRON

Rosenblatt (1958) apresentou o projeto de um computador neural denomi

nado PERCEPTRON, esquematizado na Figura 2.2. O PERCEPTRON original possuía

400 células fotoelétricas, recebendo estímulos óticos primários e interligadas a elementos

processadores que, dependendo da entrada, produziam uma resposta.

De 1960 a 1962 o grupo de Rosenblatt se concentrou no problema do trei

namento do PERCEPTRON, tendo conseguido provar a convergência de um algoritmo de

aprendizado. Apesar dos resuhados com os experimentos iniciais terem sido muito promis

sores, esbarraram na limitação de que a única camada de discriminadores lineares do

PERCEPTRON não era capaz de implementar todas as possíveis fiinções "Boleanas", como

o "ou-exclusivo" ilustrado na Figura 2.3, Esse problema devia-se à inabilidade do algoritmo

de aprendizado de resolver o problema da atribuição de crédito, ou seja, de que todos os

elementos são responsáveis pela resposta certa ou errada. Hoje sabe-se que grupos de ele

mentos simples organizados em camadas, semelhantes aos PERCEPTRONS mas utilizando

a regra delta de aprendizado, aplicável a unidades com fijnção de transferência linear, com

delta (6) representando o erro (saída desejada - saída atual), podem implementar todas as /

funções básicas dos computadores digitais (Hertz, Krogh, e Palmer, 1991). !

fotocélulas

Entradas f

Saída

Unidades Associativas

Figura 2.2 - Perceptron de Rosenblatt.

solução solução

O

sem solução

Figura 2.3 - Discriminador Linear Não Implementa Função "XOR".

2.1.3 ADALINE

Widrow e Hoff (1960) seguiram por um caminho diferente de Rosenblatt e

introduziram o conceito batizado de ADALINE (sigla de ADAptive LINear Element), re

presentado na Figura 2.4. A composição de uma rede com múhiplos ADALINES's dá ori

gem ao MADALINE, que será mencionado mais adiante quando os aspectos de arquitetura

e de algoritmos de aprendizado forem tratados.

Vetor de

Entradas

^1, Saida Linear

- 1 —

Saida Binária

Resposta Desejada

Figura 2.4 - ADALINE de WIDROW (1960).

Hertz, Krogh e Palmer (1991) associam ao ADALINE, juntamente com o

PERCEPTRON, as duas contribuições que deram início a um grande ciclo de entusiasmo,

que no entanto esbarrou na dificuldade da separação linear e no problema de implementa

ção de todas as fiinções possíveis. Como quase até o final da década de sessenta não se

vislumbrou uma solução adequada para esse problema, culminando ainda com a publicação

de uma profimda análise critica elaborada por Minsky e Papert (1969) no seu livro intitula

do PERCEPTRONS, fiaram praticamente cortados todos os recursos destinados às pesqui

sas em redes neurais.

2.1.4 Aprendizado Competitivo e Retro-Propagação

Apesar do arrefecimento provocado pelo corte dos investimentos em redes

neurais, ainda com muita dificuldade, alguns pesquisadores continuaram seu trabalho, como

James Anderson (1968), que trabalhava em um modelo baseado em modelos biológicos da

memória e de reconhecimento, nos quais as forças de ligação sinápticas são fortalecidas

quanto mais freqüentemente são ativadas. Também prosseguiram os trabalhos de Teuvo

10

Kohonen (1974-1982) que desenvolveu o conceito de uma rede chamada "'mapa aiito-

orgatiizá\'er. A contribuição de Kohonen define o conceito de "aprendizado competitivo",

no qual as unidades competem para responder a determinada entrada e o elemento vencedor

tem os pesos de suas entradas modificado para responder a valores próximos dessa entrada

cada vez com maior fiarça.

Stephen Grossberg (1967-1969) também prosseguiu seus estudos procuran

do utilizar dados neurológicos na construção de novos modelos em computação neural.

Seus trabalhos se fiacaüzaram no estudo dos reflexos condicionados, baseando-se nos pos

tulados de Hebb (1949) sobre o aprendizado, que será discutido mais adiante.

Também alheio à crença de inviabilidade, Werbos (1974) desenvolveu e

apresentou na sua tese de doutorado um algoritmo de aprendizado que é o método atual

mente denominado de "retro-propagação". Infelizmente esse algoritmo não chegou a ser

disseminado na época.

Esse mesmo algoritmo foi reinventado por Parker (1982), também ainda sem

uma merecida divulgação. Ainda em 1982 John Hopfield (1982) apresentou um trabalho

que é uma particularização do trabalho de Grossberg e que ficou conhecido como "redes

associativas em linha transversal", constituídas por elementos interligados buscando o

aprendizado com "um mínimo de energia". O trabalho de Hopfield originou um novo ciclo

de entusiasmo e progresso na área.

Em 1985, Rumelhart, Hinton e Williams (1985) mais uma vez reinventaram o

algoritmo de retro-propagação e, somente a partir daí, se passou a desenvolver muitas pes

quisas dentro dessa linha. Atualmente muitos grupos, em praticamente todas as universida-

11

des e centros de pesquisa, desenvolvem trabalhos no campo de redes neurais artificiais

baseados nos estudos acima.

Posteriormente alguns dos tópicos expostos neste item serão mencionados

novamente, buscando apenas uma organização das idéias em termos de classificações por

estrutura e por algoritmo de aprendizado.

2.2 Arquiteturas de Redes Neurais Artificiais

De um modo geral as redes neurais artificiais são fiarmadas por arranjos re

gulares de unidades que representam os neurônios. Essas unidades são unifiarmemente or

ganizadas e associadas em paralelo e em camadas, como se constituíssem o cérebro no seu

mais primitivo estágio de desenvolvimento, ou seja, antes de adquirir ""significado". As for

ças de ligação entre essas unidades, usualmente denominadas de ""pesos", são ajustadas du

rante um processo de aprendizado.

A exemplo do neurônio de McCulloch (Figura 2.1), a transmissão dos sinais

entre as unidades se resume em: amplificação ou atenuação linear dos sinais de entrada,

através da sua multiplicação pelos pesos; soma desses sinais ponderados; e, emissão de um

sinal de resposta filtrado por meio de uma fiinção de transferência que em geral é uma tan

gente hiperbólica ou uma sigmóide.

Com base nesses conceitos é que se define a arquitetura da rede. que é o

modo de organização de suas unidades em conjunto com o fluxo de sinais e ainda, às ve

zes, em conjunto com o processo de aprendizado envolvido.

12

A Figura 2.5 apresenta três das arquiteturas de rede mais conhecidas: as re

des em "feed-forward"; as redes em "feedback"; e as redes competitivas.

Rede em "feed-forward" - Retro-Propagação, MADALINE, etc

o4 O

O

Rede em "feedback" - Hopfield, Boltzmann, etc.

Rede "competitiva" - Kohonen, etc

Figura 2.5 - Tipos de Arquitetura de Redes.

Com cada tipo de arquitetura existem as mais diversas aplicações, como por exemplo:

recotihecimento de padrões por meio de PERCEPTRONS; previsão do tempo utilizando

13

MADALINE; codificação e compressão de imagens, etc., todas essas utilizando redes em

"feed-forward". Com outras arquiteturas pode ser citado o controle de posição de um bra

ço robótico utilizando a rede competitiva de Kohonen; formação de memoria associativa

utilizando redes em 'Yeedback" de Hopfield, etc.

Muitos outros conceitos, que até poderiam ser encaixados nos tipos de ar

quitetura descritos anteriormente, são tratados como se fossem uma arquitetura diferente

por introduzirem significativos aperfeiçoamentos, nesse caso são batizados conforme sua

aplicação ou pelo nome de seu idealizador.

E evidente que o assunto "'arquitetura de redes" é vasto e poderia ser bem

mais estendido, no entanto, para o propósito deste trabalho, o essencial está na apresenta

ção dos conceitos de organização das unidades e a ilustração de sua classificação.

Um maior aprofimdamento apenas se faz necessário ainda no que se refere

aos processos de treinamento, os conhecidos "algoritmos de aprendizado", que serão vistos

a seguir.

2.3 Principais Algoritmos de Aprendizado

Aprendizado é o processo de adaptação das forças de ligação (pesos), em

resposta aos estímulos introduzidos na entrada da rede, de modo a produzir o resultado de

sejado na sua saída. Quando o resultado de saída é conhecido em termos de valor, diz-se

que o aprendizado é "supervisionado". Quando se sabe apenas qualitativamente se a saída é

boa ou não, diz-se que o aprendizado é "por reforço". Porém, qualquer que seja o tipo de

aprendizado, ele é obtido através de processos de treinamento cuja implementação e eficá

cia irão depender do algoritmo empregado para adaptação dos pesos.

14

Os principáis algoritmos de aprendizado empregados em geral são classifica

dos em duas grandes categorias, que refletem o tipo de regra básica empregada:

a) Regras de Correção de Erro: onde a atualização dos pesos é fiinção direta do erro

nas saídas; e,

b) Regras de Gradiente Descendente, onde a atualização segue o gradiente negativo

de uma fiinção custo para os pesos.

A Figura 2.5 ilustra a classificação dos algoritmos mais conhecidos dentro

dessa idéia.

2.3.1 Regras de Correção de Erro

Na sua essência todos os algoritmos guardam uma origem comum na idéia

de Hebb (1949), um psicólogo que postulou que as sinapses do sistema nervoso se adaptam

proporcionalmente à atividade dos neurônios pré- e pós-sinápticos. Desse postulado se des

envolveu um algoritmo para correção dos pesos w:

Aw,,™ = r| e„x. „ (2.1)

onde: Aw,^ é o incremento ao peso de ligação da sinapse / do neurônio w; é a diferença

entre o valor de saída desejado no neurônio w e o valor atual de saída (>' „ ->'„);^,™ é o

sinal de entrada através da sinapse ; do neurônio m, e, ri é um parâmetro batizado de taxa

de aprendizado.

Esse conceito representa precisamente a Regra de Correção de Erro, que

pode ser utilizada através de dois processos: após a exibição de cada exemplo, método pas-

so-a-passo; ou, após a exibição de todo o conjunto de dados, método da batelada.

15

de Corruio d e E r ^

Figura 2.5 - Classificação de Algoritmos de Aprendizado (Widrow e Lehr, 1990).

2.3.2 Regras de Gradiente

Por outro lado existem as Regras de Gradiente que consideram uma Função

Energia, E(w) e buscam sua minimização por meio do método do mínimo erro médio qua

drático. Para esta categoria são necessárias fiinções de transferência diferenciáveis. As re

gras de gradiente se baseiam nas definições abaixo, com as convenções dadas após o con

junto de equações:

(2.2)

(2.3)

16

Aw = -x] Õ E{w)

Õ w (2.4)

Õ E(w) Õ E{w) d Y

d w ÕY Õw (2.5)

onde, £ representa o erro quadrático, que é o quadrado da diferença entre a saída, Y atual e

a saída Y desejada; os sobrescritos p ed se referem respectivamente ao padrão p apresenta

do na entrada (exemplo) e ao valor j desejado na saída; g() é a. ftmção de transferencia da

unidade, que é uma fiinção diferenciável; rjéa taxa de aprendizado; E(w) representa a defi

nição da fiinção energia; e Aw é o incremento de correção do peso sináptico.

O processo que se desenvolve por esse método segue o percurso que conduz

ao mínimo da fiinção E, como ilustra a Figura 2.6.

Figura 2.6 - Processo do "Gradiente Descendente'

Os algoritmos de aprendizado que utilizam regras de gradiente se destacaram

principalmente em fiinção do sucesso dos algoritmos MR-III (MADALINE Rule III) e

BACK-PROPAGATION (retro-propagação). Como o algoritmo de retro-propagação será

17

utilizado para comparação, sua apresentação será realizada com mais profundidade neste

capítulo.

2.3.3 A Igoritmo de Retro-Propagação

O método de retro-propagação tem sido considerado a melhor opção em

treinamento para aplicações de controle [Chen (1990)]. A Figura 2.8 mostra uma rede tipo

"feed-forward" preparada para ilustrar a modelagem desse método.

Cada unidade ilustrada na Figura 2.8 corresponde a um elemento processa

dor como o esquematizado na Figura 2.9, que representa o i-ésimo elemento da camada j ,

já seguindo uma notação adequada para implementação numérica em um programa de com

putador:

unidade Y, Saídas 7

Propagação-para-trás dos sinais de correção

Figura 2.8 - Rede em 'Teed-Forward".

18

w

j-l.i.k. < y...

Figura 2.9 - Unidade Elementar da Rede.

Para a função de transferência, g(v), são utilizadas ou a função sigmóide ou a

tanh(v) apresentadas na Figura 2.10.

1.00

0.50

0.00

-0.50 —

-1.00

-1.00 -0.50 0,00 X

0.50 1.00

Figura 2.10 - Função Sigmóide e Tangente Hiperbólica.

A implementação numérica do método por meio de um programa digital se

gue os passos apresentados a seguir. Dado um vetor x de entradas para a rede da Figura

2.8, é necessária a escolha inicial dos pesos. A obtenção de uma solução vai depender des-

19

ses pesos iniciais, que devem ser gerados de forma aleatória e com valores iniciais pequenos

em função do número total de unidades, de modo a não produzir uma situação inicial de

saturação da rede, que ficaria ""paralisada" logo no início. A partir desse instante é realiza

da 0. propagação para frente, da primeira à última camada, ou seja, são calculados os valo

res de saída '5, partindo da entrada até a saída, por meio das seguintes relações:

para a primeira camada iJ = V, / = 1 -> iif):

lie

= SKa^*)-^''i,. (2-6)

>',,,=tanh(P V , , ) (2.7)

para as demais camadas {j = 2, jj; ; = 1 iijj):

wu-n

>'^,,=tanh(Pv^,) (2.9)

Para desenvolver o processo de aprendizado, o algoritmo de retro-

propagação requer que estejam disponíveis os valores de saída desejados (yí / ,0 para cada

padrão (p) de entrada x, para a determinação do erro. À relação de dados constituída pelo

conjunto de entradas/saídas desejadas é dado o nome de ""Tabela de Treinamento". Para a

obtenção do primeiro valor de;^ são utilizados os pesos iniciais, gerados aleatoriamente. Em

seguida é executado o processo de avanço (fonvard). A partir desse ponto, considera-se a

definição da Função Energia dada na Equação 2.3 e reescrita conforme a notação escolhida

20

para a programação, e aplica-se as demais deMções dos métodos de gradiente à camada de

saída, obtendo-se o incremento dos pesos, Aw:

V * J

(2.10)

(2.11)

" ^ ' " " ^ ^ ' P"""' ^ '^^-^ (2.12)

onde g(vj é a função de transferencia da unidade e g '(v) é a derivada dessa função.

Definindo-se tJcomo:

e considerando-se a tangente hiperbólica como fimção de transferencia:

^ ( v ) = tanh(P V ) ,

tem-se:

^'(v) = P[ l -g^(v)]

(2.13)

(2.14)

(2.15)

(2.16)

Essa definição de Ô, iniciada pela última camada, pode ser propagada para

trás até a primeira camada (de y = 1 ^ - 1 e / = 1 ^ jjj )•

21

5 , , , [ ! - > ' • , ] [ZH^;.UA>U] (2.17)

e, por conseguinte:

= TI ô,,,^,^,* A: = 1 -> /// . (2.18)

Awo,,--r iô^, , (2.19)

Como a obtenção de uma solução adequada pode não ser imediata, pois de

pende da escolha dos parâmetros ri e P, esse processo pode ter que ser repetido integral

mente varias vezes. Porém, como a função de energia pode possuir pontos de mínimos lo

cais, não é assegurado que seja atingida uma solução adequada, e portanto a sua imple

mentação requer a inclusão de dois limitadores para o processo de aprendizado, o número

máximo de rodadas de apresentação dos exemplos (««) e, uma tolerância para o máximo

erro admissível. Atingida a tolerância especificada encerra-se a fase de treinamento, inicían-

do-se a fase de ação, quando a estrutura que realiza a retro-propagação pode ser eliminada

e a rede pode ser utilizada somente para realizar previsões.

2.4 Oportunidades de Inovação

2.4.1 Funções de Transferência

Devido principalmente a limitações computacionais, a simplificação tem sido

a ênfase na escolha das funções de transferência nas redes neurais artificiais. Apesar de se

considerar fundamental a não-linearidade nas funções de transferência, também conhecidas

como funções de ganho ou de ativação, a necessidade de simplificação tem conduzido à

manutenção das tradicionais funções sigmóide e tangente hiperbólica. Hertz, Krogh e Pal

mer (1991) mostram ainda que não é usual também a consideração de atualização assíncro-

22

na, diferenças de fase, etc. Dessa forma, pode ser feito algum esforço para inovar em ter

mos de funções de transferência.

2.4.2 Métodos de Treinamento e Arquitetura

Existem diversas oportunidades de inovação em termos de métodos de trei

namento de redes neurais. Com esse objetivo, logo no início dos estudos para o desenvol

vimento desta tese, foi implementado o método de retro-propagação por meio de um pro

grama escrito em FORTRAN. Diversos testes, considerando aproximação de funções e

emulação de funções Boleanas, foram realizados para investigar as seguintes limitações:

a) a convergência depende dos valores iniciais atribuídos aos pesos;

b) a convergência depende ainda do "passo", ou seja, da taxa de aprendizado;

c) em problemas com alta não-linearidade existe o risco de ser atingido algum mínimo

local, impossibilitando a continuidade da solução conforme ilustrado na Figura

2.11. Nesse caso a convergência não é atingida com 100% de certeza; e,

d) de um modo geral (como será discutido no Capítulo 6), as aplicações para controle

requerem a modelagem de duas redes, uma para o processo e outra para o controle

além de requerer em muitos casos, um controlador externo para gerar os valores

desejados de saída para treinamento da rede de processo.

Os resultados de fato confirmaram esses aspectos. Além disso, diversos tra

balhos publicados nos últimos anos apontam limitações no algoritmo de retro-propagação,

mostrando novas oportunidades para inovação. O estudo de Kolen e Goel (1991), apresenta

uma amostragem das principais questões. Nesse estudo, os autores relatam os resultados de

uma série de experimentos nos quais buscaram identificar as limitações desse algoritmo.

Apesar de muito pessimistas, principalmente por não levarem em conta os méritos do méto

do, suas conclusões foram que:

23

(1) a eficiência do aprendizado depende dos ganhos iniciais da rede;

(2) o conteúdo e a quajttidade de informações apretididas depende da configuração

inicial da rede (m'imero de camadas e de unidades); e

(3) o trabalho de aprendizado das redes neurais é extremamente demandante em ter

mos computacionais, dependendo do porte do problema podem ser desperididas ho

ras e até mesmo dias de processamento para então se concluir que toda a estrutura

da rede deve ser alterada.

Figura 2.11- "Armadilha" dos Mínimos Locais.

Os resultados de Kolen e Goel indicaram ainda que os métodos de treina

mento atuais são em geral muito limitados para o porte dos problemas que eles pretendem

tratar. Com isso eles propõem que o potencial de aplicação das redes neurais possa ser am

pliado pelo desenvolvimento de redes especificas, dedicadas para cada tipo de tarefa. Pro

põem ainda que um sistema capaz de aprender de maneira eficiente deva ter as seguintes

habilidades;

/ - ser capaz de representar o que conhece e o que deve ser aprendido;

2 - ser capaz de identificar seus componentes causadores de erros;

24

3 - ser capaz de modificar sua estrutura de modo a realizar corretamente seu traba

lho;

4 - ser capaz de generalizar o que é aprendido; e,

5 - ser computacionalmente eficiente.

2.4.3 Conceituação e Implementação

Em relação às demais especificidades das redes neurais, é possível encontrar

grandes oportunidades de inovação na proposta de Hertz, Krogh e Palmer (1991), quanto a

questões que devem ser esclarecidas para a implementação satisfatória de qualquer rede

neural:

a) qual é a melhor arquitetura de uma rede?

b) qual deve ser o número de conexões e como as redes devem ser organizadas?

c) que tipo de fiinção de transferencia deve ser utilizada?

d) que forma de atualização de ganhos deve ser utilizada?

e) quantos neurônios devem ser utilizados?

f) a rede pode aprender em tempo real durante o funcionamento ou, a etapa de trei

namento deve ser realizada antes da sua utilização?

g) o que cada tipo de rede neural é capaz de realizar?

h) quantas informações diferentes uma rede pode aprender?

i) qual a robustez de uma rede em caso de perda de informação, dados incorretos,

perda de neurônios ou sinapses e mal funcionamento?

j) que classes de funções as redes são capazes de aprender?

2A.4 Paradigmas e Proposta de Investigação

Todas as questões discutidas neste capítulo mostraram quais são os paradig

mas no campo das redes neurais:

25

(1) redes neurais artificiais são fiarmadas por arranjos regulares de unidades interco-

nectadas por pesos que produzem ganhos lineares: o que é diferente dos sistemas

biológicos;

(2) as fimções de transferência são fiinções do tipo sigmóide ou tangente hiperbóli

ca, ou ainda outras fiinções que saturam em limiares pré estabelecidos; e,

(3) a tarefa de aprendizado em geral é tratada de forma separada da arquitetura da

rede: também sem analogia biológica.

Com base nesses paradigmas pode ser feita uma proposta de investigação

que aproveite mais a natureza evolucionária dos sistemas biológicos, tanto no desenvolvi

mento arquitetônico quanto nos processos de treinamento das redes neurais artificiais.

Para desenvolver essa investigação, o primeiro passo a ser dado deverá ser

baseado nas mais recentes pesquisas da neurofisiologia, focalizando os seguintes aspectos:

1. a organização do cérebro e o fluxo de informações;

2. as fiinções de transferência neuronais; e,

3. os mecanismos de memória e aprendizado.

Esses aspectos, nessa mesma ordem, serão abordados no próximo capítulo.

26

PESQUISA NA NEUROFISIOLOGIA

Este Capítulo apresenta os resultados das pesquisas em neurofisiologia,

mostrando a relação observada entre fiinções biológicas e componentes equivalentes em

redes neurais artificiais. Muitos detalhes que serão apresentados poderiam ter sido omitidos,

no entanto não o fiaram, pois detalhes desse tipo é que levaram às inovações propostas e,

esses mesmos detalhes ainda poderão ser úteis no fiituro prosseguimento das pesquisas

nesta linha. Há que se destacar que a primeira fiante de infiarmação neste tema de pesquisa

fiai o livro de Kandel, Schwartz e Jessel, de 1990, a partir do qual diversas outras fiantes fia

ram consultadas, sendo referenciadas no momento de sua citação.

A foto da Figura 3.1 exibe a estrutura de um pequeno circuito nervoso ilus

trando como a formação desse intrincado sistema pode ser diferente da uniformidade geo

métrica e da limitada conectividade das redes neurais artificiais tradicionais. De fato, essa

grande diferença observada foi um dos fatores determinantes para o início desta pesquisa na

área da neurofisiologia.

O desenvolvimento da eletrônica nas duas últimas décadas permitiu um cres

cente desenvolvimento nas pesquisas sobre as estruturas do cérebro e também forneceu má

quinas potentes para a solução de problemas numéricos complexos, abrindo oportunidades

para a exploração dos aspectos evolucionários do cérebro, motivo do próximo item.

27

Figura 3 .1- Microestrutura de um circuito nervoso. (adaptação de foto da Eye of Science/Science Photo Library, da edição de fevereiro de 1998 da revista Superinteressante)

3.1 O Principio Evolucionário do Processamento Neuronal

O cérebro humano processa informações de um modo seqüencial e lógico em

termos de símbolos (Shun-Ichi Amari, 1990), através de um processo paralelo e extrema

mente dinâmico. As diferentes regiões do cérebro são especializadas em funções específicas

e a interligação dessas regiões funcionais propiciam o desenvolvimento de funções de maior

complexidade. Apesar dessas regiões serem especializadas em fiinções determinadas, obser

vam-se circuitos semelhantes em várias delas. Dentro de cada uma dessas regiões são en

contrados diferentes tipos de circuito, notando-se porém a existência de princípios básicos,

cuja compreensão foi de fundamental importância para este trabalho.

Os princípios do processamento paralelo surgiram de processos evolucioná

rios aleatórios guiados por duplicação de genes, mutação e até mesmo simbiose. Diferencia-

28

ção e estratégias adaptativas se desenvolveram para aumentar a velocidade de reação e a

capacidade global dos organismos.

Desse intrincado processo de evolução culminou a organização do sistema

nervoso humano, constituído por diferentes circuitos que têm sua consolidação iniciada ain

da no desenvolvimento embrionário. O cérebro humano, através da organização de sua co

nectividade neuronal, nos permite ver, ouvir, memorizar, sentir emoções e até mesmo pla

nejar o futuro. Grande parte dessa organização vem previamente projetada pela natureza,

não se tratando de uma organização individual que surge ao acaso. As redes de neurônios

são geradas nas posições e proporções exatas por meio de mecanismos gravados no DNA

em diferentes periodos da evolução.

Essa observação de que as diferentes regiões do cérebro se desenvolveram

em periodos diferentes da evolução e o fato de apresentarem anatomia distinta, auxiliou in

clusive a investigação dos princípios de sua organização, apresentados a seguir.

3.2 Princípios de Organização do Cérebro

Gall (1810) já postulava que o cérebro não era um único órgão, mas uma

coleção de pelo menos 35 domínios, ou centros, cada um correspondendo a uma função

mental específica. Por isso, para ilustrar os caminhos percorridos durante a pesquisa de tra

balhos sobre a organização do cérebro humano, é conveniente uma simplificação, mencio

nando apenas as principais macro-divisões anatômicas e fimcionais, como vistas atuahnente.

As Figuras 3.2 e 3.3 mostram essas divisões no aspecto anatômico, e a Figu

ra 3.4 associa parte dessas divisões a um dado aspecto fiancional.

29

Hemiáériocerebrá

"Cotiw CAIOSO"

Diencéfalo

Cerebeäo

Tronco cereka)

Figura 3.2 - Vista centro-lateral do cérebro humano (Kandel, 1991a).

Gânglios Bàsás

Lobo frontal--w^

Hemisfério cerebral

LoboTernpofal —

Diencéfalo

Tronco cerebfá

Lobo Occptal

Cerebelo

Medula

Figura 3.3 - Grandes regiões do cérebro (Kandel, 1991a).

A parte mais central do cérebro é formada por quatro estruturas interligadas:

a medula espinhal, o conjunto tronco cerebral e cerebelo, o diencéfalo e os hemisférios ce

rebrais. A medula espinhal está ligada a es.- a narte central e tem funções apenas indireta-

30

mente ligadas às atividades nervosas superiores, apesar de desempenhar um papei funda

mental no sistema motor que será o foco deste trabalho.

Área Motora soplementar

Área Motora córtex somático sensor

Lobo frontal ,'• Lobo Parietal

Diencéfalo

Tronco Cerebral concentração e homar

Compreensão daftigoagem falada

Cerebelo: eqaiSbrioe coordenação

Figura 3.4 - Principais localizações funcionais (Kandel, 1991a).

O intrincado sistema constituído por essas regiões pode ser analisado sob um

enfoque mais restrito, que exponha os fatores que influem na organização do cérebro. Den

tro dessa linha é importante considerar a macro divisão funcional mais elementar do sistema

nervoso, que de acordo com Claude Ghez (1991) é constituída por duas classes de planos:

um para as percepções sensoriais e outro para comandos motores.

As percepções sensoriais se originam no sistema sensorial que constrói uma

representação mtema do mundo exterior. Uma função dessa representação é extrair a in

formação necessária para guiar os movimentos que fazemos. A percepção é uma organiza

ção precisa das propriedades essenciais de um objeto que nos permite manipulá-lo com su

cesso. Para construir a representação interna desses objetos, os sistemas sensoriais mediam

31

quatro atributos do estímulo: a modalidade, que é a sensação definida pelos sentidos da vi

são, audição, tato, paladar e olfato; a intensidade, que em geral é correlacionada com a in

tensidade dos estímulos e é afetada tanto pela prática como pela fadiga e ainda pelo con

texto em que os estímulos são apresentados; a duração, que se prolongada pode inclusive

diminuir a intensidade da sensação através da adaptação; e a localização, que depende das

habilidades de se localizar a região do estímulo e de se discriminar dois estímulos próximos.

A representação interna dos objetos e do ambiente elaborada pelo sistema

sensorial é utilizada para controlar os movimentos por meio de um conjunto de sistemas

motores que nos permitem manter equilíbrio e postura, e mover nosso corpo, membros e

olhos e ainda nos comunicarmos através da fala e dos gestos. A informação sensorial é usa

da para corrigir erros através de mecanismos de realimentação ("feedback") e de pré-

alimentação ("feed-forward"). A realimentação é usada para manter ou para modular uma

variável, como uma posição ou uma força, e no desempenho de movimentos lentos. Por

outro lado, quando a variável deve ser mantida em tomo de um ponto de ajuste, um sinal de

referência é mantido constante em um processo chamado de regidação. Quando é necessá

ria a previsão de uma determinada variável os sistemas motores utilizam mecanismos de

pré-alimentação, ou seja, utilizam controle adaptativo como o caso do reflexo dos joelhos,

que é essencial para movimentos rápidos e para lidar com mudanças temporais causadas

pela fadiga, por exemplo.

Para desenvolver a mais simples tarefa, o sistema motor precisa conduzir

comandos de controle precisos e sincronizados para muitos gmpos de músculos, que devem

contrair ou relaxar considerando a distribuição de massa do corpo, fazendo os necessários

ajustes de posição e, levando em conta o arranjo físico dos músculos, ossos e juntas Para

32

desempenhar essas tarefas os sistemas motores são organizados em uma hierarquia de níveis

de controle em que, cada nível recebe continuamente um adequado fluxo de informações

sensoriais.

Em fiinção dessa organização hierarquizada, os níveis mais elevados dos

sistemas motores podem se concentrar em questões estratégicas, como a seleção de uma

resposta adequada a uma determinada meta sem a necessidade de monitorar, instante a ins

tante, os detalhes da resposta, que podem ser acompanhados por um nível hierarquicamente

inferior.

Essa organização em níveis de controle confirma a tese de que o conheci

mento não é baseado somente na experiência sensorial, mas também no pré-conhecimento

que organiza essa experiência sensorial. Isso significa que o comportamento depende tanto

de fatores genéticos e de desenvolvimento quanto dos fatores ambientais. A pesquisa de

Susan Goldin e Carolyn Mylander (1998) mostrou que crianças surdas-mudas, de culturas,

origens e etnias diferentes, tendem a usar os mesmos sinais para se expressar, demonstrando

que a comunicação gestual, e portanto a linguagem, é uma aptidão previamente programada

no cérebro e não apenas um produto da educação.

Isso demonstra que uma investigação mais profiinda sobre o desenvolvi

mento organizacional do cérebro pode mostrar como se tirar o máximo proveito da nature

za evolucionária que culminou com a enorme eficácia dos processos mentais humanos.

Seguindo nessa direção, James P. Kelly e Jane Dodd (1991) definem a ar

quitetura dos circuitos neuronais como governada por um conjunto de princípios fimcionais,

organizacionais e de crescimenio. Nas mais diversas regiões são encontrados circuitos se-

I

33

guindo princípios simples como a divergência, quando colaterais de um dado neurônio se

ligam em diversos neurônios alvo (Figura 3.5); e a convergência, quando a atividade de um

dado neurônio depende da soma das entradas de inúmeras outras células, como ocorre nas

conexões entre células do sistema sensorial com células motoras (Figura 3.6). Circuitos

convergentes permitem a uma dada região do cérebro integrar entradas provenientes de di

ferentes sistemas sensoriais. Circuitos divergentes permitem a pequenos grupos de células

propagar sua influência para as mais diversas regiões do cérebro.

Intemeurônios

DIVERGÊNCIA

Figura 3.5 - Exemplo de circuito divergente.

A comunicação entre cada célula desses circuitos se processa nos terminais

nervosos que se formam nos contatos entre duas células e que são denominados sinapses. A

especificidade na formação dessas sinapses (contatos sinápticos) é um processo importante

que depende de afinidades seletivas entre os neurônios pré e pós-sinápticos, ou seja, a for

mação de conexões apropriadas e permanentes entre dois neurônios depende do casamento

correto de moléculas presentes em ambos. De acordo com Paul Weiss (1948), durante o

desenvolvimento do cérebro, a especificidade das conexões neuronais somente ocorre pela

retenção seletiva dos contatos nos quais os padrões de atividade elétrica do neurônio pré-

34

sináptico se casam perfeitamente com os padrões de atividade do neurônio alvo. Dessa vi

são se originou uma teoria conhecida como a "hipótese da ressonância'", que foi muito útil

neste trabalho e que será referida novamente durante a apresentação dos novos modelos.

do Sistema Central

CONVERGENCIA

Figura 3.6 - Exemplo de circuito convergente.

A formação dos contatos sinápticos começa no desenvolvimento embrionário

com o encontro do que se chama "cone de crescimento axonaP" com as suas células alvo. O

cone que parte de uma dada célula, é guiado pela emissão de substâncias precursoras e, ao

atingir uma célula alvo, dispara a formação dos contatos sinápticos que se desenvolvem

através de um processo gradual. A formação desses contatos iniciais não é o evento final da

formação da intrincada rede que define a conectividade neuronal, nem tampouco pode se

afirmar que há uma regra única. Em algumas regiões do sistema nervoso os contatos iniciais

entre células são precisos e estáveis, evidenciando um alto grau de especificidade inicial em

reconhecimento celular. Em outras regiões contudo, os contatos iniciais acabam sendo eli

minados ainda durante os estágios de desenvolvimento e o padrão de conexões que irá

35

emergir como resultado de reconhecimento celular durante o desenvolvimento pré-natal,

apenas grosseiramente se aproxima do padrão de ligações final.

Como resultado do processo de desenvolvimento dos contatos sinápticos, a

conectividade neuronal atinge o estágio em que uma única célula, através de seu axônio,

fiarma não uma, mas em média mais de 1000 conexões sinápticas com outras células, rece

bendo um número equivalente ou maior de conexões de outras células. Um neurônio motor,

por exemplo, pode receber 10,000 diferentes contatos e uma célula Purkinje, pode receber

até 150,000 contatos (Figura 3.7). No total são formadas em tomo de 10* conexões si

nápticas em todo o sistema nervoso humano.

Figura 3.7 - Célula Purkinje do Cerebelo (Kandel, 1991c).

36

A duplicação de vários tipos de associação em diversas regiões do sistema

nervoso, mostra outros princípios que regem sua organização: a) o chaveamento por meio

de intemeurônios ilustrado na Figura 3.8, onde um sinal de dor, que usualmente acionaria

uma ação reflexiva mas que num determinado instante pode prejudicar uma ação essencial,

pode ser bloqueado por um sinal de controle; h) o chaveamento por meio de inibição pré-

sináptica da Figura 3.9, que produz efeito similar; c) a perpetuação de uma informação por

meio de circuitos reverberantes, como ilustrado na Figura 3.10; e a geração de um ritmo

altemado por circuitos como o da Figura 3.11.

Sinal de controle

Neurônio Motor

CHAVEAUENTO POR IHTERNEURÔHIOS outras entradas

Figura 3.8 - Chaveamento por intemeurônios.

CHAVEAMENTO POR INIBIÇÃO PRÉ-SINÁPTICA

\ Sinal de Controle

Sinapses inibitórias

Neurônio Motor ou Intemeurônio

Figura 3.9 - Chaveamento por inibição pré-sináptica.

37

outras entradas

Interneuiônio

CIRCUITO REVERBERANTE Intemeurônio ou neurônio motor

Figura 3.10- Exemplo de circuito reverberante.

CIRCUITO RÍTMICO ALTERNADOR

Figura 3.11- Circuito ritmico alternador.

38

3.3 Transmissão de Sinais no Cérebro

3.3.1 Sinalização

As células nervosas têm a habilidade de se comunicar entre si por meio de

processos precisos e eficazes usualmente chamados apenas de sinalização. A sinalização é

intermediada por movimentos químicos e elétricos que se processam através de quatro sub-

processos: as entradas excitatórias ou inibitórias moduladas, o processo integrativo que

leva à decisão de se gerar ou não um potencial de ação no neurônio, a condução do poten

cial de ação e, a liberação graduada de neuro-transmissores. A Figura 3.12 ilustra esses

processos de sinalização.

Tranjmiísão sináptica excitatória

Inteçração das entradas (dispaco de potencial de ação)

Condução do Potencial de ãção

Nova transmissão sináptica (secreção de neuro-transmissores)

Figura 3.12 - Sinalização neuronal.

39

Apesar do significado de cada sinal transmitido dentro de um sistema neural

ser determinado quase que exclusivamente pelos caminhos neurais ativados por um dado

estímulo, em fijnção dos diferentes processos de transmissão, os diferentes tipos de neurô

nios podem codificar o mesmo impulso em padrões completamente diferentes, gerando

portanto diferentes padrões de saída. Além do tipo de neurônio, outro aspecto que afeta o

significado dos sinais é o tamanho da população de neurônios de um dado circuito, que

pode ser mais ou menos significativo na ativação de uma resposta. Neste aspecto a popula

ção de neurônios apresenta uma importância adicional ao papel de robustez por redundân

cia.

3.3.2 Transmissão Sináptica e Potencial Pós-Sínáptico

Considerando o aspecto individual de cada célula nervosa, o processo de si

nalização denominado trammissão sináptica é provavelmente o mais importante para o

aprendizado. Esse processo é desempenhado por meio de diversos mecanismos existentes

nos terminais nervosos, que são essenciais até mesmo para a sobrevivência das células ner

vosas. Em fijnção do mecanismo de sinalização nas sinapses, elas podem ser classificadas

em: sinapses elétricas, nas quais a transmissão é efetuada diretamente entre o conteúdo

iónico da célula pré-sináptica e o da célula pòs-sináptica; e sinapses químicas, nas quais não

ocorre o contato do citoplasma entre as células e a transmissão é intermediada por um neu-

ro-transmissor.

As sinapses elétricas são menos comuns, principalmente nos animais mais

evoluídos. Têm uma característica de resposta mais rápida, não são comuns em inibição e

não são suscetíveis a adaptação (mudanças de efetividade com aprendizado). Os comporta

mentos mediados por sinapses elétricas apresentam características de aho limiar e ocorrén-

40

cia explosiva, típicos de situações que envolvem respostas defensivas e escape. Por outro

lado, as sinapses químicas atuam tanto em excitação quanto em inibição, permitem amplifi

cação e fiincionam em comportamentos mais complexos. São flexíveis, ou seja, são suscetí

veis a alterações de efetividade, participando em processos de memorização e outras fim

ções mais elevadas.

As sinapses químicas, responsáveis por importantes atividades cerebrais

como a memória e o aprendizado, predominam no nosso sistema nervoso. Nas sinapses

químicas a sinalização é processada por mensageiros químicos denominados transmissores,

que são liberados nos terminais pré-sinápticos em fiinção do fluxo de potenciais de ação que

percorrem o axônio. Um importante transmissor no sistema motor é a acetilcolina (Ach),

que nos textos adiante será mencionada apenas como "transmissor" a menos que explicita

mente indicado outro neuro-transmissor. A porção de transmissor liberada durante a chega

da de uma série de potenciais de ação atua sobre um grande número de receptores, os ca

nais de íons da célula alvo (Figuras 3.13 e 3.14). São esses receptores (e não a célula pré-

sináptica) que determinam se a sinapse é excitatória ou inibitória.

A atuação de cada um desses canais gera uma pequena corrente elétrica na

membrana pós sináptica, causada pelo fluxo de íons de sódio e íons de potássio principal

mente. Experimentos realizados por Sakmann e Neher(1983) mostraram que a distribuição

das amplitudes dos pulsos de corrente no músculo de uma rã é uma curva normal em torno

do valor de 2,7 pA (Figura 3.15). A amplitude dessa corrente de íons tem um valor relati

vamente constante entre os diversos canais, porém a duração da abertura dos canais é go

vernada por um processo estocástico, variando de abertura a abertura. Apesar do número

de canais abertos durante o desenvolvimento de um potencial sináptico ficar limitado pela

41

quantidade de transmissor disponível, o recrutamento dos canais chaveados por tensão pro

picia mecanismos moduladores e amplificação dos sinais.

Terminal nervoso Fenda Sináptica

Fhsa de Impulsos

nervosos

Floco iónico

Vesícula sináptica comÂCh (acetilcolina)

Canaiiônico [receptor de ACh]

Membrana da célula pós-sináptica

Figura 3,13- Esquema simplificado de Sinapse Química de ACh.

Figura 3.14- Ampliação de um aglomerado de canais iónicos de ACh. (adaptado de Heuser e Salpeter, 1979)

42

80.00 —

2.00 2.50 3.00 3.50

Tamanho do Pulso de Corrente (pA)

Figura 3.15- Distribuição de pulsos de corrente em uma junção neuro-muscular.

O aspecto estocástico da efetividade dos processos de transmissão sináptica,

não só devido à limitação quantitativa de moléculas de transmissor e ao número de canais,

suscita um outro aspecto da sinalização sináptica, peculiar a praticamente todo o sistema

nervoso: praticamente nenhum neurônio pré-sináptico é capaz, sozinho, de excitar uma

célula pós-sináptica o suficiente para atingir o limiar de disparo de um potencial de ação

(Stevens, 1994). Esse aspecto define o principio de cooperatividade, presente em todo o

sistema nervoso.

A contribuição relativa de uma dada sinapse, excitatória ou inibitória, no

conjunto de entradas de uma célula depende ainda da sua localização no neurônio pós si

náptico, do seu tamanho e formato, além da proximidade e força relativa de outras sinapses

sinergéticas ou antagonistas. Esse efeito de soma espacial é quase tão crítico quanto a pró

pria organização dos circuitos neuronais. Por outro lado, a grande constante de tempo de

um neurônio é explorada na zona de integração do neurônio, onde os sinais de entrada na

célula são ponderados temporalmente, em períodos de muitos milisegundos. Esse outro

efeito é denominado de integração temporal.

43

A composição dos mecanismos atuantes na transmissão sináptica mediada

pela ACh gera um comportamento que, a menos de alguns processos importantes para os

mecanismos de plasticidade que ainda não serão abordados, pode ser descrito da seguinte

maneira; 1) a chegada de uma série de potenciais de ação no terminal nervoso provoca,

por meio da exocitose (a "fusão " das vesículas sinópticas nos canais da membrana do

terminal), a liberação da ACh contida nas vesículas sinápticas recrutadas, proporcional

mente à duração da série de potenciais: 2) a migração da ACh e sua atuação em uma de

terminada quantidade de canais receptores da célula alvo, que por sua vez é proporcional

à quantidade de ACh e à disponibilidade de canais não bloqueados por inibidores; 3) a

abertura dos canais atuados por transmissor com o conseqüente fluxo iónico intra- e ex

tra-celular (Na*^ adentrando a célula pós-sináptica e IC saindo desta) que provoca a mu

dança no potencial sináptico e promove o recrutamento dos canais chaveados por tensão;

4) o disparo ou não de um potencial pós-sináptico, se riada impedir que sejam atingidas as

condições para tal; e, 5) a condução desse possível potencial no interior do corpo celular,

em direção ao ponto de disparo de potenciais de ação do neurônio.

Esse comportamento é bem conhecido desde a divulgação dos experimentos

de Hodgkin e Huxley (1952) e pode ser simulado por meio de modelos bem precisos. Para

ilustrar o resultado do processo de transmissão sináptica sobre uma célula pós-sináptica, foi

realizada uma simulação utilizando o programa C-CLAMP (John Huguenard e David A.

McCormick, 1994). A simulação consistiu na injeção de dois sinais de corrente em uma cé

lula, simulando a atuação de um terminal sináptico; um abaixo do limiar necessário para

disparar um potencial, ou seja, insuficiente para recrutar o mínimo número de canais cha

veados necessários; e ouiro sinal suficientemente alto para disparar um potencial pós-

sináptico. A sobreposição dos resultados dessa simulação pode ser vista na Figura 3.16.

44

A importância desses resultados, apesar de não evidente, foi a conclusão de

que um modelo para representar adequadamente o processo de transmissão sináptica, deve

possuir algum tipo de dispositivo de resposta sujeita a limiares.

Potencial de ação pós-sináptico

Corrente supra-limiar

Corrente sub-limiar injetada

-,40

- zo

2 M S

- 1 2 0

7 nñ I - I n j

Figura 3.16- Potencial de ação pós-sináptico.

3.4 O Aprendizado e os Mecanismos da Memória

Compreendidos os processos de transmissão de sinais no cérebro, é necessá

ria a compreensão dos processos de aprendizado e memória, aos quais será dedicado um

maior espaço pois neles se concentra a maior essência das inovações propostas.

Aprendizado é o processo de aquisição de conhecimento sobre o mundo e

memória é o armazenamento desse conhecimento. A memória pode ser classificada pelo

modo como as informações são estocadas e recuperadas em: memória reflexiva e memória

declarativa (Irving Kupfermann, 1991). Memória reflexiva é o armazenamento acumulativo

45

e lento da informação através da repetição de muitas e muitas apresentações. Memória de

clarativa é aquela estabelecida durante uma única tentativa ou experiência. A lembrança de

fatos ou eventos presenciados uma única vez e que podem ser relatados é o exemplo típico

de memória declarativa. A situação vivenciada ativa o sistema sensorial gerando impulsos

nervosos que atingem as regiões mais altas do cérebro, no córtex cerebral onde são desem

penhadas as funções mais evoluídas. Esses impulsos "impressionam" o caminho por que

passam fortalecendo conexões entre neurônios de modo que o cérebro possa recriar fiitu-

ramente a impressão causada por essa situação. Essas sensações podem então ser reprodu

zidas, sempre que necessário e nesse caso serão reforçadas. Quando solicitado, o sistema

nervoso envia novos impulsos pelo mesmo caminho, reproduzindo as impressões armazena

das, num processo conhecido como memória associativa. Qualquer tipo de estímulo, ou

uma combinação deles, reativa os padrões de conexão estabelecidos nessa experiência.

Kupfermann professa que a base neural da memória pode ser resumida em

quatro princípios: a memória tem estágios e está continuamente mudando; a memória de

longa duração pode ser representada por mudanças plásticas no sistema nervoso; as mu

danças físicas que codificam a memória não são localizadas em uma única região; e, me

mórias reflexiva e declarativa podem envolver diferentes circuitos neuronais.

Ao contrário do que se imaginava no passado, não existe uma região especí

fica para a memória. De um modo geral no entanto, a formação da lembrança e o armaze

namento inicial de fatos experimentados ocorre na região do hipocampo. Na amígdala são

registradas as impressões de medo e alerta, no gânglio basal, as informações de hábitos e

habilidades. A memória rápida ocorre no córtex e em suas conexões.

46

Essa natureza fragmentada dos arquivos de memória permite o refinamento

das impressões, refiarçadas por novos estímulos em associação, e por outro lado, também

permite o seu esquecimento.

A memória está ligada ao aprendizado, ou seja, á capacidade de repetir os

sucessos e evitar as ações que levam a erros já cometidos. O aprendizado por sua vez pode

ser avaliado submetendo um individuo a repetidas experiências e acompanhando o progres

so na mudança de seu desempenho.

3.4.1 Processos de Aprendizado

Como constatam as pesquisas da neurofisiologia, o desenvolvimento do cé

rebro passa por diversos estágios. A migração de precursores neuronais nos primeiros está

gios do desenvolvimento embrionário desempenha importante papel no estabelecimento da

identidade de alguns neurônios, na definição de fiituras conexões, e possivelmente determi

na suas propriedades fiancionais. Durante o desenvolvimento pré-natal ocorre a migração e

o início do crescimento dos neurônios. Tão logo um neurônio atinja sua posição final, co

meça a estender um axônio que cresce e é dirigido para fazer conexões com outras células,

organizando-se em redes de processamento. A partir desse ponto as interações com o ambi

ente local irão propiciar a consolidação da identidade e função do neurônio. Quando recém-

nascido o indivíduo tem mais do que todos os neurônios que utilizará até o final da sua vida

adulta. As mudanças fisicas e químicas a que é sujeitado logo após o nascimento desenca

deiam novos processos que aceleram o desenvolvimento das fimções cerebrais. Esses pro

cessos fazem com que os neurônios e suas conexões cresçam em tamanho, fortaleçam co

nexões e ainda estabeleçam novas conexões. Após a primeira estrutura organizada, o siste

ma nervoso tem ainda a habilidade de modificar as ligações pelo aprendizado, através de

47

mecanismos dependentes de atividades neuronais que casam perfeitamente os neurônios

pré-sinápticos com suas células alvo. Esse casamento ativo-dependente pode ser modulado

pela experiência sensorial no processo de aprendizado. Porém, para que ocorram essas mo

dificações, e para que as mesmas resultem no desenvolvimento cerebral utilizando todo o

potencial herdado, é necessário que as atividades cerebrais sejam estimuladas. Essa fase ini

cial é fiindamental para a estruturação das fianções cerebrais, conferindo uma fimdamental

importância à experimentação e aos processos de aprendizado. A estimulação cerebral ajuda

a estabelecer e refinar conexões e a sofisticá-las. Sem essa estimulação os neurônios atrofi

am e morrem.

Observado sob o prisma dos processos pós-natais, o aprendizado pode ser

dito associativo, quando o organismo aprende a relação entre um estímulo e outro, ou não-

associativo, quando o organismo é exposto a um único tipo de estímulo.

O enfoque microscópico dessa questão mostra que um conjunto de sinapses

pode ser modificado em dois diferentes modos de aprendizado: as sinapses podem ter sua

força de ligação diminuída pela habituação ou aumentada pela sensitização. Dois processos

mais complexos ainda são conhecidos, o condicionamento clássico (CC) e a prática.

- habituação. A habituação é a mais simples forma de aprendizado. É um

processo não-associativo no qual um ser aprende sobre as propriedades de um estímulo

novo e indolor, quando esse estímulo é repetido várias vezes. O indivíduo primeiro respon

de a um novo estimulo com uma série de reflexos orientativos, quando o estímulo é repeti

do o indivíduo aprende a reconhecê-lo e se o estimulo não é doloroso nem agradável,

aprende a suprimir qualquer tipo de resposta ao mesmo. Essa supressão de resposta apren

dida para um estímulo repetido é a chamada habituação.

48

Spencer, Thompson e Neilson (1966) descobriram que em certas formas de

comportamento reflexivo, a habituação produz um decréscimo na atividade sináptica entre

intemeurônios e neurônios motores, sem uma correspondente redução da atividade nos ca

minhos mono-sinápticos subjacentes ao reflexo. Estudos com a habituação do reflexo de

contração da guelra da lesma do mar mostraram que os potenciais sinápticos produzidos

pelos neurônios sensores nos intemeurônios e nas células motoras ficavam progressiva

mente menores. Os potenciais sinápticos produzidos por alguns dos intemeurônios nos

neurônios motores também enfi-aqueceram com o resultado líquido de redução da força de

resposta reflexiva.

O decréscimo na transmissão sináptica dos neurônios sensores resulta de um

decréscimo nas quantidades de transmissor liberado pela ação dos potenciais de ação nos

terminais pré-sinápticos. Essa redução na efetividade das conexões sinápticas entre os

neurônios sensores e suas células alvo pode durar por vários minutos. Observou-se que nos

animais mantidos para controle, 90% dos neurônios sensores fazem conexões detectáveis

com um dado neurônio motor, enquanto que em animais submetidos à habituação a incidên

cia de conexões detectáveis é reduzida a 30%. Essa desativação de longa duração é acom

panhada de mudanças estmturais nas células sensoras, como ilustra a Figura 3.17.

Mudanças duradouras também ocorrem nas conexões sinápticas entre diver

sos intemeurônios e neurônios motores dentro desse circuito. Essas mudanças representam

componentes do processo de armazenamento de memória de curta duração na habhuação.

As mudanças sinápticas que ocorrem nas conexões entre intemeurônios e neurônios moto

res são similares às que ocorrem entre os neurônios sensores e os neurônios motores.

49

ANIMAL PARA CONTROLE

HABITUAÇÃO DE LONGA DURAÇÃO

Neurônio Motor

Figura 3.17- Efeito do mecanismo de habituação (Kandel, 1991b).

- semitização: Enquanto a habituação produz uma depressão homosinápti-

ca, ou seja, um decréscimo na força de transmissão sináptica resultante da atividade do ca

minho estimulado, a sensitização produz uma facilitação heterosináptica, ou seja, um au

mento na força de transmissão sináptica. Na sensitização um individuo aprende sobre as

propriedades de um estímulo doloroso e, como resultado, se lembra de responder mais efe

tivamente a uma variedade de outros estímulos mesmo sendo inócuos. A sensitização é uma

forma mais complexa de aprendizado não-associativo que a habituação mas também apre

senta duas componentes, uma de curta duração e outra de longa duração, durando dias e

mesmo semanas, dependendo do número de estímulos apresentados. Os estímulos sensiti

zantes ativam um grupo de intemeurônios facilitadores ligados aos neurônios sensores. Os

neurônios facilitadores produzem ligações axo-axônicas que ampliam a liberação de trans

missores pelos neurônios sensores. A ilustração esquemática do circuito neuronal da lesma

do mar suscetível à sensitização é mostrado na Figura 3.18. A Figura 3.19 mostra um outro

efeito do mecanismo da sensitização, o aumento de terminais nervosos.

50

Siíao

Neurônio Sensor

O

V

Ù

Cauda

O Inteneurônio Facilitador

Intemeurônios

1 Neurônios

Motores

Guelra A

Figura 3.18- Circuito neuronal envolvendo a sensitização. (adaptado de Kandel, 1991b)

ANIMAL PARA CONTROLE

SENSITIZAÇÃO DE LONGA DURAÇÃO

Neurônio Motor

Figura 3.19- Mecanismo de Sensitização (Kandel, 1991b).

- condicionamento clássico: Condicionamento clássico (CC) é uma forma

ainda mais complexa de aprendizado do que a sensitização. No condicionamento clássico,

ao invés de se preocupar com as propriedades de um ímico estímulo, o sujeito deve apren

der a relação entre dois estímulos, associando um com o outro. No condicionamento clássi-

51

CO, um estímulo inicialmente fraco ou inefetivo se toma altamente efetivo em produzir uma

resposta após ser associado com outro estímulo forte não condicionado.

Para reflexos que podem ser modificados por ambos os processos, sensitiza

ção e condicionamento clássico, este último é mais efetivo no aumento da efetividade da

resposta e também produz resultados mais duradouros. De fato, pelo menos em alguns ca

sos, observou-se que o mecanismo do condicionamento clássico é uma elaboração da es

tratégia celular da sensitização.

A Figura 3.20 mostra um diagrama simplificado das mudanças nos caminhos

monosinápticos envolvidos no condicionamento clássico da contração da guelra e do tubo

emissor de tinta (sifão) da lesma do mar, um típico exemplo de reflexos que podem ser au

mentados por ambos mecanismos, o CC e a sensitização. Um estímulo condicionado (EC^)

aplicado ao manto é aplicado simultaneamente a um estímulo não condicionado (NC) apli

cado na cauda. Como controle, um EC" aplicado no sifão imediatamente antes do NC (não é

emparelhado ao NC). O NC é um choque na cauda que excita intemeurônios facilitadores

que se ligam aos terminais pré-sinápticos dos neurônios sensores no caminho do manto ao

sifão. Esse é o mecanismo de sensitização. Contudo, quando o caminho do manto é ativado

pelo E C imediatamente antes do NC, os neurônios são premidos a responder de uma ma

neira amplificada a subsequentes estimulações pelos intemeurônios facilitadores no caminho

do NC. Esse é o mecanismo do condicionamento clássico; ele amplifica a resposta do cami

nho do EC- e restringe essa amplificação a esse caminho.

O CC envolve o fortalecimento associativo da facilitação pré-sináptica que é

dependente da atividade. Os reflexos de contração podem ser despertados tanto pela esti

mulação no sifão quanto pela estimulação de uma estmtura próxima, como o manto. Cada

52

uma dessas áreas é enervada por sua própria população de neurônios sensores. Cada cami

nho pode ser condicionado independentemente pelo emparelhamento de estímulos a ambos,

o sifão ou o manto, com um estímulo não condicionado (um forte choque na cauda). O ou

tro caminho pode ser estimulado como um controle que não é emparelhado com o choque

na cauda. Após tal tipo de treinamento, a resposta à estimulação da estrutura condicionada

é significativamente maior do que aquela da estrutura não condicionada.

Manto

EC (condicionado)

Neurônios sensores

ONeurônio sensor

O Cqnjergência

Sinal na Intemeurônios Cauda OIC) Facilitadores

x1{ \ Neurônios f A ^ ^ \ _ / ] Motores V_y ^

ONeurônio sensor

Guelra

EC " (controle)

Tubo de tinta (sitao)

Figura 3.20 - Mecanismo de Condicionamento Clássico (Kandel, 1991b).

Diferente do que ocorre no aprendizado não associativo, o tempo é critico

no aprendizado associativo. Para o CC trabalhar, o estímulo condicionado deve preceder o

estímulo não condicionado e frequentemente, como com o estímulo não condicionado de

sagradável, ele deve ser aplicado dentro de um intervalo de tempo critico de aproximada

mente 0,5 segundo. No condicionamento clássico do reflexo de contração da guelra da les

ma do mar, a especificidade temporal de sincronismo resulta da convergência dos estímulos,

condicionado e não condicionado, em neurônios sensores individuais. Os intemeurônios fa-

53

cilitadores que são ativados pelo estímulo não condicionado produz uma maior facilitação

pré-sináptica dos neurônios sensores somente quando eles ativam os neurômos sensores

imediatamente após o estímulo condicionado ter o disparo dos neurônios sensores. Desse

modo a facilitação é amplificada se o estímulo condicionado produzir potenciais de ação

nos neurômos sensores imediatamente antes da chegada do estímulo não condicionado.

Essa propriedade de facilitação pré-sináptica é chamada de dependência de atividade

(facilitação ativo-dependente). Em contraste, a atividade nos neurônios sensores que segue

o estímulo não condicionado não produz um efeito facihtador. Isso confirma que o meca

nismo celular do CC do reflexo de contração na lesma do mar é um aprimoramento da faci

litação pré-sináptica, o mecanismo de sensitização do reflexo.

O fato de que os mecanismos celulares do condicionamento clássico são um

aprimoramento dos mecanismos envolvidos na sensitização sugere que formas mais com

plexas de aprendizado podem ser construídas por meio da combinação de componentes

moleculares de formas mais simples de aprendizado (Kandel, 1991b). Nesse contexto exis

tem ainda outras formas de plasticidade, que em conjunto com a potenciação de longa dura

ção, poderão ser exploradas de alguma forma no campo de redes neurais artificiais.

- prática: Como a habituação e outras formas de aprendizado reflexivo, a

prática prolonga a memória por sensitização de um modo graduado. Enquanto que uma

única seção de treinamento, com a aplicação de 10 estímulos, produz uma sensitização de

curta duração, alguns minutos por exemplo, quatro seções de treinamento já podem produ

zir sensitização de longa duração, durando até um dia. Posteriores repetições desse treina

mento podem produzir sensitização que dure até três semanas. Uma descrição interessante

desse processo é dada por Kawato, Uno, Isobe e Suzuki (1988), "a rigidez das conexões do

54

sistema nervoso fornece a base para o comportamento instintivo, tais como reflexos e mo

vimentos autônomos, contudo não pode explicar os mecanismos de adaptação, tais como

aprendizado e memoria. E reconhecido que algumas conexões nervosas do cérebro têm

uma certa plasticidade. Quando aprendemos um movimento, primeiro executamos esse

movimento vagarosamente, por ftão ser possível pré-programá-lo adequadamente. Isso é

realizado com intervenções do sistema central utilizando a realimentação sensorial. Com

a prática, uma grande parte do movimento é programada, passando a ser executada mais

rapidamente."

Os estudos realizados com a lesma do mar e com vertebrados parecem suge

rir que a memória de curta duração pode ser decorrente de um único e graduado processo.

Observou-se no entanto que algumas condições clinicas decorrentes de um derrame podem

afetar seletivamente ou a memória de curta duração ou a memória de longa duração

(Kupfermann, 1991). Daniel L. Alkon (1983) mostra resultados de outros experimentos de

condicionamento da lesma do mar que demonstram que aprendizados associativos, de dura

ção de vários dias, envolvem mudanças na regulação bioquímica de longa duração do fluxo

iónico através da membrana celular, ou seja, alterações no corpo celular e em axônios, não

apenas em sinapses. Esses fatos levam a questionar se a memória é desenvolvida por um

único processo e sua duração depende do número de seções de treinamento ou se a repeti

ção ativa um diferente tipo de mecanismo de armazenamento.

3.4.2 Mecanismos de Armazenamento de Memória

Nesta altura da pesquisa já foi mencionado, por diversas vezes, que a fiinção

das conexões sinápticas é essencial para os mecanismos de aprendizado. Essa fiinção da si

napse em geral é determinada pelo tipo de contato, que por sua vez é determinado pela sua

55

posição no neurônio. Existem três tipos de contato entre células: axo-axônico, axo-

somático e axo-dendrítico, ilustrados na Figura 3.21. Nas figuras do item anterior, pode ser

visto que, dentre os três tipos de sinapses, as ligações axo-axônicas estão sempre envolvidas

nos caminhos sujeitos aos processos de aprendizado. Essas sinapses apresentam maior im

portância para o aprendizado pois podem deprimir ou ampliar a liberação de neuro-

transmissores através da inibição pré-sináptica ou da facilitação pré-sináptica. Isso é realiza

do através da regulação de cálcio livre (Ca^^) no terminal pré-sináptico. De fato, esta é a

base para uma variedade de mecanismos que conferem plasticidade em sinapses químicas.

Em alguns neurônios a concentração intracelular de Ca^* tem influência modulatória em ca

nais iónicos chaveados por tensão.

A maioria dos textos da neurofisiologia analisados, enfatizam o princípio de

que o armazenamento de memória não depende de mudanças dinâmicas em um dado cir

cuito fechado de neurônios, mas sim de mudanças plásticas que ocorrem nas células, princi

palmente em conexões pré-existentes (Kupfermann, 1991). O aprendizado reflexivo não

depende de neurônios especiaüzados em memória cuja única fianção seria a de armazenar

informação, mas sim resulta de mudanças em neurônios que são parte integrante de cami

nhos normais de reflexos.

Essas constatações fazem crer que diferentes tipos de experiência sejam ar

mazenados por diferentes células que tenham outras fiinções além da fiinção de armazenar

informações, como por exemplo nos caminhos de reflexos, etc.

Outro aspecto importante é que as mudanças plásticas não são uma caracte

rísticas de todas as sinapses: algumas conexões sinápticas do sistema nervoso não mudam

sua força de ligação mesmo com ativação repetida. Por outro lado, nas sinapses envolvidas

56

com o aprendizado, como aquelas que observamos nas conexões entre neurônios sensores e

os neurômos motores e nas conexões com intemeurônios, no caso do condicionamento de

reflexos, uma pequena quantidade de treinamento pode produzir grandes e duradouras mu

danças na força de ligação sináptica.

Axônio

Sinapse espinar

Sinapses Axo-Somátícas

Sinapses Axo- Dendríticas

Sinapse Axo-Axònica

Figura 3.21 - Tipos de Conexões Sinápticas (Kandel e Schwartz, 1991).

Outros tipos de resposta podem ser observados em outros tipos de células.

Existem células que respondem a uma excitação constante disparando uma seqüência desa

celerada de potenciais de ação, outras que mantêm uma freqüência constante de disparos, e

57

outras ainda que respondem com uma série crescente de disparos. No processo chamado de

potenciação pós-tetánica, seguindo a uma grande taxa de excitação do neurônio pré-

sináptico, ocorre um aumento sucessivamente mais prolongado na amplitude dos potenciais

pós-sinápticos. Esse fortalecimento na força sináptica representa um modo de relembrar

eventos passados no neurônio. Em algumas células a freqüência de potenciais pós-

sinápticos continua a aumentar por minutos ou mesmo horas e esse aumento é seguido por

um processo de maior duração chamado de potenciação de longa duração, que pode per

durar muitas horas e mesmo dias.

Eric R. Kandel (1991b) discute estudos celulares que indicam que o processo

de armazenamento de memória de longa duração parece ser uma extensão graduada dos

processos de curta duração. Ele observa que, em primeiro lugar, a memória de longa dura

ção na sensitização é acompanhada por mudanças na força das conexões sinápticas no

mesmo local envolvido nos processos de curta duração, no caso do reflexo de contração da

guelra da lesma do mar isso ocorre entre os neurônios sensores e motores. Em segundo lu

gar, tanto nos processos de curta duração quanto nos processos de longa duração, o forta

lecimento das ligações sinápticas é devido ao aumento da liberação de transmissor, não se

observando mudanças na sensibilidade do receptor pós-sináptico. Em terceiro lugar, a se-

rotonina, um neuro-transmissor modulador que pode produzir facilitação de curta duração

após uma única exposição, produz facilitação de longa duração após quatro ou cinco expo

sições. Finalmente, um mensageiro intracelular secundário chamado cAMP, envolvido na

facilitação de curta duração, também produz mudanças de longa duração.

Apesar das similaridades no nível celular, podem ser percebidas diferenças

entre os processos de curta duração e os processos de longa duração que surgem no nível

58

molecular. Enquanto que a facilitação de curta duração envolve a modificação de proteínas

pré-existentes, e não é afetada por inibidores de proteína, a facilitação de longa duração não

ocorre se houver inibidores, além de requerer a síntese de uma nova proteína. Essa desco

berta reforça a idéia da especialização de algumas sinapses decorrente de processos evolu

cionários pois sugere que genes não envolvidos diretamente com a facilitação de curta du

ração são requeridos para a facilitação de longa duração. Kandel ainda discute estudos mo

leculares mostrando que, com repetido treinamento, uma proteína dependente do cAMP

age no núcleo dos neurônios sensores ativando reguladores, que por sua vez ativam genes

que, produzindo proteínas, causam o crescimento de conexões sinápticas: os dendriíos dos

neurônios motores nos animais sensitizados cresceram para acomodar as entradas si

nápticas adicionais.

Como conclusão desta parte da pesquisa, observa-se que mudanças morfoló

gicas parecem ser a assinatura dos processos de longa duração, pois não ocorrem nos pro

cessos de curta duração. E essas mudanças estruturais que ocorrem nos processos de longa

duração não se restringem ao crescimento das conexões. A habituação de longa duração

provoca uma regressão e mesmo a eliminação de conexões sinápticas, quando o número de

terminais por neurônio é drasticamente reduzido.

Com isto fica concluída a seqüência de investigação proposta no final do Ca

pítulo 2. A partir daqui pode ser introduzida a apresentação da seqüência de raciocínios que

ligou os aspectos relacionados às oportunidades de inovação suscitadas no Capítulo 2, com

a pesquisa na neurofisiologia apresentada resumidamente neste capítulo. Isso é tratado a

seguir, mantendo ainda a mesma ordem:

- Arquitetura e Fluxo de Informações;

- Sinahzação; e,

- Aprendizado e Mecanismos de Memória.

59

4 DESENVOLVIMENTO DE UM NOVO CONCEITO DE REDES

Este capítulo é dedicado à exposição da seqüência de idéias que levou à

transposição das necessidades apontadas no Capítulo 2 e dos conceitos introduzidos no Ca

pítulo 3, ao novo conceito de uma rede neural artificial para controle.

No início de cada item são apresentadas as principais conclusões resultantes

da pesquisa, procurando associar as fimções biológicas de uma rede neural biológica dentro

dos aspectos descritos resumidamente no Capítulo 3, com os componentes equivalentes da

rede neural artificial.

4.1 Arquitetura e Fluxo de Informações no novo conceito

O estudo sobre os princípios fimcionais e organizacionais dos circuitos neu

ronais, mostrou que um circuito de controle biológico possui essencialmente dois caminhos

separados, um para os comandos de controle, que vêm de um nível hierárquico superior ex

pressando o desejo (como exemplo uma posição desejada) e, o segundo para os sinais sen

sórios, que fiamecem as infiarmações do estado presente. Foi constatado também que esses

circuitos se desenvolveram segundo o princípio da convergência, ou seja, com os caminhos

do nível de controle superior e dos sistemas sensórios convergindo para as unidades moto

ras.

O resultado dessas observações é retratado na Figura 4.1, que resume as

idéias principais na ftjrma de um circuito com: a) dois caminhos separados para sinais de

controle de nível superior e sinais sensórios; b) realimentação de erro (que permite estabele

cer, manter ou corrigir postura); e, c) convergência para as unidades motoras.

60

do nível superior de controle

Saída Motora

do sistema sensório

Figura 4.1 - Estrutura típica de um circuito de controle.

4.2 Transmissão de Sinais - "Sinalização"

Este item é dedicado à abordagem dos processos de sinalização, tanto nos

aspectos de processo quanto de estrutura, sendo introduzidas as fimções de transferencia

propostas para todos os processos de sinalização neural.

1) A fimção de transferencia das unidades: A fiinção de transferencia de

uma unidade representante de um neurônio é composta pela representação dos processos de

integração dos sinais de entrada, da geração de um potencial de ação, e de sua condução a

outras células. Olhando para os sistemas biológicos, observa-se que a fimção de transferên

cia do neurônio é simples e pode ser generalizada, independente de seu tamanho ou forma.

Justamente devido a essa peculiaridade biológica, o processo de evolução teve que construir

sistemas especialistas para estender o alcance de fimções definidas. Um bom exemplo disso

pode ser encontrado no trabalho de Akazawa e Kato (1990), que apresentam um modelo

para investigar mecanismos neurais de controle de força baseado no "principio de tamanho

de unidade de motor.'" Uma associação desse exemplo com a hipótese de "atuação em mas

sa" ("common drive hypothesis" de DeLuca et al., 1982), confirma a idéia de que, além do

número de unidades ser importante em termos de robustez, também é essencial para a si

gnificação dos sinais. A combinação de "tamanho", "limiar" e "número", decorrente do

61

processo evolucionário, oferece funções de associação muito mais complexas que cada fun

ção de transferência isoladamente.

No caso da simulação de redes neurais artificiais, não existem as mesmas

restrições de sistemas biológicos, por isso as fimções de transferência unitárias podem ser

"•melhoradas", reduzindo a necessidade de um grande número de unidades que seria neces

sário para um dado efeito, aprimorando assim a demanda de processamento e portanto, o

tempo de computação. Por exemplo, pode ser utilizada uma única unidade com função de

transferência em um domínio real (entre ±TN) para emular dois circuitos simultaneamente,

um pró-ativo e um antagônico, como é o caso dos circuitos que atuam nos músculos de

movimento dos membros. A utilização dos limites de domínio até um valor TN , não unitá

rio, que é o aproveitamento do "princípio de tamanho de unidade motora", evita a duplica

ção desnecessária de unidades.

Para a implementação dessas idéias foi então escolhida uma função de trans

ferência do tipo tangente hiperbóUca modificada:

O^T^ tanh(a^s) (4.1)

onde: Oéo sinal de saída; 7^ é o "tamanho" da unidade; a é um ganho; e é a somatória

das entradas sinápticas nessa unidade.

Nessa idéia, o tamanho 7]v pode assumir qualquer valor conveniente que, por

exemplo, melhore a linearidade em uma faixa de interesse ou ainda que amplie ou reduza a

relação entrada/saída de sinais, diminuindo a importância dessa unidade.

62

2) Modelo de Transmissão Sináptica: como pôde ser observado em vários

pontos da pesquisa, a transmissão sináptica depende de vários processos que se desenvol

vem nos terminais nervosos e que são importantes até mesmo para a sobrevivência da célu

la. As observações colocadas no capitulo anterior trouxe a idéia de melhorar os conceitos

de redes neurais artificiais com o uso de "sinapses múltiplas", de modo que seja possível

melhorar a capacidade da fimção de transferencia global, aumentando a complexidade co

nectiva, porém reduzindo a complexidade da rede como um todo pela redução do número

total de unidades. Essa idéia é ilustrada na Figura 4.2.

Figura 4.2 - Conceito de sinapses múltiplas.

No capítulo anterior foi visto que no sistema nervoso humano predominam

as sinapses químicas, com a sinalização processada por transmissores emitidos pelo terminal

pré-sináptico em fimção do fluxo de potenciais de ação que percorre o axônio. Para repre

sentar as caracteristicas desse processo de um modo eficiente, foram realizados muitos tes

tes antes de se concluir pelo uso da fimção ilustrada na Figura 4.3, que foi escolhida princi

palmente pela sua simplicidade e sua característica de "resposta sintonizável" (resposta mai

or quando mais próximo do limiar x-^x^.

63

S = T

0 \ 2 (4.2)

onde: 7 é o tamanho da sinapse (que definiria a sua 'Torça de transmissão") e que pode as

sumir qualquer valor positivo (excitatória) ou negativo (inibitória); a é uma constante esco

lhida em fiinção do número de sinapses para que a combinação dos sinais de sinapses vizi

nhas produza fimções com variação suave (como será visto a seguir); x é o "valor do sinal"

que chega na sinapse; e, é uma constante no domínio de x, que representa o "limiar" de

sintonia: o ponto máximo de S.

1.00

0.80

0.60 5 o

•S 0.40

0.20

0.00 -1.00 -0.50 0.00 0.50

Sinal de Entrada - x 1.00

Figura 4.3 - Exemplo da Função de Transferência Sináptica.

A fiinção da equação (4.2) permite amplificação e resposta seletiva, manten

do uma certa analogia com os processos de formação dos primeiros contatos sinápticos

vistos sob a luz da hipótese da ressonância de Paul Weiss (1948). A utilização de múltiplas

64

fiinções desse tipo aumenta a capacidade da fimção de transferência da unidade como um

todo e imita o processo estocástico de emissão de transmissor nos contatos sinápticos bio

lógicos. É importante observar que, apesar do aparente aumento de complexidade em rela

ção às redes neurais atuais, a fimção da equação (4.2) é muito mais simples que uma fijnção

sigmóide em termos de tempo de processamento numérico. A composição de um pequeno

número dessas fimções pode reproduzir qualquer fimção contínua no seu domínio de uma

maneira mais eficiente que uma composição equivalente de fiinções sigmóide. Mais adiante

o uso dessa fimção de transferência será generalizado. Apenas para ilustrar as caracteristicas

dessa composição, a Figura 4.4 ilustra a emulação de uma fiinção de transferência linear,

por meio de um par de sinapses:

-+--2

l + 0.25(x-2)' l + 0.25(x + 2y (4.3)

Na equação (4.3), S é invariante com N, que representa o número de pares

de terminais redundantes (conjuntos de sinapses excitatórias + inibitórias) que poderiam ser

considerados em uma possível implementação de "hardware". Sem falha em terminais o re

sultado é independente de e no caso de qualquer falha de terminais, o efeito no sinal irá

depender do número de contatos que falharam e do nível do sinal de entrada.

Como é observado na definição da equação (4.2), a constante a pode ser es

pecificada de modo a evitar efeitos indesejáveis de inflexão entre intervalos consecutivos de

limiar, como exemplifica a Figura 4.5. O problema indicado nessa figura pode ser definido

considerando as seguintes fijnções:

1 [l + a(x-x°)^] '

(4.4)

65

S2 = 1

[l + aix-x^Y] (4.5)

A questão que se apresenta então é: Para que valores de a a fimção S = Sj

+ sempre crescente entre )^e x^, e sempre decrescente entre x^ e

1.00

0.50 H

I

Co

0.00 —1

-0.50 —

-1.00

l + 0.25(x-2f i + 0.25{x+2f

-1,00 -0.50 0.00 0.50

Sinal de Entrada - x 1.00

Figura 4.4 - Aproximação àeS = x.

66

1.60

0 .00 0 . 2 0 0 .40 " 0 .60

Sinal de Entrada - x 0 .80 1.00

Figura 4.5 - Inflexões indesejáveis.

Considerando uma condição sem inflexão, mostrada na Figura 4.6 e, consi

derada a simetria do problema, resolvendo-se o trecho entre )^tXf^, estará dada a solução

também para o trecho entre x^ q Observe-se ainda que essas condições sempre ocor

rem para x < Jtf e para x > jü.

A solução para essa questão é obtida considerando:

1 - + -

1

[l + a(x-xr)1 [l + a(x-x°y] (4.6)

dS

dx x , " + A

_ - 2 a ( x - x ° ) ^ -lajx-xl)

{\+a(x~x:ff [\ + a{x-xlYf (4.7)

com A = X- x" eAx= x^-x^ então:

67

(A-Ax) + ^—r^<0 OU 2l2 [\+aA'Y [l + a ( A - A x ) ' ]

(4.8)

a < A'

V ( f - I ) - I

( f - I ) ' - V ( f - I ) (4.9)

fazendo A=f Ax, com/< Vá, e definindo 0= / / / - / tem-se:

a < fAx'

4b-\ (4.10)

Para obter o valor de g no limite d e / ^ V2, portanto b => l, deriva-se o nu

merador e o denominador (L'Hoppital) da equação 4.10 obtendo:

a< 3Ax^

(4.11)

1.60

1.20 —

C o

I

1 c>5

0.80 H

0.40 ^

0.00

0.00 0.20 0.40 " 0.60 Sinal de Entrada - x

0.80 1.00

Figura 4.6 - Aproximação sem inflexões indesejáveis.

68

4.3 Aprendizado e Mecanismos de Memória

O conhecimento dos processos de aprendizado mencionados no Capitulo 3,

em específico a habituação, sensitização, condicionamento clássico e prática, em conjunto

com o Conhecimento dos mecanismos de armazenamento de memória, ío\ o precursor de

uma série de tentativas que resuharam na concepção de um circuito adequado para imple

mentar o processo de aprendizagem baseado nos mecanismos de memória reflexiva.

Dos estudos da neurofisiologia concluiu-se que o papel, na rede artificial, de

uma célula faciUtadora sobre o contato pré-sináptico da célula em aprendizagem, é promo

ver o aumento ou redução de um termo fiante - representando algo como a concentração

de Ca^^ . Esse termo fiante, C, que irá agir nos processos de plasticidade de longa duração,

segue um processo cumulativo onde o termo fiante é proporcional a um sinal 5, que repre

senta o sinal de treinamento, e a uma taxa de decaimento X:

^ = 7;S-XC (4.12) dt

onde C é a "concentração", que é gatilho de um outro processo que comanda as mudanças

de longa duração; ^ é o sinal de saída do terminal facilitador pré-sináptico; X é uma cons

tante de decaimento; e, 7 é a força de ligação da sinapse facilitadora (que controla a taxa

de mudança).

A equação (4.12) faz com que o gatilho da mudança de longa duração (o

termo-fonte C) possa crescer proporcionalmente ao sinal de aprendizagem {5) até um valor

de equilíbrio, acelerando ou desacelerando as mudanças na força de ligação. Se o sinal de

aprendizado que entra, diminuir até zero, o fator de disparo de mudança também vai a zero.

69

de acordo com o estabelecido pela constante de decaimento (k). Isso significa que depois

de um período razoável de treinamento, quando o sinal de aprendizado tiver atingido valo

res insignificantes, não haverá necessidade para mudanças adicionais, fazendo com que o

processo seja inerentemente estável.

Para completar essas idéias, ao processo de gatilho ainda é necessário adici

onar o processo que efetue as mudanças de longa duração. Para isso ainda foi necessário

introduzir um artificio que fizesse com que as mudanças fossem mais acentuadas nas sinap

ses convenientes, i.e., nas sinapses onde o limiar (x") estivesse mais próximo dos valores

desejados da entrada, como na hipótese de ressonância de Paul Weiss. Essa característica

inovadora, que faz a correta seleção sináptica, é modelada considerando a própria fimção

matemática de transferência das sinapses. Nesse novo modelo idealizado, a taxa de altera

ção do "tamanho" do contato é uma fianção do gatilho de mudanças (p termo-fonte C ) e da

fimção do terminal de contato:

dT. _ C

dt ~l + a,(x,-xy ^^-^^^

onde Tj é a força do contato sináptico da j-ésima sinapse; é a constante da fianção da si

napse facilitadora (diferente da constante da sinapse em treinamento); XD é o valor do sinal

que vem do nível de controle superior (o desejo); e, x" é o limiar da sinapse em treina

mento.

Resumindo, a equação 4.12 pode ser explicada como sendo a equação que

emula o processo de acumulação de Ca * dentro de um terminal sináptico, gerando um ter

mo fonte que é o gatilho do termo de mudança de longa duração, e a equação 4.13 gera a

taxa de mudança da força de ligação, seletivamente no terminal sináptico sintonizado com o

70

sinal desejado (seguindo a hipótese de ressonância de Paul Weiss): o processo age em cada

contato sináptico da unidade alvo mas, com uma taxa de crescimento mais elevada nas si

napses que têm o limiar mais próximo do sinal desejado, ou seja, em que XD => x°.

Desse modo pode ser estabelecido um modelo de função de transferência

para a unidade motora:

'^ = i . a i t x y ^'-''^

O^T, tanh[a(5, + Z + Z )] (4.16)

O resultado dessa concepção que leva em conta a arquitetura dos circuitos

das Figuras 4.1 e 4.2, é representado no circuito da Figura 4.7. Esse circuito utiliza o sinal

processado por um intemeurônio facilitador, juntamente com o sinal de comando do nivel

hierárquico superior e o sinal do sistema sensório, todos utilizando conexões axo-axônicas

com os terminais pré-sinápticos da unidade de saída (unidade motora), que são os terminais

onde as mudanças plásticas devem ser efetuadas. Nessa concepção utiliza-se o sentido (±)

do sinal ô para decidir se o processo que se desenvolverá nos terminais pré-sinápticos será

equivalente a uma facilitação ou a uma inibição pré-sináptica, aumentando ou diminuindo a

força de ligação sináptica.

71

dC

dt '

dt \ + a,(,x^-xy

0 = R„tanh[a(S,+2:Í;+2í»)]

Figura 4.7 - Circuito Esquemático de "plastificação sináptica".

4.4 Conceito de Unidade de Controle Motor

Para completar os conceitos de um controlador, a estrutura típica do circuito

de controle da Figura 4.1 ainda requeria a introdução de recursos para atenuação de oscila

ções. Nos estudos da neurofisiologia fiaram encontrados, associados aos agrupamentos de

células motoras, dados sobre circuitos de intemeurônios que possuem características de

amortecimento, além é claro das características de amortecimento próprias dos sistemas

neuro-musculares. Com essa nova base e a base já comentada no item anterior, a estmtura

de controle da Figura 4.1 pôde então ser melhorada e evoluiu para a estmtura representada

na Figura 4.8, que define o que chamamos "unidade de controle motor".

Na Figura 4.8 pode ser vista a entrada que define o caminho do nível hierár

quico superior, "o desejo ", representado por XD, e a entrada do sistema sensório, "a condi

ção atual", representada por x'. Desses caminhos derivam linhas laterais que convergem à

unidade responsável pela percepção do erro, £ " A conexão dessas laterais com a unidade

72

sensorial do erro é feita por meio de conexões rigidas. A função de transferência dessas co

nexões é modelada de modo a fazer com que a entrada da condição atual do sistema sensó

rio tenha sinal oposto ao sinal do desejo, de forma a produzir um sinal de erro;

s' = x'^^ - x'''^. O esquema de terminais sinápticos múltiplos toma possível a melhoria da

confiabilidade pelo aumento no número de terminais, o que pode tomar o sistema mais ro

busto, se implementado em "hardware". As equações que correspondem a esses terminais

de conexão foram desenvolvidas por experimentação, e foram modeladas de forma seme

lhante à da equação (4.3):

S I + 0.25(x-2/

(4.17)

N J + 0.25(x+2f (4.18)

N

-2

l + 0.25(x + 2/j (4.19)

5". = N

-2

l + 0.25(x-2f (4.20)

onde N é o número de redundâncias, que não altera o resuUado líquido; o subscrito e se re

fere às sinapses, excitatórias ou inibitórias, que formam porém um conjunto excitatório

(sinal +); e, o subscrito / se refere às sinapses, excitatórias ou inibitórias, que formam porém

um conjunto inibitório (sinal -).

Para evitar a necessidade de alimentar a rede com as taxas de mudança dos

sinais sensórios (derivadas no tempo) foi implementado um artificio para sentir essas taxas

internamente à rede. Isso é feito por meio da diferença entre sinais percebidos por unidades

73

em camadas consecutivas. As unidades responsáveis por essa função são representados na

metade inferior da rede representada na Figura 4.8. Essas unidades são acopladas por meio

de conexões rigidas como aquelas utilizadas na unidade de erro, definidas pelas equações

(4.17) a (4.20). Os sinais de saída dessas unidades, nos vários níveis reproduzem as taxas de

mudança dos sinais sensórios, que é equivalente às taxas de mudanças do erro quando o

valor desejado é constante. Esses sinais são combinados ao sinal de erro em uma unidade

intermediária que faz as conexões com a unidade motora de saída.

Essa combinação de sinais representa a dinâmica do sistema da seguinte ma

neira:

fiz) = a,s + a,—+a,—- + ... dt dt^

(4.21)

O coeficiente do termo de erro, ao, é implementado por fiinções sinápticas

que possuem constantes ajustadas para produzir uma função de transferência linear:

S - ± T

l + 0.25(x-2f (4.22)

N

-T

I + 0.25(x + 2f (4.23)

onde Te é a força de transmissão da sinapse de erro.

X¿

"Pos

ição

des

ejad

a":

do

nive

l de

con

trol

e su

peri

or

Proc

esso

de

plas

ticid

ade

=T

S-2C

dt

dt

\ +

a,{x

^-xy

Sina

pse

plás

tica

com

for

ça T

j

Sj ( e

quaç

ão 4

.14

)

Sal

dad

a un

idad

e-m

otor

a

O

(equ

ação

4.16

)

5^

( equ

ação

4.1

5 )

Sina

pse

plás

tica

Proc

esso

de

plas

ticid

ade

com

forç

a T

k

x'

Pos

ição

pre

sent

e: d

o si

stem

a se

nsór

io

í/7

¡ ^

C

dt

~\V

a^{x

^~x^

Figu

ra 4

.8 -

Uni

dade

de

Con

trol

e M

otor

.

74

75

Por outro lado, os coeficientes das taxas de mudança {a¡, 02, ...) fiaram mo

delados por sinapses com fimções de transferencia ajustadas para oferecer características de

amortecimento do tipo x \ x\. Isso já é suficiente para que sejam atenuadas oscilações e seja

desenvolvido um processo estável, até mesmo com altas taxas de mudança, típicas na diná

mica de manipuladores. Os coeficientes a, foram então modelados reproduzindo esse

amortecimento, plausível em sistemas biológicos onde se encontra diversos efeitos de

amortecimento, príncípalmente em células musculares:

N^j + n(x-i) ,2 (4.24)

h l + ll(x + l)')

(4.25)

onde Tréa força de transmissão das sinapses de taxas de mudança.

Os sinais sensóríos e os sinais do nível de controle superior, juntamente com

a combinação dos sinais de taxas e de erro processados por uma unidade intermediária,

convergem para a unidade motora cujo sinal produzido {O) será a entrada para os atuadores

dos motores. Concluindo, a unidade motora recebe três tipos de sinais: a) informação sen

sória; b) comandos de nível superior; e, c) uma combinação do erro com as taxas de mu

dança dos sinais sensórios. Os sinais sensórios e do nível superior são transmitidos por dois

conjuntos simétricos de sinapses (em termos de limiar e força de transmissão). São essas

sinapses que possuem caracteristicas plásticas e que serão ajustadas pelo treinamento. Essas

sinapses são modeladas por meio das equações 4.14 e 4.15. É importante fazer notar aqui,

que no início de um treinamento, essas sinapses plásticas não transmitem nenhum sinal, por

não possuírem nenhuma força, i.e., para / = O, Tj = = 0. A existência de um sinal de erro

76

e, logo após o primeiro comando de desejo, vai gerar um sinal õ, diferente de zero, que por

sua vez vai agir no sentido de aumentar, ou no sentido de diminuir a força de transmissão

sináptica, inclusive para valores negativos, de acordo com os processos definidos no item

4.2.

77

MANIPULADOR BI-ARTICULADO NO PLANO

Qualquer proposta de inovação no campo de controle por redes neurais arti

ficiais para sistemas de controle utilizáveis na tecnologia de reatores nucleares, requer mui

tas avaliações teóricas que comprovem o seu desempenho. Com a finalidade de iniciar essa

comprovação fiaram selecionadas duas aplicações que apresentam problemas complexos

com características distintas: 1) o controle de manipuladores robóticos e, 2) o controle de

sistemas térmicos de reatores. Ambos são problemas de características não-lineares mas,

enquanto o controle de sistemas térmicos apresenta um maior desafio em termos de com

plexidade de fiinções, o controle do manipulador se destaca pela sua maior complexidade

dinâmica.

Para os testes de desempenho e fiincionalidade dos novos conceitos fiaram

desenvolvidos modelos numéricos dos processos fisicos e as redes de controle fiaram simu

ladas por meio de programas digitais em computador. Neste capítulo são apresentados os

modelos e resuhados obtidos no controle do manipulador. Os modelos e os resultados do

problema referente a sistemas térmicos serão apresentados no Capítulo 6.

5.1 Modelo da Dinâmica do Manipulador Bi-articulado no Plano

O manipulador bi-articulado no plano, mostrado na Figura 5.1, caracteriza

um sistema não-linear com dois graus de liberdade, cuja dinâmica é modelada em seguida.

78

Segmento 1

X

Figura 5.1- Representação do Problema do Mampulador Bi-articulado.

(5.1)

(5.2)

onde:

/ / „ =/w,/, , + / , +[m,(// +/,\ +2/,/,, cose,) + / J

^ 1 2 = m,l,l^, cosQ, +mJl,+I^

^ 2 2 = ' " 2 ' . ^ 2 + - ^ 2

^ 2 2 = -mJJ^^súiQ,

(5.3)

(5.4)

(5.5)

(5.6)

(5.7)

(5.8)

7 9

' ^ M - ^ = '^M -'^PM (5.11)

onde: Ja/ é o momento polar de inércia do rotor; w é a sua rotação; é o torque do motor;

r é o torque de carga, calculado por meio de uma das equações (5.1), ou (5.2); e TPM é o

torque de perdas.

Para os propósitos deste trabalho, pode ser considerado um modelo simplifi

cado com resposta imediata do torque do motor:

X^^=K^O (5.12)

onde Kréo ganho de torque atuador/motor; e (9 é a saida do controlador neural acoplado a

esse sistema mecânico.

= ' " i ^ ^ c i cosG, +m^g{l^ COS0, +/,2 cos (6 i +02)) ( 5 . 9 )

G, =m,gl^, cos(Q,+Q,) ( 5 . 1 0 )

os subscritos 7 e 2 referem-se respectivamente aos segmentos / e 2 do manipulador, cada

um com massa /«,, comprimento A, distância do centro de massa à articulação Id, e mo

mento de inércia /,; g é a aceleração da gravidade; ^/ é o ângulo entre o primeiro segmento

e o eixo X , 2 é o ângulo entre o segundo e o primeiro segmentos; e, Ti e T2 são os torques

nas articulações J e 2 respectivamente.

A dinâmica de cada motor elétrico acoplado ao manipulador é governada

por:

80

CO (5.14)

onde 0) éa velocidade angular (0 ), e KUÍ uma constante dependente do tipo de motor.

O torque de perdas TPM é composto de duas partes; as perdas nos mancáis,

TiB, e as perdas do motor. Tai- Um modelo adequado para essas perdas deve considerar

tanto o atrito de partida, que em geral é um complicador para a tarefa de controle, quanto

os atritos viscosos, comuns em mancáis combinados (axial/radial) e que em geral facilitam

a tarefa de controle. A combinação das perdas associadas a atrito pode ser representada por

meio da seguinte relação:

^LB=f^LBM (5.13)

onde KiB é função do produto da força de carga pelo raio do mancai, ou seja, é fiinção do

porte do mancai; e, // é o fator de atrito que apresenta o comportamento exibido na Figura

5.2.

O fator de atrito foi modelado correlacionando-se dados mecánicos típicos

obtidos de Niemann (1950). Por outro lado, a constante KLB depende da existencia de um

projeto detalhado de mancai, que não existe no problema hipotético deste trabalho. Por isso

foi assumido um valor unitário {KLB = 7,0), que irá produzir valores pequenos de perdas de

atrito.

O torque de perdas no motor, Tu/, pode ser equacionado também na forma

de uma perda viscosa, proporcional ao quadrado da rotação do eixo:

81

Desse modo a composição das perdas nos mancáis com as perdas nos moto

res, \Xp,^ 1=1 X ¿ 5 I +1 " C l v / \, resultou em:

0.0419^1 (O + 0.0001419 0.001325

£0 +0.007095 1 + 20(1 (01-0.1)^ (5.15)

0.020

0.016 —

5 0.012

^ 0.008 —

Curva de Ajuste dos Fatores de Atrito Combinados 0.004¡9*sqrt(x)+0.0001419/(x+ 0 00709S)-0.001325/(1+20*(x-0.1) *(x-0. Jjj

0.004 —

0.000

Atrito Estático a 0001419/(x+ a 007095)

0.00 0.20 0.40 0.60 0 80 Rotação (rad/sj

Figura 5.2 - Fator de atrito no mancai combinado.

1.00

5.2 Acoplamento da Dinâmica do Manipulador com os Controladores

No problema proposto, o manipulador bi-articulado no plano é acionado por

dois motores, necessitando por isso de pelo menos duas unidades de controle motor. O mo

delo mais simples que pode ser idealizado para esse controle tem como sinais de entrada

apenas os ángulos dj e dj, desejados e atuais. As velocidades e acelerações angulares ou a

82

sua combinação podem ser "sentidas''' por meio das unidades internas. Essa simplificação é

interessante nesta fase inicial de demonstração em que se trata o posicionamento da extre

midade do manipulador (garra) como um resultado e não como um objetivo. Por isso não se

deseja introduzir camadas adicionais de unidades à rede que tenham por fimção apenas con

verter as posições de alvo e da garra do manipulador em ângulos desejados e atuais.

E importante mencionar que seria possível constituir um sistema em que

houvesse uma rede controladora independente para cada atuador, com todas as combina

ções possíveis de entradas (isto é, 61, 6¡?, q Oi + 62) aplicadas a cada atuador. Nesse caso

seria necessário que as redes aprendessem e selecionassem quais entradas são significativas.

Porém, seguindo a decisão de se projetar redes especializadas por tarefa, e aproveitando o

conhecimento prévio sobre o comportamento do processo físico em si e sobre como os sis

temas biológicos lidam com esse tipo de controle, foram consideradas algumas simplifica

ções para otimização do processamento numérico. Considerando que a posição do segundo

segmento do manipulador afeta diretamente a carga no primeiro segmento, o atuador do

primeiro motor deve receber a soma dos comandos gerados pelos dois controladores (Oi +

O2). Levando em conta que o ângulo 02 é relativo à direção do primeiro segmento (Figura

5.1), 61 e 02 atuais são somados na entrada do segundo controlador {6¡+ O2).

A Figura 5.3 apresenta um esquema simplificado (sem todos aqueles detalhes

dados na Figura 4.8) do acoplamento de duas unidades de controle motor com o manipula

dor segundo essas considerações. Nessa figura podem ser observadas unidades de entrada

que foram adicionadas para proceder à soma dos sinais de entradas. Observa-se que 6ID e

O2D representam os comandos do nível superior (os desejos); Oi e O2 são os sinais de saída

das umdades de controle motor que alimentam os dois acionadores dos motores Di e Df,

83

lîf são inter-unidades responsáveis pela percepção do erro, INñ' são inter-unidades respon

sáveis pela percepção das taxas de variação de primeira ordem, etc. (para simplificar a Figu

ra 5.3, não ft)ram representadas as taxas de segunda ordem); Ihí são as inter-unidades faci

litadoras do aprendizado; e, 11^ são inter-unidades que geram sinais atrasados utilizados

para a geração dos sinais de taxa de variação.

e ¡A

Figura 5.3 - Acoplamento de duas unidades de controle motor com o manipulador.

84

5.3 Solução numérica, Parâmetros e dados do sistema

5.3.1 Solução numérica da dinâmica do manipulador

As equações diferenciais que modelam os processos mecânicos do manipula

dor, representado na Figura 5.4, foram transformadas em equações algébricas e, juntamente

com as equações que modelam os controladores neurais, foram resolvidas por meio de um

programa computacional {NEUROSGD.F90) escrito em FORTRAN 90.

Motor #2

0, + 0

Junta #1

Figura 5.4 - Esquema do Manipulador Bi-articulado.

Com a finalidade exclusiva de reduzir o tempo de processamento numérico, a

solução das equações da dinâmica do manipulador foi desenvolvida desacoplando-se a inte

gração das velocidades angulares da integração das acelerações. Isso foi feito após a sepa

ração das variáveis do sistema formado pelas equações (5.1) e (5.2):

85

(5.16)

bj =[^2 +G2 -/í21lQl] (5.17)

02 = (5.18)

0. = (5.19)

Como o comportamento dinâmico do manipulador modelado não apresenta

variações muito acentuadas em termos das velocidades angulares, a integração das mesmas,

para obtenção das novas posições, pode ser efetuada por meio do método de Euler Simples:

0„'=0„'-'^' + A / 0„'-"' (5.20)

onde n representa o número do segmento do mampulador (i ou 2).

Por outro lado observou-se que o comportamento das acelerações angulares,

0Í e 02, poderia requerer intervalos de integração muito pequenos e por isso, para sua

integração nas velocidades angulares 0 ¡ e 0 2, foi utilizado o método de Runge-Kutta de

4- ordem (conforme apresentado em Camahan, 1967). Esse procedimento permitiu a obten

ção de resultados adequados com uma boa economia de processamento numérico.

e„'= 0„ ¿7/ {Rtmge ~ Kutta) (5.21)

86

5.3.2 Implementação dos modelos da rede neural

As equações diferenciais do modelo da rede neural artificial foram integradas

utilizando o método de Euler. Sua solução, integrada às demais equações algébricas, é rea

lizada seqüencialmente dentro de um módulo do programa de computador conforme o

prosseguimento dado a seguir (que considera somente taxas de variação de 2- ordem):

1°) a solução para cada uma das unidades motoras é iniciada pela saida da rede, prosse-

gidndo na direção dos pontos de entrada. A modelagem do processamento dos sinais na

unidade motora [, no instante t_é:

( 0 ) : = r ^ t a n h [ a ( Z ^ ) n (5.22)

(5.23)

1 + •

- 2 - i t - A /

' ' N jrl^+ 0.25(0"'^ -ly 1+ 0.25(8'-'^+2)'_ (5.24)

o\2 l + a ( x ^ - x ; ) (5.25)

- i f - A í

\ + a{x -x¡y (5.26)

2-) Os processos envolvidos na modificação plástica dos terminais sinápticos da unidade

motora, compreendendo: a variação do termo-fonte das alterações ( C); a sua integra-

87

ção no tempo; a integração das "forças de ligação " (Tj e T0, e o cálculo das suas no

vas taxas de variação no tempo, são modelados como:

( c ) : = ( C ) R ' + A / ^dC_^'-"

\dt ^ (5.27)

dc: L = r Ô'-A/ _ y^Qt-^t

dt (5.28)

(7;):=(7:)R+Aí (5.29)

C

\+a,{x^-x°) (5.30)

V dt j ,

C - i t - A í

l + « s ( ^ D - < ) '

(5.31)

obs.: pela condição de simetria imposta, para cada terminal j há um terminal k de idêntica

força de ligação: (t = j = 7,)

3°) Os processos de transmissão de sinais na inter-unidade facilitadora: a geração do si

nal de saída ô; a recepção sináptica linear do sinal de erro s, e a recepção dos sinais

de taxas de variação por meio de contatos com amortecimento do tipo xixi são repre

sentados por:

(ô);.=7;,tanh[a(£5-£x-£x);-'^'] (5.32)

".OMISSÃO t ÂCiCNAL DE ENEHGlf NUCLEAR/SP I F ' k

88

• + -(E y =—T ' ' NJrll + 0.25(E-2y l + 0.25(e + 2 ) \

( 5 3 3 )

-[t-At

l + ll(x„-l)^ l + ll(x„ + l)^ (5.34)

- i r - A f

Tk -Tn

l + l l ( x „ - l ) ' l + ll(x„ + l ) \ (5.35)

onde o índice « se refere à camada do intemeurônio, conforme a Figura 4.8.

4^) Os processos de percepção das taxas de variação (xex) por meio de unidades em ca

madas consecutivas são representados por:

(x„) ;=5Ltanh [a (5x„+&„_, ) ] ; Aí

t-At (5.36)

(x„y =^íanh[aiSx„ + Sxr^i)t^ At

(5.37)

n í - A í

l + 0.25(x - 2 ) ' l + 0.25(x +2) ' (5.38)

-2 + 2 nt-M

l + 0.25(x„.,-2)^ l + 0.25(x„_,+2) (5.39)

n í - A í

- 2

l + 0.25(x„-2)' l + 0.25(x„+2)' (5.40)

5") A sinalização qiie gera o sinal de erro sé modelada por:

89

- l í - A r

- 2 - + •

+ 2

_l + 0.25(x^,-2) ' l + 0.25(x„-, + 2)' (5.41)

(x„-,):=|^tanh[a(&„_,+5x„_,)]; - A i

(5.42)

- l í - A í

- 2 + 2

_l + 0 .25(x „ -2 -2 ) ' l + 0.25(x^2+2)' (5.43)

(^' '->);=^tanh[a(&„)], ' - A i

(5.44)

(x „ -2 ) ;=^ t anh [a (£x„_ , ) r^ (5.45)

(x . . ) , '=^ tanh[a (£x j ] ; - ' ^ (5.46)

+ • -2 - i r - A /

_l + 0.25(x - 2 ) ' l + 0.25(x +2) (5.47)

- 2 T í - A i

Ll + 0.25(x^,-2)^ l + 0.25(x^,+2)^ (5.48)

(5.49)

- 2 - l i - A í

Ll + 0.25(x^-2)^ l + 0.25(Xo+2)^ (5.50)

90

- 2 + 2 - I t - A /

l + 0.25(x +2y l + 0.25(x -if (5.51)

Essa seqüência de equações foi escrita na forma de um programa fonte em

FORTRAN 90 e foi produzido um módulo executável utilizando o sistema de desenvolvi

mento FORTRAN POWER STATION (Microsoft Corporation, 1995). As informações ne

cessárias sobre o programa são fornecidas no Apêndice 1.

5.3.3 Parâmetros e Dados Utilizados nos Modelos

A Tabela 5.1 apresenta os parâmetros de simulação do mampulador.

Tabela 5.1 - Características do Manipulador simulado.

Parâmetro Segmento Parâmetro 1 2

Comprimento - L (mm) 707 707

Massa - m (kg) 3,0 2,0

Momento de Inércia - / (kg m ) 0,041 0,027

Ganho de torque no motor - Kj (Nm) 60 30

Momento de inércia do rotor - JM (kg m ) 0,0013 0,0013

Constante de perdas no motor - Ku.i (eq. 5.15) 25,1 25,1

Constante de atrito dos mancáis - KLB (eq. 5.15) 1 1

Demais termos do atrito nos mancáis eq. 5.15 eq. 5.15

As características especificadas para as duas umdades de controle motor da

rede neural são mostradas na Tabela 5.2. Observa-se que alguns dos valores dessa tabela

foram obtidos teoricamente para atender condições desejadas já discutidas nos itens anterio

res, outros, como os "tamanhosdas sinapses" TN , Te, Tr e Tc, constante de ganho a, nú-

91

mero de terminais jj e kk, e constante X, foram obtidos tentativamente, não representando

porém condições otimizadas.

Tabela 5.2 - Características das unidades de controle motor.

Parâmetro Valor

"Tamanho" das unidades - Tjv (equações 5.22/32/36/37/42/44/45/46/49) 2,1

Constante de ganho das unidades - a (equações 5.22/32/36/37/42/44/45/46/49) 0,5

Constante das sinapses plásticas da unidade motora - a (equações 5.25/26b) 28,8

Número de terminais dos axônios sensorios c/ as unidades motoras - kk 15

Número de terminais dos axônios dos "desejos" c/ as umdades motoras - jj 15

Intervalo entre Umiar de terminais consecutivos - Ax = x" ., -x° = x°^, - x" - = 0,1666 6

Força de ligação das sinapses de erro - Tf (equação 5.33) 2,5

Força de ligação das sinapses de taxas - Tr (equações 5.34/35) 0,09

Força de ligação das sinapses facilitadoras - Tc (equação 5.28) 0,1

Constante de decaimento das sinapses plásticas - Ã (equação 5.28) 10,0

Constante das sinapses facihtadoras - üs (equações 5.30/31) 144,0

5.4 Resultados

5.4.1 Treinamento da Rede

O treinamento da rede neural proposta é desenvolvido durante a execução de

comandos de ação, ou seja, é um treinamento não-supervisionado. No exemplo do mani

pulador bi-articulado foi montada uma tabela de treinamento onde é apresentada apenas a

seqüência de comandos de posição desejada (0,^ e Gj^) e a duração de cada um desses

comandos (tempo real simulado e não tempo de CPU). A Figura 5.5 apresenta a seqüência

de comandos de treinamento mostrando que os primeiros comandos conduzem o manipula

dor no sentido horário, indo da posição de repouso, 9 =-90° , até a posição 0 = -185°,

sempre totalmente estirado. Em seguida o manipulador é conduzido ponto-a-ponto, no sen-

92

tido anti-horário, até a posição 0 = +185° para logo depois retomar à posição de repouso.

Essa seqüência de posições foi apresentada seis vezes à rede em treinamento, variando-se

apenas o tempo que era mantido cada comando de posicionamento em cada rodada de trei

namento. Na primeira e na segunda apresentação da seqüência de treinamento o tempo por

comando foi de 5 segundos, na terceira e quarta foi de 70 segundos, e na quinta e sexta vez

foi de 20 segundos, totalizando 70 segundos de treinamento por ponto.

15 -

14

22

23 ^ N

16

20 24

10 3 = 5 - »

17= 19 25

11

18

26

2 = 6 10

1 = 7

27

••• 28

0 = 8 (posição inicial)

Figura 5.5 - Seqüência de posições comandadas para o treinamento.

Após as seis rodadas de treinamento sobre o conjunto de dados representado

na Figura 5.5, o sistema constituído pelo modelo da rede neural e manipulador foi capaz de

atender os comandos de posicionamento com precisão da ordem de milímetros. A força de

ligação dos trinta terminais sinápticos plásticos (definida pelos 7) e 7* '5 das duas unidades

motoras, lembrando que Tj = 7* para j = k) cresceu do valor inicial zero para os valores

93

mostrados na Tabela 5.3 e apresentados graficamente na Figura 5.6. O treinamento foi cor

respondente a um tempo de 1960 segundos (tempo de processo simulado) e fiai realizado

consumindo 85 segundos de CPU em um microcomputador PENTIUM 166 MHz, se des

contados os tempos de inicialização do programa nas seis sessões.

5.4.2 Testes de desempenho da Rede

Com as fiarças de ligação sináptica que fiaram atingidas (Tabela 5.3) o pró

ximo passo fiai iniciar uma série de testes para avaliar o desempenho da rede de controle

principalmente quanto á sua capacidade de generalização, ou seja, na execução de coman

dos não presentes na tabela de treinamento. Para essa tarefa foram bloqueados os mecanis

mos de plasticidade anulando-se a força de ligação das sinapses facilitadoras, Tc = O na

equação (4.12), de modo a impedir novas aherações que pudessem mascarar a avaliação da

capacidade de generalização. Foram executados testes sobre todo o dominio possível defi

nido pelo círculo de giro do manipulador, de -180° a +180°.

Tabela 5.3 - Forças Sinápticas após treinamento.

Unidade Motora ísP 1 Limiar r , = n -M666667 -0.0302828 -LOOOOOOO -0.1318568 -0.8333333 -0.0790918 -0.6666667 -0.0481130 -0.5000000 0.0012962 -0.3333333 0.0476049 -0.1666667 0.0856901 0.0000000 0.0996663 0.1666667 0.0858288 0.3333333 0.0483506 0.5000000 -0.0007666 0.6666667 -0.0485760 0.8333333 -0.0810919 1.0000000 -0.1331862 1.1666670 -0.0309491

Unidade V otora >P 2 Limiar r , = n -1.1666667 -0.0172513 -1.0000000 -0.0745807 -0.8333333 -0.0453549 -0.6666667 -0.0279928 -0.5000000 0.0008637 -0.3333333 0.0276660 -0.1666667 0.0488729 0.0000000 0.0565543 0.1666667 0.0488671 0.3333333 0.0280613 0.5000000 -0.0000332 0.6666667 -0.0277429 0.8333333 -0.0457589 1.0000000 -0.0749680 1.1666670 -0.0174941

94

0 .10

0.00

CIF

-0 .10

-0.20

0 0 0

Limiar Sinsilico

Figura 5.6 - Forças Sinápticas após treinamento.

A Figura 5.7 mostra a trajetória seguida pela extremidade do mampulador

em um teste no qual foram solicitadas cinco (5) mudanças de posição, cada uma definida

por um diferente par de ángulos (alvos) solicitados à rede:

J) partindo da posição de repouso com o manipulador estirado, ou seja,

01 = -90°e 02 = O", iráposição 0i = O°e 02 = 0"^,

2) partindo da posição anterior, 0i = 0°e 02 = 0°, prosseguir para a posi

ção 0i=O°Q 02 = +90%

3) partindo da posição anterior, 0/= O"e 2 =+90° prosseguir para a po

sição 01 = +90°Q 02 = 0°

4) partindo da posição anterior, ^ / = + 9 0 ° e = O °, prosseguir para a po

sição 01 = +90°Q 02 = +90° e,

5) partindo da posição anterior, 0i = +90°e 02 =^ +90°, prosseguir para a

posição 01 =-90°e 0, = -90°

95

Cada uma dessas condições representa um desejo mantido por seis (6) se

gundos, que seria o tempo oferecido para o sistema controle/manipulador atingir a posição

desejada e se estabilizar. Deve ser destacado que nesse teste foram escolhidos dois pontos

dentro da tabela de treinamento e três pontos fora desse umverso.

Figura 5.7 - Trajetória do manipulador no 1° teste.

Como pode ser observado na Figura 5.7, as trajetórias apresentam uma sinu

osidade nas proximidades do alvo, caracteristicas dos efeitos de re-alimentação de erro pre

sente na arquitetura da rede. Outra forma de se analisar os resuhados, é observando a varia

ção no tempo da distância a cada alvo, conforme mostrado na Figura 5.8. Nela podem ser

observados os cinco (5) picos que correspondem aos instantes de mudança de comando.

Pode ser ainda observado que, mesmo para pontos distantes mais do que 2000 mm da úhi-

ma posição, a nova posição desejada é rapidamente atingida e com minimas oscilações, e no

geral, não se obteve erros com distância superior a 5 mm.

1600

1200 —

I § 800

•S

I

g 400 —

96

Ponió de mudança

de comando

T 10 20

Tempo (s) 30

Figura 5.8 - Evolução da distância da extremidade do manipulador ao alvo.

O mesmo teste pode ainda ser observado pela evolução do erro angular de

cada uma das unidades motoras, definido pela diferença em graus entre o ângulo desejado e

o ângulo atual, conforme indicado na Figura 5.9. Essa figura confirma as observações feitas

com relação aos resultados mostrados na Figura 5.8.

A Figura 5.10 mostra a evolução no tempo do torque nos motores N. I e N.

2. Lembrando que, como não foi prevista nem imposta nenhuma limitação para o torque

motor, os mesmos podem atingir o produto das constantes de ganho dos atuadores (KT),

dadas na Tabela 5.1, pelo máximo sinal de controle correspondente, 0¡ + O2 para a unidade

N. 1 QO2 para a unidade N. 2. Os resuhados mostraram que o máximo torque no Motor N.

1 atingiu o valor máximo de 126 Nm, quando do comando de maior distância entre posição

atual e desejada. Esse valor é equivalente ao torque necessário para manter uma massa de

9,0 kg em repouso na posição horizontal com o manipulador totalmente estirado e não de-

97

veria causar nenhum problema ao sistema mecânico das juntas ou motor. No caso do Motor

N. 2, o máximo torque não ultrapassou o valor de 45 Nm. Os resuhados em termos do tor

que motor são interessantes por mostrarem que a estabilização ocorre em aproximadamente

três (3) segundos.

100

o -

I -100 —

-200

Segmento N. 1

V

Segmento 2

10 20 Tempo (s)

30

Figura 5.9 - Evolução do erro angular dos segmentos do manipulador.

Um outro teste interessante foi realizado exclusivamente para observar o

comportamento do movimento do manipulador e sua possível semelhança ao movimento de

um braço humano. Fora a observação visual que pode ser feita durante a execução do pro

grama de computador, para registro em papel somente podem ser exibidos "instantâneos"

da posição do manipulador em intervalos regulares de tempo. Para isso foi editada a Figura

5.11 que mostra instantâneos do movimento do manipulador, em intervalos de 0,2 segun

dos, durante a execução do comando de mudança da posição de repouso, Oj = -90°t 02 =

0°, para a posição di = 0°e O2 = +90° Por essa figura pode ser observado que o movi

mento do manipulador, controlado pela rede da Figura 5.3 (que não prevê níveis de con-

98

trole mais elevados do que os que existiriam na medula humana), não é um movimento me

canicamente preciso, se assemelhando ao nosso movimento em busca de um alvo que quase

sempre envolve correções nas proximidades do alvo. A extremidade do mampulador ultra

passa ligeiramente o alvo sem "tocá-lo" para em seguida iniciar a aproximação definitiva.

100

10 20 Tempo (s)

30

Figura 5.10- Evolução do torque nos motores.

Uma análise quanthativa desse movimento pode ser feita observando a curva

da Figura 5.12 que mostra a evolução da distância ao alvo. No primeiro intervalo de tempo

de 1,4 s, indicado na Figura 5.12, a distância ao alvo variou de 2236 mm para 149,4 mm,

com uma velocidade média resuhante de aproximadamente 1500 mm/s. Nos próximos 1,4 s

a distância chegou a 7 mm, resultando na velocidade média de aproximadamente 100 mm/s.

Do instante de 2,8 s a 4,2 s a distância variou de 7 mm a 5,2 mm, com a velocidade média

de 1,3 mm/s. No úkimo intervalo indicado a velocidade média foi inferior a 0,8 mm/s, che

gando praticamente a zero logo em seguida. Esse comportamento pode ser qualitativamente

99

comparado ao nosso quando procurando atingir um alvo posicionado imediatamente à

frente dos olhos.

Figura 5,11 - Instantâneos da posição do manipulador.

10000

.5

• i

õ s

'S

1000

100

0,1 1,0 Tempo (s)

10,0

Figura 5,12- Evolução da distância ao alvo.

iOMlSSAÛ NACIONAL DE L^EF.^/ ^UCLFí/¿P

100

5.5 Estabilidade do Processo de Treinamento

Esquemas que utilizam comroladores lineares locais independentes para cada

motor oferecem resultados adequados no controle de posição em manipuladores robóticos.

Os controladores locais tipo Proporcional-Integral-Derivativo (P.I.D.) são adequados para

muitas aplicações de controle de posição mas são sujeitos a "overshoot" que pode ser uma

condição indesejável em algumas situações. Para esses controladores é facilmente demons

trada a estabilidade do sistema.

Se as taxas de variação de sinais sensorios da rede neural não forem utiliza

das, ou mesmo se os principais parâmetros de controle não forem otimizados (que é o caso

dos exemplos apresentados), o esquema de rede neural artificial apresentado também sujeita

o sistema do manipulador a "overshoot", como pôde ser observado nos resuhados apre

sentados no item 5.4. Apesar de se ter vislumbrado a possibiüdade da eliminação desse

efeito por meio de aprimoramentos (inclusão de mais um nível na hierarquia de controle) e

otimização da rede (forças de ligação e características das sinapses de amortecimento), foi

decidido evitar o investimento sobre esse aspecto neste trabalho pois excederia todos os

prazos planejados, uma vez que foi investido muito tempo nas pesquisas da neurofisiologia

para os aspectos de inovação. Desse modo este trabalho se focaliza apenas na obtenção de

resuhados que demonstrem a estabilidade do esquema.

Para essa investigação pode ser considerado um sistema simples com apenas

uma articulação e sem sensoreamento interno de taxas de variação, conforme ilustrado na

Figura 5.13.

101

Figura 5.13- Controlador para mampulador de uma única articulação .

Desprezando a inércia do motor (JM = 0) tem-se que;

(5.52)

onde XM é o torque do motor dado por:

(5.53)

T b O torque do braço dado por:

= {mP^ +l)Íd+mgl^ cosQ (5.54)

e Tp o torque de perdas no motor dado por:

Xp = K^,j(o I CO 1= 919 (5.55)

portanto:

102

K^,0 = (MIL + F^GLC cose + è I è (5.56)

Considerando que a rede utilizada possui apenas três sinapses na unidade

motora, a saída O se resume a:

0 = - + Ô (5 .57)

Se analisadas as equações do Capítulo 4, item 4 .2 , com jj = kk = J, TJ = TK

T, tem-se que, para Ax => OO,a =>0 (equação 4 . 1 1 ) e portanto:

0 = 2r + ô (5.58)

Para simplificar a análise, como mencionado, fiai desconsiderado o sensorea

mento interno da taxa de variação, então:

ô = 7;s = 7 ; ( e ^ - e ) (5.59)

portanto,

O = 2 7 ' + 7 ; ( 0 ^ - e )

2K M

Combinando as equações 5.56 e 5.60 obtém-se:

F^M T; (8 - 9^ ) + {ML^ + i)q+ MGL COSQ + K^Q\Q

(5.60)

(5 .61)

O modelo escolhido para os processos de alteração de T, que representa o

processo de plasticidade das sinapses, é:

103

dT C — = ~ (5.62) dt \+a^(x-x,y

Dadas essas considerações, a primeira análise que deve ser efetuada é a veri

ficação de qual condição estática é atingida após a manutenção de um comando por um

longo período de tempo. O máximo da fimção da equação 5.62 é obtido na condição de

máximo valor do termo C. Como a fimção que comanda o crescimento do termo C, dada

pela equação 4.12, segue o comportamento de um processo de variação de concentração,

controlado por um termo fonte e uma constante de decaimento, seu máximo é uma fimção

deS:

- - — - - — ( 8 , - 8) - e (5.63)

No lado direito dessa equação já foi substituído o valor ^pela equação 5.59.

Observa-se portanto, que T irá variar na direção do "gradiente descendente" (direção de

redução do erro) enquanto esse erro for diferente de zero (quando s = O, dT/dt = 0). Dado

que podem ser escolhidas constantes adequadas e dado a existência de atrito, pode-se asse

gurar que o sistema irá estacionar, ou seja, será atingida a condição em que 9 = 9 = 0 quan

do então:

T = -^mgl^cosQ^ (5.64)

que basicamente representa a condição estática de peso próprio, ou seja, o resultado da ma

nutenção de um comando no treinamento é ajustar T para compensar a componente de peso

próprio do braço. Neste caso se a composição das fimções sinápticas resultar em. um bom

104

ajuste para as componentes de peso próprio, o erro de posicionamento será pequeno, tanto

quanto melhor for esse ajuste. Assim, pode-se concluir que o treinamento pode levar o erro

a zero {s-^ 0).

A segunda análise a ser reahzada envolve a comprovação de que o acopla

mento da rede com a dinâmica do manipulador, dentro do processo de treinamento, leva à

condição estática, ou seja, o manipulador para. Para esta demonstração é conveniente eÜmi-

nar o termo de atrito da dinâmica do manipulador de modo a comprovar que a própria

evolução do treinamento, por meio da aheração da força de ligação T, conduz à condição

estática, ou seja, 9 -> O .

Para simplificar o problema, possibiütando sua demonstração analítica, pode-

se desconsiderar a inércia e rescrever a equação (5.61):

^ = (e - e „) + mg/, CO s 9 ] 2K M

(5.65)

derivando no tempo vem:

dt 2 r . + ^ s e n e

K M

9 (5.66)

ou, Q = -^

d T d t

7 , + ^ s e n 9

(5.67)

considerando que a máxima taxa de variação da força de ligação T é dada pela equação

(5.63), tem-se:

105

9 =

TT

7 : + ^ s e n 9 K M

(5.68)

Já foi visto que a força de ligação é continuamente alterada no sentido do

gradiente negativo do erro de posição e portanto conduzindo o sistema para a posição de

sejada. Para as constantes da equação 5.68, podem ser utilizados os mesmos valores consi

derados na modelagem do manipulador (Tabelas 5.1 e 5.2). Escolhendo um valor desejado

qualquer, 9^ =0 por exemplo, pode ser gerado o gráfico da Figura 5.14, que comprova

que a velocidade angular passa pelo zero quando é atingido esse valor desejado, ou seja, o

sistema para e portanto é estável mesmo sem o atrito.

8

0.05

0.00

-0.05 —:

-0.10

-1.00 -0.50 0.00 6

0.50 1.00

Figura 5.14 - Velocidade angular vs. Posição ^para 9^ = O

106

5.6 Comparação com modelos clássicos de redes neurais artificiais

Diferentes conceitos e arquiteturas de redes neurais artificiais já foram utili

zados para resolver problemas de controle altamente não-lineares como o problema do ma

nipulador bi-articulado no plano apresentado na seção 5.1. Em geral, essas redes são treina

das segundo algoritmos supervisionados, sendo portanto mais limitadas para essa tarefa do

que a nova rede desenvolvida, no entanto, ainda assim é necessária a realização de compa

rações. Kawato et al (1988) resolvem esse problema com redes neurais hierárquicas utili

zando controle inverso. Nguyen e Widrow (1990) resolvem problemas desse tipo utilizando

uma rede neural de múltiplas camadas para aprender as características dinâmicas do siste

ma e outra rede de múltiplas camadas que aprende a controlar a rede que emula o proces

so. Esta última aproximação requer o desenvolvimento do problema em duas etapas e, se

gundo os autores, em geral uma rede com duas camadas é capaz de representar o processo

emulado. Os autores informam ainda que, no exemplo por eles apresentado, foram necessá

rias milhares de sessões de treinamento para essas redes, consumindo, conforme relatam,

muitas horas de CPU na "Workstation" que dispunham. Handelman, Lane e Gelfand (1990)

apresentam uma outra metodologia que integra um sistema baseado no conhecimento

("knowledge based system") a uma rede neural artificial de modo a habilitar o treinamento

robótico. Nesse trabalho eles concluem que, apesar das redes neurais terem mostrado efici

ência no aprendizado, o treinamento deve ser rigidamente supervisionado pelo operador

externo, ou seja, pelo sistema baseado no conhecimento.

A Figura 5.15 mostra um esquema tradicionalmente utilizado para a solução

de problemas de controle em duas etapas aplicado ao problema do mampulador. Nesse es

quema pode ser percebido que a complexidade da rede que emula o processo e até maior

107

que a da rede de controle. Isso porque o comportamento do processo depende não só dos

dois sinais de controle - um para cada motor - como também dos sinais de posicionamento

e velocidade angular prévios. A rede de processo possui ainda quatro unidades na camada

de saída, representando as posições e velocidades angulares presentes que serão utilizados

para gerar os sinais de erro necessários para o treinamento. Adicionalmente, para a fase de

treinamento é necessária a adoção de um controlador convencional.

Se o objetivo for apenas de comparação de complexidade, esforço de pro

cessamento numérico e desempenho, não é necessário seguir esse esquema de duas etapas.

Como, de qualquer modo, é necessário um controlador convencional para a fase inicial do

treinamento, a rede de processo pode ser totalmente dispensada e pode ser realizado todo o

treinamento da rede de controle supervisionado por um controlador convencional (em um

esquema parecido com o apresentado por Handehnan et al, 1990). Portanto o esquema con

siderado na Figura 5.16 simplifica a solução e permite a obtenção de resultados para com

paração de desempenho, complexidade e tempo de processamento, sem favorecer a nova

proposta desenvolvida no presente trabalho.

Para treinar uma rede neural tipo 'Teed-Forward", e fazer sua comparação

com o novo modelo, foi implementado o algoritmo de retro-propagação em um programa

de computador escrito em FORTRAN 90. Esse programa foi baseado na mesma estrutura

do programa feito para os testes do novo concerto de rede, utilizando a mesma interface

gráfica e rotinas de simulação do manipulador de modo a facilitar a tarefa de comparação de

eficiência computacional.

Diversas redes consthuídas por diferentes números de camadas e de unidades

foram testadas. Todas as redes testadas foram treinadas com o mesmo universo de pontos

1 0 8

utilizado no treinamento da nova rede, conforme Figura 5.5. Para se conhecer o comporta

mento dessas redes durante o processo de treinamento, foram variados os períodos de tem

po dados para treinamento em cada ponto. A taxa de aprendizado também foi variada, entre

0,02 < T] < 0,05, em função de observações de progresso adequado ou de instabilidade.

Rede Neural

do Processo

("Feed-Forward")

- • t - A t 0

^ t - A t

Controlador

convencional Processo

e' V

Primeiro Estágio - Treinamento da Rede de Processo

Rede Neural

do Controle

("Feed-Forward")

Rede Neural

do Processo

("Feed-Fonvard")

0

V

Segundo Estágio - Treinamento da Rede de Controle

Figura 5.15 - Esquema Típico de Rede 'Teed-Forward" com Propagação-para-trás.

109

1

Ò +

e, ^

Rede Neural

de controle tipo

Feed- Forward

I

7+

Controlador

P.I.D.

Figura 5.16- Esquema utilizado com a retro-propagação.

Como era esperado pelas informações de vários autores, a solução não foi

trivial. Não foi obtida uma solução adequada na primeira tentativa, que considerou uma

rede com duas camadas e dez unidades (neurônios) por camada. Depois de várias tentativas,

a rede que melhor se adaptou possuía três camadas. A primeira camada com seis unidades,

a segunda com sessenta e a terceira com as duas unidades de saída que geram os sinais para

controlar os dois motores. Não foi possível uma parametrização muito extensa pois cada

nova tentativa demandava dias de trabalho para se atingir alguma condição "avaliável"

{avaliável significa que a rede conseguia controlar de algum modo o manipulador). Foram

anaUsadas redes com 10, 20, 30, 40, 60 e 80 unidades na segunda camada. Quantidades in

feriores a 60 unidades não mostraram boa capacidade de controle do manipulador em todo

o domínio de ângulos. Quantidades superiores a 60 unidades não produziram ganhos sensí

veis no desempenho, de modo que o trabalho prosseguiu com uma rede com 60 unidades na

segunda camada. É importante observar que somente as sessenta unidades na segunda ca-

110

mada, mais as seis unidades de entrada e as duas de saída, representam um esforço compu

tacional maior que o exigido pela nova proposta de rede que considerou apenas dezesseis

unidades com um total de trinta sinapses plásticas e 188 sinapses rígidas.

A Figura 5.17 apresenta a evolução de um dos pesos sinápticos da rede que

pela primeira vez atingiu resultados satisfatórios. Essa figura mostra a convergência de um

peso sináptico da última camada e auxilia na descrição do processo de aprendizado. Cada

ponto utilizado para construir o gráfico dessa figura corresponde a um alvo comandado ao

controlador convencional e não a uma operação de retro-propagação. Durante o treina

mento foram dados seis segundos de tempo para o trajeto e parada da extremidade do ma

nipulador em cada alvo comandado. Esse procedimento teve por objetivo permitir que o

treinamento consolidasse os sinais estáticos de manutenção do mampulador nas posições.

Os padrões da dinâmica do mampulador alimentaram a rede a cada 0,003 s (tempo de inte

gração utilizado na solução das equações da dinâmica). Até a 215- mudança de alvo

(posições desejadas) foi utilizada uma taxa de aprendizado ri = 0,02, modificada a partir daí

para r[ = 0,05, pois não se observou progresso no treinamento, com a manutenção do peso

mostrado na Figura 5.17 próximo ao seu valor inicial. Após essa modificação o treinamento

começou a mostrar uma razoável evolução. Após 4088 mudanças de alvo foi constatado

que a rede já era capaz de controlar razoavelmente o manipulador nos pontos em que foi

realizado o treinamento. Porém verificou-se que ela não era capaz de executar o teste de

desempenho do hem 5.4.2, Figura 5.7, ou seja, de controlar o manipulador no posiciona

mento da sua extremidade em pontos interiores ao círculo descrito pela sua trajetória com o

braço totalmente esticado. Para remover essa limitação foi necessária uma nova fase de trei

namento, exclusivamente sobre os pontos especificados no item 5.4.2. A partir daí a rede foi

I l l

capaz de controlar grosseiramente o manipulador nos novos pontos internos ao círculo. To

das essas condições, que simularam aproximadamente 7 horas de tempo real, significaram a

apresentação de 8.464.000 padrões à rede, sendo portanto realizadas também 8.464.000

operações de retro-propagação, e consumindo mais de três horas e meia (3,5 h) de CPU

em um microcomputador com processador PENTIUM de 166 MHz.

Treinamento sobre um total de 4230 mudanças de alvo.

Taxa de aprendizado T\ =0.02

-2

-3

Após 4082 mudanças de alvo com o manipulador estirado. foram executadas mais 148 rodadas apenas sobre os pontos utilizados para comparação, que incluem os très pontos adicionais

" 1 — ' — I — ' — r 1000 2000 3000

Mudanças de Alvo 4000

Figura 5.17 - Evolução do peso wQjJJ) na primeira solução obtida.

Após a obtenção do primeiro sucesso no treinamento da rede, que fiai des

crito acima, concluiu-se que a taxa de aprendizado deveria ser rj - 0,05 e que seriam neces

sárias mais de quatro mil processamentos (mudanças de alvo), além de um treinamento adi

cional sobre os pontos do teste da Figura 5.7 para possibilitar a comparação. Então, para se

apresentar resultados de uma condição com a mesma taxa de aprendizado desde o inicio, o

processo de treinamento fiai novamente "iniciado do zero", prosseguindo até 4608 procès-

112

samentos com a taxa de aprendizado r\ = 0,05 e seguindo os pontos da Figura 5.5. De 4609

até 5328 processamentos a rede passou a ser treinada exclusivamente nos pontos do teste

do item 5.4.2. Foram repetidas 120 vezes aquelas seis posições desejadas. A evolução do

peso w(jj, J, JJ durante esse treinamento é mostrada na Figura 5.18.

3 . 0

2 . 0 —

1 . 0 — I

0 . 0

- 1 . 0

Mudança para treinamento exclusivo sobre os pontos do teste de desempenho

2 0 0 0 4 0 0 0

Mudanças de alvo EOOO

Figura 5.18 - Evolução do peso M/(jj,l,l).

Cabe observar que o acompanhamento do processo de convergencia foi feito

em geral com base na evolução do peso M/(ij, 1,1) para não aumentar ainda mais o tempo de

processamento com a somatória dos erros quadráticos, uma vez que a tabela de treina

mento, gerada após a passagem por todas as 28 mudanças de alvo, é constituída por

8.464.000 X 2 sinais de torque = 16.928.000 padrões, sendo 112.000 valores a serem pro

cessados a cada passagem pelos 28 diferentes alvos. Armazenar esses quase 17 milhões de

valores para processamento posterior também não seria adequando. Desse modo a melhor

113

opção foi observar a evolução de um dado peso e armazenar os erros (não quadráticos)

existentes no instante de cada mudança de alvo, para ser possível alguma análise posterior,

como mostra a Figura 5.19, que apresenta os erros quadráticos e sua média, calculados

posteriormente.

l.OE-3 - 3

LOE-11

2000 4000 Mudanças de Alvo

Figura 5.19- Evolução da somatória do erro quadrático.

6000

É evidente que essa opção deve levar em conta que a evolução de um dado

peso pode não ser a mesma na repetição do problema, pois depende dos valores iniciais ge

rados aleatoriamente. Isso pode ser observado na Figura 5.18 que mostra que a evolução de

w(jj, 1,1) não foi a mesma obtida na primeira vez: nem durante a primeira fase nem tam

pouco durante o treinamento dedicado aos pontos de comparação. Esse peso convergia

para o valor aproximado de 1,7 e a rede nesse instante já conseguia manter algum controle

114

sobre o manipulador, porém não conseguindo levá-lo para os pontos internos como mostra

a Figura 5.20. Apesar disso a evolução do peso sempre foi adequada para acompanhar o

processo de convergência.

Figura 5.20 - Trajetória do manipulador após 4608 processamentos.

A partir do processamento 4609, quando da introdução da nova fase de trei

namento, se iniciou uma alteração brusca no peso w(jj,l,l). Essa fase prosseguiu por apenas

720 mudanças de alvo e, apesar de ainda não ter atingido convergência, constatou-se que a

rede estava apta a controlar razoavelmente o manipulador, como mostrado na Figura 5.21.

A Figura 5.22 mostra a evolução da distância da extremidade do manipulador ao alvo'*^ e a

Figura 5.23 mostra a evolução dos erros angulares.

A distância ao alvo só representa um erro de treinamento após a estabilização do manipulador, pois nos instantes próximos à mudanças de comando, essa distância é grande sem contudo representar um erro.

115

í!

Figura 5.21 - Trajetória do manipulador após 5328 rodadas.

2500

2000 —

1500 —

<2 1000 —

500 —

292 mm

2 77 mm 90 mm : S5 mm •4 '•^.,.:^S \ i 4 mm

^ 6

10 20 Tempo (sec)

30 40

Figura 5.22 - Evolução da distância da extremidade do manipulador ao alvo.

NACiCf^íL DE E N E H G I Á N U C L E A R / S P ÍPÊI

100

i -100 —

-200

Erro angular

do segundo

segmento /

116

Erro angular do

primeiro segmento

10 20 Tempo (s)

'i'

Figura 5.23 - Evolução dos erros angulares.

30

A comparação dos resultados desse teste com os resultados do novo modelo

de rede, apresentados no item 5.4.2, pode ser feita pela análise dos erros de distância mos

trados na Figura 5.24. Verifica-se que, enquanto para o novo modelo de rede neural pro

posto não se obteve erros maiores que 5 mm, para a rede tipo F-F treinada com o método

de propagação-para-trás os erros atingiram quase 300 mm. Além dessa comparação obser

va-se que, apesar de aparentar maior complexidade, a nova rede possui uma arquitetura re

lativamente simples e de fácil implementação numérica. O novo conceito utiliza um sistema

de alteração sináptica dentro dos próprios caminhos de sinalização, e não um algoritmo

"externo a esses caminhos" como no caso da propagação-para-trás. A complexidade adici

onal decorrente do conceito de sinapses múltiplas é compensada pela redução no número de

unidades (neurônios) com funções dispendiosas em termos de processamento como a

TanhQ.

117

1600

1200 —

•§ 800 H

I 400 -

Rede em Feed-Forward

Novo Conceito

10 20 Tempo (s)

30

Figura 5.24 - Comparação das distâncias ao alvo entre o novo modelo e a rede F-F.

Na tarefa de aprendizado, o desempenho da nova rede foi aproximadamente

150 vezes mais rápido do que o sistema de propagação-para-trás associado à rede tipo F-F.

Foram despendidos apenas 85 segundos de CPU no treinamento da nova rede enquanto fo

ram consumidas 3,5 horas no treinamento da rede com propagação-para-trás.

A capacidade de generalização da nova rede também foi muito superior,

justamente por ela ser uma rede projetada e dedicada à tarefa específica de controle do ma

nipulador, ou seja, foi concebida como uma rede especializada, aproveitando as caracterís

ticas de sistemas biológicos evoluídos e o conhecimento prévio sobre o sistema a ser con

trolado. Para a nova rede não foi necessário nenhum treinamento adicional para serem atin

gidos precisamente alvos fora do universo de treinamento. Para a rede tipo F-F foram ne

cessários pelo menos 120 repetições de treinamentos dedicados exclusivamente aos novos

alvos.

118

BANCADA DE CIRCULAÇÃO NATURAL

O controle de sistemas térmicos de reatores também representa problemas

não-lineares e talvez apresente um maior desafío em termos de complexidade de fimções

apesar de suas características dinâmicas muito mais lentas que as encontradas no problema

do manipulador. Para os testes de desempenho envolvendo sistemas térmicos de reatores foi

escolhido um processo de dinâmica complexa, representado por um circuito experimental

de circulação natural (Bancada de Circulação Natural - BCN), que simula sistemas de res

fiiamento de emergência de reatores avançados.

Neste capítulo são apresentados os modelos de simulação da BCN, a valida

ção dos modelos contra resuhados experimentais, e os resultados da simulação do controle

da BCN utilizando o novo concerto de redes neurais.

A BCN, inaugurada em 4 de março de 1998, foi projetada e montada visan

do a pesquisa na área de trocadores de calor de sistemas de resfiiamento de emergência de

reatores avançados; para estudo do controle de sistemas passivos por meio de unhas de

desvio da fiante quente; para o estudos de aplicação de redes neurais artificiais em monito

ração e diagnóstico; para pesquisas de estratificação térmica; para desenvolvimento de téc

nicas de anáUse de ruído; e, para fijturo desenvolvimento de controladores por redes neu

rais. Suas principais características são apresentadas no item a seguir.

119

6.1 Características do Circuito de Circulação Natural

O arranjo mostrado na Figura 6.1 representa o Circuito de Circulação Natu

ral (Baptista F- , 1996, 1997) que foi concebido nos moldes de um sistema de remoção de

calor residual de um reator PWR avançado. O circuito contém um aquecedor elétrico que é

a fonte quente do sistema e um trocador de calor, constituído por dois tubulões horizontais

com um feixe vertical de tubos imersos em um tanque de água alimentado por gravidade a

partir de um reservatório elevado. Além desses componentes e da instrumentação descrita

adiante, foi instalada uma bomba para permitir a realização de operações específicas para

calibração e determinação das características hidráulicas do sistema.

A tubulação da BCN é de cobre, com 22 mm de diâmetro externo e 0,6 mm

de espessura. O circuho foi montado com conexões soldadas e uniões roscadas de Va pol.

compatíveis com as válvulas, instrumentos e com os bocais dos equipamentos. O aquecedor

e todas as tubulações foram isolados termicamente com calhas de lã de vidro de 25 mm de

espessura, encamisadas com chapas de alumínio corrugado. Todas as válvulas instaladas nas

Unhas principais do circuito são do tipo esfera. Para controle da vazão no secundário do

trocador de calor foi instalada uma válvula globo e um rotâmetro.

Para o estudo do comportamento de sistemas de circulação natural com li

nhas de desvio foi instalada uma interiigação da "pema-fria" com a "pema-queiJte" do cir

cuho (esta linha não é utilizada nesta tese). Foi também instalada uma válvula de controle

tipo esfera com atuador motorizado e duas ramificações isoladas por meio de válvulas esfe

ra. Na linha principal do circuito, foi instalado um medidor de vazão, tipo magnético, ajus-

120

tado para a faixa de vazão máxima de 0,1 kg/s e com transmissor com sinal de saída de 4 a

20 mA.

Vaso de Expansão .— Trocador de Calor TC-I9

da caixa d'água

Circuito de Res&iamento

Figura 6.1 - Arranjo do Circuito.

O aquecedor elétrico foi construído em aço inoxidável austenítico e possui

três resistências tubulares em "17'. Foi projetado para uma potência máxima de 10 kW mas

é controlado para operar somente até 3,3 kW em circulação natural. O trocador de calor foi

concebido com base em projetos de aplicação naval e conceitos considerados no projeto do

reator AP-600 (Vijuk, 1988), sendo totalmente construído em cobre, com dois tubuioes de

121

1 % pol. interligados por 18 tubos de 3/8 pol. imersos em um reservatório com volume de

0,202 m^

Ao longo do circuito foram instalados 24 termopares, sendo 5 do tipo T de

1,5 mm e 19 do tipo K de 0,5 mm de diâmetro. Para acompanhamento e registro da evolu

ção das temperaturas e da vazão, foi montado um sistema de aquisição de dados baseado

em plataforma PC. Foram ainda instaladas 4 tomadas de pressão que permitem determinar

os coeficientes de perda de carga de trechos do sistema em condições de circulação forçada,

utilizando para isso um manómetro de tubo em ' IT' invertido.

A variação da potencia no aquecedor é feita por meio de um controlador

com uma entrada analógica isolada, que pode ser variada entre O e 10 V, que atua em um

sistema tiristorizado com controle dos disparos feho por um circuito integrado. O controla

dor de potência pode receber o sinal de controle gerado por uma fonte extema ou advindo

de uma saída do sistema de aquisição de dados. A aquisição de dados é feita por meio de

uma placa AT-MI0-16E da National Instmments (1995), instalada em um microcomputa

dor PC.

6,2 Modelo da Dinâmica do Circuito de Circulação Natural

Para simular os processos térmicos e hidráulicos da BCN, foram desenvolvi

dos modelos numéricos considerando as convenções de pontos e vazões estabelecidas no

fluxograma da Figura 6.2. Nesses modelos foram assumidas as seguintes hipóteses:

- fluido incompressível; e,

- escoamento unidimensional.

122

RESFRIADOR 2s

M,

niR

Is - .

AGUA DE RESFRIAMENTO

LINHA DE DESVIO 9 - D

AQUECEDOR

• - 3

Figura 6.2 - Fluxograma do Modelo do Circuito de Circulação Natural.

Além das hipóteses acima, como os efeitos de aceleração são anulados ao

longo do circuito, pois é fechado, os termos de aceleração também foram removidos das

equações de conservação da quantidade de movimento. Além disso, para facilitar a solução

as equações de continuidade e quantidade de movimento foram desacopladas das equações

de energia. As equações são apresentadas a seguir.

6.2.1 Conservação de Massa e Quantidade de Movimento

A equação de conservação de massa é aplicada no ponto "O" da Fig. 6.2:

123

=mD + mA (6.1)

onde / « R é a vazão em massa através do trocador de calor, mo é a vazão em massa pelo

trecho de desvio, e niA éa vazão em massa no aquecedor.

As equações de conservação da quantidade de movimento são escritas para

cada trecho (entre pontos) da Fig. 6.2:

entre O e I:

onde os novos termos são: p (kg/m ), a densidade média entre O q 1;V (m ), o volume do

trecho O-I; A (m\ a área de escoamento; Q„ (mVs ) é a taxa de variação temporal da va

zão volumétrica ( ^ ^ ^ i P (NW), a pressão; g (m/s ) a aceleração da gravidade; z (m) as

cotas em relação a um nivel qualquer; / o fator de atrito; L (m) o comprimento equiva

lente do trecho para perda de carga; e, D (m) o diâmetro hidráulico do tubo no trecho.

entre I e 2:

=(p,-p,) + Pngi^, -^2)-fn~f\2^ (6.3)

entre 2 e 3:

^ Q r =ÍP2-P,) + PzsSih -^s)- U ^ As ^ (6.4)

entre 3 e 4:

^ ( 2 . = ( A - P 4 ) + A 4 ^ ( ^ ' 3 - ^ 4 ) - / 3 4 ^ A 4 ^ (6-5)

124

entre 4 e 5:

= ( A - A ) + A 3 ^ ( ^ 4 - ^ 5 ) - / 4 , ^ A 3 ^ (6.6)

entre 5 e 0:

= ( A - A ) + A o ^ ( - , - - o ) - / . ^ A o ^ (6.7)

entre 3 e 0:

^Qo=(Ps - A ) + Ao^(^3 - ^ o ) - / 3 o ^ A o ^ (6.8)

as vazões volumétricas são definidas por:

„ rriR QR=— (6 9)

PR

(6.10)

(6.11) PD

onde P R é a densidade média no trocador de calor, é a densidade média no trecho de

desvio, e p é a densidade média no aquecedor.

Para simplificar a apresentação podem ser estabelecidos os seguintes agru

pamentos de variáveis:

pVn.=ñoV3o (6.12)

125

PV,= (A4^34 + P45 45 + Ao íO + PsO So)

P = [Ao(^3 - ô) + P23(-2 - - 3 ) + Al (^0 - - 1 ) + A2 (^1 - 2 ) k ^ '

P h = [PsoiÔ - + A 4 ( ^ 3 - -^4) + P4í(^4 - ^ 5 ) + Ao(^5 - -o)]gA'

fl^m - / 3 0 Ao

fT, = A 3 ^ A 3 ^hJT:P^^ + / u " t t A í A l

¿ 3 4 flî = / 3 4 A 4 + / 4 5 As + / 5 0 Ao

desse modo pode ser montado e resolvido o sistema de equações, obtendo-se:

9V„

(6.13)

(6.14)

(6.15)

(6.16)

(6.17)

(6.18)

(6.19)

(6.20)

pv.i: (6.21)

(6.22)

6.2.2 Equações de Energia

As equações de conservação de energia no fluido foram escritas consideran

do-se o modelo da Figura 6.3 e dois tipos de nós, definidos pela forma de acoplamento de

regiões consecutivas, conforme ilustrado na Figura 6.4.

126

X TM

X Ti

X

As

Figura 6.3 - Discretização para Energia no Fluido.

Tipo 1

ou

m Tipo 2

A

p A

Figura 6.4 - Tipos de "nós".

A equação geral de energia para o fluido, no modelo unidimensional é:

Õ t õ s ~Pq" (6.23)

onde p (kg/m^) é a densidade média no volume; A. (m^) é a área de escoamento no volume

/; Cp (J/kg°C) é o calor especifico a pressão constante da água; T (°C) a temperatura; m

(kg/s) a vazão em massa; s (m) define a dimensão linear (x ) na direção do escoamento P

(m) o perímetro da seção transversal; e ^"(W/m^) é o fluxo de calor transferido na direção

do perímetro P.

Para regiões iniciando com nós do tipo J, a equação (6.23) é aplicada dire

tamente, fazendo-se a aproximação pelo método da ""célula doante ". Para regiões com nós

127

do tipo 2, a equação (6.23) é modificada, ainda considerando o método da "célula doante'

e com os termos definidos na Figura 6.4:

PV. C p ? ^ = m,Cp(T,-T,) + m2Cp{T,-T,)-Pq" o t

(6.24)

6.2.3 Modelo para o trocador de calor

Para o modelo do trocador de calor fiai considerada a divisão de volumes da

Figura 6.5, acoplados confiarme o esquema da Figura 6.6.

mp

REGIÃO 1 MI

Ts, Ts, .

REGIÃO 2

m

• Ts 1_

j P REGIÃO:

M2

J=U

•j=1

P2

Figura 6.5 - Esquema para o Modelo do Trocador de Calor.

Energia no Primario do Trocador de Calor:

õTp õTp

Õ t ÕS (6.25)

onde as novas definições são os subscritos r que define a região e / que define o volume, a letra p para especificar que é do lado primário, e a dimensão linear As (m) definindo o tamanho do volume.

128

Região 1

Região 2 T P 2 , i

Região 3

I i

Ts 2,i

Ts 2,1

m S "TSe

•"•Pr.i Tm^. T s ,

Figura 6.6 - Detalhamento de regiões no Trocador de Calor.

Energia no Securidário do Trocador de Calor:

õ Ts^, Õ Ts^,

õ t os (6.26)

onde a letra s especifica que é do lado secundario.

Energía no Metal dos Tubos do Trocador de Calor:

Õ TM,

PMVM^. C^ -j-^ = Ap^.qp\, +As^,q.\

(6.27)

onde a letra M especifica que é do metal e,

q / =hp (Tp.-Tu .) r, i

(6.28)

qs" =hs {Ts^.-Tm ) r, i r, i (6.29)

129

onde hp e hs são os coeficientes de transferência de calor por convecção no trocador de

calor, que serão obtidos experimentalmente.

6.2.4 Modelo para válvula de regulagem de água de resfriamento

Para simular o comportamento da válvula de regulagem da água de resfiia

mento foi considerado um modelo genérico que relaciona a vazão com o Cv da válvula. Foi

considerada pressão a montante constante, ou seja, reservatório elevado sem variação de

nível. Para o Cv foi assumido o comportamento dependente da abertura ilustrado na Figura

6.7 com a constante obtida por meio de uma medida experimental.

Q = Ap Cv =k Cv

Cv = (2J Ae-')Cv^

(6.30)

(6.31)

Ô -

0.40 0.60 Abertura-A

0.80 1.00

Figura 6.7 - Modelo para o Cv da válvula.

130

6.3 Acoplamento da Dinâmica da Bancada com a Rede Neural

Para a realização dos testes do novo conceito de rede neural artificial no

controle da BCN, fiai considerado o problema de controlar a temperatura em um ponto

qualquer da bancada atuando somente na potência do aquecedor. Esse problema fiai cuida

dosamente analisado dentro da filosofia de se projetar redes especializadas, concluindo-se

que a temperatura e a vazão da água de resfriamento são perturbações ao processo, e por

isso devem ser acompanhadas pela rede neural, produzindo correções ao sinal de controle

de potência. Essa conclusão estabeleceu a necessidade de se procurar novos recursos para

tomar a rede robusta a perturbações.

Para atender a essa nova demanda fiai idealizado um modelo que tem como

sinais de entrada a temperatura desejada e os sinais do sistema sensório definidos pela me

dida da temperatura a ser controlada, pela temperatura medida na entrada do trocador de

calor e pela abertura (posição) da válvula de regulagem da água de resfiiamento. A rede que

representa esse modelo é constituída por uma unidade de controle motor completa, exata

mente como a definida no Capítulo 4, ligada em paralelo a dois ramos adicionais do sistema

sensório. Em cada um desses ramos é adicionado apenas um conjunto de sinapses com ca

racterísticas plásticas. O sinal 5, composto pela combinação do erro com a taxa de variação

da variável de controle medida (no caso a temperatixra desejada), é utilizado no processo de

alteração sináptica desses conjuntos de sinapses plásticas. Os sinais gerados pelas perturba

ções (saídas de cada uma das unidades) são utilizados na alteração de ganhos

(amplificadores) do sinal principal, modificando a saída da unidade motora ( O ) e gerando o

sinal de controle {Sc):

131

& = (0,)(0,)(0) (6.32)

onde Sc éo sinal de controle qO, 0¡ e Oo são as saídas das unidades motoras da Figura 6.8.

A Figura 6.8 mostra ainda que a rede considera apenas a primeira ordem de

variação do erro (1- derivada), em razão da lentidão dos processos termo-hidráulicos envol

vidos na circulação natural que não requerem nada além disso. Essa nova estrutura ilustra

bem como podem ser combinados os novos conceitos para se desenvolver novas arquitetu

ras, especificas para cada tipo de problema de controle, neste caso exemplificando a intro

dução de variáveis que influenciam o sinal de controle.

6.4 Solução numérica, Parâmetros e dados do sistema

6.4.1 Solução numérica da dinâmica da Bancada

As equações que modelam os processos térmicos e hidráulicos da BCN, em

conjunto com as equações que modelam os controladores neurais, fiaram resolvidas por

meio do programa de computador BANCADA.F90, cujas principais caracteristicas são des

critas no Apêndice 2.

A bancada fiai dividida nas 14 regiões mostradas na Figura 6.10. A solução

da dinâmica dos processos seguiu um método explícito, detalhado a seguir, Foram resolvi

das primeiramente as equações de energia (utilizando as vazões do intervalo de integração

anterior) e posteriormente o sistema de equações de conservação da quantidade de movi

mento.

1 \ O

í

Aber

tura

da

Vál

vula

do

Secu

ndár

io

Figu

ra 6

.8 -

Uni

dade

de

cont

role

com

doi

s sin

ais a

dici

onai

s do

sist

ema

sens

ório

.

132

RESFRIADOR

Região 14 ^ I

m,

Região l ^ L 4 ,. ,y ' I

2s

M

I Região 2

2 Região 3

Is - >

. 4 ms

m,

Região 4

Região 13

o AGUA DE RESFRIAMENTO

LENHA DE DESVIO

Região 12

Região 11

A'QUECEDOR

Região 10

Região 9

Região 6 5^

m A

133

Região 5

Região 7

Região 8

Figura 6.10 - Definição das Regiões modeladas.

Equações de Energia

A solução das equações de energia se inicia no trocador de calor, na região

de entrada da água do primário, definida por Região 1. A seqüência na solução das equa

ções, com base na divisão de regiões e volumes das Figuras 6.5, 6.6 e 6.10, é detalhada a

seguir. Nessa solução j é relacionado à discretização de volumes no secundário do trocador

134

5 t PMVÛ -[M.,<lp"uÂs,^,q"u'i (6.35)

M

« î s , = Z [ ? ' " . J ( 6 , 3 6 )

Í Í = f [ r . , . - r s J - ^ ^ (637) Ô t Vsj VSj Cp

onde Os éa. vazão no secundário obtida conforme equações (6.30) e (6.31) (os coeficientes

de transferencia de calor são estimados experimentalmente, como será discutido mais adi

ante).

T.C.-r = 2 j^jj-\^2 / = 1 ^ ii{r = 2)

qs"^^^hs^{Ts^-ní^) (6.38)

<Íp\yhpîTp,,-ni^) (6.39)

de calor, dividido em jj volumes conforme Figura 6.5, e / é relacionado à discretização in

terna de cada região, divididas em ii(r) volumes.

A - Lado Extemo dos tubos e tubulações e, partes metálicas

T.C- r = \ j = 3 /• = 1 ^ /7 ( r = 1)

qs"^^ = hs^{Ts.-TM^) (6.33)

qp"^^=hp^(Tp,,-TM^_) (6.34)

Õ TM,, 1

135

õ TM^, 1

-[Ap2,qp\,+As2,iq^\A (6.40) M

T.C - r = 3 j = l / = l ^ / 7 ( r = 3)

qs"^^ = hs_^{Ts^-TM^J (6.42)

^ / 3 , = /'P3(7P3.,-7'A^3,) (6.43)

^ -[^P3„<7/3.,+^^3.,^^"3.,] (6.44) Õ t Pa/^^3,, C, M

ô^«=Z[^A,,] (6.45)

Loop - Região 4 em diaiiíe: r>4 / = 1 ^ ii(r)

qp' .hp {Tp,, -Tu ) (6.48)

Õ Ta/, 1

-[ÁPrjqp\.MSr,qs\A (6.49) Aí

onde Uisoi é o coeficiente global de transferência de calor através do isolamento térmico do

circuito, considerando a convecção com o ar ambiente (valor adotado está no item 6.4.4).

136

B - Lado Interno dos tubos e tubulações (todo o circuito): r = \-^R

i = l

se o inicio da Região é em um nó do Tipo l:

-jy- = - Tp., ] — y - (6.50)

onde Oré a vazão correspondente à posição da região (OR , QA , ou QD)

se o início da Região é em um nó do Tipo 2:

5 TPrA 1 {Qrax\TPraXMran ' Tp] + QralVTPral Mral)

WPr^-Ap,,qp\,] (6.51)

onde Oral é a vazão correspondente a uma das regiões anteriores à região r e Qra2 é a vazão

da outra região, conforme definições de nó tipo 2 da Figura 6.4.

/ = 2 -> ii{r)

= ÍT^[TPr,-i - Tp,, ] (6.52)

C - Integração das Equações de Energia

as equações (6.35), (6.37), (6.40), (6.41), (6.44), (6.46), (6.49), (6.50), (6.51) e (6.52) são

integradas pelo método de Euler Simples:

õ r C'^' = r; + A / — - (6.53)

o t

137

Equações de Conservação de Massa e Quantidade de Movimento

Na solução das equações de massa e quantidade de movimento as proprieda

des da água foram consideradas nas condições médias de temperatura de cada região e não

nas condições de cada volume de controle utilizado nas equações de energia. Como cada

região é dividida em volumes de controle iguais, as médias de temperatura podem ser obti

das por meio da média aritmética das temperaturas de cada volume de controle:

^.^ttTtZ^.- (6-54) / / ( / • ) R

As propriedades físicas da água são avaliadas nessas temperaturas médias

por meio de funções de aproximação preparadas especificamente para as condições previs

tas de operação da bancada ( r < 100 °C). Então são avaliadas as velocidades de escoa

mento, o número de Reynolds ) e o fator de atrito médio de cada região.

A "massa específica" da água, a e a viscosidade, ¡u, foram aproximadas por

fimções hiperbólicas para se obter a velocidade de escoamento e o número de Reynolds.

— 0.30362776 ( F - 2 0 ) =998.2 (6.55)

1.0-0.00490551 (7 , -20)

3.116659x10'' (r, -100)

1.0 + 8.153195x10"^ (7;-100) ^ I , = 2 . 8 x 1 0 ^ ^ y _ /^^ (6.56)

138

9 ^ = ^ ^ (6.58)

Os fatores de atrito foram obtidos de uma maneira extremamente simplifica

da: por meio da correlação de Blasius, para 9íe > 100; e, considerados constantes e igual

ao limite de / = 0,1 para 9?e < 100. Não se achou necessário escolher várias correlações,

em diferentes regimes de escoamento, pois os fatores de atrito seriam multiplicados por um

fator de correção, Fc, obtido experimentalmente na bancada de circulação natural.

0.316 (6.59)

fc-Fc^f (6.60)

Como no exemplo desenvolvido nesta tese não foi considerado escoamento

na unha de desvio da bancada (válvula fechada), somente é resolvida a equação (6.20), com

- O e = Qp (fluido incompressível):

Desse modo fica completo o modelo de simulação dos processos termo-

hidráulicos da BCN, faltando apenas extrair as informações necessárias sobre os coeficien

tes de transferência de calor e sobre o fator de correção do atrito, Fc, conforme será deta

lhado no item 6.4.4.

139

6.4.3 Implementação dos modelos da rede neural

As equações do modelo da rede neural artificial fioram exatamente as mesmas

utilizadas no modelo do manipulador do Capítulo 5, acrescentadas apenas as duas unidades

adicionais para processamento dos sinais sensorios da temperatura da água de resfriamento

e da abertura da válvula de água de resfriamento como representado na Figura 6.8. O sinal

dessas duas unidades é utilizado para correção do sinal de controle principal confiarme a

equação (6.32).

6.4.4 Dados para simulação

A) Geometria e demais dados da Bancada

Como já mencionado anteriormente, para as simulações desta tese a BCN fiai

dividida em quatorze (14) regiões. Cada uma dessas regiões fiai dividida ainda nos volumes

de controle indicados na Tabela 6.1, que também contém as infiarmações de tipos de inter

face, etc. Os dados referentes ás singularidades e comprimentos de tubo {trecho reto) utili

zados para estimativas de perda de carga estão na Tabela 6.2. A Tabela 6.3 contém as co

ordenadas de início e fim de cada região (como exemplifica a Figura 6.11), utilizados ape

nas pelas subrotinas de apresentação gráfica do programa do Apêndice 2, e contém ainda os

dados de áreas, volumes de água e capacidade térmica das partes metálicas.

Região 1 W2X y(2)\

[x( iXy(i ) l

m Wi) ,y ( i ) ] ,

Região 2 I ^ [x(2), y(2)].

Figura 6.11- Exemplo de coordenadas.

Tabela 6.1 - Definições de nós e interfaces.

140

R e g i ã o N ú m e r o d e T ipo de n ó T i p o d e i n 1 - R e g i ã o 2 - R e g i ã o Pos ição

V o l u m e s d e e n t r a d a t er faces A n t e r i o r A n t e r i o r

(Figura 6.4) (F igura 6.9)

1 5 1 2 14 - 1 2 5 1 1 1 1 3 5 1 7 2 - 1 4 5 1 2 3 - 1 5 5 1 1 4 - 1 6 5 1 9 5 - 0 7 5 1 8 5 - 2 8 5 1 9 7 - 2 9 2 1 4 8 - 2 10 5 1 11 9 - 2 11 2 1 11 10 - 2 12 3 1 11 11 - 2 13 5 2 11 12 6 1 14 2 1 10 13 - 1

Tabela 6.2 - Dados para Perda de Carga, (incluindo o número de singularidades por tipo e por região)

R e g i ã o D i a m .

Hidráu l .

(m)

União

(20) "

(20)'

«Tê"

r

C u r v a (30/*^

Válv .

Es fera

(30)^''

(50)'

T r e c h o

R e t o

(m)

L e q .

Total

(m)

0.0381 0.5 283.1 0.007945 0.635 179.9 0.0381 0.5 223.1 0.0208 2.995 284.0 0.0208 2.426 186.6 0.0208 4.17 540.5 0.0208 2.306 270.9 0.0208 4.17 230.5 0.0208 0.078 103.8

10 0.0144 1.7 118.1 11 0.0144 0.128 58.9 12 0.0208 0.378 58.2 13 0.0208 3.083 228.2 14 0.0208 0.175 48.4

'' L/D - Comprimento equivalente de perda de pressão, com base no diâmetro da tubulação Medidor de vazão

141

Tabela 6.3 - Dados gerais de posição, áreas e volumes.

Região Coordenadas das Regiões

(m) Area Esc

(m-) Vol. (m ) Região

x(l) y(i) x(2) y(2)

Area Esc (m-)

Vol. (m )

1 1.175 7.301 1.675 7.301 0.00114 0.00114 0.0006889 2 1.675 7.301 1.675 6.644 0.0008924 0.000527 0.0007267 3 1.675 6.644 2.175 6.644 0.00114 0.00114 0.0006889 4 2.175 6.644 5.170 6.644 0.0003398 0.001018 0.0070302 5 5.170 6.644 5.170 4.218 0.0003398 0.000824 0.0070302 6 5.170 4.218 1.000 4.218 0.0003398 0.001417 0.0070302 7 5.170 4.218 5.170 1.934 0.0003398 0.000818 0.0070302 8 5.170 1.934 1.000 1.934 0.0003398 0.001417 0.0070302 9 1.000 1.934 1.000 2.012 0.0003398 0.000027 0.0070302 10 1.000 2.012 1.000 3.712 0.00188 0.00374 0.0002829 11 1.000 3.712 1.000 3.840 0.00188 0.00033 0.004763 12 1.000 3.840 1.000 4.218 0.0003398 0.000176 0.0070302 13 1.000 4.218 1.000 7.301 0.0003398 0.001048 0.0070302 14 1.000 7.301 1.175 7.301 0.0003398 0.0000595 0.0070302

Outros dados necessários para a simulação são:

- Número da região do aquecedor

- Superfície das resistências do aquecedor

- Dados do secundário do trocador de calor:

- 10

- 0.474255 m^

Região 1 Região 2 Região 3 Perímetro aquecido - externo (m) 0.139644 0.538626 0.139644 Área de troca de calor - ext. (m ) 0.139644 0.342028 0.139644 Área de escoamento - sec. (m") 0.2056 0.2500 0.2056 Compr. dos volumes As (m) 0.100 0.127 0.100

- Coefíciente de transf. de calor pelo isolamento - 2,0 W/m^ °C

- Potência máxima do aquecedor (para SC = 1) - 2250 W

- 4 ? Cv„i, (equações 6.30 e 6.31) -0.000131

Para verifícar a precisão do modelo de simulação da bancada, estimar os co

eficientes de transferência de calor no trocador de calor (hp e hs das equações 6.28 e 6.29),

e obter o fator de correção aplicado sobre os fatores de atrito (Fc, equação 6.60), foi neces-

' Dados utilizados pela parte de apresentação gráfica do programa.

142

sária a realização de um experimento na BCN. Esses valores foram obtidos de um transiente

provocado por um degrau inicial de potência de zero a 2230 W, mantida essa potência por

um período de 6:00 h. Nesta parte do trabalho somente serão analisadas as primeiras 4:27 h,

quando a vazão de água de resfriamento foi mantida constante em 60 l/h, a temperatura da

água de resfriamento permaneceu inalterada em 18,3 °C e a temperatura ambiente também

não variou, ficando em tomo de 18,0 °C. A Figura 6.12 mostra as medidas de vazão no

primário e de potência no aquecedor, além de resultados de cálculos, por meio de balanço

térmico (Q -m Cp òT),áa potência no lado primário e no lado secundário do trocador de

calor. Observa-se que devido a enorme capacidade térmica do trocador de calor, decorrente

da grande massa de água (202 litros), o calor extraído na água de resfiiamento ainda não

atingiu regime permanente. Observa-se também que esse calor não irá convergir para a po

tência do aquecedor ou do lado primário pois ocorrem muitas perdas de calor no secundário

do trocador de calor, tanto pelas paredes como por evaporação de água pois há uma grande

superfície livre. Essas observações mostram ser conveniente incluir todas as perdas como

parte do coeficiente global de transferência de calor, mesmo que se produzam resuhados

falsos na temperatura de saída da água de resfiiamento. Isso permite uma simplificação na

simulação sem produzir erros nas variáveis de maior interesse para o controle.

Com base nessas considerações foram feitos os cálculos de diferença média

logaritmica de temperaturas {/STLOG) e estimativas do produto da área de transferência de

calor pelo coeficiente global de transferência de calor {U), conforme o diagrama da Figura

6.13 e as equações (6.62) e (6.63). Os resuhados são mostrados na Figura 6.14.

143

250Q

2000 \ \— Potencia Lraiisf. no lado '—'—^ ^ Potência no

iicia transi, iiu lado primário do trocador

2.00

1.60

- 1.20

no secmidário

- Potínãa-peloiBdopriminodoT.C.

- [W«nrt.-p>lnl.Hn.i...inrMriorlnTr

— 0.80

PoMnda - no aquecedor

0.40

4000 8000

Tempo (s) 12000 16000

Figura 6.12 - Medidas experimentais e balanço térmico no T.C.

AT,

Ts,

AT,

Figura 6.13 - Diagrama de temperaturas no T.C.

Ar LOG = AT, -AT^

LOG^ATJAT,) (6.62)

O U A = =^

ATLOG (6.63)

144

200

160

¡I \

i ' ' \¿120 (MéiBa temporal = 133 W/Q \

^ i

1 1 : 2 s o -

4000 8000 12000 16000

Tempo (s)

Figura 6.14 - Cálculos de ATLOG e estimativa do produto UA no T.C.

Apesar de se observar, exclusivamente na fase inicial do transiente, variações

do coeficiente global de transferência de calor com a vazão e com a temperatura da água do

primário, verificou-se que essas variações não chegaram a 15%. Isso é justificável pois o

coeficiente de transferência de calor no lado secundário do trocador de calor deve dominar,

e sua variação esperada não é grande. Considerando isso, e como a finalidade do experi

mento foi a obtenção de estimativas que apenas não levassem as simulações a resultados

sem significado fisico, considerou-se adequada a utilização de um único valor para cada co

eficiente de transferência de calor, obtidos de modo a reproduzir o valor da média temporal

de UA, que foi igual a aproximadamente 133 W/°C, conforme Figura 6.14. Isso foi feho

realizando testes de alguns valores para os coeficientes locais de transferência de calor, que

145

foram variados em conjunto com o fator de correção do atrito ( F c ) . Os coeficientes locais

de transferencia de calor que aproximaram razoavelmente os resultados experimentais são

mostrados na Tabela 6.4. Cada um deles foi considerado constante ao longo de cada uma

das três regiões do T.C.

Tabela 6.4 - Coeficientes de transferência de calor assumidos por região do T.C.

Região hp (W/m 'C)

hs

1 500. 500.

2 645. 645.

3 500. 500

As simulações realizadas, com esses coeficientes de transferência de calor,

indicaram que os fatores de atrito devem ser 2,2 vezes maiores que os estimados com os

dados das tabelas de comprimento equivalente, associadas ao atrito distribuido de Blasius,

ou seja, Fc = 2,2. Com isso, finalmente foi possível reproduzir com boa precisão o experi

mento realizado, como mostra a Figura 6.15.

B) Dados da rede neural

Os dados utilizados na simulação da rede neural da Figura 6.8 estão na Tabela

6.5. Foram utilizados os mesmos valores do modelo do manipulador robótico do Capítulo

5, à exceção do número de terminais e dos valores das constantes X e a,. A constante de

decaimento da força de ligação das sinapses plásticas, X, foi reduzida em cem vezes (de 10

para 0,7) em fiinção da lentidão dos processos envolvidos na circulação natural (essa redu

ção foi determinada após a realização de alguns testes). A constante a, das sinapses facilita

doras somente foi alterada devido á mudança do intervalo entre limiares, sua relação com a

constante a das sinapses plásticas continuou a mesma; ^ = 2 H = 12^ _ 5 Observa-se ain-a 28.8 20

146

da que, pela necessidade de ativação e desativação do processo de plasticidade (conforme

será explicado no item referente ao treinamento). Te assumiu dois valores. O ou i.

Tabela 6.5 - Dados da rede neural.

Parâmetro Valor

"Tamanho" das unidades - TV 2.1

Constante de ganho das unidades - a 0.5

Constante das sinapses plásticas da unidade motora - a 20.0

Número de terminais dos axônios sensorios c/ as unidades motoras - kk 13

Número de terminais dos axônios dos "desejos" c/ as unidades motoras - jj 13

Intervalo entre limiar de terminais consecutivos - zir = x" , - = x" , - x° 0.2

Força de ligação das sinapses de erro - Te 2.5

Força de ligação das sinapses de taxas - Tr 0.09

Força de ligação das sinapses facilitadoras - Te 0 / 0 . 1

Constante de decaimento das sinapses plásticas - Ã 0.1

Constante das sinapses facilitadoras - 100.0

•¡OWSSAO WfiCíONüL DE tWhmd- i . ü C l K A R / S P WU-

80

2

(3

1 - V

azão

med

ida

| 5

- Te

mp.

de

saíd

a no

aqu

eced

or, c

alcul

ada

^ 2

- Vaz

ão ca

lculad

a X

6

- Te

mp.

de

entra

da n

o aq

uece

dor,

calcu

lada

II

3 -

Tem

p. s

aída

aque

c. O

7

- Tem

p. d

e sa

ída

no se

cund

ário,

med

ida

A

4 - T

emp.

entra

da a

quec

. •

8 - T

emp.

de

said

a no

secu

ndár

io, c

alcul

ada

5-

5.0 4.0

3.0

- 2.

0

I I

1.0

4000

80

00

Tem

po (

s)

1200

0

0.0

1600

0

Figu

ra 6

.15

- C

ompa

raçã

o da

evo

luçã

o da

s te

mpe

ratu

ras

e va

zão

calc

ulad

as c

om a

s m

edid

as n

o te

ste

de v

alid

ação

.

147

148

6.5 Resultados

6.5.1 Treinamento da Rede

O treinamento dessa nova rede também foi desenvolvido durante a execução

de comandos de ação. Foram montadas tabelas contendo os "desejos" comandados ao con

trolador, que constituem o universo de treinamento, e ainda, as perturbações. Diferente do

realizado no exemplo do manipulador bi-articulado, foram montadas três tabelas de treina

mento, cada uma específica para uma dada variável: a temperatura desejada. a perturbação

na vazão de resfriamento e a perturbação na temperatura da água de resfriamento. O trei

namento foi desenvolvido em três etapas distintas, de acordo com essas três tabelas de trei

namento (Tabelas 6.6 a 6.8). Os efeitos não foram sobrepostos, enquanto se realizava o

treinamento sobre uma das variáveis em mudança, a plastificação das sinapses dos neurôni

os de saída correspondentes às outras unidades ficava "congelada", ou seja, a força de liga

ção das sinapses facilitadoras com essas unidades, Tc, assumia o valor zero.

Cada etapa do treinamento foi realizada em sessões, observando-se a evolu

ção gradual do aprendizado. A T etapa consistiu da repetição, por 3 vezes, das 7 condições

especificadas na Tabela 6.6, totalizando 3x7x14400 = 302400 segundos de tempo de pro

cesso simulado. A 2* etapa consistiu da repetição por 2 vezes das 9 condições da Tabela

6.7, totalizando mais 2x9x12800 = 230400 segundos. Na 3^ e última etapa foi realizada uma

primeira sessão com o tempo de 10800 segundos para a primeira condição e 3600 segundos

para cada uma das demais, e uma segunda sessão considerando 7200 segundos para a pri

meira condição e novamente 3600 segundos para as demais, totalizando 1x10800 + 1x7200

+ 2x9x3600 = 82800 segundos. Portanto todo o treinamento representou um total de

615600 segundos de processo simulado, ou seja, 171 horas.

Tabela 6.6 - Dados de variação na Temperatura desejada.

149

Condição Duração

(s) Tamb (°C)

Temp. Resfr.

A (válvula)

Temp. Desejada

1 14400. 25.0 20.0 0.25 30.00

2 14400. 25.0 20.0 0.25 35.00

3 14400. 25.0 20.0 0.25 40.00

4 14400. 25.0 20.0 0.25 45.00

5 14400. 25.0 20.0 0.25 50.00

6 14400. 25.0 20.0 0.25 55.00

7 14400. 25.0 20.0 0.25 25.00

Tabela 6.7 - Dados de variação na Temperatura da água de resfriamento

Condição Duração

(s) Tamb (°C)

Temp. Resfr.

A (válvula)

Temp. Desejada

1 12800. 25.0 14.0 0.25 50.00

2 12800. 25.0 16.0 0.25 50.00

3 12800. 25.0 18.0 0.25 50.00

4 12800. 25.0 20.0 0.25 50.00

5 12800. 25.0 22.0 0.25 50.00

6 12800. 25.0 24.0 0.25 50.00

7 12800. 25.0 26.0 0.25 50.00

8 12800. 25.0 28.0 0.25 50.00

9 12800. 25.0 30.0 0.25 50.00

Tabela 6.8 - Dados de variação na abertura da válvula da água de resfriamento.

Condição £)iu^ção Tamb Temp. A Temp.

(s) (°C) Resfr. (válvula) Desejada

1 1x10800. 1x7200.

25.0 20.0 0.05 50.00

2 2x3600. 25.0 20.0 0.10 50.00

3 2x3600. 25.0 20.0 0.15 50.00

4 2x3600. 25.0 20.0 0.20 50.00

5 2x3600. 25.0 20.0 0.25 50.00

6 2x3600. 25.0 20.0 0.30 50.00

7 2x3600. 25.0 20.0 0.35 50.00

8 2x3600. 25.0 20.0 0.40 50.00

9 2x3600. 25.0 20.0 0.45 50.00

10 2x3600. 25.0 20.0 0.50 50.00

150

Após cumpridas essas três etapas de treinamento, o sistema, constituído pelo

controlador neural acoplado ao processo da BCN, foi capaz de atender, de uma maneira

considerada adequada, todos os comandos de temperatura desejada, efetuados sob diversas

condições de perturbação de abertura da válvula e de variação na temperatura da água de

resfriamento. As forças de ligação dos terminais sinápticos plásticos (definidas pelos Tj e

Tk 's da primeira unidade motora e pelos Tj 's das unidades de ajuste de perturbações) cresce

ram, nas respectivas etapas do treinamento, do valor inicial zero para os valores ilustrados

nas Figuras 6.16 a 6.18. A Tabela 6.9 mostra o conjunto dos resultados finais, ou seja, após

as três etapas, indicando ainda quais são os valores de cada uma das variáveis correspon

dentes a cada limiar, na forma das variáveis TL , TSL e Av^. O treinamento sobre o tempo

simulado de 171 horas foi realizado consumindo apenas l:48h de CPU (somatória dos tem

pos de todas as etapas) em um microcomputador PENTIUM de 166 MHz.

0.40

0.30

0.20

Sinapses da unidade principal (saída O)

0.10

0.00

-0.10

-1.00 0.00

Limiar 1.00

Figura 6.16 - Forças de ligação sináptica após T Etapa.

151

0.20

0.10 : i

àinapses da unidade de ^

7-«, (saida 0,) J 1

—; 1 i i i ^

-0.10

1 i I ; : I i I I i

i 1 i ; !

I i ! -0.20

-0.30

-1.00 0.00 Limiar

1.00

Figura 6.17 - Forças de ligação sináptica após 2* Etapa.

0.00

-0.04

^ -0.08 Sinapses da unidade de A^y (saída O 2 )

-012

-0.16

-1.00 0.00

Limiar

1.00

Figura 6.18- Forças de ligação sináptica após 3* Etapa.

152

Tabela 6.9 - Forças de Ligação Sináptica após treinamento.

Unidade Motora 1 (principal)

Unidade Motora 2 (de Tsec)

Unidade Motora 3 (de v4va/v)

Limiar

Tj = Tk

Limiar

Tl

Limiar

T„ r Tj = Tk Xo r Tl Xo Av T„

-1.2 20. -0.00116928 -1.2 8. 0.00325479 -1.2 - -0.00936843

-1.0 25. -0.01734568 -1.0 10. 0.00772838 -1.0 0.0 -0.02993143

-0.8 30. 0.01765643 -0.8 12. 0.02724423 -0.8 0.05 -0.14430515

-0.6 35. 0.01809756 -0.6 14. 0.13692694 -0.6 0.10 -0.06387486

-0.4 40. 0.03515421 -0.4 16 0.07133455 -0.4 0.15 -0.03213661

-0.2 45. 0.07098319 -0.2 18 0.03562834 -0.2 0.20 -0.01834903

0.0 50. 0.16443447 0.0 20. 0.00658684 0.0 0.25 -0.01436435

0.2 55. 0.32179213 0.2 22. -0.02578953 0.2 0.30 -0.01271007

0.4 60. 0.06681620 0.4 24. -0.06454596 0 4 0.35 -O.Ol 153588

0.6 65. 0.02090895 0.6 26. -0.11489901 0.6 0.40 -0.01071234

0.8 70. 0.01001677 0.8 28. -0.18304337 0.8 0.45 -0.01018060

1.0 75. 0.00586774 1.0 30. -0.24736433 1.0 0.50 -0.00923484

1.2 80. 0.00385504 1.2 32. -0.05280998 1.2 0.55 -0.00260057

6.5.2 - Testes de Desempenho

Apesar do pouco treinamento realizado, com as forças de ligação sináptica

mostradas na Tabela 6.9, já foi iniciada a fase de testes para avaliar o desempenho da rede

de controle. Essa avaliação focalizou principalmente a capacidade de generalização, ou seja,

a execução de comandos não presentes nas tabelas de treinamento. Do mesmo modo que o

realizado com o manipulador apresentado no Capítulo 5, na fase de testes foram bloqueados

os mecanismos de plasticidade anulando-se a força de ligação de todas as sinapses facihta

doras, Tc= 0. A partir daí foram executados testes sobre todo o domínio possível, limitado

é claro pelas condições impostas pelo processo em si. Por exemplo, fisicamente não é pos

sível que, com a água de resfiiamento a 20 e a abertura da válvula da água de resfiia

mento em^ = 0,50, a maior temperatura no circuko uhrapasse »56 1C, ou que, com a água

153

de resfriamento a JO e a abertura da válvxila da água de resfriamento em ^ ^ 0,25, a

maior temperatura no circuito ultrapasse « 48 TT.

Para apresentação de um resultado tipleo foi escolhida a simulação de diver

sos transitorios dentro de uma única operação, iniciada sob condições normais com Tamb =

25 e Tsec = 20 V.O teste se inicia com a solicitação de atingir as condições médias con

sideradas no treinamento, ou seja, uma temperatura de 50 T7 na saida do aquecedor, com a

vazão de água de resfriamento determinada pela abertura da válvula de regulagem em 25%.

O teste prossegue com as condições mostradas na Tabela 6.10.

Tabela 6.10- Dados para apresentação dos testes de desempenho.

Condição Duração Tamb Temp. A Temp.

(s) (°C) Resfr. (válvula) Desejada 1 16000. 25.0 20.0 0.25 50.00

2 7200. 25.0 23.0 0.25 50.00

3 7200. 25.0 25.0 0.25 50.00

4 7200. 25.0 25.0 0.25 55.00

5 7200. 25.0 25.0 0.12 55.00

6 7200. 25.0 25.0 0.08 55.00

7 7200. 25.0 25.0 0.08 60.00

8 7200. 25.0 25.0 0.08 33.00

9 7200. 25.0 15.0 0.08 33.00

10 7200. 25.0 15.0 0.08 53.00

11 7200. 25.0 15.0 0.08 42.00

12 7200. 25.0 17.0 0.33 37.00

A escolha da duração das condições da Tabela 6.10 se deu em função das ca

racteristicas do processo de circulação natural, que em um sistema como o da BCN é muito

lento, fazendo com que uma perturbação produza resultados somente após um enorme in

tervalo de tempo. Sabendo-se disso e, uma vez que um experimento sob condições tão

154

controladas como as da Tabela 6.10 seria praticamente inviável, não se considerou necessá

rio nem razoável produzir testes de desempenho nos quais houvesse tempo para as pertur

bações produzirem estabilidade de regime. Considerou-se porém, que deveria haver um pe

ríodo razoável apenas para observar a evolução e tendências do sistema controlado. Para

determinar esse tempo de estabilização "parcial" do sistema foram analisadas informações

do teste apresentado parcialmente no item 6.4.4, onde foram mostrados os primeiros 16000

segundos de teste. Uma informação resultante daquele teste é mostrada agora na Figura

6.19, onde se observa a evolução da temperatura na saída do aquecedor (TC-22), da tempe

ratura da água de resfriamento na saída do trocador de calor (TC-18), e da potência no

aquecedor. O que se vê, é que de fato, o regime permanente tenderia a ser atingido após um

intervalo de aproximadamente 22000 segundos, porém as temperaturas no primário atingem

quase 100% dos valores de regime bem antes, logo após os primeiros 16000 segundos.

Tendo em vista essa constatação foi decidido (como se depreende da Tabela 6.10) deixar

um periodo de tempo suficiente apenas para a estabilização parcial das temperaturas do

primário em condições quase de regime permanente somente para a primeira condição do

teste. Para as condições seguintes considerou-se um periodo aproximado de 1/3 do período

estimado para a estabilização, ou seja, 7200 segundos.

A simulação do teste completo da Tabela 6.10, representando 95200 segun

dos de tempo real de processo, consumiu apenas 16 minutos e 35 segundos («1000 s) de

CPU em um computador com processador PENTIUM de 166 MHz com Windows 98

como sistema operacional.

155

y ;

I Potência "Perturbações de desvio de vazão"

2 5 0 0

5 0 0 0 1 0 0 0 0 1 5 0 0 0

Tempo (s) 2 0 0 0 0

2 0 0 0

1 5 0 0

'r- 1 0 0 0

5 0 0

2 5 0 0 0

Figura 6.19 - Evolução das temperaturas no primário e secundário do T.C.

Na Figura 6.20 é mostrado o que representaram as perturbações da Tabela

6.10 em relação às condições de treinamento e ao seu efeito na relação entre desejo e ob

servação.

A Figura 6.20 foi construida calculando-se a relação entre as perturbações e

observações e as condições originais do treinamento, ou seja: Temperatura de água de res

friamento / 20; Abertura da válvula / 0,25; Temperatura desejada / 50. Alguns valores uti

lizados estavam fora da faixa de treinamento, outros entre dois valores existentes no treina

mento, porém não coincidentes com esses. As perturbações relativas representaram relações

156

entre 32% e 125% das condições médias do treinamento (condições do limiar zero). A Fi

gura 6.21 mostra os valores absolutos dessas perturbações.

2.00

t I

1.60

1.20 ^

0.80 —

Legenda

_ J . FTS = Tsec/20

-^4— FTD = Tdes/50

h 3 — FAV = a/0.25

-A— Resultado: R = T/ Ides

R

0.40 —

O.OO

20000 40000 60000

Tempo (s) 80000 100000

Figura 6.20 - Perturbações relativas.

O erro na temperatura desejada, definido pela diferença entre a temperatura

observada e a temperatura desejada, {T- T^es), é apresentado na Figura 6.22, onde se cons

tata que, somente em três condições, ficou fora de uma faixa de ± 0,5 °C, sendo: uma por

falta de tempo para acomodação da perturbação; outra somente justificada por se combina

rem as duas maiores perturbações: Temperatura de resfriamento de 15 'ü, e Abertura da

válvula de 0,08; e a terceira onde se combinou a perturbação de AbertJtra da válvula 0,08

157

com a demanda de uma temperatura desejada 5 acima da maior temperatura considerada

no treinamento, ou seja Tdes=60

Mesmo com essas observações pode ser considerado que o sistema de con

trole foi muito bem sucedido na característica de capacidade de generalização.

60

Temperatura Desejada e Temperatura Observada

40 —

Perturbação na vazão de resfriamento

20

O —

Perturbação na Temperatura de resfriamento

a—^

l.OE-4

'r- 8.0E-5

'r- 6.0E-5

I

I

Y- 4.0E-5 §

I ¿5

2.0E-5

20000 40000 60000

Tempo (s) 80000 100000

Figura 6.21 - Perturbações absolutas e resultados observados.

158

2 0

I I I

g

Condição que não seriam atingidos os limites de 0.5 graus

10

-10 —

-20

Limites de +/- 0.5 graus

Condição para a qual não houve tempo para entrar no limite de +/- 0.5 graus

2 0 0 0 0 4 0 0 0 0 6 0 0 0 0

Tempo (s) 8 0 0 0 0 1 0 0 0 0 0

Figura 6.22 - Evolução do erro de temperatura.

159

CONCLUSÕES

O objetivo principal do trabalho, que foi o desenvolvimento de um conceho

inovador no campo de redes neurais artificiais para controle de sistemas dinâmicos com

aplicação na tecnologia de reatores, foi plenamente atingido, como mostraram os resuhados

das redes desenvolvidas para o controle de um manipulador bi-articulado e para o controle

de temperatura da bancada de circulação natural.

Os novos concertos introduzidos com essa arquitetura foram baseados no

projeto de redes dedicadas à tarefa, na utilização de múltiplos contatos sinápticos com uma

nova fimção de transferência, e no uso de processos de modificação de forças de ligação

sinápticas similares aos de organismos biológicos. Esses conceitos implementam aspectos

evolucionários de sistemas biológicos, tanto na arquitetura, quanto nos processos de trans

missão de sinais, memória e aprendizado, propiciando uma capacidade de generalização não

obtida por meio de outras redes neurais artificiais.

O desempenho obtido, principahnente no problema do manipulador que ca

racteriza um sistema de dinâmica mais complexa, mostrou que a utilização de redes especi

alizadas por tarefa produz resuhados muito melhores que os resuhados obtidos com a utili

zação de redes genéricas, como a rede tipo 'Teedforward" (F-F) treinada pelo Método de

Retro-propagação. A comparação dos resuhados, apresentada no Capitulo 5, mostrou que

para o novo modelo de rede neural proposto não se obteve erros de posicionamento maio

res que 5 mm, enquanto que para a rede tipo F-F com treinamento por retro-propagação os

160

erros atingiram quase 300 mm, mesmo após a complementação do treinamento especifica

mente sobre os pontos do teste.

Foi demonstrado que a similaridade dos novos conceitos com sistemas bioló

gicos, principalmente nas caracteristicas das conexões sinápticas, incrementa a capacidade

de integração de cada unidade e, apesar de uma maior complexidade aparente, oferece um

ganho real de desempenho pela grande redução de unidades (neurômos). A complexidade

adicional decorrente do conceho de sinapses múhiplas é compensada pela redução no nú

mero de unidades com fimções hiperbóhcas dispendiosas em termos de processamento.

A construção de arquketuras dedicadas juntamente com o uso de múltiplos

contatos sinápticos, aprovehando o conhecimento dos aspectos evolucionários dos sistemas

biológicos, tanto na sua arquitetura quanto nos seus processos de transmissão de sinais e de

memorização, propicia uma capacidade de generaüzação não obtida por meio de redes clás

sicas tipo F-F. Para a nova rede não foi necessário nenhum treinamento adicional para se

rem atingidos precisamente alvos fora do universo de treinamento. Para a rede tipo F-F fo

ram necessários, no caso do braço robótico, pelo menos 120 repetições de treinamentos de

dicados exclusivamente aos novos alvos.

Os concehos considerados na nova arqmtetura de rede, desenvolvidos com

base nos circurtos biológicos envolvidos nos mecanismos de habituação, sensrtização, con

dicionamento clássico e prática, permitem a realização de treinamento não-supervisionado,

mostrando portanto grande superioridade em relação às redes neurais artificiais ainda utih-

zadas em controle. O novo conceito utiliza um sistema de aheração de forças de ligação

sinápticas embutido nos componentes dos próprios caminhos de sinalização, e não por meio

de algum algoritmo externo a esses caminhos como no caso da retro-propagação. Isso per-

161

mite o treinamento durante a execução de comandos de ação. A tarefa de treinamento da

nova rede foi 150 vezes mais rápida do que com o método de retro-propagação associado à

rede tipo F-F.

Para a utilização dos novos conceitos em uma aplicação de controle de um

sistema termo-hidráulico foi introduzido um novo conceito: a utilização de sinais de per

turbações para alteração de ganhos no controlador. Esse conceho, mostrado no Caphulo

6, permitiu a partir da variação da potência do aquecedor da bancada de circulação natural

o controle da temperatura de modo a compensar grandes perturbações. Nessas condições,

os erros de temperatura observados ficaram em média dentro de uma faka de ± 0,5 °C, so

mente saindo dessa faixa em duas condições. Mesmo com a influência de outras variáveis,

os erros observados nos testes realizados sob condições fora das condições de treinamento

permitem concluir que o sistema de controle foi também muito bem sucedido na sua capaci

dade de generalização.

162

8 RECOMENDAÇÕES PARA TRABALHOS FUTUROS

A simulação das redes apresentadas por meio dos programas digitais desen

volvidos, mostrou um ótimo desempenho computacional permitindo que se vislumbrem no

vas oportumdades de desdobramento para os concehos empregados.

Os novos concehos foram apücados no controle de um manipulador bi-

articulado no plano e no controle da temperatura da água de uma bancada experimental

operando em circulação natural. Os modelos utiüzados nessas aphcações podem ser consi

derados simples, principahnente porque não foram fehas transformações de sistemas de co

ordenada ou qualquer outro tipo de abstração. Por exemplo, para o controle do manipula

dor foram sempre fornecidas as entradas na forma de ângulos desejados e ângulos obser

vados. Esses dados poderiam ser fornecidas de outras maneiras, como por exemplo na for

ma de pares de coordenadas (x, y), ou em forma de informações visuais de posição. Para

isso, a mesma rede poderia ser utilizada desde que houvesse uma outra rede, colocada em

um nível hierárquico superior, e que fosse previamente treinada para promover a conversão

dos dados. Do mesmo modo, todos os problemas tratados no manipulador foram problemas

de posicionamento, enquanto que poderiam ser tratados problemas mais complexos de tra

jetória. Também para esse tipo de abstração deve-se ter novos níveis hierárquicos, que por

exemplo, produzissem a contínua mudança das condições desejadas.

Se a rede básica de controle, semelhante a um circuito neuronal de reflexo

confinado na medula de um ser humano, puder receber as informações de mudanças deseja

das, nos instantes adequados, poderá controlar o manipulador para seguir uma trajetória /

163

qualquer. Para ilustrar essa idéia, apresenta-se na Figura 8.1, o resultado obtido com a

mesma rede do Capítulo 5, quando alimentada por 105 mudanças de comando de posição

realizadas em um período de 20 segundos, para que seguisse uma trajetória linear entre as

posições de -90° e 0°. Para a estabilização no ponto final fiai deixado um tempo adicional de

6.4 segundos. A duração de cada um dos comandos de posicionamento utilizados fiai obtida

por tentativa e erro, pois ainda não fiai possível investir no desenvolvimento de novos pro

gramas de simulação, o que poderá ser um trabalho fiituro.

Pode ser observado na Figura 8.1 que, apesar desta rede não ter sido desen

volvida para esse propósito, existe a capacidade para conduzir a extremidade do manipula

dor segundo uma dada trajetória.

y

^ " 1

1 \

\

\

; / \

1 \

i Ponto

- - —

j

Final

/ J

\

N Ponto ^

/ y

y

" - ^ Inicial j r

Figura 8 .1- Deslocamento do manipulador para atender trajetória retilínea.

164

Com relação ao processo de treinamento, é importante lembrar que foram

feitas comparações com uma rede treinada pelo algoritmo de retro-propagação, sendo inte

ressante desenvolver outros trabalhos procurando sua comparação com redes competitivas,

treinadas por meio de algoritmos não-supervisionados, como por exemplo o método de

Kohonen.

Finalmente é interessante observar que, a utilização do conceho de alteração

de ganho em função de perturbações produz o efeho de uma multiplicação, ou seja, esse

conceito pode ser utilizado no controle do manipulador produzindo um sistema robusto a

mudanças de massa, uma vez que a compensação do efeito de uma massa transportada na

extremidade do manipulador requer o aumento do ganho dos sinais de controle na produção

dos torques e, essa mudança é proporcional à massa.

.OMiSSAO NACICNÍL DE E N E R G I A M i C L E A H / S P IPEI

165

APÊNDICE 1

PROGRAMA DE SIMULAÇÃO DO MANIPULADOR BI-ARTICULADO

O programa NEUROSGD.F90 foi desenvolvido considerando as seguintes

interfaces de entrada de dados: a) um arquivo contendo os dados físicos do manipulador,

bracos.dat, b) um arquivo contendo os dados especifícados para a rede neural de controle,

neurosg.dat; c) um arquivo contendo uma tabela de alvos (pares Om e ób) para defínir um

universo de treinamento, treino.dat; d) um arquivo gerado automaticamente pelo programa

após o início de um treinamento contendo, além dos dados especifícados para a rede neural

de controle, os dados gerados pela seção de treinamento, neurosg2.dat; e) uma cabca de

diálogo que é utilizada para a entrada das informações referentes a opções de início,

intervalos de atualização gráfíca da tela principal, e condições de contorno para a

simulação, conforme mostrado na Figura Al.l ; e, f) a janela principal de execução do

programa, exibida na Figura Al.2, que além de permitir o acompanhamento da evolução do

treinamento, é utihzada para a entrada dos ângulos desejados, no caso de opção de resposta

a comandos, da duração da ação, e se vai haver continuação ou se encerra a simulação ao

término do tempo especificado.

166

Controle do Braço Robótico

Oeção de Início

I : <~ Iniciaf Treinamento?

i f Continuar Treinamento? ou

; í* fiesponder a Comandosi

intervalos de Atualização

AtuaTEação do Braço j g ^

Renovação dos Gráficos 15.0

Condições de Contorno-

Atraso de Tempo das Lig^ões (s) jO 002

Escala da Barra de Distancia {m) flOO "

T E í t » Trajeto?

r * Gravar Trajetória?

OK Cancel

Figura A l . l - Caixa de Diálogo do Programa do Manipulador.

: N E U R O S G S D [ G i a p h i d ]

1 ^ File Edit View State Window Help

P a i n e l de C o n t r o l e

T e c l e ( E S C ) p a r a

F i n a l i s a r

D i s t a n c i a 2 .8nm

100 90 — S0__ — 70 — 60__ — 50__ — 4 0 _ — 30____ 2 0 — 1 0 _ — 0 —

"Tananho" - J = 1 "Tatnanho" ~ J = 2 . . . - - .^ . j . j . -nrî-r.-î "."•.-i- v-.-ff TTt-.- r -iVFT— •i

il Ú

% f \

\ i- l

\ \ \ il

il

il Ú

%

\ i- \ -i

,„,-.4 ! i ; il ¡ ; i J

; J i

[ [ 1 i 1 k....... i i ' I I ' " ' mmmÊmmmmi^m'' « — ^—^ ' — ^ - r ^ — ^ - — • 'r*tr*

Figura Al.2 - Tela Principal do Programa do Manipulador.

167

168

APÉNDICE 2

PROGRAMA DE SIMULAÇÃO DA BANCADA DE CIRCULAÇÃO NATURAL

No desenvolvimento do programa de simulação decidiu-se pela elaboração

de um programa computacional genérico, ou seja, que pudesse ser utilizado posteriormente

para modelar outros sistemas. Para esse programa, BANCADA.F90, foi desenvolvido um

método de representação gráfica das saídas com a visualização das temperaturas em escala

de cores (Figura A2T). Para que esse recurso pudesse ser implementado, foi preciso

estabelecer que tipos de interface entre regiões seriam necessários em fimção da geometria e

das direções de escoamento. Verificou-se que para o modelo unidimensional proposto seria

necessário modelar doze (12) tipos de interfaces mostrados na Figura A2.2. Foi dentro

dessa convenção que a bancada de circulação natural foi dividida nas 14 regiões mostradas

no Capítulo 6.

O programa BANCADA.F90 foi desenvolvido considerando as seguintes

interfaces de entrada de dados:

a) um arquivo contendo os dados fisicos da bancada, BANCADA.GEO;

b) um arquivo contendo os dados especificados para a rede neural de

controle, NEUROBAN.DAT;

c) um arquivo contendo as tabelas de condições desejadas (temperaturas),

perturbações de temperatura e de abertura da válvula de água de

resfiiamento, para definir o umverso de treinamento, BANCADA. TRE;

. NtU

RlJ

._BA

NC

AüA

- (R

ede

Neu

ial A

rWici

al p

aia

Con

trôl

e da

Ban

cada

de

Cífc

*J«ç

3o

Hàt

miii

ig

l R

Ie

Edi

t V

iew

St

ate

Vin

dow

hl

elp

1^

4^

SO

. 1

10

20

. 2

23

0.

OA

.a

a. 3

0.4

•.•^

:l.i

•..^

í.•:

:^.^

^..-•

-í•,

v^

^:•

^•:

i,v••

'fM

so.o

.P0

80

5D

-04

.oo

ao

oo

+o

o 3

Q.e

it

-|gU

|

jpau

scd I

IGB

JINICI

AF I

j a

M

jciw

..,] Ç

jBen

e j

S|Miao

s...j ^

D«en

...[ {;

imag

e...||!|

|NEU

... ll.Ç

t?

Figu

ra A

2.1

- Tel

a Pr

inci

pal d

e ac

ompa

nham

ento

do

proc

esso

.

169

170

d) um arquivo gerado automaticamente pelo programa após o início de um

treinamento contendo, além dos dados especificados para a rede neural

de controle, os dados gerados pela seção de treinamento, neuban2.dat;

e) uma caixa de diálogo para a entrada das infiarmações referentes a opções

de início, intervalos de atualização gráfica da tela principal, e tipo de

opção de entrada de dados, conforme mostra a Figura A2.3;

f) uma outra caixa de diálogo para a entrada das condições iniciais

especificadas para a simulação, caso a opção de entrada de dados seja

por caixa de diálogo, nesse caso devem ser fornecidos dados de

temperatura ambiente, temperatura da água do secundário, temperatura

desejada, abertura da válvula de água de resfiiamento (de O a 1.0), e

duração da etapa de simulação, conforme mostra a Figura A2.4; e,

g) ajánela principal de execução do programa, exibida na Figura A2.1, que

permite o acompanhamento da evolução das temperaturas ao longo de

toda a bancada. No caso de opção por entrada de dados por caixa de

diálogo, ao término da duração de cada etapa é exibida uma pequena

caixa de diálogo de opção entre finalizar? ou novos dados?.

171

A S i. Interface Tipo 1: vertical Interface Tipo 2: horizontal

PiRI X =x,, + A S , ,

||9 yi = y.i

ASi

X i . y i .

Interface Tipo 3: vertical

x. =x,, + A s , i -L

y i = yM + i-

A S ; A S , 1

i-1

Interface Tipo 4 : vertical

y i = y . i + i -

Interface Tipo 5: horizontal

x = x ,

= y.i

X = X , , - A S ;

1 . 1 ^

interface Tipo 7: horizontal

x,=x^,+ L

yi = y . i


X, = X,,

yi = y M -


yi = y M -

i-1


X , = X , , - A S i

y = y.i i-1

i

yi = y . i+As

Interface Tipo 1 0 : horizontal

X, =x,, + L

y, =y,, + A S n - L


X, = X , , - A S ;

y, = y,,+ A s , , - L

Figura A2.2 - Tipos possíveis de interface entre regiões.

Interface Tipo 1 1 : vertical

X = X

i-1

172

Opções de Início da Stinuiãçâo da BancMa Qftitía^^toMaiHaeá

Opções de Entrada de Dados

(* Entrar dados via Dialogo

Entrar dados via Tabela

Oeção de Início

(* iniciar freinanentoj

Continuar Treinarnenlo

^ Responder a Corr andos

Intervalos de Tempo -

Intervalo Integração

Intervalo Atualização

0.05 2K

60.0 Cancel |

Figura A2.3 - Caixa de Diálogo Inicial.

Condições Gerais

Condições de Contorno

Temperatura Ambiente {X)

Temperatura Água Secundário t *C) ^

Temperatura Desejada (XJ 55.

Abertura da Válvula do Secundário JOOG

Duração da Condição

Tempo em segunrtes JSBOO.

OK Cancel

Figura A2.4 - Caixa de Diálogo de Condições Gerais.

173

REFERENCIAS BIBLIOGRÁFICAS

1. AKAZAWA, K., KATO, K. (1990) Neural Network Model for Control of Muscle Force Based on the Size Principle of Motor Unit, Proceedings of the IEEE, v. 78, n. 9, p. 1531-1535, September 1990.

2. ALKON, D.L. (1983) Learning in a Marine Snail Scientific American, v. 249, n. 1, p. 64-74, Jul. 1983.

3. AMARI, D , WIDROW, B (1990) Neural Networks for Self-Learning Control Systems. IEEE Control Systems Magazine, p. 18-23, April 1990.

4. AMARI, S.-I. (1990) Mathematical Foundations of Neurocomputing. . Proceedings of the IEEE, V. 78, n. 9, p. 1443-1463, September 1990.

5. ANDERSON, JA. (1968) A Memory Model Using Spatial Correlation Functions. Kybernetik, v. 5, p. 113-119.

6. ANDERSON, J.A.; ROSENFELD, E. (eds.) (1988) Neurocomputing: Foundations of Research. Cambridge: MIT Press.

7. ASADA, H , SLOTINE, J.-J E. (1986) Robot Analysis and Control New York, N.Y.: John Wiley and Sons.

8. BAPTISTA F-, B D. (1996) Relatório de Evolução do Projeto da Bancada de Circulação Natural IPEN-CNEN/SP, Jul. 96. (PED.RES.CNEN.024, RELT.OOl.ROO).

9. BAPTISTA F^ B. D., MACEDO, L. A. (1997) Atiialização do Projeto da Bancada de Circulação Natural EPEN-CNEN/SP, Dez. 97. (PED.RES.CNEN.024, RELT.004.R00).

10. BULLOCK, D , CONTRERAS-VIDAL, J.L (1993) Hmv Spinal Neural Netyvorks Reduce Discrepancies Between Motor Intention and Motor Realization. In: K.M. NEWELL; D.M. (Eds.). Variability and Motor Control Human Kinetics Puhl. (Champaign, ILL), Ch. 9, p. 183-221.

11. BULLOCK, D.; GROSSBERG, S. (1989) VITE and FLETE: Neural Modules for Trajectory Formation and Postural Control In: W. A Hersheberger (Edhor). Volitional Action. Elsevier Science Publishers B.V. (North-Holland), Ch. 11, p. 253-297.

12. BULLOCK, D ; GROSSBERG, S. (1990) Skill Development and Neural Networks for Position Code Invariance under Speed and Compliance Rescaling. In: H. BLOCH; B.J. BERTENTHAL (Eds). Sensory-Motor Organizations and De\>eiop-ment in Infancy and Early Childhood Kluwer Academic Publishers, p. 1-22.

13. BULLOCK, D , GROSSBERG, S (1990) Spinal Network Computations Enable Independent Control of Muscle Length and Joint Compliance. In: R ECKMILLER (Editor). Advanced Neural Computers. Elsevier Science Publishers B.V. (North-Holland), p. 349-356.

174

14. CARNAHAN, B.; LUTHER, H.A.; WILKES, J.O. (1967) Applied Numerical Methods. New York, N.Y.: John Wiley and Sons.

15. CHEN, F-C (1990) Back-Propagation Neural Networks for Nonlinear Self-Tuning Control IEEE Control Systems Magazine, p. 44-48, April 1990.

16. DELUCA, C. J.; LEFEVER, RS.; MCCUE, M.P.; XENAKIS, A.P. (1982) Controls Scheme Governing Concurrently Active Human Motor Units During Voluntary Contractions J. Physiol., v. 329, p. 129-142.

17 ECKMILLER, R. (1989) Neural Nets for Sensory and Motor Trajectories. IEEE Control Systems Magazine, p. 53-59, April 1989.

18 FRIESEN, W.O.; FRIESEN, JA. (1994) NeuroDynamix - Computer Models for Neurophysiology. New York: Oxford University Press.

19. GALL, F.J.; SPURZHEIM, G. (1810). Anatomie et physiologie du système nerveux en général, et du cerveau en particulier, avec des observations sur la possibilité de reconnoitre plusieurs dispositions intellectuelles et morales de l'homme et des animaux, para la configuration de leurs têtes. Paris: Schoell.

20. GHEZ, C. (1991) 77ie Conti-ol of Movement In: KANDEL, E. R; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. 35, p. 533-547.

21 GOLDIN-MEADOW, S.; MYLANDER, C. (1998) Spontaneous Sign Systems Created by Deaf Children in Two Ccultures. Letter to Nature, v. 391, p. 279, 1 Jan-26 Feb 1998.

22. GROSSBERG, S. (1967). Nonlinear Difference-Differential Equations in Prediction and Learning Theory. Proceedings of the National Academy of Sciences, USA 58, p. 1329-1334.

23 GROSSBERG, S. (1969). Embedding Fields: A Theory of Learning with Physiological Implications. Journal of Mathematical Psychology, v. 6, p.206-239.

24. GUEZ, A.; EILBERT, J.L.; KAM, M. (1988) Neural Network Architecture for Conti-ol IEEE Control Systems Magazine, p. 22-25, April 1988.

25. HANDELMAN, D.A.; LANE, S.H.; GELFAND, J.J. (1990) Integrating Neural Networks and Knowledge-Based Systems for Intelligent Robotic Control IEEE Control Systems Magazine, p. 77-87, April 1990.

26. HEBB, D.O. (1949). The Organization of Behavior New York: Wiley. Parcialmente reimpresso em Anderson e Rosenfeld (1988).

27. HERTZ, J.; KROGH, A.; PALMER, R.G. (1991) Introduction to the Theory of Neural Computation. Lecture Notes Volume I in the Santa Fe Institute Studies in the Sciences of Complexity: Addison-Wesley PubHshing Company.

175

28. HEUSER, JE.; SALPETER, SR. (1979) Organization of AcetylchoHne receptors in Quick-frozen, Deep-etched, and Rotary-replicated Torpedo Membrane J. Cell. Biol., V.82, p. 150-173.

29. HODGKIN, A.L.; HUXLEY, A.F. (1952) A Quantitative Description of Membrane Current and its Application to Conduction and Excitation in Nerve J. Physiol. (Lond.), V. 117, p. 500-544.

30. HOPFIELD, J.J. (1982) Neural Networks and Physical Systems with Emergent Collective Computational Abilhies. Proceedings of the National Academy of Science, USA 79, 2554-2558. Reimpresso em Anderson e Rosenfeld (1988).

31. HUGUENARD, J.; McCORMICK, DA. (1994) Electrophysiology of the Neuron - An Interactive Tutorial New York: Oxford University Press.

32. HUNNS, D.M.; WAINWRIGTH, N. (1991) Software-based Protection for Sizewell B: The Regulator's Perspective. Nuclear Engineering International, p. 38-40, Sept. 1991.

33. JONES, L.K. (1990) Constructive Approximations for Neural Networks by Sigmoidal Functions. Proceedings of the IEEE, v. 78, n. 10, p. 1586-1589, October 1990.

34 KANDEL, E. R. (1989) Genes, Nerve Cells, and the Remembrance of Things Past J. Neuropsychiatry, V. 1, p. 103-125.

35. KANDEL, E. R. (1991a) Brain and Behavior In: KANDEL, E. R ; SCHWARTZ, J. H.; JESSEL, T.M. (Eds.). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. l ,p . 5-17.

36. KANDEL, E. R. (1991b) Cellular Mechanisms of Learning and the Biological Basis of Individuality. In: KANDEL, E. R.; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. 65, p. 1009-1031.

37. KANDEL, E. R. (1991c) Nerve Cells and Behavior. In: KANDEL, E. R; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. 2, p. 18-32.

38 KANDEL, E. R.; SCHWARTZ, J. H. (1982) Molecular Biology of Learning: Modulation of Transmitter Release. Science, 218, p. 433-443.

39. KANDEL, E. R ; SCHWARTZ, J. H. (1991) Directly Gated Transmission at Centi-al Synapses. In: KANDEL, E. R.; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. 11, p. 151-172.

40, KANDEL, E. R.; SIEGELBAUM, S.A.S.; SCHWARTZ, J. H. (1991) Synaptic Transmission. In: KANDEL, E. R.; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science Prentice-Hall International Inc., Ch. 9, p. 121.

176

41. KAWATO, M.; UNO, Y ; ISOBE, M.; SUSUKI, R. (1988) Hierarchical Neural Network Model for Voluntary Movement with Application to Robotics. IEEE Control Systems Magazine, p. 8-16, April 1988.

42. KELLY, J.P; DODD, J. (1991) Anatomical Organization of the Nervous System. In: KANDEL, E. R.; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science Prentice-Hall International Inc., 1991, Ch. 19, p. 273-282.

43. KOHONEN, T. (1974). An Adaptive Associative Memory Principle IEEE Transactions on Computers, C-23, p. 444-445, 1974.

44. KOHONEN, T. (1982). Self-Organized Formation of Topologically Correct Feature Maps Biological Cybernetics, v.43, p. 59-69. Reimpresso em Anderson e Rosenfeld (1988).

45. KOLEN, J.F.; GOEL, A. K. (1991) Leammg in Parallel Distributed Processing Networks: Computational Complexity and Information Content, IEEE Transactions on Systems, Man, and Cybernetics, .v. 21, n. 2, p. 359-367, March/April 1991.

46. KUNG, S-Y.; HWANG, J-N. (1989) Neural Network Architectures for Robotic Applications IEEE Transactions on Robotics and Automation, v. 5, n. 5, p. 641-657, October 1989.

47. KUPERSTEIN, M.; RUBINSTEIN, J. (1989) Implementation of an Adaptive Neural Controller for Sensory-Motor Coordination. IEEE Control Systems Magazine, p. 25-30, April 1989.

48. KUPFERMANN, I. (1991) Learning and Memory. In: KANDEL, E. R ; SCHWARTZ, J. H.; JESSEL, T.M. (Eds). Principles of Neural Science. Prentice-Hall International Inc., 1991, Ch. 64, p. 997-1008.

49. MCCULLOCH, W.S.; PITTS, W. (1943) A Logical Calculus of Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics n. 5, p. 115-133, 1943.

50. MICROSOFT CORPORATION (1995) Fortran PowerStation - Programmer's Guide Doc. No. DD64081-0995.

51. MINSKY, M.L.; PAPERT, S.A. (1969) PERCEPTRONS Cambridge: MIT Press.

52 NATIONAL INSTRUMENTS (1995) Insti-umentation Reference and Catalogue -Test and Measurement Process Monitoring and Control.

53. NATIONAL INSTRUMENTS (1995) LabWindows/CVI - Visual Programing for Instrumentation - Programmer Reference Manual June 1995 Edhion.

54. von NEUMANN, J. (1956) Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components In: C. E. SHANNON, J. McCARTHY (Eds). Automata Studies. Princeton: Princeton University Press, 1956, p. 43-98.

55. NGUYEN, D. H.; WIDROW, B. (1990) Neural Networks for Self-Learning Control Systems IEEE Control Systems Magazine, p. 18-23, April 1990,

177

56. NIEMANN, G. (1950) Maschinenelemente, Springer-Verlag: OHG..

57. PARKER, D. (1982) Learning-logic Invention Report S81-64, File 1, Office of Technology Licensing, Stanford University, Stanford, CA, Oct. 1982.

58. POGGIO, T.; GIROSI, F. (1990) Networks for Approximation and Leammg. Proceedings of the IEEE, v. 78, n. 9, p. 1481-1497, September 1990.

59. PSALTIS, D.; SIDERIS, A., YAMAMURA A.A. (1988) A Multilayered Neural Network Controller IEEE Control Systems Magazine, p. 17-21, April 1988.

60 ROSENBLATT, F. (1959) Two Theorems of Statistical Separability in the Perceptron, In: Mechanization of Thought Processes: Proceedings of a Symposium held at the National Physical Laboratory, Nov. 1958, v. 1, p. 421-456, London: HM Stationery Office.

61. RUMELHART, HINTON; D.E. G.E.; WILLIAMS, R.J. (1985) Learning Internal Representations by Error Propagation. Institute for Cognitive Science, University of CaUfomia at San Diego, La Jolla, CA, Sept. 1985. (ICS Report 8506)

62. SAKMANN, B.; NEHER, E. (eds.) (1983). Single-Channel Recording New York: Plenum Press.

63. SPENCER, W.A.; THOMPSON, R.F.; NEILSON, DR., JR. (1966) Response Decrement of the Flexion Reflex in the Acute Spinal Cat and Transient Restoration by Strong Stimuli L Neurophysiol., v. 29, p. 221-239.

64. STEVENS, F.C. (1994) Cooperativity of Unreliable Neurons. Current Biology, v. 4, n. 3, p. 268-269.

65 VIJUK, R , BRUSCHI, H. (1988) AP600 offers a simpler way to greater safety, ope-rability and maintainability. Nuclear Engineering International, Advanced LWRs, p. 22-28, Nov. 1988.

66. WEISS, P.; HISCOE, H.B. (1948) Experiments on the Mechanism of Nerve Growth. J.Exp. Zool., 107:315-395.

67 WERBOS, P J. (1974) Beyond regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Cambridge, MA: Nov. 1974. Ph.D. dissertation. Committee on Appl. Math., Harvard Univ.

68. WIDROW, B.; HOFF, M.E. (1960) Adaptive Switching Circuits, In 1960 IRE WESCON Convention Record, part 4, p. 96-104, New York: IRE.

69. WIDROW, B.; LEHR, M.A. (1990) 30 Years of Adaptive Neural Networks: Perceptron, Madaline, and Backpropagation. Proceedings of the IEEE, v. 78, n. 9, p. 1415-1442, September 1990.

ipenpelicano.ipen.br/posg30/textocompleto/benedito dias... · 2009. 3. 2. · 2.2 arquiteturas de...

Documents