introdução técnica computacional inspiração na natureza · mais tarde a sua generalização...

Introdução

AInteligênciaComputacionalbusca,atravésdetécnicasinspiradasnaNatureza,

o desenvolvimento de sistemas inteligentes que imitem aspectos do

comportamento humano, tais como: aprendizado, percepção, raciocínio,

evoluçãoeadaptação.

TécnicaComputacional InspiraçãonaNatureza

RedesNeuraisartificiais Neurôniosbiológicos

ComputaçãoEvolucionária Evoluçãobiológica

LógicaFuzzy Processamentolinguístico

SistemasEspecialistas ProcessodeInferência

Océrebrohumano

O sistema nervoso biológico é formado por um conjunto extremamente

complexo de neurônios. O centro do sistema (o cérebro) é representado por

umarededeneurônios (redeneural)querecebe informaçõese tomadecisões,

atravésdereceptoresqueconvertemosestímulosdocorpooudoambienteem

impulsoselétricosquetransmiteminformaçãoparaaredeneural;osatuadores,

porsuavez,convertemimpulsosemrespostasparaasaídadosistema.

Océrebrohumanoéresponsávelpelocontroledasfunçõesedosmovimentosdo

organismo. Ele é composto por aproximadamente 100 bilhões de neurônios.

Cada neurônio está conectado a aproximadamente 100 outros através de

sinapses, formando, juntos, uma grande rede, chamada rede neural biológica.

Esta grande rede proporciona uma fabulosa capacidade de processamento e

armazenamentodeinformação.Osneurôniosestãoconectadosunsaosoutrose

juntos formam uma grande rede, a rede neural. As redes naturais não são

uniformes. Esta grande rede proporciona uma fabulosa capacidade deprocessamentoearmazenamentodeinformação.

Nos neurônios a comunicação é realizada através de impulsos, quando um

impulsoérecebido,oneurôniooprocessa,epassadoumlimitedeação,dispara

umsegundoimpulsoqueproduzumasubstâncianeurotransmissoraoqual flui

do corpo celular para o axônio.Asmais de10 trilhões de sinapses (conexões)

transmitemestímulosatravésdediferentesconcentraçõesdeSódioePotássio,e

osresultadosdestaspodemserestendidosportodoocorpohumano..Elestem

um papel essencial na determinação do funcionamento, comportamento e do

raciocíniodoserhumano.

Todos os estímulos do nosso ambiente causam, nos seres humanos, sensações

como dor e calor. Os sentimentos, pensamentos, programação de respostas

emocionais emotoras, causas de distúrbiosmentais, e qualquer outra ação ou

sensação do ser humano, não podem ser entendidas sem o conhecimento do

processodecomunicaçãoentreosneurônios.

Osprincipaisconstituintesdeumneurôniosão:

• dentritos - responsáveis por receber os estímulos transmitidos pelos

outrosneurônios;

• corpocelular-responsávelporcoletarecombinarinformaçõesvindasde

outrosneurônios;

• axônio-responsávelportransmitirosestímulosparaoutrascélulas;

• contatos sinápticos, ou sinapses, são responsáveis por transmitir as

informaçõesdeumacélulaparaoutra.

Ascélulasnervosasnaturaispossuemterminações(axôniosedentritos),sendo

que substâncias denominadas neurotransmissores participam da transferência

desinaisdenaturezaelétricaentrecélulas.Umimpulsoétransmitidoatravésde

sinapses.Asinapseéumaregiãodecontatomuitopróximoentreaextremidade

doaxôniodeumneurônioeasuperfíciedeoutrascélulas.

Figura1–Estruturadeumneurôniobiológico

Analogamenteaocérebrohumano,asredesneuraisartificiaistêmacapacidade

de interagir com o meio externo e adaptar-se a ele. Essas características

conferem as redes neurais uma importância multidisciplinar, que faz desta

técnica uma ferramenta em diversas áreas do conhecimento tais como:

engenharia,matemática,física,etc.

RedesNeuraisArtificiais

Neurocomputaçãoestudaestasestruturasdeprocessamentoda informaçãode

interesse:asredesneuraisartificiais(RNA).AsRNAconsistemumaabordagem

na solução de problemas, dentro inteligência computacional. Procura-se

construirumsistemacomputacionalquemodeleossistemacerebralnatural,e

de um comportamento inteligente, ou seja, aprendendo novas tarefas, fazendo

generalizações,descobertaseextrapolandooconhecimento. Damesma forma,

os neurônios artificiais poderão se auto-organizar, quando apresentados a

ambientesdiversos(aplicações),criandosuasprópriasrepresentações internas

eatésugerirprevisões.

RNAsãosistemasparalelosedistribuídos,formadosapartirdainterconexãode

vários elementos de processamento (cujo funcionamento é semelhante àquele

dos neurônios do cérebro). Estes sistemas caracterizam-se pelo método de

aprendizagem que se baseia no armazenamento de informação a que são

expostos, a informação armazenada nos pesos das interconexões entre as

unidadesdeprocessamento.

Os primeiros documentos mencionados sobre redes neurais ou

neurocomputação datam de 1943 com McCulloch e Pitts que projetaram a

estrutura que é conhecida como a primeira rede neural. Estes pesquisadores

propuseram um modelo de neurônio como uma unidade de processamento

binária e provaram que esta unidade é capaz de executar muitas operações

lógicas.Estemodelo,apesardemuitosimples, trouxeumagrandecontribuição

para as discussões sobre a construção dos primeiros computadores digitais,

permitindo a criação dos primeiros modelos matemáticos de dispositivos

artificiais que buscavam analogias biológicas (uma máquina baseada ou

inspirada no cérebro humano). Em 1949, Donald O. Hebb apresentou uma

hipótesearespeitodamaneiracomqueaforçadassinapsesnocérebrosealtera

em resposta à experiência. Em particular, ele sugeriu que as conexões entre

célulasquesãoativadasaomesmotempotendemasefortalecer,enquantoque

as outras conexões tendem a se enfraquecer. Esta hipótese passou a influir

decisivamente na evolução da teoria de aprendizagem em RNAs. Hebb foi o

primeiro a propor uma lei de aprendizagem específica para as sinapses dos

neurônios.

Por volta de 1957 Frank Rosenblatt, Charles Wightman e outros.

Rosenblattintroduziuumanovaabordagemparaoproblemadereconhecimento

de padrões como desenvolvimento doPerceptron. Ele tambémpropôs para o

Perceptronumalgoritmoparaoajustedospesos. Devidoàprofundidadedeseus

estudos, suas contribuições técnicas, muitos o veem como o fundador da

neurocomputação. Por volta do mesmo período, Bernard Widrow e alguns

colaboradores,desenvolveramumnovotipodeelementodeprocessamentode

redesneurais chamadodeAdaline (abreviaçãodeAdaptiveLinearElement), e

maistardeasuageneralizaçãomultidimensional,oMadaline(múltiplaAdaline).

Esta rede era equipada com uma nova lei de aprendizado, conhecida como

"RegraDelta",quedepoisfoigeneralizadapararedescommodelosneuraismais

elaborados.

Em 1969, L. M. Minsky e S. A. Papert demonstraram que a rede

perceptron,apesardesercapazdeexecutarasoperaçõesbooleanasANDeOR,

nãoécapazdeexecutaroutrasoperaçõeselementares,comoXOR(ou-exclusivo).

Além disso, esses autores não acreditavam que uma arquitetura adequada em

conjunto com um algoritmo de ajuste dos pesos pudesse ser desenvolvida de

forma a superar esta limitação, o que paralisou as pesquisas na área de redes

neurais por mais de uma década. A partir de 1982, Teuvo Kohonen, Stephen

Grossberg, B. Widrow, entre outros, conseguiram estabelecer um campo

concreto para o renascimento da área, com diversas propostas para o

desenvolvimento e para as aplicações de redes neurais. Fatores como

disponibilidade de computadores com maior capacidade de cálculo,

desenvolvimentodenovosalgoritmosdeaprendizadoemaiorconhecimentoda

estruturadocérebrobiológico,contribuíramparaoressurgimentodefinitivodas

pesquisasemredesneuraise,consequentemente,permitindoasuaaplicaçãoem

sistemas reais. Neste período, JohnHopfield, e efetivamente colocou a área de

redes neurais como uma das prioritárias na obtenção de recursos foi o

desenvolvimentodeummétodoparaajustedeparâmetrosderedesdemúltiplas

camadas, baseado em um algoritmo denominado backpropagation, tornou-se

largamenteconhecidoapósapublicação,em1986,dolivro“ParallelDistributed

Processing”, porJ.L.McclellandeD.E.Rumelhart.

Desde então, várias aplicações tem sido mapeadas através de redes

neurais artificiais, tais como: reconhecimento de padrões, processamento de

imagens,sistemasdecontrole,robóticaeidentificaçãodesistemas,entreoutras.

Algumascaracterísticasimportantesemumaredeneuralartificialsão:

• Robustez:aeliminaçãodealgunsneurôniosnãoafetasubstancialmenteo

seudesempenho.

• Flexibilidade: pode ser ajustada a novos ambientes por meio de um

processo de aprendizagem, sendo capaz de aprender novas ações com

basenainformaçãocontidanosdadosdetreinamento.

• Processamento de informação incerta: informação incompleto (com

ruído)possibilitaobterraciocíniocorreto.

• Paralelismo: um imenso número de neurônios está ativo ao mesmo

tempo. Não existe a restrição de um processador que obrigatoriamente

trabalheumainstruçãoaposoutra.

A estrutura de uma rede neural é paralelamente distribuída, e possui

habilidadedeaprender.Portanto,suautilizaçãoalgunsbenefícios:

• Capacidadederealizarmapeamentosnão-linearesentreentradaesaída;

• Adaptabilidade,medianteaumalgoritmodeaprendizado;

• Tolerânciaàfalhas;

• Uniformidadeeanálise;

• Analogianeurobiológica.

Os neurônios de umaRNA devem estar conectados entre si, são dispostos em

camadas,eosneurôniosdeumamesmacamadanormalmentesecomportamda

mesmamaneira.Adisposiçãodosneurôniosnascamadaseopadrãodeconexão

entreestasdefinemaarquiteturadaRNA.

Umatípicaredeneuraléumconjuntodenósconectadosentresi,cadaconexão

entreosneurôniostemumpesonumérico.

ModeloArtificialdoNeurônio

Basicamente, todosos tiposde redesneuraisapresentamamesmaunidadede

processamento: um neurônio artificial, que simula o comportamento do

neurônio biológico. Esse neurônio artificial possui várias entradas, que

correspondemàsconexõessinápticascomoutrasunidadessimilaresaele,euma

saída, cujo valor depende diretamente da somatória ponderada de todas as

saídasdosoutrosneurôniosaesseconectado.

OmodeloartificialdeneurônioémostradonaFigura2,sendoumageneralização

domodelo deMcCulloch e Pitts (1943). Essemodelo inclui um sinal adicional

bias (b) que favorece ou limita a possibilidade de ativação do neurônio. O

processosinápticoérepresentadopelospesos(ω)queamplificamcadaumdos

sinais recebidos. A chamada função de ativação(f) modela a forma como o

neurôniorespondeaoníveldeexcitação, limitandoedefinindoasaídadarede

neural.

Figura2–Estruturadeumneurônioartificial

Quandoaredeestiveremoperação,ovalorseráaplicadoacadanódeentrada.

Cadanópassa entãoo valordadoàs conexõesque levampara foradela, e em

cadaconexãoovalorémultiplicadopelopesoassociadoaesserespeito.Cadanó

nacamadaseguinteentãorecebeumvalorqueéasomadosvaloresproduzidos

pelasconexõesque levamatéele,eemcadanóumsimplescálculoérealizado

sobre o valor - uma função sigmoide, por exemplo. Este processo é repetido

então comos resultados sendo passados através de camadas subsequentes de

nósatéqueosnósdesaídasãoalcançados.Dadoumconjuntodepadrões(pi)e

desaídasdesejadas,encontraroconjuntodepesosótimoswi

𝑢 = 𝑤!𝑝!

!

!!!

𝑦 = 𝑔(𝑢)

Asequações acimadescrevemocomportamentodoneurônioartificial,ondexi

representaai-ésimaentradadoneurônio,wiéopesoassociadoàentradaxi,né

onúmerodeentradas,g()éafunçãodeativaçãodoneurônioeyéasaídadele.

AfunçãodeativaçãopodeterdiferentesrepresentaçãoOstrêstiposbásicosde

função de ativação são: limiar, linear e sigmóide. A escolha do tipo varia de

acordocomoobjetivodoprojetoouproblemaaserresolvido.

Funçõesdeativação

Uma função de ativação processa o conjunto de entradas recebidas e o

transforma em estado de ativação. Normalmente, o estado de ativação dos

neurôniospodeassumir:

·valoresbinários(0e1);

·valoresbipolares(-1e1);

·valoresreais.

Asfunçõesdeativaçãosãoescolhidasemfunçãodanecessidadedoproblemaem

quearedeestejatrabalhando.Asmaistípicassão:

• Função linear representadapelaequação

𝑔 𝑢 = 𝑢

• Funçãodegrau(hardlimit)representadapelaequação

asaídadoneurônioassumiráovalor1,seoníveldeatividadeinternatotaldo

neurôniofornão-negativo,casocontrário,asaídadoneurônioassumirá0.

• Função degrau bipolar (hard limit-simetric), representada através da

expressão

asaídadoneurônioassumiráovalor1seoníveldeatividadeinternatotaldo

neurôniofornão-negativo;casocontrário,asaídadoneurônioassumirá-1.

• Funçãorampaexpressapelaequação

asaídadoneurôniopodeassumirvalorespositivosenegativosnodomíniode-1

a1,enointervalo{-a,a},asaídaassumeovalordafunçãog(u)=u.

• Funçãosigmóidelogísticaapresentadapelaequação

β é oparâmetroquedefineainclinação(ganho)dafunçãosigmóide.Nessetipo

defunção,asaídadoneurônioassumirávaloresreaisentre0e1.

• Funçãosigmóidetangentehiperbólica,representadapelaequação

asaídadoneurôniopodeassumirvaloresreaisnegativosepositivosnodomínio

de-1a1.

ArquiteturadaRedeNeural

Asexpressõesestrutura,arquiteturaoutopologiadeumaRNA,referem-sea

como os neurônios artificiais são organizados em uma rede. Particularmente,

estes termos apresentam como os nós são conectados e como a informação é

transmitida através da rede. A arquitetura de uma rede neural é formada

conforme a necessidade da aplicação, estando diretamente ligadas com o

algoritmodeaprendizagemusadoparatreinararede.Basicamente,ositensque

compõemaestruturadeumaredeneuralsão,portanto,sujeitoamodificações,

sendoosseguintes(Haykin,2001):

• Camadasintermediárias

• Quantidadedeneurônios

• Funçãodetransferência

• Algoritmodeaprendizado

As redes de alimentação direta (feedforward) têm neurônios agrupados em

camadas.Osinalpercorrearedeemumaúnicadireção,daentradaparaasaída.

Osneurôniosdamesmacamadanãosãoconectados.

Umaredeneuraldevepossuirnomínimoduascamadas,adeentradadedadose

a da saídados resultados. Comoa rede apresentadesempenhomuito limitado

com somente duas camadas, a adição de uma camada intermediária faz-se

necessária.Neste tipodeconfiguração,cadaneurônioestá ligadocomtodosos

outros das camadas vizinhas, mas neurônios da mesma camada não se

comunicam, a comunicação é unidirecional, e apresenta um comportamento

estático.

O termo “camada única” se refere à camada de saída de nós computacionais

(neurônios), veja Figura 3.

Figura3–Rededealimentaçãodiretadecamadaúnica.

Perceptron foi o primeiro modelo de aprendizado supervisionado, foi

desenvolvidoporRosenblattwm1958.Podemser treinadosporumalgoritmo

de aprendizagem simples, chamado geralmente de regra-delta. Esse algoritmo

calculaoserrosentrea saídadosdadoscalculadosea saídadesejadaeutiliza

isso para ajustar os pesos, assim executando uma função de descida do

gradiente. Os perceptrons de uma camada são capazes de aprender somente

sobre problemas linearmente separáveis (que podem ser separados por uma

retaemumhiperplano).

Esse tipo de arquitetura se distingue pela presença de uma oumais camadas

ocultas (ou intermediárias), cujos nós computacionais são chamados de

neurôniosocultosouunidadesocultas.Afunçãodosneurôniosocultoséintervir

entreaentradaexternaeasaídadarededeumamaneiraútil.Adicionando-se

umaoumaiscamadasocultas, tornamosaredecapazdeextrairestatísticasde

ordemelevada.AFigura4mostraumexemplodeumaRNAde2camadascom4

entradase2saídas.

Figura4–Rededealimentaçãodiretademúltiplascamadas.

Perceptronmulticamadas é uma RNA semelhante à perceptrons com mais de

umacamadadeneurôniosemalimentaçãodireta.Estetipoderedeécomposta

porcamadasdeneurôniosligadasentresiporsinapsescompesos, istoé cada

neurônioemumacamadatemconexõesdiretasaneurôniosdapróximacamada,

contêmpelomenosumacamadasintermediária.

Nas redes com realimentação ou recorrentes (recurrent), a saída de alguns

neurôniosalimentamneurôniosdamesmacamada (inclusiveopróprio)oude

camadas anteriores. O sinal percorre a rede em duas direções, tem memória

dinâmica e capacidade de representar estados em sistemas dinâmicos. Elas se

distinguem das redes alimentadas adiante por terem pelo menos um laço de

realimentação,comapresençaounãodeneurôniosocultos.Apresençadelaços

derealimentaçãotemumimpactoprofundonacapacidadedeaprendizagemda

redeenoseudesempenho.

Figura5–Rededealimentaçãodiretarecorrente

Redes de comportamento dinâmico e fluxo de dados multidirecional, não

possuemcamadasbemdistintas.Comissoseufuncionamentoémaiscomplexo.

Seuusoédirecionadoàproblemasdeminimizaçãoeotimização.

Aprendizado

Amaneirapelaqualosneurôniosdeumaredeneuralestãoestruturadosestá

intimamente ligada ao algoritmo de aprendizagem a ser usado para treinar a

rede. Os pesos das interconexões são determinados através da aprendizagem

(treinamento), que envolve a exposição da rede aos dados disponíveis. A

aprendizagem é um processo onde os parâmetros livres de uma RNA são

adaptados, atravésdoprocessode estímulopelo ambientedoqual a redeestá

contida.Aredeseespecializanospadrõesintrínsecosexistentesnosdados.

Entretanto, modelos diferentes de redes exigem abordagens de

aprendizagem distintas. Duas abordagens mais comuns utilizadas são a

aprendizagemsupervisionadaeaaprendizagemnão-supervisionada,adiferença

fundamental é a existência do agente externo (supervisor) que controla o

processodeaprendizagem

No aprendizado supervisionado, o instrutor confere o quanto a rede esta

próximadeumasoluçãoaceitável, adaptandona concepçãodo treinamentoos

pesosentreosneurônios,demodoaproverumamenordiferençaentreassaídas

calculadas e desejadas. Os dados históricos são apresentados na entrada e na

saída do sistema, que formará um modelo associativo entre as entradas e as

saídas.

No aprendizadonãosupervisionado, inicialmente, as saídas da redenão são

conhecidas,funcionandodemodoadistinguirclassesdepadrõesdiferentesdos

dados apresentados à rede, através de algoritmos de aprendizado baseados

geralmente em conceitos de vizinhança e agrupamento. A rede é ajustada de

acordocomregularidadesestatísticasdosdadosdeentrada,detalformaqueela

cria categorias, otimizando em relação aos parâmetros livres da rede uma

medidadaquantidadequeéindependentedatarefaaserexecutadas.Asredes

simplesmenteutilizam-sedeseusprópriosmétodosparaestabeleceradiferença

entreosdiversospadrõesquepodemexistirnosdadosapresentados.

As RNAs de Kohonen são um tipo de rede neural de aprendizado não

supervisionado,queidentificameagrupamospadrõesdeentradaapartirdesua

proximidadegeométrica,ouseja,oquãopróximosestãoospadrõesdeentrada

dos pesos dos neurônios. Nesta rede os neurônios disputam entre si pelo

treinamento de suas sinapses, apresentando desta forma um aprendizado

competitivo.

As redes perceptron de múltiplas camadas têm aprendizado supervisionado,

geralmente feito através do algoritmo de retro-propagação do erro ou

backpropagation.

Em1986,Rumelhart,HintoneWilliams,formalizaramummétodoquepermitea

associaçãoentreospadrõesdeentradaeseualvocorrespondente.Estemétodo

conhecido como Backpropagation é baseado na generalização da regra delta.

Basicamente,consistenamodificaçãodosvaloresdospesospararepresentaros

padrõescontidosnoconjuntodetreinamento.Amudançaéfeitaconsiderandoa

minimizaçãodoerromédioquadrático,quantificadopeladiferençaentreasaída

calculadaeasaídadesejadaatravésdopadrãodeentrada.

OalgoritmoBackpropagationprocuraachar iterativamenteamínimadiferença

entreassaídasdesejadaseassaídasobtidaspelaredeneural,comomínimode

erro. Dessa forma, ajustando os pesos entre as camadas através da retro

propagaçãodoerroencontradoemcadaiteração.

Essa regrae um dos tipos de treinamento supervisionado, onde a redee

analisada em dois casos: na sua propagação (camada por camada) e

principalmente, na sua retro-propagação (analise contraria a propagação). No

primeiro,ospesossinápticosωji(pesosinápticoconectandoasaídadoneurônio

ia entrada do neurônio j ) da rede são todos fixos. No segundo, os pesos são

todosajustados.

Basicamente, um padrão de entrada é aplicado como um estimulo aos

elementos da primeira camada da rede, que é propagado por cada uma das

outrascamadasatéqueasaídasejageradaa.Elaéentãocomparadacomasaída

desejadaad(gerandoumsinaldeerroeparacadaelementodesaída).Osinalde

erroéentãoretro-propagadodacamadadesaídaparacadaelementodacamada

intermediariaanteriorquecontribuidiretamenteparaaformaçãodasaída.

Entretanto, cada elemento da camada intermediaria recebe apenas uma

porção do sinal de erro total, proporcional apenas a` contribuição relativa de

cada elementona formaçãoda saída original. Este processo se repete, camada

porcamada,atéquecadaelementodarederecebaumsinaldeerroquedescreva

suacontribuiçãorelativaparaoerrototal.Combasenosinaldeerrorecebido,os

pesossinápticossãoatualizados(deacordocomumaregradecorreçãodeerro)

para cada elemento de modo a fazer a rede convergir para o valor de saída

desejadaad.AFigura6ilustraoalgoritmoBackpropagation.

Figura6–Algoritmoretro-propagação.

Asredesneuraisartificiais,sãomodelosquetêmtomadoaatençãodeinúmeros

pesquisadores, nasmais variadas áreas de aplicação, devido às características

que lhes são inerentes, como por exemplo, paralelismo, distribuição da

informação e tolerância a falhas, entre outras. Estas características tornam os

sistemas de redes neurais velozes e apropriados para tomada de decisão com

dadosdenaturezaincertaouincompletos.

Os sistemas neurais propostos, além de estabelecer modelos de padrão de

consumo, também poderão ser utilizados para prever comportamentos de

demandas com algum prazo de antecedência, permitindo um planejamento

globalizadoouespecíficoquemelhoreeficiênciadosistemacomoumtodo.

Figura 2. Exemplos de aplicação de redes neurais: classificação de imagens de

satéliteeproblemainversoemtransferênciadecalor;previsãodeenchentesem

rios.

0 5 10 15 20 250

0.5

1

1.5

x1

x2

xn

W1,B1 W2,B2

Desenvolvimentodeaplicaçõesutilizandoredesneurais

• Coletadedadoseseparaçãoemconjuntos

Os dois primeiros passos do processo de desenvolvimento de redes

neurais artificiais são a coleta de dados relativos ao problema e a sua

separaçãoemumconjuntodetreinamentoeumconjuntodetestes.Esta

tarefa requer uma análise cuidadosa sobre o problema para erros nos

dados. Alémdisso, os dados coletados devem ser significativos e cobrir

amplamente o domínio do problema, além das exceções e as condições

noslimitesdodomíniodoproblema.

Osdadoscoletadosdevemserseparadosemduascategorias:

.dadosdetreinamento-utilizadosparaotreinamentodarede;

. dados de teste - utilizados para verificar o desempenho no

referente às condições reais de utilização e a capacidade de

generalizaçãodarede.

Depois de determinados estes conjuntos, eles são geralmente colocados

emordemaleatóriaparaprevençãodetendênciasassociadasàordemde

apresentação dos dados. Além disso, pode ser necessário pré-processar

estes dados, atravésdenormalizações, escalonamentos e conversõesde

formatoparatorná-losmaisapropriadosàsuautilizaçãonarede.Pode-se

usar também uma subdivisão do conjunto de treinamento, criando um

conjunto de validação, para verificar a eficiência da rede quanto a sua

capacidade de generalização durante o treinamento, e podendo ser

empregadocomocritériodeparadadotreinamento.

• Configuraçãodarede

O terceiro passo é a definição da configuração da rede, que pode ser

divididoemtrêsetapas:

1. Seleçãodoparadigmaneuralapropriadoàaplicação.

2. Determinação da topologia da rede a ser utilizada - o número de

camadas,onúmerodeunidadesemcadacamada,etc.

Aespecificaçãodoproblemaaserresolvidoeescolhadaarquiteturade

rede mais apropriada. No problema de ajuste, normalmente são

empregadasredescomduasoutrêscamadasdeneurônios,asprimeiras

com funções de transferência sigmoidais e a última com função de

transferência linear. O número de neurônios em cada camada depende

fortementedoproblemaaserresolvido.

3. Determinação de parâmetros do algoritmo de treinamento e

funçõesdeativação.Estepassotemumgrandeimpactonaperformance

dosistemaresultante.

Existemmetodologias,"dicas"e"truques"ouestratégiasdealgoritmosna

conduçãodestastarefas.Normalmenteestasescolhassãofeitasdeforma

empírica.

Uma estratégia de configuração automática para RNA está sendo

desenvolvida no LAC/INPE, utilizando uma meta-heurística chamada

“MultipleParticleCollisionAlgorithm”(MPCA),quecalculaatopologiada

rede comoumproblemadeotimização.OalgoritmodeMPCAminimiza

umafunçãoobjetivocomdoistermos:

umtermodepenalidadeusadoparaavaliaracomplexidadedeumanova

topologia da rede e outro termo que é a diferença do erro quadrático

entreassaídascalculadapelaredeepelasaídadesejadadoprocessode

aprendizagem(Etrain)eoerroquadráticodegeneralização(Eactiv). MPCA

é uma algoritmo que npartículas para compartilhas as informações. A

soluçãoabsorvidaseapartículaforamelhorsolução.

Fobj = penalty ∗(ρ1 *Etrain + ρ2 ∗Eactiv )

ρ1 + ρ2

• Treinamentodarede.

Nesta fase, seguindo o algoritmo de treinamento escolhido, serão

ajustados os pesos das conexões. É importante considerar, nesta fase,

algunsaspectostaiscomoainicializaçãodarede,omododetreinamento

eotempodetreinamento.

Umaboaescolhadosvalores iniciaisdospesosdaredepodediminuiro

tempo necessário para o treinamento. Normalmente, os valores iniciais

dos pesos da rede são números aleatórios uniformemente distribuídos,

em um intervalo definido. Quanto ao tempo de treinamento, vários

fatorespodem influenciarasuaduração,porémsempreseránecessário

utilizar algum critério de parada. O critério de parada do algoritmo

backpropagation, egeralmenteéutilizadoumnúmeromáximodeciclos

ouépocasmas,devemserconsideradosataxadeerromédioporciclo,ea

capacidade de generalização da rede. Especificação do critério de

convergência (precisão para a convergência). A rigidez desse critério

dependedaanálisecuidadosadoproblemaedosdados;

Umaveztreinada,aredeéutilizadaparareprodução(previsão)dedados

desaídacorrespondentesanovosdadosdeentrada. Essaetapaéadouso

efetivo da correlação matemática para estimar novos dados de saída

correspondentesanovasentradas.

• Testedarede

Durante esta fase o conjunto de teste é utilizado para determinar a

performancedaredecomdadosquenãoforampreviamenteutilizados.A

performance da rede, medida nesta fase, é uma boa indicação de sua

performancereal.

• Generalização

Finalmente,comaredetreinadaeavaliada,elapodeserintegradaemum

sistema do ambiente operacional da aplicação. Paramaior eficiência da

solução, este sistema deverá conter facilidades de utilização como

interface conveniente e facilidades de aquisição de dados através de

planilhas eletrônicas, interfaces com unidades de processamento de

sinais,ouarquivospadronizados.Umaboadocumentaçãodosistemaeo

treinamentodeusuáriossãonecessáriosparaosucessodomesmo.

Alémdisso,osistemadeveperiodicamentemonitorarsuaperformanceefazera

manutenção da rede quando for necessário ou indicar aos projetistas a

necessidade de retreinamento, ou seja, sempre que novos dados estejam

disponíveis, o sistema nervoso pode ser submetido a um reaprendizado. Isso

correspondeaumreajustedoscaminhosdapropagaçãodossinaisatravésdos

neurônios. Em regressão estatística, essa etapa corresponde a reestimação de

parâmetros para nova massa de dados. Com redes neurais, o reaprendizado

corresponde a novos treinamentos da rede, incluindo- se os novos dados

experimentais.

Um modelo de rede neural tem muitos neurônios conectados por pesos com

capacidade de adaptação que que podem ser arranjados em uma estrutura

paralela. Por causadesteparalelismo, a falhade algunsneurôniosnão causam

efeitossignificantesparaaperformancedetodoosistema,oqueéchamadode

tolerânciaafalhas.

A principal força na estrutura de redes neurais reside em sua habilidades de

adaptação e aprendizagem. A habilidade de adaptação e aprendizagem pelo

ambiente significa que modelos de redes neurais podem lidar com dados

imprecisosesituaçõesnãototalmentedefinidas.Umaredetreinadademaneira

razoável temahabilidadedegeneralizarquandoéapresentadaàentradasque

nãoestãopresentesemdadosjáconhecidosporela.

A característicamais significante de redes neurais está em sua habilidade de

aproximar qualquer função continua não linear de um grau de correção

desejado. Esta habilidade das redes neurais as tem tornado útil paramodelar

sistemasnãolinearesnacombinaçãodecontroladoresnãolineares.

Comoavançoemtecnologiasdehardware,existemcomponentescomfunções

voltadasásistemascomimplementaçõesvoltadaspararedesneurais,oquetraz

umavelocidadeadicionalàcomputaçãoneural.

ReferênciasBibliográficas

http://www.lac.inpe.br/~demisio/cap351/modulo1.pdf

BARRETO,GUILHERMEDEALENCAR.Perceptonmulticamadaseoalgoritmode

retropropagação do erro. Publicação interna: Programa de pós-graduação em

engenhariadeteleinformática.Fortaleza:UFC,2007.

BRAGA,A.;LUDERMIR,T.B.;CARVALHO,A.C.P.L.F.Redesneurais

artificiais: teoria e aplicações. Rio de Janeiro: Livros Técnicos e Científicos

EditoraS.A.,2000.101

HAYKINS(1999)NeuralNetworks:AComprehensiveFoundation.Prentice-Hall

Inc.,NewYork,842p.

HEBB,D.O.TheOrganizationofBehavior::Aneuropsychologicaltheory.

NewYork:Wiley,1949.ISBN978-0805843002.95

HOPFIELD,J.Neuralnetworksandphysicalsystemswithemergentcollective

computationalabilities.In:NATIONALACADEMYOFSCIENCESOFTHE

U.S.A.Proceedings...[S.l.],1982.p.2554{2558.90

KOHONEN,T.Self{organizingformationoftopologicallycorrectfeaturemaps.

BiologicalCybernectics,v.43(1),p.59{69,1982.95

MCCULLOCH,W.;PITTS,W.Alogicalcalculusoftheideasimmanentin

nervousactivity.BulletinofMathematicalBiophisics,v.5,p.115{133,1943.

85,90

RUMEHART, D. E. AND MCCLELLAND(1986) Parallel Distributed Processing

ExplorationsIntheMicrostructureofCognition,MITPress.

RUMELHART,D.;HINTON,G.;WILLIAMS,R.Learninginternal

representationsbyerrorpropagation.Cambridge,MA:MITPress,1986.

318-62p.94,98

introdução técnica computacional inspiração na natureza · mais tarde a sua generalização...

Documents