introdução técnica computacional inspiração na natureza · mais tarde a sua generalização...
TRANSCRIPT
Introdução
AInteligênciaComputacionalbusca,atravésdetécnicasinspiradasnaNatureza,
o desenvolvimento de sistemas inteligentes que imitem aspectos do
comportamento humano, tais como: aprendizado, percepção, raciocínio,
evoluçãoeadaptação.
TécnicaComputacional InspiraçãonaNatureza
RedesNeuraisartificiais Neurôniosbiológicos
ComputaçãoEvolucionária Evoluçãobiológica
LógicaFuzzy Processamentolinguístico
SistemasEspecialistas ProcessodeInferência
Océrebrohumano
O sistema nervoso biológico é formado por um conjunto extremamente
complexo de neurônios. O centro do sistema (o cérebro) é representado por
umarededeneurônios (redeneural)querecebe informaçõese tomadecisões,
atravésdereceptoresqueconvertemosestímulosdocorpooudoambienteem
impulsoselétricosquetransmiteminformaçãoparaaredeneural;osatuadores,
porsuavez,convertemimpulsosemrespostasparaasaídadosistema.
Océrebrohumanoéresponsávelpelocontroledasfunçõesedosmovimentosdo
organismo. Ele é composto por aproximadamente 100 bilhões de neurônios.
Cada neurônio está conectado a aproximadamente 100 outros através de
sinapses, formando, juntos, uma grande rede, chamada rede neural biológica.
Esta grande rede proporciona uma fabulosa capacidade de processamento e
armazenamentodeinformação.Osneurôniosestãoconectadosunsaosoutrose
juntos formam uma grande rede, a rede neural. As redes naturais não são
uniformes. Esta grande rede proporciona uma fabulosa capacidade deprocessamentoearmazenamentodeinformação.
Nos neurônios a comunicação é realizada através de impulsos, quando um
impulsoérecebido,oneurôniooprocessa,epassadoumlimitedeação,dispara
umsegundoimpulsoqueproduzumasubstâncianeurotransmissoraoqual flui
do corpo celular para o axônio.Asmais de10 trilhões de sinapses (conexões)
transmitemestímulosatravésdediferentesconcentraçõesdeSódioePotássio,e
osresultadosdestaspodemserestendidosportodoocorpohumano..Elestem
um papel essencial na determinação do funcionamento, comportamento e do
raciocíniodoserhumano.
Todos os estímulos do nosso ambiente causam, nos seres humanos, sensações
como dor e calor. Os sentimentos, pensamentos, programação de respostas
emocionais emotoras, causas de distúrbiosmentais, e qualquer outra ação ou
sensação do ser humano, não podem ser entendidas sem o conhecimento do
processodecomunicaçãoentreosneurônios.
Osprincipaisconstituintesdeumneurôniosão:
• dentritos - responsáveis por receber os estímulos transmitidos pelos
outrosneurônios;
• corpocelular-responsávelporcoletarecombinarinformaçõesvindasde
outrosneurônios;
• axônio-responsávelportransmitirosestímulosparaoutrascélulas;
• contatos sinápticos, ou sinapses, são responsáveis por transmitir as
informaçõesdeumacélulaparaoutra.
Ascélulasnervosasnaturaispossuemterminações(axôniosedentritos),sendo
que substâncias denominadas neurotransmissores participam da transferência
desinaisdenaturezaelétricaentrecélulas.Umimpulsoétransmitidoatravésde
sinapses.Asinapseéumaregiãodecontatomuitopróximoentreaextremidade
doaxôniodeumneurônioeasuperfíciedeoutrascélulas.
Figura1–Estruturadeumneurôniobiológico
Analogamenteaocérebrohumano,asredesneuraisartificiaistêmacapacidade
de interagir com o meio externo e adaptar-se a ele. Essas características
conferem as redes neurais uma importância multidisciplinar, que faz desta
técnica uma ferramenta em diversas áreas do conhecimento tais como:
engenharia,matemática,física,etc.
RedesNeuraisArtificiais
Neurocomputaçãoestudaestasestruturasdeprocessamentoda informaçãode
interesse:asredesneuraisartificiais(RNA).AsRNAconsistemumaabordagem
na solução de problemas, dentro inteligência computacional. Procura-se
construirumsistemacomputacionalquemodeleossistemacerebralnatural,e
de um comportamento inteligente, ou seja, aprendendo novas tarefas, fazendo
generalizações,descobertaseextrapolandooconhecimento. Damesma forma,
os neurônios artificiais poderão se auto-organizar, quando apresentados a
ambientesdiversos(aplicações),criandosuasprópriasrepresentações internas
eatésugerirprevisões.
RNAsãosistemasparalelosedistribuídos,formadosapartirdainterconexãode
vários elementos de processamento (cujo funcionamento é semelhante àquele
dos neurônios do cérebro). Estes sistemas caracterizam-se pelo método de
aprendizagem que se baseia no armazenamento de informação a que são
expostos, a informação armazenada nos pesos das interconexões entre as
unidadesdeprocessamento.
Os primeiros documentos mencionados sobre redes neurais ou
neurocomputação datam de 1943 com McCulloch e Pitts que projetaram a
estrutura que é conhecida como a primeira rede neural. Estes pesquisadores
propuseram um modelo de neurônio como uma unidade de processamento
binária e provaram que esta unidade é capaz de executar muitas operações
lógicas.Estemodelo,apesardemuitosimples, trouxeumagrandecontribuição
para as discussões sobre a construção dos primeiros computadores digitais,
permitindo a criação dos primeiros modelos matemáticos de dispositivos
artificiais que buscavam analogias biológicas (uma máquina baseada ou
inspirada no cérebro humano). Em 1949, Donald O. Hebb apresentou uma
hipótesearespeitodamaneiracomqueaforçadassinapsesnocérebrosealtera
em resposta à experiência. Em particular, ele sugeriu que as conexões entre
célulasquesãoativadasaomesmotempotendemasefortalecer,enquantoque
as outras conexões tendem a se enfraquecer. Esta hipótese passou a influir
decisivamente na evolução da teoria de aprendizagem em RNAs. Hebb foi o
primeiro a propor uma lei de aprendizagem específica para as sinapses dos
neurônios.
Por volta de 1957 Frank Rosenblatt, Charles Wightman e outros.
Rosenblattintroduziuumanovaabordagemparaoproblemadereconhecimento
de padrões como desenvolvimento doPerceptron. Ele tambémpropôs para o
Perceptronumalgoritmoparaoajustedospesos. Devidoàprofundidadedeseus
estudos, suas contribuições técnicas, muitos o veem como o fundador da
neurocomputação. Por volta do mesmo período, Bernard Widrow e alguns
colaboradores,desenvolveramumnovotipodeelementodeprocessamentode
redesneurais chamadodeAdaline (abreviaçãodeAdaptiveLinearElement), e
maistardeasuageneralizaçãomultidimensional,oMadaline(múltiplaAdaline).
Esta rede era equipada com uma nova lei de aprendizado, conhecida como
"RegraDelta",quedepoisfoigeneralizadapararedescommodelosneuraismais
elaborados.
Em 1969, L. M. Minsky e S. A. Papert demonstraram que a rede
perceptron,apesardesercapazdeexecutarasoperaçõesbooleanasANDeOR,
nãoécapazdeexecutaroutrasoperaçõeselementares,comoXOR(ou-exclusivo).
Além disso, esses autores não acreditavam que uma arquitetura adequada em
conjunto com um algoritmo de ajuste dos pesos pudesse ser desenvolvida de
forma a superar esta limitação, o que paralisou as pesquisas na área de redes
neurais por mais de uma década. A partir de 1982, Teuvo Kohonen, Stephen
Grossberg, B. Widrow, entre outros, conseguiram estabelecer um campo
concreto para o renascimento da área, com diversas propostas para o
desenvolvimento e para as aplicações de redes neurais. Fatores como
disponibilidade de computadores com maior capacidade de cálculo,
desenvolvimentodenovosalgoritmosdeaprendizadoemaiorconhecimentoda
estruturadocérebrobiológico,contribuíramparaoressurgimentodefinitivodas
pesquisasemredesneuraise,consequentemente,permitindoasuaaplicaçãoem
sistemas reais. Neste período, JohnHopfield, e efetivamente colocou a área de
redes neurais como uma das prioritárias na obtenção de recursos foi o
desenvolvimentodeummétodoparaajustedeparâmetrosderedesdemúltiplas
camadas, baseado em um algoritmo denominado backpropagation, tornou-se
largamenteconhecidoapósapublicação,em1986,dolivro“ParallelDistributed
Processing”, porJ.L.McclellandeD.E.Rumelhart.
Desde então, várias aplicações tem sido mapeadas através de redes
neurais artificiais, tais como: reconhecimento de padrões, processamento de
imagens,sistemasdecontrole,robóticaeidentificaçãodesistemas,entreoutras.
Algumascaracterísticasimportantesemumaredeneuralartificialsão:
• Robustez:aeliminaçãodealgunsneurôniosnãoafetasubstancialmenteo
seudesempenho.
• Flexibilidade: pode ser ajustada a novos ambientes por meio de um
processo de aprendizagem, sendo capaz de aprender novas ações com
basenainformaçãocontidanosdadosdetreinamento.
• Processamento de informação incerta: informação incompleto (com
ruído)possibilitaobterraciocíniocorreto.
• Paralelismo: um imenso número de neurônios está ativo ao mesmo
tempo. Não existe a restrição de um processador que obrigatoriamente
trabalheumainstruçãoaposoutra.
A estrutura de uma rede neural é paralelamente distribuída, e possui
habilidadedeaprender.Portanto,suautilizaçãoalgunsbenefícios:
• Capacidadederealizarmapeamentosnão-linearesentreentradaesaída;
• Adaptabilidade,medianteaumalgoritmodeaprendizado;
• Tolerânciaàfalhas;
• Uniformidadeeanálise;
• Analogianeurobiológica.
Os neurônios de umaRNA devem estar conectados entre si, são dispostos em
camadas,eosneurôniosdeumamesmacamadanormalmentesecomportamda
mesmamaneira.Adisposiçãodosneurôniosnascamadaseopadrãodeconexão
entreestasdefinemaarquiteturadaRNA.
Umatípicaredeneuraléumconjuntodenósconectadosentresi,cadaconexão
entreosneurôniostemumpesonumérico.
ModeloArtificialdoNeurônio
Basicamente, todosos tiposde redesneuraisapresentamamesmaunidadede
processamento: um neurônio artificial, que simula o comportamento do
neurônio biológico. Esse neurônio artificial possui várias entradas, que
correspondemàsconexõessinápticascomoutrasunidadessimilaresaele,euma
saída, cujo valor depende diretamente da somatória ponderada de todas as
saídasdosoutrosneurôniosaesseconectado.
OmodeloartificialdeneurônioémostradonaFigura2,sendoumageneralização
domodelo deMcCulloch e Pitts (1943). Essemodelo inclui um sinal adicional
bias (b) que favorece ou limita a possibilidade de ativação do neurônio. O
processosinápticoérepresentadopelospesos(ω)queamplificamcadaumdos
sinais recebidos. A chamada função de ativação(f) modela a forma como o
neurôniorespondeaoníveldeexcitação, limitandoedefinindoasaídadarede
neural.
Figura2–Estruturadeumneurônioartificial
Quandoaredeestiveremoperação,ovalorseráaplicadoacadanódeentrada.
Cadanópassa entãoo valordadoàs conexõesque levampara foradela, e em
cadaconexãoovalorémultiplicadopelopesoassociadoaesserespeito.Cadanó
nacamadaseguinteentãorecebeumvalorqueéasomadosvaloresproduzidos
pelasconexõesque levamatéele,eemcadanóumsimplescálculoérealizado
sobre o valor - uma função sigmoide, por exemplo. Este processo é repetido
então comos resultados sendo passados através de camadas subsequentes de
nósatéqueosnósdesaídasãoalcançados.Dadoumconjuntodepadrões(pi)e
desaídasdesejadas,encontraroconjuntodepesosótimoswi
𝑢 = 𝑤!𝑝!
!
!!!
𝑦 = 𝑔(𝑢)
Asequações acimadescrevemocomportamentodoneurônioartificial,ondexi
representaai-ésimaentradadoneurônio,wiéopesoassociadoàentradaxi,né
onúmerodeentradas,g()éafunçãodeativaçãodoneurônioeyéasaídadele.
AfunçãodeativaçãopodeterdiferentesrepresentaçãoOstrêstiposbásicosde
função de ativação são: limiar, linear e sigmóide. A escolha do tipo varia de
acordocomoobjetivodoprojetoouproblemaaserresolvido.
Funçõesdeativação
Uma função de ativação processa o conjunto de entradas recebidas e o
transforma em estado de ativação. Normalmente, o estado de ativação dos
neurôniospodeassumir:
·valoresbinários(0e1);
·valoresbipolares(-1e1);
·valoresreais.
Asfunçõesdeativaçãosãoescolhidasemfunçãodanecessidadedoproblemaem
quearedeestejatrabalhando.Asmaistípicassão:
• Função linear representadapelaequação
𝑔 𝑢 = 𝑢
• Funçãodegrau(hardlimit)representadapelaequação
asaídadoneurônioassumiráovalor1,seoníveldeatividadeinternatotaldo
neurôniofornão-negativo,casocontrário,asaídadoneurônioassumirá0.
• Função degrau bipolar (hard limit-simetric), representada através da
expressão
asaídadoneurônioassumiráovalor1seoníveldeatividadeinternatotaldo
neurôniofornão-negativo;casocontrário,asaídadoneurônioassumirá-1.
• Funçãorampaexpressapelaequação
asaídadoneurôniopodeassumirvalorespositivosenegativosnodomíniode-1
a1,enointervalo{-a,a},asaídaassumeovalordafunçãog(u)=u.
• Funçãosigmóidelogísticaapresentadapelaequação
β é oparâmetroquedefineainclinação(ganho)dafunçãosigmóide.Nessetipo
defunção,asaídadoneurônioassumirávaloresreaisentre0e1.
• Funçãosigmóidetangentehiperbólica,representadapelaequação
asaídadoneurôniopodeassumirvaloresreaisnegativosepositivosnodomínio
de-1a1.
ArquiteturadaRedeNeural
Asexpressõesestrutura,arquiteturaoutopologiadeumaRNA,referem-sea
como os neurônios artificiais são organizados em uma rede. Particularmente,
estes termos apresentam como os nós são conectados e como a informação é
transmitida através da rede. A arquitetura de uma rede neural é formada
conforme a necessidade da aplicação, estando diretamente ligadas com o
algoritmodeaprendizagemusadoparatreinararede.Basicamente,ositensque
compõemaestruturadeumaredeneuralsão,portanto,sujeitoamodificações,
sendoosseguintes(Haykin,2001):
• Camadasintermediárias
• Quantidadedeneurônios
• Funçãodetransferência
• Algoritmodeaprendizado
As redes de alimentação direta (feedforward) têm neurônios agrupados em
camadas.Osinalpercorrearedeemumaúnicadireção,daentradaparaasaída.
Osneurôniosdamesmacamadanãosãoconectados.
Umaredeneuraldevepossuirnomínimoduascamadas,adeentradadedadose
a da saídados resultados. Comoa rede apresentadesempenhomuito limitado
com somente duas camadas, a adição de uma camada intermediária faz-se
necessária.Neste tipodeconfiguração,cadaneurônioestá ligadocomtodosos
outros das camadas vizinhas, mas neurônios da mesma camada não se
comunicam, a comunicação é unidirecional, e apresenta um comportamento
estático.
O termo “camada única” se refere à camada de saída de nós computacionais
(neurônios), veja Figura 3.
Figura3–Rededealimentaçãodiretadecamadaúnica.
Perceptron foi o primeiro modelo de aprendizado supervisionado, foi
desenvolvidoporRosenblattwm1958.Podemser treinadosporumalgoritmo
de aprendizagem simples, chamado geralmente de regra-delta. Esse algoritmo
calculaoserrosentrea saídadosdadoscalculadosea saídadesejadaeutiliza
isso para ajustar os pesos, assim executando uma função de descida do
gradiente. Os perceptrons de uma camada são capazes de aprender somente
sobre problemas linearmente separáveis (que podem ser separados por uma
retaemumhiperplano).
Esse tipo de arquitetura se distingue pela presença de uma oumais camadas
ocultas (ou intermediárias), cujos nós computacionais são chamados de
neurôniosocultosouunidadesocultas.Afunçãodosneurôniosocultoséintervir
entreaentradaexternaeasaídadarededeumamaneiraútil.Adicionando-se
umaoumaiscamadasocultas, tornamosaredecapazdeextrairestatísticasde
ordemelevada.AFigura4mostraumexemplodeumaRNAde2camadascom4
entradase2saídas.
Figura4–Rededealimentaçãodiretademúltiplascamadas.
Perceptronmulticamadas é uma RNA semelhante à perceptrons com mais de
umacamadadeneurôniosemalimentaçãodireta.Estetipoderedeécomposta
porcamadasdeneurôniosligadasentresiporsinapsescompesos, istoé cada
neurônioemumacamadatemconexõesdiretasaneurôniosdapróximacamada,
contêmpelomenosumacamadasintermediária.
Nas redes com realimentação ou recorrentes (recurrent), a saída de alguns
neurôniosalimentamneurôniosdamesmacamada (inclusiveopróprio)oude
camadas anteriores. O sinal percorre a rede em duas direções, tem memória
dinâmica e capacidade de representar estados em sistemas dinâmicos. Elas se
distinguem das redes alimentadas adiante por terem pelo menos um laço de
realimentação,comapresençaounãodeneurôniosocultos.Apresençadelaços
derealimentaçãotemumimpactoprofundonacapacidadedeaprendizagemda
redeenoseudesempenho.
Figura5–Rededealimentaçãodiretarecorrente
Redes de comportamento dinâmico e fluxo de dados multidirecional, não
possuemcamadasbemdistintas.Comissoseufuncionamentoémaiscomplexo.
Seuusoédirecionadoàproblemasdeminimizaçãoeotimização.
Aprendizado
Amaneirapelaqualosneurôniosdeumaredeneuralestãoestruturadosestá
intimamente ligada ao algoritmo de aprendizagem a ser usado para treinar a
rede. Os pesos das interconexões são determinados através da aprendizagem
(treinamento), que envolve a exposição da rede aos dados disponíveis. A
aprendizagem é um processo onde os parâmetros livres de uma RNA são
adaptados, atravésdoprocessode estímulopelo ambientedoqual a redeestá
contida.Aredeseespecializanospadrõesintrínsecosexistentesnosdados.
Entretanto, modelos diferentes de redes exigem abordagens de
aprendizagem distintas. Duas abordagens mais comuns utilizadas são a
aprendizagemsupervisionadaeaaprendizagemnão-supervisionada,adiferença
fundamental é a existência do agente externo (supervisor) que controla o
processodeaprendizagem
No aprendizado supervisionado, o instrutor confere o quanto a rede esta
próximadeumasoluçãoaceitável, adaptandona concepçãodo treinamentoos
pesosentreosneurônios,demodoaproverumamenordiferençaentreassaídas
calculadas e desejadas. Os dados históricos são apresentados na entrada e na
saída do sistema, que formará um modelo associativo entre as entradas e as
saídas.
No aprendizadonãosupervisionado, inicialmente, as saídas da redenão são
conhecidas,funcionandodemodoadistinguirclassesdepadrõesdiferentesdos
dados apresentados à rede, através de algoritmos de aprendizado baseados
geralmente em conceitos de vizinhança e agrupamento. A rede é ajustada de
acordocomregularidadesestatísticasdosdadosdeentrada,detalformaqueela
cria categorias, otimizando em relação aos parâmetros livres da rede uma
medidadaquantidadequeéindependentedatarefaaserexecutadas.Asredes
simplesmenteutilizam-sedeseusprópriosmétodosparaestabeleceradiferença
entreosdiversospadrõesquepodemexistirnosdadosapresentados.
As RNAs de Kohonen são um tipo de rede neural de aprendizado não
supervisionado,queidentificameagrupamospadrõesdeentradaapartirdesua
proximidadegeométrica,ouseja,oquãopróximosestãoospadrõesdeentrada
dos pesos dos neurônios. Nesta rede os neurônios disputam entre si pelo
treinamento de suas sinapses, apresentando desta forma um aprendizado
competitivo.
As redes perceptron de múltiplas camadas têm aprendizado supervisionado,
geralmente feito através do algoritmo de retro-propagação do erro ou
backpropagation.
Em1986,Rumelhart,HintoneWilliams,formalizaramummétodoquepermitea
associaçãoentreospadrõesdeentradaeseualvocorrespondente.Estemétodo
conhecido como Backpropagation é baseado na generalização da regra delta.
Basicamente,consistenamodificaçãodosvaloresdospesospararepresentaros
padrõescontidosnoconjuntodetreinamento.Amudançaéfeitaconsiderandoa
minimizaçãodoerromédioquadrático,quantificadopeladiferençaentreasaída
calculadaeasaídadesejadaatravésdopadrãodeentrada.
OalgoritmoBackpropagationprocuraachar iterativamenteamínimadiferença
entreassaídasdesejadaseassaídasobtidaspelaredeneural,comomínimode
erro. Dessa forma, ajustando os pesos entre as camadas através da retro
propagaçãodoerroencontradoemcadaiteração.
Essa regrae um dos tipos de treinamento supervisionado, onde a redee
analisada em dois casos: na sua propagação (camada por camada) e
principalmente, na sua retro-propagação (analise contraria a propagação). No
primeiro,ospesossinápticosωji(pesosinápticoconectandoasaídadoneurônio
ia entrada do neurônio j ) da rede são todos fixos. No segundo, os pesos são
todosajustados.
Basicamente, um padrão de entrada é aplicado como um estimulo aos
elementos da primeira camada da rede, que é propagado por cada uma das
outrascamadasatéqueasaídasejageradaa.Elaéentãocomparadacomasaída
desejadaad(gerandoumsinaldeerroeparacadaelementodesaída).Osinalde
erroéentãoretro-propagadodacamadadesaídaparacadaelementodacamada
intermediariaanteriorquecontribuidiretamenteparaaformaçãodasaída.
Entretanto, cada elemento da camada intermediaria recebe apenas uma
porção do sinal de erro total, proporcional apenas a` contribuição relativa de
cada elementona formaçãoda saída original. Este processo se repete, camada
porcamada,atéquecadaelementodarederecebaumsinaldeerroquedescreva
suacontribuiçãorelativaparaoerrototal.Combasenosinaldeerrorecebido,os
pesossinápticossãoatualizados(deacordocomumaregradecorreçãodeerro)
para cada elemento de modo a fazer a rede convergir para o valor de saída
desejadaad.AFigura6ilustraoalgoritmoBackpropagation.
Figura6–Algoritmoretro-propagação.
Asredesneuraisartificiais,sãomodelosquetêmtomadoaatençãodeinúmeros
pesquisadores, nasmais variadas áreas de aplicação, devido às características
que lhes são inerentes, como por exemplo, paralelismo, distribuição da
informação e tolerância a falhas, entre outras. Estas características tornam os
sistemas de redes neurais velozes e apropriados para tomada de decisão com
dadosdenaturezaincertaouincompletos.
Os sistemas neurais propostos, além de estabelecer modelos de padrão de
consumo, também poderão ser utilizados para prever comportamentos de
demandas com algum prazo de antecedência, permitindo um planejamento
globalizadoouespecíficoquemelhoreeficiênciadosistemacomoumtodo.
Figura 2. Exemplos de aplicação de redes neurais: classificação de imagens de
satéliteeproblemainversoemtransferênciadecalor;previsãodeenchentesem
rios.
0 5 10 15 20 250
0.5
1
1.5
x1
x2
xn
W1,B1 W2,B2
Desenvolvimentodeaplicaçõesutilizandoredesneurais
• Coletadedadoseseparaçãoemconjuntos
Os dois primeiros passos do processo de desenvolvimento de redes
neurais artificiais são a coleta de dados relativos ao problema e a sua
separaçãoemumconjuntodetreinamentoeumconjuntodetestes.Esta
tarefa requer uma análise cuidadosa sobre o problema para erros nos
dados. Alémdisso, os dados coletados devem ser significativos e cobrir
amplamente o domínio do problema, além das exceções e as condições
noslimitesdodomíniodoproblema.
Osdadoscoletadosdevemserseparadosemduascategorias:
.dadosdetreinamento-utilizadosparaotreinamentodarede;
. dados de teste - utilizados para verificar o desempenho no
referente às condições reais de utilização e a capacidade de
generalizaçãodarede.
Depois de determinados estes conjuntos, eles são geralmente colocados
emordemaleatóriaparaprevençãodetendênciasassociadasàordemde
apresentação dos dados. Além disso, pode ser necessário pré-processar
estes dados, atravésdenormalizações, escalonamentos e conversõesde
formatoparatorná-losmaisapropriadosàsuautilizaçãonarede.Pode-se
usar também uma subdivisão do conjunto de treinamento, criando um
conjunto de validação, para verificar a eficiência da rede quanto a sua
capacidade de generalização durante o treinamento, e podendo ser
empregadocomocritériodeparadadotreinamento.
• Configuraçãodarede
O terceiro passo é a definição da configuração da rede, que pode ser
divididoemtrêsetapas:
1. Seleçãodoparadigmaneuralapropriadoàaplicação.
2. Determinação da topologia da rede a ser utilizada - o número de
camadas,onúmerodeunidadesemcadacamada,etc.
Aespecificaçãodoproblemaaserresolvidoeescolhadaarquiteturade
rede mais apropriada. No problema de ajuste, normalmente são
empregadasredescomduasoutrêscamadasdeneurônios,asprimeiras
com funções de transferência sigmoidais e a última com função de
transferência linear. O número de neurônios em cada camada depende
fortementedoproblemaaserresolvido.
3. Determinação de parâmetros do algoritmo de treinamento e
funçõesdeativação.Estepassotemumgrandeimpactonaperformance
dosistemaresultante.
Existemmetodologias,"dicas"e"truques"ouestratégiasdealgoritmosna
conduçãodestastarefas.Normalmenteestasescolhassãofeitasdeforma
empírica.
Uma estratégia de configuração automática para RNA está sendo
desenvolvida no LAC/INPE, utilizando uma meta-heurística chamada
“MultipleParticleCollisionAlgorithm”(MPCA),quecalculaatopologiada
rede comoumproblemadeotimização.OalgoritmodeMPCAminimiza
umafunçãoobjetivocomdoistermos:
umtermodepenalidadeusadoparaavaliaracomplexidadedeumanova
topologia da rede e outro termo que é a diferença do erro quadrático
entreassaídascalculadapelaredeepelasaídadesejadadoprocessode
aprendizagem(Etrain)eoerroquadráticodegeneralização(Eactiv). MPCA
é uma algoritmo que npartículas para compartilhas as informações. A
soluçãoabsorvidaseapartículaforamelhorsolução.
Fobj = penalty ∗(ρ1 *Etrain + ρ2 ∗Eactiv )
ρ1 + ρ2
• Treinamentodarede.
Nesta fase, seguindo o algoritmo de treinamento escolhido, serão
ajustados os pesos das conexões. É importante considerar, nesta fase,
algunsaspectostaiscomoainicializaçãodarede,omododetreinamento
eotempodetreinamento.
Umaboaescolhadosvalores iniciaisdospesosdaredepodediminuiro
tempo necessário para o treinamento. Normalmente, os valores iniciais
dos pesos da rede são números aleatórios uniformemente distribuídos,
em um intervalo definido. Quanto ao tempo de treinamento, vários
fatorespodem influenciarasuaduração,porémsempreseránecessário
utilizar algum critério de parada. O critério de parada do algoritmo
backpropagation, egeralmenteéutilizadoumnúmeromáximodeciclos
ouépocasmas,devemserconsideradosataxadeerromédioporciclo,ea
capacidade de generalização da rede. Especificação do critério de
convergência (precisão para a convergência). A rigidez desse critério
dependedaanálisecuidadosadoproblemaedosdados;
Umaveztreinada,aredeéutilizadaparareprodução(previsão)dedados
desaídacorrespondentesanovosdadosdeentrada. Essaetapaéadouso
efetivo da correlação matemática para estimar novos dados de saída
correspondentesanovasentradas.
• Testedarede
Durante esta fase o conjunto de teste é utilizado para determinar a
performancedaredecomdadosquenãoforampreviamenteutilizados.A
performance da rede, medida nesta fase, é uma boa indicação de sua
performancereal.
• Generalização
Finalmente,comaredetreinadaeavaliada,elapodeserintegradaemum
sistema do ambiente operacional da aplicação. Paramaior eficiência da
solução, este sistema deverá conter facilidades de utilização como
interface conveniente e facilidades de aquisição de dados através de
planilhas eletrônicas, interfaces com unidades de processamento de
sinais,ouarquivospadronizados.Umaboadocumentaçãodosistemaeo
treinamentodeusuáriossãonecessáriosparaosucessodomesmo.
Alémdisso,osistemadeveperiodicamentemonitorarsuaperformanceefazera
manutenção da rede quando for necessário ou indicar aos projetistas a
necessidade de retreinamento, ou seja, sempre que novos dados estejam
disponíveis, o sistema nervoso pode ser submetido a um reaprendizado. Isso
correspondeaumreajustedoscaminhosdapropagaçãodossinaisatravésdos
neurônios. Em regressão estatística, essa etapa corresponde a reestimação de
parâmetros para nova massa de dados. Com redes neurais, o reaprendizado
corresponde a novos treinamentos da rede, incluindo- se os novos dados
experimentais.
Um modelo de rede neural tem muitos neurônios conectados por pesos com
capacidade de adaptação que que podem ser arranjados em uma estrutura
paralela. Por causadesteparalelismo, a falhade algunsneurôniosnão causam
efeitossignificantesparaaperformancedetodoosistema,oqueéchamadode
tolerânciaafalhas.
A principal força na estrutura de redes neurais reside em sua habilidades de
adaptação e aprendizagem. A habilidade de adaptação e aprendizagem pelo
ambiente significa que modelos de redes neurais podem lidar com dados
imprecisosesituaçõesnãototalmentedefinidas.Umaredetreinadademaneira
razoável temahabilidadedegeneralizarquandoéapresentadaàentradasque
nãoestãopresentesemdadosjáconhecidosporela.
A característicamais significante de redes neurais está em sua habilidade de
aproximar qualquer função continua não linear de um grau de correção
desejado. Esta habilidade das redes neurais as tem tornado útil paramodelar
sistemasnãolinearesnacombinaçãodecontroladoresnãolineares.
Comoavançoemtecnologiasdehardware,existemcomponentescomfunções
voltadasásistemascomimplementaçõesvoltadaspararedesneurais,oquetraz
umavelocidadeadicionalàcomputaçãoneural.
ReferênciasBibliográficas
http://www.lac.inpe.br/~demisio/cap351/modulo1.pdf
BARRETO,GUILHERMEDEALENCAR.Perceptonmulticamadaseoalgoritmode
retropropagação do erro. Publicação interna: Programa de pós-graduação em
engenhariadeteleinformática.Fortaleza:UFC,2007.
BRAGA,A.;LUDERMIR,T.B.;CARVALHO,A.C.P.L.F.Redesneurais
artificiais: teoria e aplicações. Rio de Janeiro: Livros Técnicos e Científicos
EditoraS.A.,2000.101
HAYKINS(1999)NeuralNetworks:AComprehensiveFoundation.Prentice-Hall
Inc.,NewYork,842p.
HEBB,D.O.TheOrganizationofBehavior::Aneuropsychologicaltheory.
NewYork:Wiley,1949.ISBN978-0805843002.95
HOPFIELD,J.Neuralnetworksandphysicalsystemswithemergentcollective
computationalabilities.In:NATIONALACADEMYOFSCIENCESOFTHE
U.S.A.Proceedings...[S.l.],1982.p.2554{2558.90
KOHONEN,T.Self{organizingformationoftopologicallycorrectfeaturemaps.
BiologicalCybernectics,v.43(1),p.59{69,1982.95
MCCULLOCH,W.;PITTS,W.Alogicalcalculusoftheideasimmanentin
nervousactivity.BulletinofMathematicalBiophisics,v.5,p.115{133,1943.
85,90
RUMEHART, D. E. AND MCCLELLAND(1986) Parallel Distributed Processing
ExplorationsIntheMicrostructureofCognition,MITPress.
RUMELHART,D.;HINTON,G.;WILLIAMS,R.Learninginternal
representationsbyerrorpropagation.Cambridge,MA:MITPress,1986.
318-62p.94,98