introdução à inteligência artificial · 2009. 7. 17. · propriedades matemáticas atrativas e...

Aprendizagem por treinamento de redes de

aproximação

Aprendizagem por treinamento de redes de

aproximação

Marco Henrique TerraMarco Henrique Terra

Introdução à Inteligência Artificial

IntroduçãoIntrodução

Neste capNeste capíítulo, serão apresentados conceitos sobre redes de tulo, serão apresentados conceitos sobre redes de aproximaaproximaçção e interpolaão e interpolaçção.ão.Estas redes podem ser vistas como um caso especial de duas Estas redes podem ser vistas como um caso especial de duas camadas da nocamadas da noçção geral de redes ão geral de redes neuraisneurais..Estas redes podem ser treinadas atravEstas redes podem ser treinadas atravéés de solus de soluçções de ões de equaequaçções lineares ou atravões lineares ou atravéés do gradiente ascendente. s do gradiente ascendente. TambTambéém possuem capacidade de generalizam possuem capacidade de generalizaçção tanto quanto ão tanto quanto as redes as redes neurais neurais com mais camadas.com mais camadas.O objetivo O objetivo éé entender como as redes de interpolaentender como as redes de interpolaçção e ão e aproximaaproximaçção funcionam e como apresentar ão funcionam e como apresentar àà rede as rede as informainformaçções necessões necessáárias, atravrias, atravéés das amostras, para que s das amostras, para que sejam desempenhadas as respectivas funsejam desempenhadas as respectivas funçções. ões.

Redes de interpolação e aproximação Redes de interpolação e aproximação Uma rede interpola ou aproxima funUma rede interpola ou aproxima funçções de acordo com a ões de acordo com a quantidade de neurônios que ela possui.quantidade de neurônios que ela possui.

FunFunçções ões gaussianas gaussianas centradas em amostras fornecem boas centradas em amostras fornecem boas interpolainterpolaçções.ões.Suponha que se tenha uma caixa preta com vSuponha que se tenha uma caixa preta com váárias entradas, rias entradas, xx11.... .... xxnn e uma sae uma saíída da u.u.Suponha tambSuponha tambéém que se quer predizer os valores futuros de m que se quer predizer os valores futuros de uu, , dada uma dada uma sequência sequência de amostras de combinade amostras de combinaçções entradaões entrada--sasaíída. da. DecideDecide--se construir uma funse construir uma funçção dos valores de entrada, ão dos valores de entrada, y(xy(x11.... .... xxnn) ) com as seguintes propriedades: o valor de com as seguintes propriedades: o valor de y y éé exatamente exatamente igual igual àà sasaíída da caixa preta se as entradas apresentadas da da caixa preta se as entradas apresentadas éé uma uma das amostras das combinadas amostras das combinaçções entradaões entrada--sasaíída; e o valor da; e o valor yy estestááprpróóximo ximo àà sasaíída da caixa preta para as outras entradas.da da caixa preta para as outras entradas.

Uma maneira de interpolar funUma maneira de interpolar funçções ões éé fazendo uma soma fazendo uma soma ponderada de funponderada de funçções, ões, ffii ::

Existem evidências de que cada Existem evidências de que cada ffii deve alcandeve alcanççar o valor ar o valor mmááximo ou mximo ou míínimo dele quando os valores de entrada, nimo dele quando os valores de entrada, xx11........xxnn, estiverem pr, estiverem próóximos aos valores de entrada ximos aos valores de entrada considerados para a considerados para a ii--éésimasima amostra entradaamostra entrada--sasaíída. Os da. Os valores de valores de ffii devem mudar de acordo com as amostras da devem mudar de acordo com as amostras da entrada.entrada.Suponha que se considere Suponha que se considere xx11........xxnn, os valores da entrada , os valores da entrada atual, como as coordenadas de um vetor atual, como as coordenadas de um vetor xx. Tamb. Tambéém, m, suponha que os valores de entrada associados com a suponha que os valores de entrada associados com a ii--éésimasima amostra como as coordenadas de outro vetor, amostra como as coordenadas de outro vetor, ccii

)...()...(y n1i

s

1iin1 xxfwxx ∑=

=

Assim, cada amostra de entrada Assim, cada amostra de entrada cci i éé um ponto de referência, ou um ponto de referência, ou centro, estabelecido pela icentro, estabelecido pela i--éésima sima amostra entradaamostra entrada--sasaíída. Em da. Em virtude de que cada virtude de que cada ffii depende somente de um centro, o centro depende somente de um centro, o centro estabelecido pela iestabelecido pela i--éésima sima amostra, cada amostra, cada ffii especializa a especializa a influência da iinfluência da i--éésima sima amostra nas prediamostra nas prediçções futuras.ões futuras.A questão que se coloca A questão que se coloca éé a seguinte: qual funa seguinte: qual funçção se deve ão se deve escolher para escolher para ggi i ??A funA funçção ão GaussianaGaussiana éé a mais utilizada a mais utilizada por por duas razões: possui duas razões: possui propriedades matempropriedades matemááticas atrativas e ticas atrativas e éé ffáácil de ser controlada cil de ser controlada atravatravéés de um parâmetro s de um parâmetro σσ

)cx()x( iii −= gf

2

icx

21

ii e)cx(−

σ−

=−g

Figura Figura 1. 1. FunFunçções Gaussianas ões Gaussianas de de vváárias larguras rias larguras determinadas por três valores determinadas por três valores de de σσ..

Com a Com a funfunççãoão Gaussiana Gaussiana incorporada incorporada àà funfunçção ão interpolainterpolaççãoão, tem, tem--sese

Esta funEsta funçção pode ser calculada por uma rede ão pode ser calculada por uma rede de de duas duas camadas sendo que camadas sendo que o o nnóó na segunda camada calcula uma na segunda camada calcula uma soma soma ponderadada das saponderadada das saíídas das dos dos nnóós da primeira camadas da primeira camada, , e e cada cada um dos um dos nnóós da primeira camada calcula uma funs da primeira camada calcula uma funçção ão Gaussiana centrada Gaussiana centrada em em uma amostra uma amostra de de entradaentrada. . Tais redes Tais redes são denominadas redes são denominadas redes de de interpolainterpolaççãoão. . Veja Veja um um exemplo exemplo na Figura na Figura 2.2.

2

icx

21s

1ie)x(

−σ−

=∑= iwy

Figura 2: Uma rede de interpolaFigura 2: Uma rede de interpolaçção. Cada não. Cada nóó na primeira na primeira camada responde intensamente a uma amostra na entrada. camada responde intensamente a uma amostra na entrada. O nO nóó da segunda camada simplesmente soma as sada segunda camada simplesmente soma as saíídas das ponderadas dos nponderadas dos nóós da primeira camada.s da primeira camada.

Em resumo, uma rede de interpolaEm resumo, uma rede de interpolaçção ão éé uma representauma representaçção ão que que éé uma rede uma rede neural neural na qual:na qual:

Existem duas camadas de neurônios.Existem duas camadas de neurônios.Cada neurônio da primeira camada calcula a Cada neurônio da primeira camada calcula a Gaussiana Gaussiana da distância entre o vetor de entrada corrente e uma da distância entre o vetor de entrada corrente e uma amostra do vetor de entrada.amostra do vetor de entrada.Cada neurônio da segunda camada soma as entradas Cada neurônio da segunda camada soma as entradas dele.dele.Os pesos entre as duas camadas são ajustados de tal Os pesos entre as duas camadas são ajustados de tal maneira que cada samaneira que cada saíída do neurônio da segunda camada da do neurônio da segunda camada seja exatamente a saseja exatamente a saíída desejada para cada amostra da da desejada para cada amostra da entrada. entrada.

Com um nCom um núúmero suficiente de nmero suficiente de nóós, as redes podem s, as redes podem interpolar perfeitamente. interpolar perfeitamente. A seguir, A seguir, éé apresentado um exemplo de como funciona apresentado um exemplo de como funciona redes de interpolaredes de interpolaçção: vamos supor que uma pessoa deseja ão: vamos supor que uma pessoa deseja saber como ela aproveita as fsaber como ela aproveita as féérias dela em funrias dela em funçção do ão do tempo de duratempo de duraçção.ão.A Tabela 1 mostra as quatro A Tabela 1 mostra as quatro úúltimas fltimas féérias desta pessoa, as rias desta pessoa, as fféérias com menor tempo de durarias com menor tempo de duraçção foram boas, as ão foram boas, as prpróóximas fximas féérias, com um tempo maior de durarias, com um tempo maior de duraçção, foram ão, foram melhores (amostra 2), as fmelhores (amostra 2), as féérias da amostra 3 foram rias da amostra 3 foram terrterrííveis e a veis e a úúltima foi melhor que a anterior, considerando ltima foi melhor que a anterior, considerando uma escala de 1 a 10. uma escala de 1 a 10.

Tabela 1. Tabela 1.

Amostra Duração(dias)

Avaliação(1-10)

1 4 5

2 7 9

3 9 2

4 12 6

Suponha que se queira projetar uma rede de interpolaSuponha que se queira projetar uma rede de interpolaçção ão para predizer as avaliapara predizer as avaliaçções de outras fões de outras féérias com durarias com duraçções ões distintas.distintas.Em funEm funçção de que o problema possui quatro amostras, mas ão de que o problema possui quatro amostras, mas somente uma varisomente uma variáável de entrada, a duravel de entrada, a duraçção das fão das féérias, a rias, a rede de interpolarede de interpolaçção possui quatro não possui quatro nóós e uma entrada, s e uma entrada, como mostrada na Figura 3.como mostrada na Figura 3.Com uma largura pequena Com uma largura pequena σσ, cada amostra tem somente , cada amostra tem somente influência local, com uma largura grande influência local, com uma largura grande σσ, cada amostra , cada amostra tem uma influência global.tem uma influência global.Dados valores para Dados valores para σσ, , éé ffáácil calcular valores para os pesos cil calcular valores para os pesos tal que a rede de interpolatal que a rede de interpolaçção forneão forneçça resultados corretos a resultados corretos para todas as amostras. A razão para todas as amostras. A razão éé que o nque o núúmero de pesos mero de pesos ééo mesmo que o no mesmo que o núúmero de amostras das combinamero de amostras das combinaçções ões entradaentrada--sasaíída, e cada combinada, e cada combinaçção entradaão entrada--sasaíída fornece da fornece uma equauma equaçção envolvendo os pesos desconhecidos:ão envolvendo os pesos desconhecidos:

Figura 3: Uma rede de interpolaFigura 3: Uma rede de interpolaçção para predizer as ão para predizer as avaliaavaliaçções das fões das féérias dadas as durarias dadas as duraçções das fões das féérias.rias.

)(21

4

)(21

3

)(21

2

)(21

1141312111y

xxxxxxxxewewewew

−σ−

−σ−

−σ−

−σ−

+++=

)(21

4

)(21

3

)(21

2

)(21

1242322212y

xxxxxxxxewewewew

−σ−

−σ−

−σ−

−σ−

+++=

)(21

4

)(21

3

)(21

2

)(21

1343332313y

xxxxxxxxewewewew

−σ−

−σ−

−σ−

−σ−

+++=

)(21

4

)(21

3

)(21

2

)(21

1444342414y

xxxxxxxxewewewew

−σ−

−σ−

−σ−

−σ−

+++=

O procedimento de treinamento pode ser resumido da O procedimento de treinamento pode ser resumido da seguinte maneira:seguinte maneira:Para criar uma rede de interpolaPara criar uma rede de interpolaçção:ão:

Para cada amostra dada, crie um nPara cada amostra dada, crie um nóó centrado na amostra de centrado na amostra de entrada. Então, crie uma equaentrada. Então, crie uma equaçção da seguinte maneira:ão da seguinte maneira:

-- Calcule a distância entre a amostra da entrada e cada um Calcule a distância entre a amostra da entrada e cada um dos centros dos ndos centros dos nóós.s.

-- Calcule a funCalcule a funçção ão Gaussiana Gaussiana de cada distância.de cada distância.-- Multiplique cada funMultiplique cada funçção ão Gaussiana pelos Gaussiana pelos correspondentes correspondentes

pesos dos npesos dos nóós.s.-- Equacione a saEquacione a saíída da amostra com a soma das funda da amostra com a soma das funçções ões

Gaussianas Gaussianas ponderadas das distâncias.ponderadas das distâncias.Resolva as equaResolva as equaçções para encontrar os pesos. ões para encontrar os pesos.

Para três valores de Para três valores de σσ, a tabela abaixo fornece os , a tabela abaixo fornece os respectivos valores (Tabela 2)respectivos valores (Tabela 2)

σσ w1 w2 w3 w4

1 4.90 8.84 0.73 5.99

4 0.87 13.93 -9.20 8.37

16 -76.50 236.49 -237.77 87.55

Dado um Dado um σσ e um conjunto correspondente de pesos, podee um conjunto correspondente de pesos, pode--se calcular os valores para a funse calcular os valores para a funçção de interpolaão de interpolaçção e a ão e a rede correspondente não somente para as amostras das rede correspondente não somente para as amostras das entradas consideradas, mas para qualquer entrada.entradas consideradas, mas para qualquer entrada.As funAs funçções ilustradas na Figura 4 foram geradas a partir ões ilustradas na Figura 4 foram geradas a partir dos valores da Tabela 2.dos valores da Tabela 2.Note que as funNote que as funçções de interpolaões de interpolaçção passam ão passam pelos pelos dias de dias de duraduraçção das fão das féérias 4, 7, 9 e 12.rias 4, 7, 9 e 12.

Figura 4. FunFigura 4. Funçções de interpolaões de interpolaçção para uma avaliaão para uma avaliaçção das ão das fféérias do tipo rias do tipo Gaussiana Gaussiana para três valores de para três valores de σσ. Valores . Valores grandes e pequenos de grandes e pequenos de σσ produzem funproduzem funçções de ões de interpolainterpolaçção oscilaão oscilaçções e variaões e variaçções pouco representativas. ões pouco representativas.

Se a rede possui menos nSe a rede possui menos nóós que amostras, nenhuma escolha s que amostras, nenhuma escolha de pesos pode assegurar que a rede fornede pesos pode assegurar que a rede forneçça a saa a saíída correta da correta para todas as amostras das entradas. para todas as amostras das entradas. PodePode--se construir redes com menos nse construir redes com menos nóós que amostras , s que amostras , estas redes são denominadas redes de aproximaestas redes são denominadas redes de aproximaçção, e ão, e olham para os pesos como aproximaolham para os pesos como aproximaçções razoões razoááveis. veis. O mO méétodo do gradiente ascendente todo do gradiente ascendente éé apropriado para se apropriado para se ajustar os pesos para aproximaajustar os pesos para aproximaçções razoões razoááveis das amostras veis das amostras das entradas. das entradas. Este mEste méétodo busca os valores mtodo busca os valores mááximos como uma medida ximos como uma medida do desempenho de uma rede de aproximado desempenho de uma rede de aproximaçção.ão.PodePode--se medir o desempenho somandose medir o desempenho somando--se os erros se os erros quadrados para todas as amostras das entradas.quadrados para todas as amostras das entradas.SupõemSupõem--se que o valor atual de se que o valor atual de yy para uma amostra para uma amostra particular particular éé ddss. .

O objetivo O objetivo éé maximizar a funmaximizar a funçção objetivo ão objetivo P, P, esta funesta funçção ão alcanalcançça valor nulo quando não existe erro:a valor nulo quando não existe erro:

Para maximizar a funPara maximizar a funçção ão PP , deriva, deriva--se a funse a funçção com ão com relarelaçção a cada peso, ão a cada peso, wwii, assim as mudan, assim as mudançças de peso podem as de peso podem estar em proporestar em proporçção ão ààs respectivas derivadas.s respectivas derivadas.AtravAtravéés da regra da cadeia e um pouco de s da regra da cadeia e um pouco de algebra algebra chegachega--se se àà seguinte fseguinte fóórmula para calcular as mudanrmula para calcular as mudançças dos pesos as dos pesos

2s

ss )(P dy −∑−=

2is cx

21-

sssi e)y-(drw

−

∑=Δ σ

sendo sendo rr na equana equaçção anterior uma taxa constante, deve ser ão anterior uma taxa constante, deve ser ajustada para garantir uma convergência rajustada para garantir uma convergência ráápida para uma pida para uma solusoluçção satisfatão satisfatóória e evitar sobreria e evitar sobre--sinal e instabilidade.sinal e instabilidade.

Em resumo, para se criar uma rede de aproximaEm resumo, para se criar uma rede de aproximaçção:ão:Quando existem poucas amostras, crie uma rede de Quando existem poucas amostras, crie uma rede de interpolainterpolaçção usando o procedimento da rede de ão usando o procedimento da rede de interpolainterpolaçção.ão.Escolha uma taxa constante, Escolha uma taxa constante, rr..AtAtéé que o desempenho seja satisfatque o desempenho seja satisfatóório;rio;

Para todas as amostras das entradas,Para todas as amostras das entradas,Calcule as saCalcule as saíídas resultantes.das resultantes.Calcule Calcule ΔΔwwii para cada peso.para cada peso.

Some as mudanSome as mudançças dos pesos para todas as amostras das as dos pesos para todas as amostras das entradas e altere os pesos. entradas e altere os pesos.

Suponha, para o exemplo das fSuponha, para o exemplo das féérias, que não se pode ter rias, que não se pode ter mais que dois nmais que dois nóós na rede, assim a predis na rede, assim a prediçção ão éé a alternativa a alternativa posspossíível atravvel atravéés de uma rede de aproximas de uma rede de aproximaçção, ao invão, ao invéés de s de uma rede de interpolauma rede de interpolaçção.ão.Suponha tambSuponha tambéém, que são estabelecidos os valores iniciais m, que são estabelecidos os valores iniciais para a rede com dois npara a rede com dois nóós usando as amostras da Tabela 1 s usando as amostras da Tabela 1 para as fpara as féérias com durarias com duraçção 7 e 12 dias, omitindo as fão 7 e 12 dias, omitindo as féérias rias com duracom duraçção de 4 e 9 dias.ão de 4 e 9 dias.Utilizando o mUtilizando o méétodo do gradiente ascendente, ajustatodo do gradiente ascendente, ajusta--se os se os pesos, usando todas as quatro amostras. Os resultados, appesos, usando todas as quatro amostras. Os resultados, apóós s os pesos terem sido ajustados 100 vezes com uma taxa os pesos terem sido ajustados 100 vezes com uma taxa constante constante r r = 0.1, estão resumidos na Tabela 3 e na Figura = 0.1, estão resumidos na Tabela 3 e na Figura 5. 5. ww11 ee ww22 reduzem o erro para as freduzem o erro para as féérias de 9 dias, mas rias de 9 dias, mas acrescentam erro nas facrescentam erro nas féérias de 7 e 12 dias veja Figura 5.rias de 7 e 12 dias veja Figura 5.

Figura 5. Quando existem menos nFigura 5. Quando existem menos nóós que amostras, a s que amostras, a funfunçção de aproximaão de aproximaçção não pode fornecer as amostras das ão não pode fornecer as amostras das sasaíídas para todas as amostras das entradas. O gradiente das para todas as amostras das entradas. O gradiente ascendente pode produzir um conjunto de pesos que fornece ascendente pode produzir um conjunto de pesos que fornece uma aproximauma aproximaçção razoão razoáável.vel.

w1 w2 c1 c2

Valoresiniciais

8.75 5.61 7.00 12.00

Valoresfinais

7.33 4.47 7.00 12.00

Tabela 3.Tabela 3.

HHáá uma alternativa de se ajustar os centros e os pesos uma alternativa de se ajustar os centros e os pesos simultaneamente. Para isto devesimultaneamente. Para isto deve--se tambse tambéém encontrar as m encontrar as derivadas parciais de derivadas parciais de PP com respeito com respeito ààs coordenadas do s coordenadas do centro. centro. A fA fóórmula para a jrmula para a j--éésima sima componente do icomponente do i--éésimo simo centro centro éédefinida como segue:definida como segue:

Os resultados, apOs resultados, apóós serem ajustados os pesos e os centros s serem ajustados os pesos e os centros 100 vezes com 100 vezes com rr = 0.1, são mostrados na Tabela 4.= 0.1, são mostrados na Tabela 4.

)(σ1

2

ijsj

cx21-

sssiij cxe)y-(dwrc is −=Δ

−

∑ σ

w1 w2 c1 c2

Valoresiniciais

8.75 5.61 7.00 12.00

Valoresfinais

9.13 8.06 6.00 13.72

Tabela 4.Tabela 4.

Figura 6. Quando existem menos nFigura 6. Quando existem menos nóós que amostras, a funs que amostras, a funçção ão de aproximade aproximaçção não pode fornecer as saão não pode fornecer as saíídas exatas para das exatas para todas as amostras das entradas. Ajustando ambos, pesos e todas as amostras das entradas. Ajustando ambos, pesos e centros, a aproximacentros, a aproximaçção ão éé melhor que a conseguida com os melhor que a conseguida com os ajustes individuais. ajustes individuais.

Suponha que a avaliaSuponha que a avaliaçção das fão das féérias dependa da temperatura rias dependa da temperatura mméédia tambdia tambéém. A temperatura serm. A temperatura seráá medida em medida em Celsius Celsius e em e em FahrenheitFahrenheit. A quantidade de amostras continua as mesmas . A quantidade de amostras continua as mesmas apenas acrescidas da temperatura mapenas acrescidas da temperatura méédia, portanto a rede dia, portanto a rede possui duas entradas (durapossui duas entradas (duraçção e temperatura) e uma saão e temperatura) e uma saíída da (avalia(avaliaçção). ão). A Figura 7 mostra a avaliaA Figura 7 mostra a avaliaçção produzida ão produzida por por uma rede como uma rede como uma funuma funçção da duraão da duraçção das fão das féérias para uma temperatura rias para uma temperatura mméédia de 73 F. Veja nas Tabelas 5 e 6 as temperaturas dia de 73 F. Veja nas Tabelas 5 e 6 as temperaturas consideradas.consideradas.

Amostra Duração Temp. Avaliação

1 4 70 5

2 7 75 9

3 9 45 2

4 12 90 6

Tabela 5. Temperatura em Tabela 5. Temperatura em FahrenheitFahrenheit. .

Amostra Duração Temp. Avaliação

1 4 21 5

2 7 24 9

3 9 7 2

4 12 32 6

Tabela 5. Temperatura em graus Tabela 5. Temperatura em graus CelsiusCelsius. .

Figura 7. PrediFigura 7. Prediçção da avaliaão da avaliaçção das fão das féérias rias versus versus a duraa duraçção das ão das fféérias para uma temperatura mrias para uma temperatura méédia de 73 F. Uma variadia de 73 F. Uma variaçção ão maior caracteriza a curva quando a temperatura não maior caracteriza a curva quando a temperatura não ééconsiderada. A funconsiderada. A funçção derivada da temperatura em graus ão derivada da temperatura em graus Celsius Celsius mostra maior influência a partir das quatro amostras. mostra maior influência a partir das quatro amostras.

Note que a funNote que a funçção de aproximaão de aproximaçção em graus ão em graus Celsius Celsius éé maior maior que em que em FahrenheitFahrenheit, portanto as unidades utilizadas alteram o , portanto as unidades utilizadas alteram o treinamento tambtreinamento tambéém.m.A utilizaA utilizaçção de um fator de escala para o treinamento da ão de um fator de escala para o treinamento da rede rede éé um procedimento um procedimento úútil para o treinamento.til para o treinamento.

FIM FIM

introdução à inteligência artificial · 2009. 7. 17. · propriedades matemáticas atrativas e...

Documents