page1 das-5341: realimentação de avaliação prof. eduardo camponogara

DAS-5341: Realimentação de Avaliação

Prof. Eduardo Camponogara

Agenda• Realimentação• The N-Armed Bandit Problem• Métodos Ação-Valor• Seleção de Ação SoftMax• Avaliação x Instrução• Implementação Incremental• Problemas Não-Estacionários

Realimentação• Características Diferenciadoras de RL

– RL utiliza informações de treinamento que avaliam as ações tomadas em vez de instruções que determinam as ações corretas

– A dependência da avaliação das ações tomadas cria a necessidade de exploração

– Realimentação avaliadora é a base dos métodos evolucionários

Realimentação• Realimentação instrutiva, por outro lado,

indica a ação correta a ser tomada

• O Capítulo 2 do livro texto trata do aspecto de avaliação de RL (Evaluative Feedback) em um cenário simplificado, não envolvendo aprendizagem em mais do que uma situação

– Versão simplificada do n-armed bandit problem

The N-Armed Bandit Problem• Contexto

– Você deve selecionar repetitivamente dentre n diferentes possibilidades

– Após cada escolha você recebe um prêmio numérico, escolhido a partir de uma distribuição de probabilidades estacionária que depende da escolha

– O objetivo é maximizar o ganho total esperado para 1000 repetições

The N-Armed Bandit Problem• A cada opção está associado um valor

esperado (média) de ganho se esta ação é selecionada

– Este número é chamado de valor da ação

– Se soubéssemos os valores das ações, o problema seria de fácil solução

The N-Armed Bandit Problem

E[x4] = 8, 42= 3

E[x1] = 5, 12= 5

E[x3] = 15, 32= 10

E[x2] = 2, 22= 7

The N-Armed Bandit Problem• Mantendo estimativas dos valores

– Se escolhemos a ação com maior estimativa, estamos nos concentrando no ganho imediato (exploitation). Esta política é dita gulosa

– Se escolhemos uma ação que não apresenta a maior estimativa, então procuramos melhorar a estimativa das ações não gulosas (exploration)

– Exploitation é o que se deve fazer para maximizar o ganho em uma jogada, mas exploration pode produzir melhores resultados em longo termo

The N-Armed Bandit Problem• Conflito entre Exploitation e Exploration

– A escolha entre explorar e sugar constitui uma decisão complexa, dependendo dos valores estimados, incertezas e do número de jogadas antes do fim

– Existem métodos matemáticos sofisticados para balancear exploração e extração, todavia eles fazem fortes suposições sobre as probabilidades a priori, invalidando a aplicação em contextos onde o ambiente é desconhecido

The N-Armed Bandit Problem• Este capítulo apresenta vários métodos

simples para balancear exploração e extração, com o intuito de mostrar que eles sempre superam métodos sugadores

• Métodos de aprendizagem supervisionados têm desempenho muito baixo, pois não procuram balancear exploração e extração

Métodos Ação-Valor• Definições

– Q*(a) é o valor da ação a

– Qt(a) é a estimativa do valor de a na t-ésima iteração

– O valor real de uma ação a é o valor esperado do ganho se escolhemos a ação a

Métodos Ação-Valor: Média Experimental

• Método da Média Experimental– A ação a foi escolhida ka vezes antes da iteração

t– Os ganhos recebidos foram r1, r2, …, rka

r1 + r2 + … + rka

Qt(a) = ----------------------------ka

– Se ka = 0, adota-se Qt(a) como tendo um valor inicial (e.g., 0).

– Pela lei dos grandes números, Qt(a) converge para Q*(a) quando ka

Métodos Ação-Valor: Método Guloso

• Método Guloso– Na t-ésima jogada, escolhe-se uma ação

gulosa a*– Qt(a*) = Maxa Qt(a)

– O método tira vantagem do conhecimento corrente, maximizando o ganho imediato

– O método não se preocupa em explorar outras possíveis ações

Métodos Ação-Valor: Método -Guloso

• Método -Guloso

– O método se comporta como o método guloso na maioria das vezes, mas com uma pequena probabilidade ele seleciona uniformemente uma ação independentemente da estimativa ação-valor


– Vantagem: •No limite, quando o número de

jogadas aumenta, cada ação será aplicada um número infinito de vezes, garantindo que Qt(a) converge para Q*(a)

•Isso implica que a ação ótima será escolhida com probabilidade 1 –

•Esses resultados são apenas assintóticos, nada dizendo sobre a eficácia prática do mesmo


• Teste do Método -Guloso

– 2000 experimentos

– Cada experimento n = 1000 jogadas– Cada ação a, o ganho é escolhido como uma

distribuição Gaussiana com média Q*(a) e variância 1

– Cada um dos 1000 experimentos foi escolhido selecionando Q*(a) a partir de uma distribuição normal com média 0 e variância 1

Métodos Ação-Valor: Comparação Entre Métodos

• Compara-se o método guloso contra dois métodos -guloso (=0.01 e =0.1)

• Os métodos -guloso formam as estimativas ação-valor por meio da média experimental

• O método guloso obteve resultados bons rapidamente, mas depois atingiu um platô– O método guloso apresenta desempenho

substancialmente inferior aos demais métodos em longo termo, pois este fica preso em ações subótimas


• Os métodos -guloso eventualmente superam o método guloso pois os primeiros continuam a explorar o espaço de ações

• O método -guloso com =0.1 encontra soluções ótimas mais rapidamente, mas nunca vai selecioná-las mais do 91% das vezes

• O método -guloso com =0.01 progride mais lentamente, mas irá superar o método com =0.1


• A vantagem do método -guloso depende da tarefa– Se a variância fosse 10, em vez de 1,

necessitaríamos de mais exploração antes encontrar ações ótimas, levando os métodos -guloso a superar o método guloso por uma margem mais ampla

– Por outro lado, se a variância fosse 0, então o método guloso saberia o valor correto após cada ação. Neste caso, o método guloso pode atingir melhor desempenho


• Mesmo no caso determinístico, o método -guloso pode ser vantajoso quando as distribuições de probabilidades não são estacionárias

• O parâmetro pode ser ajustado dinamicamente, com o passar do tempo

Seleção de Ação Softmax• Uma fraqueza do método -guloso

quanto a explorar e sugar é que a escolha sobre as ações é uniforme

– Mesma probabilidade de escolher uma ação ruim e uma quase-ótima

– Quando as piores ações são muito ruins, isto pode ser muito insatisfatório

Seleção de Ação Softmax• A ação gulosa continua com a maior

probabilidade, mas as outras são ajustadas de acordo com as suas estimativas

• Essas técnicas são conhecidas como softmax:– O método mais comum é o de Gibbs

(Boltzman)

Seleção de Ação Softmax• A ação a é escolhida com probabilidade

e^(Qt(a)/) / [ b=1,…,n e^(Qt(b)/) ]

Onde é um parâmetro positivo chamado de temperatura

• O que acontece se é alto?

Seleção de Ação Softmax• O que acontece se é alto?

– As ações são aproximadamente equi-prováveis

• O que acontece se é baixo?

Seleção de Ação Softmax• O que acontece se é baixo?

– O método -guloso se aproxima do guloso quando 0

• Não é claro se a seleção da ação baseada em softmax é melhor ou pior do que -gulosa– Isto depende da tarefa bem como de fatores

humanos

Avaliação x Instrução• O n-armed bandit problem é um caso

onde a realimentação (feedback) é puramente de avaliação– O prêmio recebido a cada iteração nos dá

informação da qualidade da ação, mas nada nos diz se esta é correta ou errada

– Corretude é uma propriedade relativa das ações que deve ser determinada por meio de experimentação e comparação

– O problema requer uma busca explícita dentre as diferentes alternativas disponíveis

Avaliação x Instrução• A aprendizagem é por seleção e não por

instrução

– Todos os métodos de RL devem utilizar esta forma de um jeito ou de outro

Avaliação x Instrução• Isso contrasta com os métodos de

aprendizagem supervisionada, onde a realimentação proveniente do ambiente diretamente indica a ação correta– Neste caso, não há necessidade de busca– Qualquer ação tomada, o sistema nos dirá

qual era a ação correta– Não há necessidade de fazer uma busca no

espaço de ações

Avaliação x Instrução• Aprendizagem Supervisionada

– O problema principal se refere à construção de um mapeamento de situações para ações, o qual imita as ações especificadas como corretas pelo ambiente, de forma que este mapeamento generalize para situações ainda não encontradas

– Esta técnica não “controla” mas segue as instruções recebidas pelo ambiente

Implementação Incremental• Os métodos ação-valor visto até então, fazem

uso de estimativas do valor de cada ação por meio de médias experimentais

r1 + r2 + … + rka

Qt(a) = ----------------------------ka

• Podemos calcular Qt(a) a partir de r1, r2, …, rka

• Qual é o fator limitante desta abordagem?

Implementação Incremental• Qual é o fator limitante desta

abordagem?

Implementação Incremental• Número excessivo de prêmios (ri)

Implementação Incremental• Seja Qk(a) a média dos k primeiros

prêmios obtidos ao executarmos a ação a

Implementação Incremental• A implementação requer memória apenas

para Qk e k

NovaEstimativa <- EstimativaAnterior + TamanhoPasso*[ ValorDesejado –

EstimativaAnterior ]

Implementação Incremental• Note que o parâmetro “TamanhoPasso”

varia com cada iteração

• Tipicamente, denota-se por este parâmetro, ou melhor, (a)

(a) = 1/ka

Tratando de Problemas Não Estacionários

• Os métodos discutidos até este ponto são adequados para ambientes estacionários, mas podem falhar se as distribuições variam

• Problemas RL são tipicamente não estacionários– Xadrez e ambientes dinâmicos

• O que fazer em tais situações?


• O que fazer em tais situações?– Podemos agregar maior peso aos valores

mais recentes, diminuindo a influência das experiências mais velhas

– Uma maneira popular é utilizar um tamanho de passo constante ()

Qk+1 = Qk + [rk+1 – Qk], onde 0 < 1


• Qk é uma média ponderada dos ganhos passados e da estimativa inicial Q0

Fim

• Obrigado pela presença!

page1 das-5341: realimentação de avaliação prof. eduardo camponogara

Documents