page1 das-5341: realimentação de avaliação prof. eduardo camponogara
TRANSCRIPT
Page1
DAS-5341: Realimentação de Avaliação
Prof. Eduardo Camponogara
Page2
Agenda• Realimentação• The N-Armed Bandit Problem• Métodos Ação-Valor• Seleção de Ação SoftMax• Avaliação x Instrução• Implementação Incremental• Problemas Não-Estacionários
Page3
Realimentação• Características Diferenciadoras de RL
– RL utiliza informações de treinamento que avaliam as ações tomadas em vez de instruções que determinam as ações corretas
– A dependência da avaliação das ações tomadas cria a necessidade de exploração
– Realimentação avaliadora é a base dos métodos evolucionários
Page4
Realimentação• Realimentação instrutiva, por outro lado,
indica a ação correta a ser tomada
• O Capítulo 2 do livro texto trata do aspecto de avaliação de RL (Evaluative Feedback) em um cenário simplificado, não envolvendo aprendizagem em mais do que uma situação
– Versão simplificada do n-armed bandit problem
Page5
The N-Armed Bandit Problem• Contexto
– Você deve selecionar repetitivamente dentre n diferentes possibilidades
– Após cada escolha você recebe um prêmio numérico, escolhido a partir de uma distribuição de probabilidades estacionária que depende da escolha
– O objetivo é maximizar o ganho total esperado para 1000 repetições
Page6
The N-Armed Bandit Problem• A cada opção está associado um valor
esperado (média) de ganho se esta ação é selecionada
– Este número é chamado de valor da ação
– Se soubéssemos os valores das ações, o problema seria de fácil solução
Page7
The N-Armed Bandit Problem
E[x4] = 8, 42= 3
E[x1] = 5, 12= 5
E[x3] = 15, 32= 10
E[x2] = 2, 22= 7
Page8
The N-Armed Bandit Problem• Mantendo estimativas dos valores
– Se escolhemos a ação com maior estimativa, estamos nos concentrando no ganho imediato (exploitation). Esta política é dita gulosa
– Se escolhemos uma ação que não apresenta a maior estimativa, então procuramos melhorar a estimativa das ações não gulosas (exploration)
– Exploitation é o que se deve fazer para maximizar o ganho em uma jogada, mas exploration pode produzir melhores resultados em longo termo
Page9
The N-Armed Bandit Problem• Conflito entre Exploitation e Exploration
– A escolha entre explorar e sugar constitui uma decisão complexa, dependendo dos valores estimados, incertezas e do número de jogadas antes do fim
– Existem métodos matemáticos sofisticados para balancear exploração e extração, todavia eles fazem fortes suposições sobre as probabilidades a priori, invalidando a aplicação em contextos onde o ambiente é desconhecido
Page10
The N-Armed Bandit Problem• Este capítulo apresenta vários métodos
simples para balancear exploração e extração, com o intuito de mostrar que eles sempre superam métodos sugadores
• Métodos de aprendizagem supervisionados têm desempenho muito baixo, pois não procuram balancear exploração e extração
Page11
Métodos Ação-Valor• Definições
– Q*(a) é o valor da ação a
– Qt(a) é a estimativa do valor de a na t-ésima iteração
– O valor real de uma ação a é o valor esperado do ganho se escolhemos a ação a
Page12
Métodos Ação-Valor: Média Experimental
• Método da Média Experimental– A ação a foi escolhida ka vezes antes da iteração
t– Os ganhos recebidos foram r1, r2, …, rka
r1 + r2 + … + rka
Qt(a) = ----------------------------ka
– Se ka = 0, adota-se Qt(a) como tendo um valor inicial (e.g., 0).
– Pela lei dos grandes números, Qt(a) converge para Q*(a) quando ka
Page13
Métodos Ação-Valor: Método Guloso
• Método Guloso– Na t-ésima jogada, escolhe-se uma ação
gulosa a*– Qt(a*) = Maxa Qt(a)
– O método tira vantagem do conhecimento corrente, maximizando o ganho imediato
– O método não se preocupa em explorar outras possíveis ações
Page14
Métodos Ação-Valor: Método -Guloso
• Método -Guloso
– O método se comporta como o método guloso na maioria das vezes, mas com uma pequena probabilidade ele seleciona uniformemente uma ação independentemente da estimativa ação-valor
Page15
Métodos Ação-Valor: Método -Guloso
– Vantagem: •No limite, quando o número de
jogadas aumenta, cada ação será aplicada um número infinito de vezes, garantindo que Qt(a) converge para Q*(a)
•Isso implica que a ação ótima será escolhida com probabilidade 1 –
•Esses resultados são apenas assintóticos, nada dizendo sobre a eficácia prática do mesmo
Page16
Métodos Ação-Valor: Método -Guloso
• Teste do Método -Guloso
– 2000 experimentos
– Cada experimento n = 1000 jogadas– Cada ação a, o ganho é escolhido como uma
distribuição Gaussiana com média Q*(a) e variância 1
– Cada um dos 1000 experimentos foi escolhido selecionando Q*(a) a partir de uma distribuição normal com média 0 e variância 1
Page17
Métodos Ação-Valor: Método -Guloso
Page18
Métodos Ação-Valor: Comparação Entre Métodos
• Compara-se o método guloso contra dois métodos -guloso (=0.01 e =0.1)
• Os métodos -guloso formam as estimativas ação-valor por meio da média experimental
• O método guloso obteve resultados bons rapidamente, mas depois atingiu um platô– O método guloso apresenta desempenho
substancialmente inferior aos demais métodos em longo termo, pois este fica preso em ações subótimas
Page19
Métodos Ação-Valor: Comparação Entre Métodos
• Os métodos -guloso eventualmente superam o método guloso pois os primeiros continuam a explorar o espaço de ações
• O método -guloso com =0.1 encontra soluções ótimas mais rapidamente, mas nunca vai selecioná-las mais do 91% das vezes
• O método -guloso com =0.01 progride mais lentamente, mas irá superar o método com =0.1
Page20
Métodos Ação-Valor: Comparação Entre Métodos
• A vantagem do método -guloso depende da tarefa– Se a variância fosse 10, em vez de 1,
necessitaríamos de mais exploração antes encontrar ações ótimas, levando os métodos -guloso a superar o método guloso por uma margem mais ampla
– Por outro lado, se a variância fosse 0, então o método guloso saberia o valor correto após cada ação. Neste caso, o método guloso pode atingir melhor desempenho
Page21
Métodos Ação-Valor: Comparação Entre Métodos
• Mesmo no caso determinístico, o método -guloso pode ser vantajoso quando as distribuições de probabilidades não são estacionárias
• O parâmetro pode ser ajustado dinamicamente, com o passar do tempo
Page22
Seleção de Ação Softmax• Uma fraqueza do método -guloso
quanto a explorar e sugar é que a escolha sobre as ações é uniforme
– Mesma probabilidade de escolher uma ação ruim e uma quase-ótima
– Quando as piores ações são muito ruins, isto pode ser muito insatisfatório
Page23
Seleção de Ação Softmax• A ação gulosa continua com a maior
probabilidade, mas as outras são ajustadas de acordo com as suas estimativas
• Essas técnicas são conhecidas como softmax:– O método mais comum é o de Gibbs
(Boltzman)
Page24
Seleção de Ação Softmax• A ação a é escolhida com probabilidade
e^(Qt(a)/) / [ b=1,…,n e^(Qt(b)/) ]
Onde é um parâmetro positivo chamado de temperatura
• O que acontece se é alto?
Page25
Seleção de Ação Softmax• O que acontece se é alto?
– As ações são aproximadamente equi-prováveis
• O que acontece se é baixo?
Page26
Seleção de Ação Softmax• O que acontece se é baixo?
– O método -guloso se aproxima do guloso quando 0
• Não é claro se a seleção da ação baseada em softmax é melhor ou pior do que -gulosa– Isto depende da tarefa bem como de fatores
humanos
Page27
Avaliação x Instrução• O n-armed bandit problem é um caso
onde a realimentação (feedback) é puramente de avaliação– O prêmio recebido a cada iteração nos dá
informação da qualidade da ação, mas nada nos diz se esta é correta ou errada
– Corretude é uma propriedade relativa das ações que deve ser determinada por meio de experimentação e comparação
– O problema requer uma busca explícita dentre as diferentes alternativas disponíveis
Page28
Avaliação x Instrução• A aprendizagem é por seleção e não por
instrução
– Todos os métodos de RL devem utilizar esta forma de um jeito ou de outro
Page29
Avaliação x Instrução• Isso contrasta com os métodos de
aprendizagem supervisionada, onde a realimentação proveniente do ambiente diretamente indica a ação correta– Neste caso, não há necessidade de busca– Qualquer ação tomada, o sistema nos dirá
qual era a ação correta– Não há necessidade de fazer uma busca no
espaço de ações
Page30
Avaliação x Instrução• Aprendizagem Supervisionada
– O problema principal se refere à construção de um mapeamento de situações para ações, o qual imita as ações especificadas como corretas pelo ambiente, de forma que este mapeamento generalize para situações ainda não encontradas
– Esta técnica não “controla” mas segue as instruções recebidas pelo ambiente
Page31
Implementação Incremental• Os métodos ação-valor visto até então, fazem
uso de estimativas do valor de cada ação por meio de médias experimentais
r1 + r2 + … + rka
Qt(a) = ----------------------------ka
• Podemos calcular Qt(a) a partir de r1, r2, …, rka
• Qual é o fator limitante desta abordagem?
Page32
Implementação Incremental• Qual é o fator limitante desta
abordagem?
Page33
Implementação Incremental• Número excessivo de prêmios (ri)
Page34
Implementação Incremental• Seja Qk(a) a média dos k primeiros
prêmios obtidos ao executarmos a ação a
Page35
Implementação Incremental• A implementação requer memória apenas
para Qk e k
NovaEstimativa <- EstimativaAnterior + TamanhoPasso*[ ValorDesejado –
EstimativaAnterior ]
Page36
Implementação Incremental• Note que o parâmetro “TamanhoPasso”
varia com cada iteração
• Tipicamente, denota-se por este parâmetro, ou melhor, (a)
(a) = 1/ka
Page37
Tratando de Problemas Não Estacionários
• Os métodos discutidos até este ponto são adequados para ambientes estacionários, mas podem falhar se as distribuições variam
• Problemas RL são tipicamente não estacionários– Xadrez e ambientes dinâmicos
• O que fazer em tais situações?
Page38
Tratando de Problemas Não Estacionários
• O que fazer em tais situações?– Podemos agregar maior peso aos valores
mais recentes, diminuindo a influência das experiências mais velhas
– Uma maneira popular é utilizar um tamanho de passo constante ()
Qk+1 = Qk + [rk+1 – Qk], onde 0 < 1
Page39
Tratando de Problemas Não Estacionários
• Qk é uma média ponderada dos ganhos passados e da estimativa inicial Q0
Page40
Fim
• Obrigado pela presença!