apresentação mdp

Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao

Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP

Daniel Baptista Dias

Grupo de Planejamento, IME/USP

27 de julho de 2011

Daniel Baptista Dias Planejamento Probabilıstico


Agenda

1 Processos Markovianos de Decisao (MDPs)IntroducaoModelo FormalModelo Conceitual

2 AlgoritmosIteracao de ValorRTDP

3 ConclusaoBibliografiaDuvidas?



IntroducaoModelo FormalModelo Conceitual

Introducao

No planejamento classico, assumimos que as acoes tem umapenas um efeito, que pode ser predito;

Porem em alguns momentos isto nao e verdade.

Exemplo: sistema de manuseio de caixotes em um armazem.




Introducao

A incerteza destas acoes pode ocorrer devido:

Falha nas acoes: instigada por um agente com a finalidade demudar o estado do sistema, a mesma nao foi bem sucedida;ex: a garra nao segura a caixa corretamente;Evento exogeno: que ocorre no sistema sem o controle oagente; ex: a caixa quebra devido a sua fragilidade,derrubando seu conteudo.




Um exemplo: Navegacao de robos




Navegacao de robos

Problema:

Um robo deve ir do:

ponto de origem (1, 1) ateponto de destino (6, 4)

Ele pode se mover em quatro direcoes:

norte, sul, leste e oeste.

Devido a um defeito no mecanismo de locomocao:

em 20% dos movimentos ele erra direcao em 90 graus,tornando-os incertos;

Desafio:

Como ir ate o destino apesar das adversidades?




MDP - O que e?

Uma forma de resolver o desafio e modelar e resolver ele comoum Processo Markoviano de Decisao (Markov DecisionProcess, MDP);

Um MDP e um sistema estocastico, que:

Fica em um determinado estado em um ponto no tempo,podendo transitar para outros estados a medida que o sistemaevolui;E alterado em respostas a eventos (acoes ou eventosexogenos);Evolui em estagios, transitando de um estagio para outro aposa ocorrencia de um evento.




MDP - Modelo Formal

Formalmente, ele pode ser definido como um tuplaM = 〈S ,A, p, r , c〉, onde:

S e um conjunto finito de estados possıveis do ambiente;

A e um conjunto finito de acoes executaveis pelo agente;

p : S × A× S 7→ [0, 1] e uma funcao de transicaoprobabilıstica;

r : S 7→ <+ e uma funcao que associa uma recompensa acada estado;

c : A 7→ <+ e uma funcao que associa um custo a cada acao;




MDP - Estados

Um estado s ′ representa uma configuracao de como osistema esta em um perıodo de tempo;

No nosso exemplo...

O estado pode ser representado com a variacao da posicao dorobo no campo;Sendo assim, temos S = 〈s1, s2, . . . , s18〉, um conjunto com 18estados, com s1 representando a posicao (1, 1), s2 a posicao(1, 2), etc.




MDP - Estados




MDP - Acoes e Transicao de Estado

Uma acao a, escolhida pelo agente, altera o sistema, fazendo-otransitar de um estado s para um estado s ′ desejado;

Essa transicao e incerta e esta sujeita a uma probabilidadep(s, a, s ′);

Para cada acao, temos uma tabela de transicao entre estados,indicando as probabilidades de mudanca de um estado paraoutro, respeitando que dado um estado s temos∑

s′∈S p(s, a, s ′) = 1.




MDP - Acoes e Transicao de Estado

Ex: na navegacao de robos, o robo escolhe a acao leste para irde s11 para s14 com p(s11, leste, s14) = 0.8




MDP - Funcao Valor, Custo e Recompensa

Para decidir qual tipo de acao o agente ira tomar e qualestado ele ira, ele precisa julgar a qualidade da decisao;

Isto e feito definindo uma funcao valor V (·), que mapeia ohistorico do sistema (quais acoes foram tomadas e quaisestados foram visitados ate o presente momento) em numerosreais, i. e. V : Hs → <;

Compondo esta medida, temos:

a funcao custo, que associa um gasto a uma determinadaacao, sendo subtraido de V (·);a funcao recompensa, que associa um incentivo ao se alcancarum determinado estado, sendo acrescentado a V (·);




MDP - Horizonte

Define quanto estagios do sistema devem ser consideradospara avaliar o curso da acao.

Horizonte finito: a performance do agente e avaliada em umnumero T finito de estados.Neste caso a funcao valor e avaliada como:

V (h) =T−1∑t=0

{R(st)− C (at)}+ R(sT )




MDP - Horizonte

Horizonte infinito: a performance do agente e avaliada sobuma evolucao infinita do sistema.Neste caso a funcao valor e avaliada considerando um fator dedesconto γ, que e fixado entre 0 e 1:

V (h) =∞∑t=0

γt(R(st)− C (at))




MDP - Polıticas

Tambem conhecida como curso de acao ou plano, define qualsera a acao a tomada pelo agente quando o mesmo seencontrar em um determinado estado s;

Ela e representada pela funcao π : S 7→ A, que associa cadaestado a uma acao.

Exemplo:

π(s1) = norte. . .π(s5) = leste. . .π(s13) = sul. . .




MDP - Solucao

Para solucionarmos um MDP, podemos encara-lo como umproblema de otimizacao, onde devemos encontrar a funcaovalor otima para cada estado.

Uma forma de se conseguir alcancar este objetivo e atraves daprogramacao dinamica, considerando o princıpio deotimalidade de Bellman:

V ∗t (s) = R(s) + maxa∈A{−C (a) +∑s′∈S

p(s, a, s ′)V ∗t−1(s ′)}

Uma polıtica otima π∗t (s) encontrada como solucao seraaquela que satisfaz:

V ∗t (s) = R(s) +−C (π∗t (s)) +∑s′∈S

p(π∗t (s), a, s ′)V ∗t−1(s ′)




MDP - Modelo Conceitual

baseado em [Boutilier, 2007] e [Barros, 2011]





Quais acoes sao possıveis? Que decisao tomar?






Decisao tomada !






Sucesso !






Falha !






O efeito da recompensa




Iteracao de ValorRTDP

Algoritmos

Para obter uma polıtica otima, alguns algoritmos conhecidosbaseados em programacao dinamica, utilizando a equacao deBellman, sao:

Iteracao de Valor (IV);Iteracao de Polıtica (IP);Programacao Dinamica em Tempo Real (Real Time DynamicProgramming, RTDP).

Iremos abordar nesta apresentacao o IV e o RTDP.




IV

Utilizando a equacao de Bellman, para cada etapa t a funcaoV e calculada para cada estado, considerando v0(s) = R(s).




IV - Consideracoes

A complexidade do algoritmo e: O(|A| |S |2);

Consideramos que o algoritmo encontrou um π∗ quando todosos estados convergirem;

Esta convergencia e alcancada quando o resıduo(|vn(s)− vn−1(s)|) para estes estado for menor que ε;

Problema:

Por considerar todos os estados para executar o calculo,inclusive aquele que nao sao alcancaveis pelo agente;

Com o crescimento do conjunto S




RTDP

Considerando um conjunto de estados iniciais e estados meta,o algoritmo realiza uma busca heurıstica, considerando apenasos estados relevantes para serem atualizados;

Baseado na ideia de execucao e simulacao, executa uma seriede trials, simulando uma polıtica gulosa iniciando no estadoinicial e realizando um Bellman Backup nos estados visitados;

Desta forma, os estados mais provaveis de serem visitadosconvergem primeiro;

A polıtica encontrada no algoritmo sera parcial, obtendovalores otimos para os estados relevantes.



BibliografiaDuvidas?

Bibliografia

Boutilier, Craig; Dean, Thomas; Hanks, Steve.Decision-Theoretic Planning: Structural Assumptions andComputational Leverage.Journal of Artificial Intelligence Research, 11:1-94, 1999.

Boutilier, Craig;Logical Representations and Computational Methods forMarkov Decision Processes.Apresentacao em curso, 2007.

Ghallab, Malik; Nau, Dana; Traverso, Paolo;Automated Planning: Theory and Practice.San Francisco, California: Morgan Kaufmann Publishers, 2004.

Barros, Leliane Nunes de;Planejamento em Inteligencia Artifical - PlanejamentoProbabilisticoSlides de aula, 2011.Daniel Baptista Dias Planejamento Probabilıstico



Bibliografia

Pereira, Silvio do Lago; Barros, Leliane Nunes de;Planejamento baseado em Processos de Decisao MarkovianosRelatorio Tecnico do IME/USP (RT-MAC-2007-04), 2007.

Russell, Stuart J.; Norvig, Peter;Artificial Intelligence: A Modern Approach.Englewood Cliffs, New Jersey: Prentice Hall, 1995.




Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP

Daniel Baptista Dias

Grupo de Planejamento, IME/USP

27 de julho de 2011


apresentação mdp

Documents