um - teses.usp.br · ilustrado na figura 3.11. 41 3.11 méto do auxiliar do tdp r para s. spst cada...

Um modelo uni�ado para planejamentosob inertezaFelipe Werndl TrevizanDISSERTAÇ�O APRESENTADAAOINSTITUTO DE MATEMÁTICA E ESTATÍSTICADAUNIVERSIDADE DE S�O PAULOPARAOBTENÇ�O DO TÍTULO DE MESTREEMCIÊNCIAS

Área de Conentração: Ciênia da ComputaçãoOrientador: Profa. Dra. Leliane Nunes de BarrosDurante o desenvolvimento deste trabalho, o aluno reebeu apoio �naneiro do CNPq (proesso 131403/05-2)

� São Paulo, maio de 2006. �

Um modelo uni�ado para planejamentosob inertezaEste exemplar orresponde à redação �nal da dis-sertação devidamente orrigida e defendida porFelipe Werndl Trevizan e aprovada pela banajulgadora.São Paulo, maio de 2006.

Bana examinadora:Profa. Dra. Leliane Nunes de Barros (presidente) IME-USPProf. Dr. Fabio Gagliardi Cozman POLI-USPProf. Dr. Ronaldo Fumio Hashimoto IME-USP

ResumoDois modelos prinipais de planejamento em inteligênia arti�ial são os usados, respeti-vamente, em planejamento probabilístio (MDPs e suas generalizações) e em planejamentonão-determinístio (baseado em model heking). Nessa dissertação será: (1) exibido que pla-nejamento probabilístio e não-determinístio são extremos de um rio ontínuo de problemasapaz de lidar simultaneamente om riso e inerteza (Knightiana); (2) obtido um modelopara uni�ar esses dois tipos de problemas usando MDPs impreisos; (3) derivado uma versãosimpli�ada do prinípio ótimo de Bellman para esse novo modelo; (4) exibido omo adap-tar e analisar algoritmos do estado-da-arte, omo (L)RTDP e LDFS, nesse modelo uni�ado.Também será disutido exemplos e relações entre modelos já propostos para planejamentosob inerteza e o modelo proposto.AbstratTwo noteworthy models of planning in AI are probabilisti planning (based on MDPs andits generalizations) and nondeterministi planning (mainly based on model heking). Inthis paper we: (1) show that probabilisti and nondeterministi planning are extremes of arih ontinuum of problems that deal simultaneously with risk and (Knightian) unertainty;(2) obtain a unifying model for these problems using impreise MDPs; (3) derive a simpli�edBellman's priniple of optimality for our model; and (4) show how to adapt and analyze state-of-art algorithms suh as (L)RTDP and LDFS in this unifying setup. We disuss examplesand onnetions to various proposals for planning under (general) unertainty.

SumárioIntrodução 11 Uma breve revisão sobre probabilidades e teoria da deisão 51.1 Espaço de possibilidades, estados e eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Medidas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Conjuntos de medidas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Medidas de probabilidade ondiional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.6 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.7 Riso e inerteza knightiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.8 Teoria da deisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Uma breve revisão sobre planejamento em inteligênia arti�ial 112.1 De�nição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Suposições sobre modelos para planejamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Modelos para planejamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.1 Modelos determinístios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.2 Modelos não-determinístios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.3 Modelos probabilístios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4 Algoritmos para planejamento probabilístio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.1 Proessos markovianos de deisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.2 Caminho estoástio mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Um modelo para planejamento sob inerteza 273.1 Exemplo de problema de planejamento sob inerteza . . . . . . . . . . . . . . . . . . . . . . . 273.2 Um modelo para problemas de planejamento sob inerteza . . . . . . . . . . . . . . . . . . . . 313.3 Relação entre MDPST e MDPIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4 Algoritmos de solução para MDPSTs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.1 Iteração de polítia baseado apenas em MDPIPs . . . . . . . . . . . . . . . . . . . . . 363.4.2 Iteração de valor e iteração de polítia . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.3 O problema do aminho mínimo para MDPSTs . . . . . . . . . . . . . . . . . . . . . . 373.5 Solução do Exemplo 6 omo um MDPST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.5.1 Comparação om as soluções anteriores . . . . . . . . . . . . . . . . . . . . . . . . . . 394 Trabalhos orrelatos 435 Conlusão 455.1 Prinipais ontribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2.1 Uso de MDPSTs para aprendizado por reforço . . . . . . . . . . . . . . . . . . . . . . 465.2.2 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477

A Prova da simpli�ação da equação de Bellman para MDPSTs 49Índie Remissivo 53Referênias Bibliográ�as 55

Lista de Figuras2.1 Interação entre o planejador, o ontrolador (entidade que exeuta os planos) e o sistema queserá ontrolado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Ilustração de diferentes estruturas para a função F (s, a) (MBE5) do modelo básio de estadospara planejamento. Aros ontínuos e traejados representam diferentes ações. . . . . . . . . 162.3 Algoritmo de iteração de valor para um MDP de horizonte in�nito. A ada iteração o algoritmomelhora a sua estimativa da função valor ótima (V ∗) até que o erro dessa estimativa seja nomáximo ǫ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Algoritmo de iteração de polítia. A ada iteração o algoritmo melhora a polítia π até que elase estabilize, ou seja, ∀s ∈ S : πt(s) = πt+1(s). A função auxiliar Avaliar-Polítia alula ousto esperado da polítia π baseado em (2.6). . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5 Algoritmo RTDP. O algoritmo simula a exeução da polítia gulosa em relação à heurístia H(πH ). O algoritmo pára quando a diferença máxima entre o valor de H e o valor da próximaesolha gulosa é menor que ǫ. O método auxiliar RTDP-Trial é ilustrado na Figura 2.6. . . . 242.6 Método auxiliar do RTDP. Aada iteração, RTDP-Trial se baseia na heurístiaH para esolhera melhor ação a que deverá ser exeutada no estado s. Uma vez esolhida a ação, H(s)é atualizado e o estado resultante de apliar a em s é esolhido aleatoriamente através dométodo Simular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.7 Algoritmo LRTDP. O algoritmo exeuta o método auxiliar LRTDP-Trial (Figura 2.8) até queo estado iniial seja marado omo Resolvido. Pela de�nição do algoritmo, essa ondição sóé verdadeira quando todos os estados em Ss0πH já onvergiram. . . . . . . . . . . . . . . . . . . 252.8 Método auxiliar do LRTDP responsável por fazer a exploração gulosa do espaço de estados.Como os estados mais próximos do estado meta tendem a onvergirem primeiro, o métodoVerifiarEstadosResolvidos (Figura 2.9) é hamado para ada estado visitado, do maisreente (sG ∈ SG) até o estado iniial (s0), até que um estado que ainda não onvergiu sejaenontrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.9 Método do LRTDP responsável por rotular os estados que já onvergiram e atualizar o valor deH para os que ainda não. Note que devido a possível presença de ilos nos SSPs, a busa porestados que ainda não onvergiram não pode ser feita de forma trivial om um proedimentoreursivo das folhas para ima (bottom-up). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.1 Modelo não-determinístio para o Exemplo 5. Se um estado não é origem de aros, então otratamento em questão não é apliável nesse estado. . . . . . . . . . . . . . . . . . . . . . . . 293.2 Modelo probabilístio para o Exemplo 5. O valor que aompanha ada aro é a probabilidadeda transição do estado de origem ao estado de destino oorrer. . . . . . . . . . . . . . . . . . 303.3 Representação grá�a da estrutura da função de transição F(s, a) implíita em MDPST4 dosMDPSTs. Aros ontínuos e traejados representam diferentes ações. Círulos ontínuos de-notam estados e írulos traejados indiam os onjuntos de estados alançáveis. Note que adinâmias de ações sob inerteza não pode ser representada om o modelo básio de estados(Figura 2.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4 Modelagem do Exemplo 5 através de um MDPST. O valor que aompanham ada aro é amassa de probabilidade do onjunto de destino assoiada a ação e o estado de origem. . . . . 339

3.5 Modelagem através de um MDPIP da ação droga d1 do Exemplo 5. A função de probabilidadeP (s′|s, a) representa a probabilidade do estado s′ ser o estado resultante ao apliar a açãoa ∈ A(s) no estado s. Note que essa modelagem ontém a mesma quantidade de informaçõesforneida na Tabela 3.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.6 Algoritmo de iteração de polítia adaptado para MDPSTs usando o ritério minimax adotado.A ada iteração o algoritmo melhora a polítia π até que ela se estabilize, ou seja, ∀s ∈S : πt(s) = πt+1(s). A função auxiliar Avaliar-Polítia-Satia é ilustrada na Figura 3.7. . . 373.7 Algoritmo de avaliação de polítias para MDPSTs sem usar o Teorema 3. A função auxiliarEstimar-Função-Valor estima, usando aproximações suessivas, o usto esperado da polítiaπ baseado em (2.6) e no valor de P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.8 Algoritmo de iteração de valor para um MDPST de horizonte in�nito usando o ritério minimaxadotado. A ada iteração o algoritmo melhora a sua estimativa da função valor ótima (V ∗). . 393.9 Algoritmo de iteração de polítia para MDPSTs usando o ritério minimax adotado. A ada ite-ração o algoritmomelhora a polítia π até que ela se estabilize, ou seja, ∀s ∈ S : πt(s) = πt+1(s).Diferente da função Avaliar-Polítia-Satia (Figura 3.7), Avaliar-Polítia-MDPST usa(3.9) para alular o usto esperado da polítia π. . . . . . . . . . . . . . . . . . . . . . . . . . 403.10 Algoritmo de RTDP para SPSTs. O algoritmo simula a exeução da polítia gulosa em relaçãoà heurístia H (πH ) onsiderando a natureza omo um adversário (ritério minimax). Oalgoritmo pára quando a diferença máxima entre o valor de H e o valor da próxima esolhagulosa é menor que ǫ. O método auxiliar RTDP-Trial-SPST é ilustrado na Figura 3.11. . . . . 413.11 Método auxiliar do RTDP para SPSTs. Aada iteração, RTDP-Trial-SPST se baseia na heurís-tia H e na hipótese que a natureza é um adversário (ritério minimax) para esolher a melhoração a que deverá ser exeutada no estado s. Uma vez esolhida a ação, H(s) é atualizado eo estado resultante de apliar a em s é esolhido aleatoriamente através do método Simular. 413.12 Grá�o om o intervalo do usto esperado para todas as polítias do Exemplo 5. Sua legendaexibe as ações que devem ser exeutadas, respetivamente, nos estados ardiopatia, ardiopatiagrave e ardiopatia irreversível. As representação das ações é: d1 para droga d1, d2 para drogad2 e Tr para transplante ardíao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Lista de Tabelas1.1 De�nição da função de utilidade para os agentes iné�lo e atleta do Exemplo 4. . . . . . . . . 93.1 Informações forneidas sobre o efeito e usto de ada um dos tratamentos possíveis para oExemplo 5. Quando um valor de probabilidade p se refere a mais de um estado, a semântiaé que a probabilidade de qualquer um desses estados oorrem é p. . . . . . . . . . . . . . . . . 283.2 Custo para o paiente terminar o tratamento em ada um dos estados terminais possíveis doExemplo 5. Note que ao terminar o tratamento morto, o paiente perde 100 pontos, ou seja,todos os pontos possíveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

11

Lista de Siglas, Símbolos e FunçõesF(s, a) função de transição de estados para MDPSTs, p. 31 .γ fator de desonto para MDPs de horizonte in�nito, p. 18 .E onjunto de eventos exógenos, p. 11 .H espaço de histórios, p. 18 .O onjunto de observações, p. 12 .Ω espaço de possibilidades, p. 5 .ω estado da natureza (ω ∈ Ω), p. 5 .Π espaço de polítias, p. 19 .π polítia, p. 14 .π∗ polítia ótima, p. 19 .Σ sistema de transição de estados para simular um ambiente real, p. 12 .C(s, a) usto de apliar a ação a no estado s, p. 15 .E[π] usto esperado da polítia π, p. 18 .F (s, a) função de transição de estados, p. 15 .k onjunto de estados alançáveis, p. 31 .O função de observação, p. 12 .P0(·) medida de probabilidade para o estado iniial de um MDP, p. 17 .Pst(·) medida de probabilidade induzida pelo ritério minimax dos MDPSTs, p. 49 .s0 estado iniial, p. 11 .Sπ domínio da polítia π, p. 16 .SG onjunto de estados meta, p. 11 .Ss0π espaço gerado por s0 e π, p. 23 .T função geral de transição de estados, p. 11 .V (h) usto do histório h, p. 18 .V π função valor para polítias, p. 19 .MBE1 � MBE6 modelo básio de estados para planejamento, p. 15 .MDPIP1 � MDPIP5 proesso de deisão markoviano om probabilidades impreisas, p. 33 .MDPST1 � MDPST5 proesso markoviano de deisão om transição valorada por onjunto, p. 31 .MDP1 � MDP5 proesso markoviano de deisão, p. 17 .MGP1 � MGP8 modelo geral de planejamento, p. 11 .PC1 � PC4 axiomas de probabilidade ondiional, p. 7 .PC4' axioma alternativo à PC4, p. 7 .PTD1 � PTD3 modelo de um problema de deisão, p. 9 .PU1 � PU3 axiomas de probabilidade inondiional, p. 6 .SPST1 � SPST6 aminho mínimo om transição valorada por onjuntos, p. 37 .SSP1 � SSP6 aminho estoástio mínimo, p. 19 .K onjunto redal, p. 6 .A espaço de ações, p. 11 .S espaço de estados, p. 11 .GPS soluionador geral de problemas, p. 1 .13

IA inteligênia arti�ial, p. 1 .LRTDP Labeled Real Time Dynami Programming, p. 23 .MDP proesso markoviano de deisão, p. 17 .MDPIP proesso de deisão markoviano om probabilidades impreisas, p. 33 .MDPST proesso markoviano de deisão om transição valorada por onjunto, p. 31 .PTD problema de tomada de deisão, p. 9 .SPST aminho mínimo om transição valorada por onjuntos, p. 37 .SSP problema do aminho estoástio mínimo, p. 19 .

Introdução Um homem que não planeja seus passos om anteedêniaenontrará problemas logo em sua porta.� Confúio, 551 a.C.�479 a.C.(�lósofo hinês)O desenvolvimento de um soluionador geral de problemas (general problems solver � GPS) tem sidoum dos prinipais objetivos da área de inteligênia arti�ial IA [Ge�ner, 2002℄. Um GPS é um programaque reebe omo entrada uma desrição de alto-nível de um problema e automatiamente omputa a suasolução [Newell e Simon, 1963℄. Existem duas motivações para o desenvolvimento de tais programas. Aprimeira motivação é ognitiva, i.e., seres humanos são soluionadores gerais de problemas, assim, reproduzirou simplesmente emular tal araterístia é um grande desa�o para a inteligênia arti�ial. A segundamotivação é ténia: modelar problemas em alto-nível de abstração para um GPS resolver é mais simples doque desenvolver programas espeí�os para ada problema. Dessa forma, um GPS pode ser uma ferramentamuito útil na prátia.Para permitir a um projetista modelar problemas em alto-nível de abstração é preiso forneer umalinguagem geral para desrever tais problemas, bem omo algoritmos gerais para resolvê-los. Enquantoas soluções obtidas por tais sistemas podem não ser tão boas ou tão rápidas quanto aquelas geradas poralgoritmos dediados (ad ho), o uso de um GPS pode ser justi�ado se o seu desempenho for similar ao deuma solução dediada, ou ainda, se a implementação de uma solução dediada for muito dispendiosa.Para desenvolver um GPS, primeiro é neessário de�nir laramente o seu esopo de atuação, aso ontrárionão será possível projetar uma linguagem, nem algoritmos para ele. Uma maneira possível para de�nir talesopo é através da esolha de um modelo matemátio, ujas instânias serão resolvidas pelo GPS. Porexemplo, um modelo determinístio de transição de estados, i.e., um modelo no qual uma ação mapeiadeterministiamente um estado em outro, de�ne o seguinte esopo de atuação de um GPS: enontrar umaseqüênia ordenada de ações (pois o efeito de ada ação é determinístio) que satisfaça as restrições forneidaspelo problema reebido omo entrada. Ao introduzir outras araterístias ao esopo do GPS, omo porexemplo inerteza nos efeitos das ações ou ações om duração de tempo, outros modelos matemátios devemser usados, aumentando a expressividade da linguagem para desrever problemas, bem omo a omplexidadedos algoritmos de solução.Planejamento em inteligênia arti�ial é a área que estuda o desenvolvimento de soluionadores gerais deproblemas para determinadas lasses de modelos matemátios de ações e estados. Além de de�nirem o esopodo GPS, nesse aso hamado de planejador, que será desenvolvido, esses modelos também determinam: otipo de problemas que o planejador deverá resolver; a forma das soluções e as araterístias desejadasdessas soluções (ótimas, sub-ótimas, et). Dessa maneira, é possível ver planejamento em IA omo o estudode representações onvenientes (lasses de modelos matemátios) de problemas e de algoritmos e�ientesapazes de soluionar, de forma automátia, qualquer instânia do modelo matemátio esolhido.Em planejamento, a forma om que um modelo evolui ao apliar uma ação, hamada de dinâmia dasações, pode ser: determinístia, não-determinístia ou probabilístia. Enquanto os modelos determinístiosnão modelam inerteza no efeito das ações, os modelos não-determinístios e probabilístios modelam dife-rentes formas de inerteza para o efeito das ações. Apesar do modelo determinístio ser um aso espeial dos1

outros dois modelos, não existe uma relação direta entre os modelos não-determinístios e probabilístios. Aindependênia entre essas duas dinâmias de ações sugere a existênia de problemas que envolvam ao mesmotempo ações probabilístias e não-determinístias. Nesse trabalho, será proposto um modelo matemátio paraplanejamento uja dinâmia das ações suporta diferentes formas de inerteza, o que resulta em um modelono qual é possível expressar tanto os problemas anteriores quanto uma nova lasse de problemas, hamadade problemas de planejamento sob inerteza.MotivaçãoUma das prinipais abordagens da área de planejamento em IA é forneida por Bonet e Ge�ner [2006;2001℄. Em seus trabalhos, as diferentes formas de planejamento são desritas através de araterístiasomuns entre si, formulando linguagens, modelos e algoritmos para asos gerais de planejamento. Comoserá disutido na Seção 2.3, esse ponto de vista tem sido e�iente na uni�ação de diferentes linhas depesquisa dentro de planejamento, do lássio ao probabilístio, inluindo variações de planejamento não-determinístio. Tal formulação uni�ada é bené�a tanto para alançar os objetivos da IA quanto paraoutras áreas de pesquisas, omo por exemplo, a área de pesquisa operaional.Uma das limitações da formulação de Bonet e Ge�ner é tratar ações probabilístias e ações não-de-terminístias omo duas araterístias mutuamente exlusivas. Tais propriedades se baseiam em diferenteshipóteses feitas sobre o onheimento da dinâmia do ambiente modelado, respetivamente, sempre traduzidaem termos de probabilidades ou nuna traduzida em termos de probabilidades. Essas hipóteses tambéminduzem algumas propriedades da solução: na dinâmia probabilístia a solução é usualmente baseada novalor esperado da função de utilidade [Boutilier et al., 1999℄, enquanto a dinâmia não-determinístia obriga oplanejador a ofereer garantias sobre atingir determinados estados independentemente do não-determinismo(pior aso).Dessa forma, pesquisas em planejamento probabilístio e não-determinístio possuem poua interaçãoentre elas. De erta maneira, essa falta de interação é um re�exo do ontraste geral na área de teoria dadeisão entre a linha Bayesiana e a linha minimax : enquanto a primeira está assoiada ao valor esperadode uma função, a segunda ao omportamento no pior aso dessa mesma função. Porém, a área da teoriade deisão possui muitas outras abordagens, em espeial há abordagens apazes de lidar tanto om o valoresperado e om o omportamento no pior aso de funções quanto om qualquer ombinação dessas duasabordagens. Assim, é possível modelar problemas onde alguns eventos possuem probabilidades assoiadasenquanto outros eventos oorrem de forma não-determinístia.ObjetivoA proposta desse trabalho é desenvolver um modelo matemátio de estados e ações apaz de representar demaneira uni�ada problemas de planejamento sob inerteza. Nesse modelo, planejamento probabilístio eplanejamento não-determinístio são vistos omo asos espeiais, o que revela uma nova gama de problemasque ainda não foram abordados pela omunidade de planejamento em IA.1Outro objetivo desse trabalho é demonstrar que esses novos problemas, envolvendo ações que são proba-bilístias e não-determinístias ao mesmo tempo, são proessos markovianos de deisão om probabilidadesimpreisas [Satia e Lave Jr, 1973; White III e Eldeib, 1994℄. Também faz parte desse trabalho exibir omoadaptar os algoritmos para resolver instânias desse modelo, em espeial os usado em pesquisa operaional,para problemas de planejamento sob inerteza.OrganizaçãoEssa dissertação está organizada da seguinte maneira:1Planejamento determinístio também está inluído nesse modelo porque ele pode ser visto omo um aso degenerado tantode planejamento probabilístio quanto não-determinístio. 2

Capítulo 1 Uma breve revisão sobre os oneitos básios de probabilidades e da teoria da deisão. Tambémé forneida uma disussão sobre as diferentes manifestações de inerteza om o intuito de onstruir umalinguagem padrão para esse texto.Capítulo 2 Uma desrição suinta da área de planejamento através do ponto de vista uni�ado de Bonet eGe�ner [2006; 2001℄ e de Ghallab et al. [2004℄.Capítulo 3 Apresentação do modelo para problemas de planejamento sob inerteza, bem omo resultadose algoritmos para tal modelo.Capítulo 4 Levantamento bibliográ�o e resumo dos artigos da área de planejamento e pesquisa operaionalque sejam relaionados a essa proposta.Capítulo 5 Apresentação dos resultados obtidos através desse estudo, bem omo dos pontos nos quais essetrabalho pode ser estendido.Apêndie A Prova do prinipal resultado envolvendo o modelo proposto, o teorema 3. Esse teorema forneeo aliere para a solução de instânias desse modelo.Na organização lógia do texto, os Capítulos 1 e 2 representam os pré-requisitos neessários para aompreensão desse trabalho. O Capítulo 3 ontém o modelo proposto e os resultados obtidos, o Capítulo 4faz uma revisão bibliográ�a sobre trabalhos orrelatos e por último, o Capítulo 5 apresenta as onlusõesdesse trabalho e os próximos passos a serem seguidos para estendê-lo.

3

Capítulo 1Uma breve revisão sobre probabilidadese teoria da deisão Quando não está em nosso poder determinar o queé verdadeiro, devemos seguir o que é mais provável.� René Desartes, 1596�1650(matemátio e �lósofo franês)Nesse apítulo serão revistos alguns oneitos básios de probabilidades [Cozman, 2005a℄, bem omo seráforneida uma breve disussão sobre teoria da deisão [Cozman, 1997; Trevizan et al., 2006℄. A interpre-tação de probabilidades onsiderada nesse texto é subjetivista [Cheeseman, 1985℄. Nessa abordagem, asprobabilidades são uma medida da rença ou ignorânia de quem as espei�ou devido sua insu�iênia deonheimento sobre fen�meno modelado.1.1 Espaço de possibilidades, estados e eventosO aliere da teoria de probabilidades é o espaço de possibilidades , também hamado de espaço amostral.O espaço de possibilidades, termo que será adotado nesse texto, é denotado por Ω e representa o onjunto(não-vazio) de todas as possíveis saídas do fen�meno que será modelado. Os elementos ω do onjunto Ωsão hamados de estado da natureza e são onsiderados mutuamente exlusivos.1 Dessa forma, em qualquermomento o fen�meno modelado será representado por um, e apenas um, ω ∈ Ω. Nesse estudo será onsideradoque o espaço de possibilidades Ω é enumerável, �nito ou in�nito.Outro oneito importante é o de eventos . Um evento é um subonjunto de Ω e será denotado por letrasmaiúsulas, por exemplo A, B, C, et. Quando um evento A ontém o estado da natureza observado após aoorrênia do fen�meno modelado, é dito que o evento A oorreu. Para denotar todos os estados da naturezaque não pertenem a um evento A, i.e. o omplemento de A em relação à Ω, é adiionado a letra sobresritaao nome do evento (Ac).Dado dois eventos A e B, sua interseção representa todos os estados da natureza que estão ao mesmotempo em A e B e é denotada por A ∩ B. A união desses dois eventos, denotada por A ∪ B, representa osestados da natureza pertenentes a A, B ou A ∩B.1Os elementos de Ω são usualmente hamados apenas de estados, mas para evitar on�ito om o termo estado da área deplanejamento, será adotado sua versão mais longa. 5

6 Capítulo 1: Uma breve revisão sobre probabilidades e teoria da deisão1.2 Variáveis aleatóriasDe�nido um espaço de possibilidades, é possível onstruir uma função que relaione os elementos de Ω omos números reais. Qualquer função X om essa araterístia, ou seja, X : Ω → R, é hamada de variávelaleatória ou simplesmente de variável. Note que, a função X mapeia de forma determinístia todo ω ∈ Ω àum número real, sendo que o termo aleatório se refere à inerteza assoiada ao fen�meno modelado.Exemplo 1. A idade de uma pessoa ω seleionada de uma população Ω é uma variável aleatória X(ω).Sobre a mesma população Ω é possível de�nir uma outra variável aleatória Y , em que Y (ω) representa o peso(arredondado para valores em quilogramas) de uma pessoa ω que pertene à população Ω.1.3 Medidas de probabilidadeUma medida de probabilidade é uma função P que assoia a ada evento A de Ω um peso P (A), hamado deprobabilidade. Como não é feita nenhuma suposição sobre algum evento ter oorrido anteriormente, a funçãoP também pode ser hamada de medida de probabilidade inondiional ou a priori. Entre as suposições feitas,a primeira é que o valor da probabilidade de um evento deve ser um número real entre zero e um (inluindoambos). Atribuir probabilidade zero a um evento representa a impossibilidade dele oorrer, enquanto assoiaro valor um está relaionado om erteza de que esse evento irá oorrer.Além disso é neessário a seguinte suposição: dado dois eventos A e B tais que sejam possível de�nirpreisamente P (A) e P (B), se A e B forem eventos disjuntos então P (A ∪ B) = P (A) + P (B). Quando aprobabilidade de todos os eventos de Ω estão preisamente espei�adas, essas suposições podem ser resumidasnos seguinte axiomas:PI1 Para qualquer evento A, P (A) ≥ 0;PI2 O espaço de possibilidades tem probabilidade um, P (Ω) = 1;PI3 Se dois eventos são disjuntos, i.e., A ∩B = ∅, então P (A ∪B) = P (A) + P (B).Através dos axiomas de probabilidade inondiional (PU1 � PU3) é possível alular a probabilidade doomplemento de um evento A por: P (Ac) = 1 − P (A), pois P (A) + P (Ac) = P (Ω) = 1. Outro resultadodesses axiomas é: P (A ∪B) = P (A) + P (B)− P (A ∩B) para quaisquer eventos A e B de Ω.1.4 Conjuntos de medidas de probabilidadeApesar de simples e intuitivo estabeleer uma probabilidade para ada evento, na prátia, obter esse valorexato é muito difíil e em alguns asos impossível. Uma forma de transpor essa di�uldade é permitir quea probabilidade de ada evento seja de�nida através de restrições, que também são hamadas de a�rmações(assessments) sobre o fen�meno modelado. A oleção dessas a�rmações gera um onjunto de medidas deprobabilidade, hamado de onjunto redal [Cozman, 2005b℄, que será denotado por K.Note que, todo onjunto redal onstruído om pelo menos duas a�rmações on�itantes é vazio e serádenominado inválido. Já os onjuntos redais que possuírem pelo menos uma medida de probabilidade,i.e. |K| > 0, são hamados de válidos. Além da araterização feita sobre a norma de K, ainda é possívelaraterizar todo onjunto redal válido omo onexo ou não e aberto ou fehado.Dado um onjunto redal válido, é possível inferir novas restrições sobre a probabilidade de outros eventosusando os axiomas de probabilidade inondiional e seus resultados. Essas novas restrições podem de�nirpreisamente ou limitar a probabilidade de eventos, dependendo do onjunto iniial de a�rmações e daapaidade omputaional disponível.Para não sobrearregar a notação, a partir desse ponto do texto, todo onjunto redal válido será hamadoapenas de onjunto redal. Quando neessário, será expliitado que o onjunto redal em questão é inválido.

1.5 Medidas de probabilidade ondiional 71.5 Medidas de probabilidade ondiionalEm muitas situações é interessante onsiderar a probabilidade de um evento A ondiionado na oorrênia deoutro evento B. A probabilidade ondiional , representada por P (A|B), expressa esse oneito. Formalmente,dado um espaço de possibilidades Ω, uma medida de probabilidade ondiional é uma função P (·|·) que mapeiapares de eventos em números reais entre 0 e 1 (ambos inlusos). O primeiro evento é hamado de eventoondiionado, enquanto o segundo é hamado de evento ondiionante. Note que o evento ondiionante nãopode ser vazio, pois o evento vazio é a representação da impossibilidade lógia, o que impede a espeulaçãoda probabilidade de qualquer outro evento dado sua oorrênia.2Ao �xar um evento ondiionante B não-vazio, a medida P (·|B) satisfaz os axiomas de probabilidadeinondiional. Além disso, é possível adaptar PU2 para medidas de probabilidade ondiionais, resultandoem P (B|B) = 1, o que é bem intuitivo, pois é onsiderado que o evento B já oorreu. Dessa forma, é possívelonstruir os axiomas de probabilidade ondiional (PC1 � PC4).PC1 Para qualquer evento A e evento não-vazio B, P (A|B) ≥ 0.PC2 Para qualquer evento B não-vazio: P (Ω|B) = P (B|B) = 1PC3 Se dois eventos são disjuntos, então para qualquer evento não-vazio C, vale P (A ∪ B|C) = P (A|C) +P (B|C).PC4 Dado três eventos, A,B,C tais que B e B ∩C são não-vazios, vale P (A ∩B|C) = P (A|B ∩C)P (B|C).O axioma PC4, onheido omo axioma da oerênia, é uma versão mais geral para o axioma PC4', obtidoa partir de PC4 quando o evento C = Ω. Note que, deferente de PC4', PC4 é bem de�nido mesmo quando

P (B) = 0. Apesar desse aso ser inomum, ele pode oorrer, omo é ilustrado no Exemplo 2.PC4' Dado 3 eventos, A, B, C, tais que B é não-nulo e P (B) 6= 0, então vale P (A|B) = P (A ∩B)P (B).Exemplo 2. Suponha que uma moeda é lançada por uma pessoa qualquer. O espaço de possibilidades Ω paraa fae observada dessa moeda quando ela atingir o hão é {ara, oroa}. Outro espaço de possibilidades paraesse fen�meno é Ω′ = {ara, oroa, moeda entrar em órbita}. Como essa moeda será lançada por uma pessoaqualquer, a probabilidade do evento B = {moeda entrar em órbita} é 0, porém PC4 garante que, por exemplo,as a�rmações P (ara|B) ≤ 1/2 e P (oroa|B) = 2/3 sejam oerentes om P (B) = 0.Apesar do axioma PC4 ofereer essa para vantagem de expressar probabilidade ondiional, nesse trabalhoserá assumido PC1 à PC3 e PC4'. Esse onjunto de axiomas, também onheido omo axiomas de Kolmogorov,será assumido pelo fato de forneer uma axiomatização na qual a probabilidade da união in�nita de eventosestar bem de�nida.1.6 EsperançaDada uma medida de probabilidade P (·) e uma variável aleatória X , ambas de�nidas para Ω, a esperança deX ou valor esperado de X é uma ombinação entre P e X . Formalmente, o valor esperado de X , denotadopor E[X ], é alulado por 1.1.

E[X ] =∑

ω∈Ω

X(ω)P (ω) (1.1)Esse somatório pode ser interpretada omo a média, para todo estado da natureza, do valor da variávelaleatória X ponderada pelas probabilidades P (X). Nessa média, os valores assoiados à estados da naturezaom mais probabilidade reebem um peso maior. Quando neessário, a notação EP [X ] será usada paraexpliitar que a medida de probabilidade P foi usada para alular a esperança de X .2Note que um evento A de probabilidade 0 é diferente do evento vazio. Enquanto o primeiro possui probabilidade bemde�nida, o segundo, por de�nição não possui probabilidade alguma.

8 Capítulo 1: Uma breve revisão sobre probabilidades e teoria da deisão1.7 Riso e inerteza knightianaAo modelar um fen�meno através de um onjunto onjunto redal K, dois asos extremos são possíveis: (i)apenas uma medida de probabilidade é de�nida, ou seja, |K| = 1; e (ii) K ontém todas as medidas deprobabilidade possíveis para Ω, i.e., não é forneida nenhuma a�rmação sobre a oorrênia qualquer evento.Usualmente, o primeiro aso está assoiado à expressão riso, enquanto o segundo aso está assoiado àexpressão inerteza knightiana, devido aos trabalhos de Knight [Knight, 1921℄.Para ilustrar melhor a diferença entre riso e inerteza knightiana, onsidere a existênia de um meanismo,hamado de natureza. Esse meanismo resolve a inerteza assoiada ao estado da natureza resultante daoorrênia do fen�meno modelado. Por exemplo, durante o lançamento de uma moeda justa, não é possívelprever a fae que será obtida, porém em algum momento antes da moeda aterrissar, natureza irá esolherqual fae será observada omo resultado desse lançamento.Usando essa de�nição de natureza, quando um fen�meno é modelado através de riso, i.e. P (ω) é pre-isamente de�nido para todo ω ∈ Ω, a medida de probabilidade P representa a preferênia da natureza naesolha de qual será o seu estado resultante. Nesse ponto �a laro a abordagem subjetivista adotada nessetexto: omo não se onhee a preferênia exata da natureza, a medida de probabilidade P é a rença de quemmodelou o fen�meno em questão sobre essa preferênia.Quando o resultado de um fen�meno é modelado através de inerteza knightiana é onsiderado ignorâniatotal sobre a preferênia da natureza sobre qual será o seu estado após a oorrênia desse fen�meno. Issoporque o onjunto redal K usado para modelar esse fen�meno irá onter apenas a a�rmação ∀ω ∈ Ω: 0 ≤P (ω) ≤ 1, ou seja, toda medida de probabilidade sobre Ω pertenerá à K. O Exemplo 3 evidênia essadiferença entre riso e inerteza knightiana.Exemplo 3. Considere que a fae observada de uma moeda ao lançá-la é o fen�meno a ser modelado. Paraisso, Ω = {ara, oroa} e se não for forneida nenhuma informação adiional, o onjunto redal K obtido nãoterá nenhuma a�rmação além das geradas pelos axiomas de probabilidade inondiional. Esse é um enáriode inerteza knightiana, pois todas as preferênias possíveis da natureza entre ara e oroa são onsideradaspossíveis.Se alguém aresentar a a�rmação de que para essa moeda vale P (ara) = 2P (oroa), então é obtido umenário de riso. Isso porque K' onterá apenas a medida de probabilidade P (ara) = 2/3 e P (oroa) = 1/3.Dessa forma, a pessoa responsável por adiionar essa a�rmação está demonstrando areditar que a naturezatem uma preferênia de 2/3 para ara e 1/3 para oroa.A diferença entre esses dois extremos é objeto onstante de pesquisas na área de eonomia e psiologia.Para expliitar o vasto uso desses oneitos em eonomia, é su�iente itar o disurso de Alan Greenspan de3 de janeiro de 2004:3...inerteza não é só uma araterístia fortemente presente no enário polítio-monetário; ela é umadas araterístias que de�nem tal enário. O termo �inerteza� usado aqui abrange ambas �inertezaknightiana� na qual a distribuição de probabilidade dos resultados é desonheida, e �riso�, no qual ainerteza dos resultados é delimitada por uma distribuição de probabilidade onheida... ([Greenspan,2004℄, p. 36)4Até esse momento o termo inerteza foi menionado informalmente, e agora será apresentada uma disus-são sobre esse termo e outros termos assoiados, omo não-determinismo e probabilístio. Gramatialmente,não-determinismo representa a negação do termo determinismo, i.e., a ombinação de riso e inerteza knigh-tiana em todas as proporções possíveis. Um fen�meno desse tipo é modelado através de um onjunto redalK, ontendo desde uma únia medida de probabilidade (riso) até todas as medidas de probabilidade sobre Ω(inerteza knightiana), inluindo todo o espetro entre esses extremos. Nesse texto, omo no disurso itadoanteriormente de Alan Greenspan, esse aso será hamado de inerteza.3Entre os notáveis trabalhos feitos por Alan Greenspan, está seu argo omo hefe do Bano Central Ameriano (FED) dejunho de 1987 à outubro de 2005.4Tradução livre.

1.8 Teoria da deisão 9iné�lo atletaensolarado huvoso ensolarado huvosoparque 5 -10 10 0inema 8 10 -5 8asa 0 0 -10 3Tabela 1.1: De�nição da função de utilidade para os agentes iné�lo e atleta do Exemplo 4.Como de�nição de não-determinismo, será onsiderada a mesma de�nição usada na teoria da ompu-tação para máquinas de Turing não-deterministias e aut�matos não-deterministios.5 Informalmente, essade�nição está relaionada ao fato da função de transição T ser multi-valorada, ou seja, dado um estado se uma entrada σ, o estado resultante dessa máquina é um dos valores devolvidos por T para 〈s, σ〉. Comonão é forneida nenhuma informação adiional que ajude a prever qual será o estado resultante para 〈s, σ〉,o enário araterizado é de inerteza knightiana.Dessa forma, nesse texto e nas áreas relaionadas à omputação, em espeial teoria da omputação eplanejamento em IA, o termo não-determinismo é usado omo sin�nimo de inerteza knightiana. O mesmopadrão será seguido para o termo probabilístio, que é sin�nimo de riso para essa áreas.1.8 Teoria da deisãoDe forma simpli�ada, um problema de tomada de deisão pode ser visto omo a esolha de uma ação, entreum onjunto de ações possíveis, levando em onta a utilidade de ada uma delas. Formalmente, um problemade tomada de deisão (PTD) é uma tupla 〈S,A, U〉 [Giron e Rios, 1980℄, onde:PTD1 S é um onjunto, hamado de espaço de estados, om todos os possíveis estados resultantes da deisãodo agente.PTD2 A é o onjunto de todas as ações possíveis, hamado de espaço de ações.PTD3 U : S ×A ∈ R, hamada de função utilidade. Essa função assoia uma utilidade a ada ação a ∈ A eestado resultante s.No modelo de um problema de deisão (PTD1 � PTD3), a função utilidade é uma função de ganho quetraduz ada par estado e ação em um número real. Dessa forma, dado s, s′ ∈ S, a, a′ ∈ A, se U(s, a) > U(s′, a′)então o agente deisor (deision maker) prefere 〈s, a〉 à 〈s′, a′〉. A teoria da utilidade [Cozman, 1997; 2005a;Russel e Norvig, 2003℄ fornee uma axiomatização que garante a existênia U , porém essa teoria tambéé subjetivista, ou seja, diferentes agentes deisores podem possuir diferentes funções de utilidade para ummesmo PTD. O Exemplo 4 ilustra esse fato.Exemplo 4. Considere dois agentes deisores, iné�lo e atleta, e o seguinte problema de tomada de deisão:esolher entre ir para o parque, ir para o inema ou �ar em asa, sabendo que o dia pode estar ensolaradoou huvoso. Nesse PTD, S = {ensolarado, huvoso} e A = {parque, inema, asa} para ambos os agentes,porém, omo é intuitivo, U (Tabela 1.1) é diferente para os agentes iné�lo e atleta.Para ada ação a ∈ A, é possível de�nir a função Xa(s) = U(s, a) que representa a utilidade de a paraada estado possível em S. Note que Xa pode ser vista omo uma variável aleatória ao assumir S omoespaço de possibilidades S.Dado um PTD 〈S,A, U〉, se o agente deisor puder espei�ar uma únia medida de probabilidade Psobre S, então ele é onheido omo bayesiano. Nesse enário de riso, o agente bayesiano avalia ada ação aatravés de seu valor esperado, ou seja, EP [Xa] ou simpli�ando a notação EP [a]. Assim a ação d esolhida éde�nida por (1.2).5Para uma de�nição formal de máquinas de Turing não-deterministias, veja [Lewis e Papadimitriou, 1997℄

10 Capítulo 1: Uma breve revisão sobre probabilidades e teoria da deisãod = argmax

a∈AEP [a] = argmax

a∈A

∑

s∈S

P (s)U(s, a) (1.2)No entanto, em enários de inerteza knightiana não é possível apliar (1.2). Nesse aso, uma suposiçãoomum é que o agente deisor irá fazer usa esolha baseado no pior aso possível. Esse ritério é hamadode minimax [Lue e Rai�a, 1957℄ e é formalmente de�nido em (1.3) para K ontendo todas as medidas deprobabilidade sobre S.d = argmax

a∈A{minP∈K

EP [a]} = argmaxa∈A

{minP∈K

∑

s∈S

P (s)U(s, a)} (1.3)Para o aso mais geral, ou seja, enários de inerteza, é onsiderado que o agente deisor possui umonjunto redal K de�nido sobre S. O ritério de deisão minimax (1.3) também pode ser apliado para esseaso, e se K é unitário então (1.3) se reduz à (1.2). Note que, o uso do ritério minimax nesse enário equivaleà supor que, após o agente esolher uma ação a, a natureza esolherá omo preferênia a pior medida deprobabilidade P ∈ K om relação à EP [a].Existem muitas razões para as quais um PTD sob inerteza pode surgir: (i) as renças do agente sãoinompletas ou vagas [Levi, 1980; Walley, 1991; 1996℄, tanto porque não há tempo ou reursos su�ientespara eliitá-las, (ii) um grupo de espeialistas podem disordar sobre os valores de probabilidades e nenhumaordo, além da oleção da opinião de ada um, pode ser feito [Seidenfeld et al., 1989; Seidenfeld e Shervish,1990℄, e (iii) quando o interesse é a robustez das inferênias, i.e., na avaliação de quanto variam as inferêniasquando é permitido que o valor das probabilidades variem [Berger, 1985; Huber, 1980; Kadane, 1984℄.

Capítulo 2Uma breve revisão sobre planejamentoem inteligênia arti�ial Estar preparado é metade da vitória.� Miguel de Cervantes Saavedra, 1547�1616(esritor espanhol)1Nesse apítulo será apresentada uma breve desrição sobre a área de planejamento e suas prinipais linhasde pesquisas. A visão uni�ada que será usada ao longo de todo o texto é baseada em [Bonet e Ge�ner, 2006;Ghallab et al., 2004; Ge�ner, 2002℄. Também serão apresentados alguns algoritmos para planejamento não-determinístio e probabilístio.2.1 De�niçãoPlanejamento é o proesso de esolha e organização de ações através da anteipação (previsão) de seus efeitos.Esse proesso de raioínio tem omo objetivo satisfazer, através da exeução das ações esolhidas, algumasmetas previamente de�nidas. Planejamento em IA estuda métodos para automatizar, usando algoritmosindependentes de domínio, esse proesso de raioínio. Formalmente, um problema de planejamento podeser desrito através do modelo geral de planejamento (MGP1 � MGP8):MGP1 S é um onjunto de estados, hamado de espaço de estados,MGP2 s0∈ S é o estado iniial,MGP3 SG⊆ S é o onjunto (não-vazio) de estados metas, i.e., os estados que devem ser alançados pelosistema,MGP4 A é o onjunto de ações, e A(s) representa as ações apliáveis no estado s,MGP5 E é o onjunto de eventos exógenos, i.e., onjunto de ações que são exeutadas por fontes externas aoplanejador e que não podem ser ontroladas por ele,2MGP6 T : S×A×E → 2S é a função (geral) de transição de estado, que para ada estado s ∈ S, ação a ∈ A(s)e evento e ∈ E , devolve um subonjunto Sr de S representando os estados resultantes possíveis,1Miguel de Cervantes Saavedra é autor da famosa obra Don Quixote de La Manha.2O nome evento exógeno, largamente usado pela omunidade de planejamento em IA, não está assoiado om a de�nição deeventos usado na teoria de probabilidades. 11

12 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiialEventosDesrição de ΣDesrição do problema PlanejadorControladorEstadoda exeução PlanosAçõesObservações〈S,A, E , T,O, O〉〈s0, SG〉

Sistema ΣFigura 2.1: Interação entre o planejador, o ontrolador (entidade que exeuta os planos) e o sistema que seráontrolado.MGP7 O é o onjunto de observações que o agente pode reeber do ambiente, eMGP8 O : S × A → 2O é a função de observação que, para ada ação a ∈ A e ada estado resultante s ∈ S,devolve um subonjunto de Ω que representa as observações que o agente pode reeber após apliar aação a e parar no estado s.Note que no modelo geral de planejamento, segundo Ghallab et al. [2004℄, os axiomas MGP1 e MGP4 atéMGP8 de�nem um domínio de planejamento, i.e., representam um sistema de transição de estados (sistema Σda Figura 2.1) que simula um ambiente real. JáMGP2 e MGP3 forneem informações sobre os estados iniiaisdo ambiente modelado e quais são os objetivos que devem ser atingidos. Em linha gerais, todo problema deplanejamento onsiste em um domínio de planejamento juntamente om informações sobre os estados iniiaise metas à serem alançadas.A solução de um problema de planejamento reebe o nome de plano. Um plano pode ser simplesmenteuma seqüênia de ações que devem ser exeutadas, hamada de plano de malha aberta (open-loop plan), ouuma função uja entrada são as perepções do ambiente num determinado instante e a saída é a ação quedeve ser exeutada naquele instante. Esse último tipo de plano, om retroalimentação, reebe o nome deplano de malha fehada (losed-loop plan) e tem omo prinipal exemplo os planos de ontingênia, que sãoplanos om operadores de ontrole de �uxo, omo: if, while e until.A exeução no ambiente (real) das ações ontidas em um plano é feita por um ontrolador. Além disso oontrolador também é responsável por intermediar a perepção do ambiente, traduzindo os sinais dos sensoresem elementos de O para serem usados pelo planejador. A interação entre esses três elementos, planejador,ontrolador e ambiente, está ilustrada na Figura 2.1. Quando não há a neessidade do ontrolador observaro ambiente nem devolver o estado da exeução ao planejador, então o plano omputado pelo planejador é dotipo malha aberta. Caso ontrário, quando o ontrolador deve observar o ambiente (mas não neessariamentedevolver essa perepção para o planejador), o plano será do tipo malha fehada.Outro ponto a ser ressaltado é que esse modelo oneitual não estabelee nenhuma linguagem de repre-sentação. Logo, a desrição do sistema Σ e os parâmetros do problema (s0 e SG) podem ser representadosde forma explíita, onde todos os onjuntos e funções desritos pelo modelo geral de planejamento são repre-sentados de forma direta na memória. Outra forma de representação é a implíita, uja desrição do modeloé feita através de uma linguagem de alto-nível, omo por exemplo PDDL (Planning Domain DesriptionLanguage) [MDermott et al., 1998; Fox e Long, 2003℄. Tais linguagens permitem representar estados e açõesde forma ompata, através de �uentes, i.e., propriedades do sistema que são alteradas ao longo do tempo,árvores de deisão e outras estruturas de dados. Pesquisas em planejamento requerem uma representaçãoimplíita, uma vez que os problemas de interesse envolvem um número muito grande de estados, na ordemde milhões.

2.2 Suposições sobre modelos para planejamento 132.2 Suposições sobre modelos para planejamentoOmodelo geral de planejamento de�ne os omponentes que desrevem domínios e problemas de planejamento,porém não é feita nenhuma suposição sobre a estrutura e a relação entre esses omponentes. Essas suposiçõespodem ser divididas nos seguintes grupos [Ghallab et al., 2004℄:Cardinalidade de S (MGP1). Em grande parte dos asos o espaço de estados S é �nito, porém é possívellidar om espaços in�nitos. Esse tipo de espaço de estados é neessário quando o problema possui ações queonstroem novos objetos ou manipulam variáveis numérias ujos valores não estão limitados. O uso deespaço de estados in�nito geralmente implia na indeidibilidade do problema e perda de qualquer garantiade parada do planejador.Observabilidade de Σ (MGP7 e MGP8). As observações devolvidas pelo ambiente podem ser su�ientepara de�nir exatamente o estado atual do sistema, ou apenas restringir os estados nos quais ele pode estar.Com base nisso, é possível fazer três suposições sobre os axiomasMGP7 e MGP8, araterizando um ambienteomo:• Completamente observável, onde não há inerteza sobre o estado atual do mundo, pois o planejadoré apaz de determiná-lo através das propriedades observadas do sistema. Essa lasse de problemas éaraterizada quando O(s, a) = O(s′, a) se e somente se s = s′. Uma simpli�ação pode ser feita usandoO = S e portanto, O(s, a) = s,

• parialmente observável, no qual as observações feitas pelo planejador permitem apenas riar um on-junto de estados possíveis do ambiente. Esse onjunto, hamado de estado de rença, é onstruídoporque a únia inferênia que o planejador pode realizar é: se O(s, a) 6= O(s′, a) então s 6= s′, e• não-observável, onde o planejador não onsegue adquirir informações sobre o ambiente, ou seja, elenão onsegue determinar o estado do mundo. Como no ambiente parialmente observável, o planejadordeve onsiderar um estado de rença, porém, ele deve ser onstruído apenas om as informações obtidasdo estado iniial s0 e da propagação dos efeitos das ações exeutadas. Essa lasse de problemas éaraterizada quando O(s, a) = O(s′, a) ∀s, s′ ∈ S, ou seja, quando Ω é um onjunto unitário.3Dinâmia das ações de Σ (MGP6). O estado resultante após exeutar uma ação no sistema Σ pode sermodelado através de três dinâmias diferentes e mutualmente exlusivas, que serão hamadas de dinâmiasbásias [Ghallab et al., 2004℄: determinístia, não-determinístia ou probabilístia. A dinâmia determinístiaestabelee que para ada estado s ∈ S, evento e ∈ E e ação a ∈ A(s), existe apenas um estado resultante

s′ ao apliar a em s e oorrer o evento e, ou seja, T (s, a, e) = Sr = {s′}. Dessa forma, o planejador podeprever o estado resultante da apliação de uma ação determinístia levando em onta os eventos que poderãooorrer.Nas dinâmias não-determinístia e probabilístia, apesar do sistema Σ sempre estar em um únio estado,o planejador não tem informações su�iente para prever exatamente qual é o estado resultante ao apliar aem s om a oorrênia do evento e. Isso porque o onjunto Sr ⊆ S devolvido pela função de transição T nãoé unitário omo no aso determinístio. Logo, a únia previsão que pode ser feita é que o estado resultantes′ ∈ Sr. A diferença entre a dinâmia não-determinístia e probabilístia é o tipo de inerteza, respetivamenteknightiana e riso, isso é, no modelo não-determinístio não é onheida a medida de probabilidade que regea esolha de um estado s′ ∈ Sr, enquanto no modelo probabilístio é forneido omo parâmetro do problemauma distribuição de probabilidade para ada T (s, a, e) possível, om s ∈ S, a ∈ A(s)e ∈ E .Usando as de�nições aima e os oneitos do Capítulo 1 é possível ver um problema de tomada de deisãoseqüenial sob riso omo sendo equivalente à um problema de planejamento probabilístio. A mesma relaçãovale entre tomada de deisão seqüenial sob inerteza knightiana e planejamento não-determinístio.3Quando O é unitário, O = {ô}, ô é hamado de observação nula, pois ela não aresenta nenhuma informação ao planejador.

14 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiialDinâmia interna de Σ (MGP5). Um sistema Σ é dito estátioambiente!estátio quando o onjunto deeventos exógenos E é vazio, i.e., se o estado resultante de apliar uma ação permanee inalterado até queoutra ação seja exeutada. Caso E não seja vazio, então o sistema é dito dinâmio, impliando que entre aexeução de duas ações pode oorrer algum evento exógeno. Esse evento exógeno pode inviabilizar a apliaçãoda segunda ação.Caraterização da meta (MGP3). Problemas de planejamento podem ser de metas restritas , ujo obje-tivo é atingir qualquer estado do onjunto SG (também hamadas de metas de alançabilidade), ou de metasestendidas , onde mais restrições são forneidas. Entre as metas estendidas mais omuns, estão:• Otimização de função utilidade, ujo objetivo do planejador é maximizar uma função utilidade Uforneida omo um parâmetro do problema. Essa função geralmente é de�nida através do usto deações e das reompensas obtidas por atingir determinados estados.• Otimização de reursos �nitos, no qual o planejador deverá se omportar omo um esalonador (shedu-ler), pois algumas de suas ações onsomem reursos (omo por exemplo ombustível) que são limitados.• Restrições de trajetória, onde são adiionadas exigênias sobre os estados visitados durante a exeuçãodo plano. Essas restrições variam entre estados a serem evitados, estados que obrigatoriamente devemser visitados, estados onde o sistema deve ser mantido, entre outras.Note que as diferentes metas estendidas não são mutualmente exludentes, ou seja, mais de uma forma demeta estendida pode surgir na de�nição de um determinado problema. Além disso, as metas estendidas sofreminterferênia direta das outras suposições, omo a observabilidade e a dinâmia do sistema. Um exemplo dissoé o planejamento para dinâmia de ações probabilístia, em que a observação parial ou ompleta do ambientedireiona o sistema a enontrar uma solução para o aso médio, i.e. onsiderando a esperança das variáveisaleatórias envolvidas, enquanto em planejamento não-determinístio o interesse é enontrar a melhor soluçãono pior aso, ou seja, supondo que a natureza sempre esolherá omo seu estado resultante o pior estadopossível para o planejador.Formato da solução. Como foi omentado no iníio dessa Seção, um plano pode ser de malha aberta,representado por uma seqüênia de ações, ou malha fehada. Os planos de malha fehada são representadosde forma geral por uma função π : O → A, hamada de polítia, uja entrada são as perepções e a saída éa ação que deve ser exeutada.Duração das ações. As ações podem ser instantâneas, ou seja, elas não possuem tempo de duração e nesseaso é dito que o sistema possui . Um exemplo de sistema om tempo implíito é o usado planejamento lássio(Seção 2.3.1). Em sistemas om tempo explíito, o planejador deve levar em onta o tempo de duração dasações. Dessa forma, o planejador deve tratar restrições sobre a interação entre as ações, omo por exemplo:(i) ações exeutadas em paralelo, i.e., quando uma ação pode iniiar ou terminar antes, durante ou depoisde outra ação; e (ii) ações que não podem ser exeutadas simultaneamente. Problemas de planejamento queenvolvem ações om duração de tempo se aproximam de problemas de esalonamento, que além de trataremações (tarefas) om duração de tempo, também tratam de ações om onsumo e produção de reursos.Interação entre o planejador e Σ. Essa interação pode ser sínrona, i.e., o planejador elabora e exeutaum plano (geralmente om pouas ações) e, ao reeber as observações do ambiente, ele elabora um novoplano, reiniiando o ilo até atingir a sua meta. Nesse aso o planejador é hamadado de on-line, pois oplano solução é onstruído sob demanda. Quando essa interação oorre apenas uma vez, ou seja, o planejadoralula uma solução ompleta a priori para o problema e depois a exeuta, sem neessitar de retroalimentaçãodo ontrolador, o planejador é hamado de o�-line. A relação entre a forma da solução e a interação entre oplanejador e o ambiente é a seguinte: todo planejador on-line gera planos de malha fehada, enquanto todoplano de malha aberta é produzido por planejadores o�-line.

2.3 Modelos para planejamento 15Quantidade de agentes exeutores de ações. 4 Um domínio de planejamento é dito de agente únioquando os planos enviados ao ontrolador (Figura 2.1) são exeutados por apenas um agente. Caso o on-trolador omande mais de um agente exeutor, o planejador pode usar essa informação para melhorar algunsparâmetros da exeução dos planos, omo tempo total gasto, usto total, reursos usados, et. Nesse aso,hamado de planejamento para multi-agentes, é possível que ações sejam exeutadas em paralelo, pois dife-rentes agentes podem exeutar ações no mesmo instante de tempo. Além disso, quando os agentes exeutoresnão são todos iguais, novas restrições podem ser adiionadas ao domínio para modelar a apaidade individualde ada agente.Com relação as suposições apresentadas anteriormente, nesse trabalho será assumido que todo o domíniode planejamento (sistema Σ) é �nito, ompletamente observável, estátio, om tempo implíito e de agenteúnio, enquanto todo problema de planejamento possuirá tanto metas restritas quanto metas baseadas emotimização de função utilidade e solução representável por uma polítia explíita (plano malha fehada).Além disso, os algoritmos de planejamento propostos nesse trabalho serão tanto on-line quanto o�-line.A únia suposição não de�nida, é a dinâmia das ações de Σ, que será o objetivo de estudo desse trabalho.Essa suposição será alterada para permitir que um sistema Σ possua, simultaneamente, uma dinâmia tantonão-determinístia quanto probabilístia que será hamada de dinâmia sob inerteza. Essa alteração, alémde tratar as dinâmias básias de ações omo asos espeiais, apresenta uma nova lasse de problemas deplanejamento que ainda não foi onsiderada pela omunidade de planejamento em IA.2.3 Modelos para planejamentoO modelo geral de planejamento (MGP1 � MGP8), não tem omo intenção ser um modelo diretamenteoperaional, mas apenas um referênia para a elaboração de modelos mais restritos que possam ser usadosem problemas reais. A seguir, será de�nido o modelo básio de estados para planejamento (MBE1 � MBE6),baseado em [Bonet e Ge�ner, 2006; 2000℄, no qual são feitas as suposições disutidas na Seção 2.2. Essemodelo é omposto por:MBE1 S, um onjunto disreto e �nito, hamado espaço de estados,MBE2 s0 ∈ S, o estado iniial,MBE3 SG ⊆ S, um onjunto não-nulo de estado representando os estados meta,MBE4 A, o onjunto de ações, e A(s) representará as ações apliáveis no estado s,MBE5 F (s, a)⊆ S, hamada de função de transição de estados. Essa função mapeia estados s e ações a ∈ A(s)em onjuntos não-nulos de estados, i.e. |F (s, a)| ≥ 1, eMBE6 C(s, a)∈ R+, hamada de função de usto. Essa função assoia o usto de apliar a ação a ∈ A(s) noestado s.Note que o modelo básio de estados é um aso espeial de modelo geral de planejamento, obtido atravésdas seguintes alterações: remover MGP5, MGP7 e MGP8 para satisfazer as suposições de sistema estátioe ompletamente observável; substituir MGP6 por MBE5 para simpli�ar a representação de transição deestados; e adiionar MBE6 para de�nir a função utilidade usada omo meta estendida. Através do modelobásio de estados é possível de�nir modelos para as três dinâmias básias de ações. Tais modelos sãoilustrados na Figura 2.2 e omentados nas próximas subseções.4Essa suposição não faz parte da axiomatização original de [Ghallab et al., 2004℄, pois ela pode estar implíita nas outrassuposições, mas por motivos de lareza ela foi expliitada nesse trabalho.

16 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiial(a) (b) (c)

Determinístico Não−determinístico Probabilísticop

1−p

q

1−q

F(s,a1) = {s1, s2}F(s,a1) = {s1} F(s,a1) = {s1, s2}

s s2s

s1

s2

s

s1

s2

s3 s3

s1

Figura 2.2: Ilustração de diferentes estruturas para a função F (s, a) (MBE5) do modelo básio de estadospara planejamento. Aros ontínuos e traejados representam diferentes ações.2.3.1 Modelos determinístiosOs modelos determinístios, ilustrados na Figura 2.2 (a), são de�nidos através da seguinte suposição sobrea função de transição (MBE5): |F (s, a)| = 1, ou seja, que o efeito de todas as ações é totalmente previsível.Um plano para qualquer modelo determinístio pode ser representado através de uma seqüênia de açõesa0, . . . , an−1. Esse tipo de plano é hamado de válido se e somente se para 0 ≤ i ≤ n − 1, si+1 ∈ F (si, ai),ai ∈ A(si) e sn ∈ SG.O modelo determinístio mais difundido em planejamento é o modelo de planejamento lássio, no qual,além das suposições assumidas nesse texto, também é feita a restrição adiional de que o usto das ações éuniforme, ou seja, ∀s ∈ S, a ∈ A(s) : C(s, a) = c > 0. Nesse modelo, os problemas podem ser vistos omoenontrar o menor aminho em grafos dirigidos que omee no estado iniial s0 e atinja qualquer estado metasG ∈ SG.Os problemas de planejamento determinístio não são muito próximos da realidade, pois são raros osenários onde o efeito de ada ação é determinístio. Porém, a solução ótima (de menor usto) pode serobtida de forma e�iente para alguns jogos e ambientes arti�iais, omo por exemplo o jogo de Brigde [Smithet al., 1996; 1998℄. As ténias de planejamento lássio servem de base para os estudos de planejamentoem geral. Através desse modelo, o mais simples da área, foi possível analisar os diferentes espaços de busa[Pereira e Barros, 2004; Penberthy e Weld, 1992℄, busas heurístias [Bonet e Ge�ner, 2001d; 1999; Ho�manne Nebel, 2001℄ e ténias de ontrole de busas [Nau et al., 1999; 2003℄.2.3.2 Modelos não-determinístiosNos modelos não-determinístios, representados pela Figura 2.2 (b), a exeução de uma ação pode levar o sis-tema à diferentes estados, sem que o planejador saiba se há alguma preferênia entre eles. Esses modelos são aextensão mais simples dos modelos determinístios, nos quais ações deixam de possuir um únio estado resul-tante possível para possuir um onjunto de estados resultantes possíveis, i.e., ∃s ∈ S e a ∈ A(s) : |F (s, a)| ≥ 1.Como o planejador não possui uma distribuição de probabilidade representando a preferênia da naturezapelos estados resultantes, esses modelos representam problemas sob inerteza knightiana. A solução paraproblemas dessa lasse, usualmente, forneem alguma garantia sobre o resultado no pior aso possível (estra-tégia minimax). Entre os possíveis ritérios de otimalidade, omo por exemplo maximização da probabilidadeda meta ser atingida, minimização do aminho até a meta, et, será esolhido a minimização do usto paraatingir a meta. Assim o plano ótima para um problema de planejamento não-determinístio será o plano quepossui o menor usto de exeução no pior aso (minimax).Como nesse estudo é assumido observabilidade total, um plano para um problema de planejamento não-determinístio será representado através de uma polítia π. Essa polítia pode ser:

• parial, quando π é uma função parial do estado de estados, i.e., ela não está de�nida para todo oespaço de estados. Para denotar o domínio de uma polítia (parial) π será usado Sπ;

2.3 Modelos para planejamento 17• fehada em relação a um estado s, se e só se todo estado aessível a partir de s seguindo π estiverontido em Sπ, ou seja, se ⋃s∈Sπ F (s, π(s)) ⊆ Sπ;• própria se e somente se algum estado meta pode ser atingido a partir de todo estado s ∈ Sπ; e• aília em relação a um estado s, se e só se não existe uma seqüênia válida de estados t gerada porπ, i.e. t = 〈s0, . . . , sk, . . . , sn ∈ SG〉 tal que sk+1 ∈ F (sk, π(sk)) para 0 ≤ k ≤ n − 1, na qual si = sj ,0 ≤ i < j ≤ n.Uma polítia, parial ou não, para essa lasse de problemas é uma solução válida se e somente se ela forprópria e fehada om relação a s0. Toda polítia válida π assoia um valor V π(s) para todo estado s ∈ Sπrepresentando o usto no pior aso de atingir um estado meta partindo do estado s. Essa função V π, queserá omentada em maiores detalhes na Seção 2.3.3, pode ser alulada resolvendo a reorrênia (2.1).

V π(s) =

{

0 , se s ∈ SGC(s, π(s)) + max

s′∈F (s,π(s))V π(s′) , aso ontrário (2.1)Para polítias válidas e aílias a V π(s) é sempre bem de�nida, i.e., ∀s ∈ Sπ : V π(s) < ∞. Seguindo oritério de otimalidade adotado, a polítia ótima, denotada por π∗, é uma polítia válida tal que ∄π, ∄s ∈

Sπ∗ : Vπ(s) < V π

∗

(s).2.3.3 Modelos probabilístiosOs modelos probabilístios, por exemplo o ilustrados na Figura 2.2 (), são araterizados quando as açõespossuem efeitos probabilístios, ou seja, a exeução de ações está relaionada ao riso. Em tais modelos,além de existir s e a tal que |F (s, a)| ≥ 1, também é forneida, para todo s ∈ S e a ∈ A(s), uma medida deprobabilidade ondiional P (·|s, a) sobre F (s, a). A solução de problemas representados por esses modelos érepresentada por uma polítia que, omo um agente bayesiano, deverá maximizar o valor esperado de umafunção utilidade, por exemplo o oposto do usto da polítia, a probabilidade de atingir um estado meta, et.Proessos markovianos de deisãoA prinipal abordagem para resolver os problemas de planejamento probabilístio é através da sua modela-gem omo um proesso markoviano de deisão (MDP1 � MDP5), onheido também por MDP (markoviandeision proess) [Howard, 1960; Boutilier et al., 1999℄. O modelo dos MDPs foi originalmente proposto pelaomunidade de teoria da deisão e fornee um arabouço (framework) apaz de representar problemas dedeisão seqüenial sob riso em ambientes ompletamente observáveis. Devido ao seu poder de expressão e ofato dele ser trivialmente adaptável para ambientes parialmente e não-observáveis, os MDPs são amplamenteusados em IA [Russel e Norvig, 2003℄.5MDP1 S é o espaço de estados do sistema, onde será usada a hipótese de Markov , ou seja, ada estado possuitodas as informações neessárias e su�ientes para determinar o efeito de qualquer ação, bem omoseu usto;MDP2 P0(·) é uma medida de probabilidade sobre S que de�ne a probabilidade do estado iniial ser s ∈ S,MDP3 A é o onjunto de ações do domínio, e A(s) representa as ações apliáveis no estado s,MDP4 P (·|s, a), para todo s ∈ S e a ∈ A(s), é uma medida de probabilidade ondiional sobre S que de�nea probabilidade de transição do estado s após apliar a ação a para ada estado s′ ∈ S;6MDP5 C : S ×A → R+ é uma função representando o usto de apliar a ação a no estado s.5A axiomatização dos MDPs pode diferir em relação à tópios omo estado iniial, função utilidade e estados meta. Nessetexto foi adotado uma axiomatização mais próxima da usada em pesquisa operaional.6Uma ação não-apliável â em s reebe probabilidade 0 para todo estado resultante, ou seja, P (s′|s, â) = 0 ∀s′ ∈ S.

18 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiialPara resolver problemas de planejamento probabilístio usando MDPs, primeiro é neessário traduzirMBE2, MBE3 e MBE5 para o modelo dos MDPs. O axioma MBE2 é trivialmente obitido através de MDP2atribuindo P0(s0) = 1. Já MBE3 é odi�ado em MDP4 e MDP5: para todo sG ∈ SG (MBE3) e toda açãoa ∈ A(sG), P (sG|sG, a) = 1 e C(sG, a) = 0. Essa transformação faz om que todos os estados metas (MBE3)tenham o menor usto possível (zero) e sejam estados absorventes, i.e., estados nos quais não se pode sair(beo sem saída). Por último, MBE5 está ontido em MDP4: ∀s ∈ S, a ∈ A(s), F (s, a) = {s′|P (s′|s, a) > 0}.Dado um MDPm = 〈S, P0,A, P, C〉, a seqüênia de estados visitados e ações apliadas durante a exeuçãode uma polítia é hamada de histório. A norma de um histório é mensurada pela quantidade de açõesontidas nele, assim h = 〈s0, a0, s1, a1, . . . , an−1, sn〉 possui norma n (|h| = n). O histório h é válido se esomente se para todo 0 ≤ i < n : ai ∈ A(si) e P (si+1|si, ai) > 0; e o onjunto de histórios válidos (H)reebe o nome de espaço de histório. Note que o espaço de histórios é um onjunto (possivelmente in�nito)enumerável, pois é possível riar uma bijeção entre H e N.Uma maneira de lassi�ar MDPs é através do tamanho máximo de seus histórios, denominado horizonte.Um MDP de horizonte �nito t (∀h ∈ H : |h| ≤ t) pode ser visto omo um problema no qual o agente deisorpossui algum reurso �nito, omo por exemplo energia, bateria ou ombustível, que limita a quantidade deações que ele poderá exeutar. Porém, existem MDPs nos quais não é possível, ou não se deseja, limitar otamanho de seus histórios. Esse aso, hamado de horizonte in�nito, será assumido omo padrão ao longodo desse texto.O usto de qualquer histório válido h é representado pela função V : H → R+. Essa função é hamadade função valor e, para MDPs de horizonte �nito, ela pode ser alulada através do primeiro aso de (2.2).Como a soma simples dos ustos pode divergir no aso de MDPs de horizonte in�nito, é neessário de�nirum fator de desonto γ ∈ ]0, 1[ para que a função valor seja bem de�nida. O fator de desonto pode servisto omo a probabilidade de ontinuar a exeução da polítia ou, em enários eon�mios, omo a in�açãodeorrente do tempo. A de�nição de V (h) para horizonte in�nito é forneida pelo segundo aso de (2.2).

V (h) =

|h|−1∑

i=0

C(si, ai), para horizonte �nito∞∑

i=0

γiC(si, ai), para horizonte in�nito (2.2)Como foi dito no iníio da seção, a solução usual de modelos probabilístios, em espeial de MDPs, é umapolítia π. Essa polítia pode ser estaionária, i.e., ela não se altera om o tempo. Nesse aso a melhor açãoa ser exeutada no estado s é sempre a mesma, independente da quantidade de ações que ainda podem serexeutadas. Caso ontrário, quando a melhor ação pode se alterar om o tempo, a polítia é hamada denão-estaionária. Uma polítia não-estaionária é representada pela função π(s, t), s ∈ S e t ∈ N, onde s é oestado atual e t é a quantidade de ações que o agente ainda pode exeutar.Uma ondição su�iente, mas não neessária, para um MDP possuir uma polítia estaionária omosolução ótima é o seu horizonte. Todo o MDP de horizonte in�nito possui omo solução assintótia umapolítia estaionária [Boutilier et al., 1999℄. Já um MDP de horizonte �nito pode ter ou não uma soluçãoótima representável omo uma polítia estaionária.ConsiderandoH omo um espaço de possibilidades, é possível alular a sua probabilidade (inondiional)de um histório h ∈ H através de (2.3). Também é possível alular essa probabilidade ondiionada a umapolítia π, i.e. P (h|π), por (2.4). Note que ambas as medidas dependem apenas de P0. Dessa forma, a funçãovalor V : H → R é uma variável aleatória e sua esperança EP (·|π)[V ] representa o usto esperado da polítiaπ. Para simpli�ar a notação, EP (·|π)[V ] será denotado por E[π].

P (h) = P0(s0)

|h|∏

i=1

P (si|si−1, ai−1) (2.3)P (h|π) = P0(s

0)

|h|∏

i=1

P (si|si−1, π(si−1)) (2.4)

2.3 Modelos para planejamento 19Note que alular E[π] usando diretamente a de�nição de valor esperado (2.5), forneida na Seção 1.6, émuito ustoso. Isso porque o espaço de histórios H é in�nito para MDPs de horizonte in�nito. Usando ahipótese de Markov, Bellman [1957℄ elaborou a função valor para polítias , uma função reorrente V π : S →R+, exibida para MDPs de horizonte in�nito em (2.6), que para ada s ∈ S representa o usto esperado dapolítia π onsiderando s omo estado iniial do histório. Dessa forma é possível alular E[π] usando (2.6):E[π] =

∑

s∈S P0(s)Vπ(s).E[π] =

∑

h∈H

V (h)P (h|π) = P0(s0)

∑

h∈H

V (h)

|h|∏

i=1

P (si|si−1, π(si−1)) (2.5)V π(s) = C(s, π(s)) + γ

∑

s′∈S

P (s′|s, π(s))V π(s′) (2.6)Além de poder ser visto omo um problema de tomada de deisões seqüeniais, um MDP também podeser interpretado om um problema de tomada de uma únia deisão (PTD). Isso porque, através dos oneitosapresentados nessa seção e na Seção 1.8, é possível desrever o problema de enontrar uma polítia ótimapara um MDP m = 〈S, P0,A, P, C〉 omo o PTD p = 〈S,Π,−V 〉. Nesse PTD p, Π é o espaço de polítias ,ou seja, o onjunto de todas as polítias de m e para todo s ∈ S e π ∈ Π: V (s, π) = V π(s) (2.6). Outroponto a ser ressaltado é que a função de usto dos MDPs (MDP5) é uma função de perda, ou seja, é opostoda função utilidade, justi�ando a de�nição de −V para função utilidade de p.Como os MDPs modelam um enário de riso, o planejador usado para resolver m se omportará omoum agente bayesiano. Dessa forma, a polítia ótima (π∗), que é a solução ótima tanto de p quanto de m, éuma polítia π que maximize EP (·|π)[−V ] = −EP (·|π)[V ] = −E[π], i.e., que minimize E[π]. Na Seção 2.4.1serão apresentados algoritmos para enontrar π∗ para MDPs.Caminho estoástio mínimoUma segunda abordagem para resolver problemas de planejamento probabilístio é através da sua modelagemomo um problema do aminho estoástio mínimo (SSP1 � SSP6), também hamado de SSP (stohastishortest path) [Bertsekas e Tsitsiklis, 1991℄. Um SSP é a extensão direta do problema do aminho mínimo(determinístio) om pesos no qual as ações deixam de ser determinístias para ser probabilístias.SSP1 S é o espaço de estados do sistema, onde será usada a hipótese de Markov, omo em MDP1;SSP2 s0 ∈ S é o estado iniial do sistema;SSP3 SG ⊆ S é o onjunto de estados meta;SSP4 A é o onjunto de ações do domínio, e A(s) representa as ações apliáveis no estado s;SSP5 P (·|s, a) omo em MDP4;SSP6 C : S ×A → R+ representa o usto das ações, omo em MDP5.Os problemas do aminho estoástio mínimo também podem ser vistos omo um aso espeial dos MDPs.A transformação usada para odi�ar um SSP om um MDP é a mesma usada na seção anterior para traduziros axiomas do modelo básio de estados para um MDP. Por isso, os SSPs podem ser vistos omo um adaptaçãodos MDPs para problemas de planejamento. Outro re�exo dessa mudança está no horizonte; enquanto umMDP pode ser de horizonte �nito ou in�nito, um SSP não neessita de tal oneito pois ele modela umproblema de alançabilidade, i.e., uma vez atingido o estado desejado o problema está resolvido. Como nãose deseja impor um limite na quantidade de ações exeutadas para atingir um estado meta de um SSP, éusada a teoria de MDPs de horizonte in�nito para de�nir SSPs. No entanto, não há a neessidade de usar ofator de desonto γ para os SSPs, pois há uma garantia de que o problema não será exeutado in�nitamente.Com isso, todos os oneitos V (h), P (h) e P (h|π) apresentados na seção anterior são de�nidos da mesma

20 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiialmaneira para um SSP. Já o usto esperado de uma polítia é de�nido por E[π] = V π(s0) e a função valorpara histórios (V π) é de�nida por (2.7).V π(s) = C(s, π(s)) +

∑

s′∈S

P (s′|s, π(s))V π(s′) (2.7)A solução de um SSP também é um polítia, porém ela deve ser apenas fehada em relação à s0 e própria.Assim, essa polítia pode ser ompleta, omo nos MDPs, ou parial, permitindo que ela esteja de�nidaapenas para uma parte do espaço de estados. Essa araterístia é espeialmente desejável em planejamentoporque os problemas dessa área são representados de forma implíita, i.e., através de uma linguagem deauto-nível. Por isso, o espaço de estados é reonstruído de forma automátia, o que pode resultar em umespaço (geralmente de tamanho exponenial om relação à entrada do problema) onde nem todo o estado éatingível a partir de s0.Dado um SSP e o seu MDP equivalente, é possível ompara o espaço de estados máximo visitado pelosalgoritmos de solução para ada um desses modelos: enquanto o algoritmo para SSPs no pior aso visitarátodo o feho transitivo direto de s0, i.e. todos os estados alançáveis a partir de s0, o algoritmo para MDPsneessariamente deve visitar todo o espaço de estados, pois sua solução é uma politia ompleta. Como osproblemas de planejamento ontêm informações sobre o estado iniial e estados metas, é possível reduzir aquantidade de estados visitados ao resolver um MDP. Isso é feito ao substituir o espaço de estados S do MDPpelo feho transitivo direto de s0 em S. Note que os algoritmos de solução de MDPs explorarão totalmenteesse espaço simpli�ado, enquanto os algoritmos para SSPs explorarão no máximo esse mesmo espaço.2.4 Algoritmos para planejamento probabilístioNessa seção serão exibidos os algoritmos lássios para enontrar polítias ótimas para MDPs e SSPs. En-quanto os algoritmos para MDPs são desenvolvidos pela omunidade de pesquisa operaional e se baseiampuramente em programação dinâmia, os algoritmos para SSPs são desenvolvidos pela omunidade de IA(em espeial de planejamento) e se são baseiam em busa heurístia também.2.4.1 Proessos markovianos de deisãoA partir da equação (2.6) é possível formular a subestrutura ótima do problema de enontrar uma polítiaótima para um MDP, o que possibilita resolvê-lo através de programação dinâmia. Supondo que π∗ é umapolítia ótima, logo a seguinte relação deve ser válida para toda a polítia π′ e todo estado s ∈ S : V π∗(s) ≤V π

′

(s). Assim, a função valor ótima, representada por V ∗, é simplesmente a função valor assoiada aqualquer polítia ótima para esse MDP de horizonte in�nito. A substrutura ótima desse problema é hamadade prinípio ótimo de Bellman para MDPs ou apenas equação de Bellman [Bellman, 1957℄ e é exibida em(2.8). Bellman [1957℄ também provou que a solução da função valor ótima existe e é únia.V ∗(s) = min

a∈A(s){C(s, a) + γ

∑

s′∈S

P (s′|s, a)V ∗(s′)} (2.8)Dada uma função valor V , a polítia gulosa πV assoiada à V pode ser obtida através de (2.9). Dessaforma, as polítias ótimas de um MDP são as polítias gulosas assoiada à função valor ótimo, i.e., ∀s ∈S : π∗(s) = πV ∗(s). A seguir, serão apresentados dois algoritmos, iteração de valor e iteração de polítia,desenvolvidos na área de pesquisa operaional.

πV (s) = argmina∈A(s)

{C(s, a) + γ∑

s′∈S

P (s′|s, a)V (s′)} (2.9)

2.4 Algoritmos para planejamento probabilístio 21Iteração-de-valor-HI(mdp,γ,ǫ)entrada: mdp, um MDP de horizonte in�nito 〈S, P0,A, P, C〉, γ fator de desonto, ǫ,erro máximo permitido entre V e V ′.saída: polítia estaionária π.vars. loais: V, V ′ funções valor, π polítia estaionária, a uma ação, δ variação máximaentre as funções de valor.V ′ ← FunçãoValorNularepita

V ← V ′para ada estado s ∈ S façaa← argmin

a∈A(s){C(s, a) + γ

∑

s′∈S

P (s′|s, a)V (s′)}

π(s)← a

V ′(s)← C(s, a) + γ∑

s′∈S

P (s′|s, a)V (s′)até ‖V − V ′‖∞ < ǫ(1− γ)γdevolva πFigura 2.3: Algoritmo de iteração de valor para um MDP de horizonte in�nito. A ada iteração o algoritmomelhora a sua estimativa da função valor ótima (V ∗) até que o erro dessa estimativa seja no máximo ǫ.Iteração de valorO prinípio ótimo de Bellman é a base do algoritmo de iteração de valor para MDPs de horizonte in�nito. Oalgoritmo, espei�ado na Figura 2.3, omputa a função valor ótima usando programação dinâmia em (2.8).Assim, o proedimento é iniiado om uma função V0 que atribui um usto esperado iniial, por exemplo 0,para ada estado s ∈ S e alula a função Vt+1 usando a estimativa Vt da seguinte forma:

Vt+1(s) = mina∈A(s)

{C(s, a) + γ∑

s′∈S

P (s′|s, a)Vt(s′)}. (2.10)A seqüênia de funções {Vt} onverge linearmente para a função ótima V ∗ [Puterman, 1994℄. Se afreqüênia de atualização de ada estado em (2.10) tender ao in�nito, então a função Vt onvergirá paraa função valor ótima (V ∗). Do ponto de vista prátio, o algoritmo de interação de valor pára quando anorma in�nita de Vt − Vt+1 é su�ientemente pequena.7 Dado um ǫ, representando o erro máximo para aestimativa de V ∗, e γ, o fator de desonto do MDP, o ritério de parada é ilustrado em (2.11). Esse ritériode parada é alulado na prova de onvergênia do algoritmo de iteração de valor para MDPs de horizontein�nito. Puterman [1994℄ apresenta essa prova atavés de reduções e fornee mais detalhes para a obtençãodesse ritério de parada. Assim o algoritmo de iteração de valor não possui um limitante superior para aquantidade de iterações que serão exeutadas, sendo que a omplexidade omputaional no pior aso de adauma dessas iterações é O(|S|2|A|) [Papadimitriou, 1994℄.

‖Vt − Vt+1‖∞ = maxs∈S

|Vt(s)− Vt+1(s)| <ǫ(1− γ)

γ. (2.11)Iteração de polítiaO algoritmo de iteração de polítia é baseado no algoritmo de iteração de valor. Nesse algoritmo, ilustrado naFigura 2.4, ao invés de iterativamente melhorar a estimativa do da função valor ótimo, ada iteração melhoradiretamente a estimativa da polítia ótima. A iteração de polítia reebe uma polítia iniial arbitrária π0 ealula iterativamente a polítia πt+1 baseada em πt. Cada iteração pode ser dividida em dois passos:1. avaliação da polítia: Para ada estado s ∈ S, alular V πi(s) baseado na polítia πi, e7A norma in�nita para a função valor, é de�nida por ‖V ‖∞ = maxs∈S |V (s)|.

22 Capítulo 2: Uma breve revisão sobre planejamento em inteligênia artifiialIteração-de-polítia(mdp, γ)entrada: mdp, um MDP de horizonte in�nito 〈S, P0,A, P,C〉, γ fator de desonto.saída: polítia estaionária π.vars. loais: V π função valor, Q uma variável real, π polítia estaionária iniialmentealeatória, alterada uma variável booleanarepitaV π ← Avaliar-Polítia(π,mdp,γ)alterada ← Falsopara ada estado s ∈ S faça

Q← mina∈A(s)

{C(s, a) + γ∑

s′∈S

P (s′|s, a)V π(s′)}

V π(s)← C(s, π(s)) + γ∑

s′∈S

P (s′|s, π(s))V π(s′)se Q < V π(s) entãoπ(s)← argmin

a∈A(s){C(s, a) + γ

∑

s′∈S

P (s′|s, a)V π(s′)}alterada ← Verdadeiroaté alterada = Falsodevolva πFigura 2.4: Algoritmo de iteração de polítia. A ada iteração o algoritmo melhora a polítia π até que ela seestabilize, ou seja, ∀s ∈ S : πt(s) = πt+1(s). A função auxiliar Avaliar-Polítia alula o usto esperadoda polítia π baseado em (2.6).2. aperfeiçoamento da polítia: Para ada estado s ∈ S, esolher a ação a que minimize (2.12). SeQi+1(s, a) < V

πi(s), então πi+1(s) = a, senão πi+1(s) = πi(s).8Qi+1(s, a) = C(s, a) + γ

∑

s′∈S

P (s′|s, a)V πi(s′). (2.12)O ritério de parada para o algoritmo de iteração de polítia é ∀s ∈ S : πi+1(s) = πi(s), ou seja, o algoritmoé exeutado até que a polítia não seja atualizada entre uma iteração e outra. No passo 1 é estimado o ustoesperado ao exeutar a polítia πi resolvendo o sistema linear |S|× |S| representado por (2.6), o que pode seromputaionalmente aro. Por isso, a omplexidade omputaional no pior aso de ada iteração (passos 1 e2) é O(|S|2|A|+ |S|3), um pouo mais aro do que uma iteração do algoritmo de iteração de valor (O(|S|2|A|))[Papadimitriou, 1994℄.No entanto, o algoritmo de iteração de polítia onverge para a polítia ótima pelo menos linearmentee sobre algumas ondições, ele onverge super-linearmente [Puterman, 1994℄. Dessa forma, a iteração depolítia requer mais reursos omputaionais por iteração do que a iteração de valor, porém sua onvergêniatende a ser mais rápida, o que representa uma vantagem em alguns domínios.2.4.2 Caminho estoástio mínimoComo nos MDPs, é possível formular a equação de subestrutura ótima para SSPs, exibida em (2.13), que éum aso espeial do prinípio ótimo de Bellman para MDPs. O ritério de otimalidade segue a mudança naavaliação do usto médio de uma polítia, assim uma polítia π∗ é a polítia ótima se e somente se para todaa polítia π′ : V π∗(s0) ≤ V π′(s0). Caso exista mais de uma polítia ótima, π∗1 , · · · , π∗n, é dado preferênia àpolítia de�nida para o menor domínio (π∗i tal que para 0 ≤ j ≤ n vale |Sπ∗i | ≤ |Sπ∗j |), pois no aso dos SSPsas polítias podem ser pariais. Note que a norma do domínio de uma polítia não faz parte do ritério deotimalidade.8A função Q, de�nida em (2.12), reebe esse nome devido seu uso em Q-learning [Watkins e Dayan, 1992℄.

2.4 Algoritmos para planejamento probabilístio 23V ∗(s) =

0, se s ∈ SGmin

a∈A(s){C(s, a) +

∑

s′∈S

P (s′|s, a)V ∗(s′)}, aso ontrário (2.13)Em geral, todo algoritmo para SSPs assumi a hipótese de que pelo menos um estado meta pode seratingido a partir de qualquer estado s do espaço de estados. Em outras palavras, que todo o nenhum beosem saída é alançável a partir de s0 (exeto se ele for um estado meta). Essa hipótese é onheida omohipótese de alançabilidade e sua importânia é que, a partir dele é possível provar que existi uma polítia talque a probabilidade da exeução dessa polítia terminar em um estado meta é 1, ou seja, ela sempre atingiráum estado meta.A seguir serão apresentados dois algoritmos que assumem a hipótese de alançabilidade e são baseadosem experimentos (trial based algorithms), ou seja, algoritmos nos quais o espaço de estados será exploradoatravés de exeuções (ou simulações) ao invés de seqüenialmente.Programação dinâmia em tempo realReal Time Dynami Programming (RTDP) [Barto et al., 1995℄ pode ser visto omo uma versão baseadaem experimentos do algoritmo de iteração de valor. Além da avaliação da função valor por experimentos, oRTDP possui outra vantagem sobre o algoritmo de iteração de valor: ele usa uma heurístia H para guiara busa no espaço de estados. Dessa forma, a exploração do espaço de estados feita pelo RTDP pode seraraterizada omo uma exploração gulosa usando a polítia πH (a polítia gulosa de�nida pela heurístiaH), o que faz aminhos mais prováveis serem avaliados om mais freqüênia do que os menos prováveis.O algoritmo RTDP, ilustrado na Figura 2.5, assume a hipótese de alançabilidade para provar que elenão entrará em um ilo in�nito (loop) e eventualmente atingirá um estado meta [Barto et al., 1995℄. Aada iteração do algoritmo, a função auxiliar RTDP-Trial (Figura 2.6) é hamada para omputar a açãogulosa em relação a heurístia H no estado atual s. No �nal de ada uma dessas hamadas do RTDP-Trial,o valor da heurístia H(s), bem omo ação π(s), são atualizadas. Caso a heurístia forneida iniia

um - teses.usp.br · ilustrado na figura 3.11. 41 3.11 méto do auxiliar do tdp r para s. spst cada...

Documents