programacao_dinamica_estocastica

1

Programação Dinâmica Estocástica Processos de Decisão Estocástica Multiestágios Um processo de decisão multiestágios é estocástico, se o resultado associado a pelo menos uma decisão do processo é aleatório. Esta aleatoriedade ocorre basicamente de dois modos:

- Os estados são unicamente determinados pelas decisões, mas os resultados relacionados com um ou mais estados ocorrem ao acaso,

- Os resultados são unicamente determinados pelos estados resultantes de

uma ou mais decisões e que se dão ao acaso.

Se as distribuições de probabilidade que governam os acontecimentos aleatórios são conhecidas e se o número de estágios é finito, a Programação Dinâmica vista atrás é útil para a optimização de um processo de decisão multiestágios estocástico. O procedimento geral é optimizar o valor esperado do resultado. Nos casos em que a aleatoriedade ocorre apenas nos resultados relacionados com os estados e não nos estados resultantes das decisões, este procedimento tem como consequência a transformação de um processo estocástico num processo determinístico. Tabelas Políticas

Nos processos em que a aleatoriedade existe em relação aos estados associados com as decisões, uma política - em particular uma política óptima – pode ser explicitada através de uma tabela política que é um quadro do tipo:

Estados

1a 2a … ra 1 ( )11 ad ( )21 ad … ( )rad1 2 ( )12 ad ( )22 ad … ( )rad2 � � � �

Est

ágio

s

n ( )1adn ( )2adn … ( )rn ad Nesta tabela, ( )kj ad , nj ,...,2,1= ; rk ,...,2,1= , representa a decisão no

estágio j quando o processo se encontra no estado ka .

2

Exemplo

Pretende-se distribuir oito (8) lotes de laranja por três (3) mercados. A procura de laranjas em cada um deles é aleatória, de acordo com as distribuições de probabilidade seguintes:

Probabilidades de Procura

Lotes Mercado 1 Mercado 2 Mercado 3 0 0,1 0 0,1 1 0,2 0,2 0,3 2 0,3 0,6 0,2 3 0,2 0 0,2 4 0,1 0,2 0 5 0,1 0 0,2

O lucro por lote vendido nos mercados 1, 2 e 3 é de 18 euro, 20 euro e 21

euro, respectivamente. Determine o número inteiro de lotes que deveria ser distribuído em cada mercado de modo a maximizar o lucro esperado.

Podemos encarar este problema como um processo de decisão de 3 estágios, representando o estágio j uma distribuição de laranjas no Mercado j ,

.3,2,1=j Os estados de cada estágio são 8,...,1,0=u e representam o número de lotes disponíveis para distribuição num mercado.

Não existe aleatoriedade no estado resultante de qualquer decisão: - Por exemplo, se se distribuem dois lotes a um certo Mercado ele ficará

com dois lotes em stock. Mas existe aleatoriedade no resultado de qualquer estado:

- Com dois lotes em stock, um mercado pode vender 0, 1 ou 2 lotes, gerando cada possibilidade lucros diferentes.

Em consequência, vamos maximizar o lucro total esperado (como aliás é pedido) em vez do lucro total.

Sejam - ( )xf j lucro esperado pela distribuição de x lotes no mercado j ,

- ( )um j lucro total esperado iniciando-se o processo pelo estágio j no

estado u , - ( )ud j decisão tomada no estágio j que gera ( )um j .

3

Os valores das funções de pagamento apresentam-se na tabela seguinte (em euro):

x ( )xf j 0 1 2 3 4 5 6 7 8

( )xf1 0 16,2 28,8 36,0 39,6 41,4 41,4 41,4 41,4 ( )xf2 0 20,0 36,0 40,0 44,0 44,0 44,0 44,0 44,0 ( )xf3 0 18,9 31,5 39,9 44,1 48,3 48,3 48,3 48,3

Vejamos um exemplo de cálculo:

- ( )31f

Com 3 lotes distribuídos, o Mercado 1 consegue um lucro de 0 euro se vender 0 lotes, de 18 euro se vender 1 lote, de 36 euro se vender 2 lotes e de 54 euro se vender 3 lotes. As probabilidades dos três primeiros acontecimentos são, de acordo com a tabela atrás, 0,1, 0,2 e 0,3. A probabilidade do quarto acontecimento é igual à probabilidade de que a procura seja igual ou superior a três lotes:

4,01,01,02,0 =++ . Assim,

( ) ( )( ) ( )( ) ( )( ) ( )( ) 364,0543,0362,0181,0031 =+++=f .

Em termos de ( )xf j , 3,2,1=j , temos formalmente um problema

determinístico que pode ser resolvido pelos métodos da Programação Dinâmica Determinística, já estudados, conduzindo então à tabela

u 0 1 2 3 4 5 6 7 8

( )um3 0 18.9 31.5 39.9 44.1 48.3 48.3 48.3 48.3 ( )ud3 0 1 2 3 4 5 5 5 5 ( )um2 0 20.0 38.9 54.9 67.5 75.9 80.1 84.3 88.3 ( )ud2 0 1 1 2 2 2 2 2 3 ( )um1 … … … … … … … … 111,9 ( )ud1 … … … … … … … … 3

4

A política óptima consiste em:

- Distribuir 3 lotes de laranjas para o Mercado 1, - Distribuir 2 lotes para o Mercado 2, - Distribuir 3 lotes para o Mercado 3

Obtendo-se um lucro total esperado de 111.9 euro.

Outro Exemplo

Um investidor tem 3 mil unidades de dinheiro disponíveis há um ano para investir num bom negócio. A oportunidade em risco é de que o retorno seja o dobro ou nada. Baseado em acontecimentos do passado, a probabilidade de dobrar o dinheiro é 6,6, enquanto a “chance” de perder o dinheiro todo é 0,4. Determine uma estratégia de investimento para os 4 anos seguintes que maximize os resultados totais esperados no final do período, supondo que o dinheiro ganho num ano pode ser reinvestido no ano seguinte e os investimentos estão restritos a quantidades unitárias.

Trata-se de um processo com 4 estágios, em que cada estágio corresponde a um ano.

Os estados são os montantes disponíveis para o investimento: 24,...,1,0=u (este último valor é igual ao investimento de todo o montante disponível para cada ano, duplicado de cada vez) para o estágio 4; 12,...,1,03 =u para o estágio 3; 6,...,1,02 =u para o estágio 2; 31 =u para o estágio 1. A aleatoriedade ocorre aqui no estado resultante de uma decisão particular. Por exemplo,

- Se alguém tem 3 unidades (isto é: o presente estado é 3) e decide investir duas unidades, então o estado seguinte é ( )2215 ×+ ou ( )011 + , dependendo de o montante investido ter sido duplicado ou perdido.

Sejam então

- ( )jj um Ganhos esperados máximos no final o processo começando no

estado uj e estágio j , - ( )jj ud Montante investido no estágio j que gera ( )jj um .

Se alguém começa com estágio com ju unidades, então x unidades,

jux ...,1,0= , podem ser investidas, deixando xu j − unidades de reserva. Se o

investimento é duplicado, haverá

5

( ) xuxux jj +=−+2

Unidades disponíveis no estágio seguinte; se as unidades investidas são perdidas, então a reserva ( )xu j − estará disponível para o próximo estágio. O

melhor resultado neste ponto é

- ( )xum jj ++1 Com probabilidade 0,6 ou

- ( )xum jj −+1 Com probabilidade 0,4

e o melhor valor esperado para o melhor resultado é, em consequência,

( ) ( )xumxum jjjj −++ ++ 11 4,06,0 .

A escolha óptima para x é o seu valor que maximiza esta expressão:

( ) ( ) ( )[ ]xumxummáximoum jjjj

juxjj −++= ++

=11

,...,1,04,06,0 .

Esta igualdade é a fórmula de recorrência para o processo. Como é evidente,

- 3,2,1=j - E para 4=j tem que se considerar ( ) uum =5 , visto que o processo

termina no fim do 4.º ano e o estado em que fica nessa altura permanece inalterado.

2345 ,,, mmmm e 1m são funções crescentes, como é óbvio. Então,

( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 54544544544 mumuumuumum

42.6,0 u=

42,1 u=

( ) 444 2,1 uum =

6

( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 43433433433 mumuumuumum

32.2,1.6,0 u=

322,1 u=

( ) 32

33 2,1 uum =

( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 32322322322 mumuumuumum

22 2.2,1.6,0 u=

232,1 u=

( ) 23

22 2,1 uum =

( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 21211211211 mumuumuumum

13 2.2,1.6,0 u=

142,1 u=

( ) 14

11 2,1 uum =

Onde ( ) 111 uud = , ( ) 222 uud = , ( ) 333 uud = e ( ) 444 uud = . Assim, o resultado óptimo esperado é

( ) 2208,63.2,13 41 ==m

Obtido pelo investimento de todas as unidades disponíveis ao processo em cada ano.

Note-se que uma tal política óptima pode resultar

- Em 48 unidades ao fim de 4 anos, se todos os investimentos forem duplicados,

- Em 0 unidades ao fim de 4 anos, se pelo menos um investimento é

completamente perdido.

7

Assim, o resultado esperado desta política é

( )( ) ( )[ ] 2208,66,0106,048 44 =−+ Sendo

- ( )46,0 A probabilidade de todos os investimentos terem sucesso,

- ( )46,01− A probabilidade de que pelo menos um investimento falha. Ainda outro exemplo Resolva o problema anterior mas, agora, com outro objectivo:

- O de maximizar a probabilidade acumulada de se obter um resultado de 5 (mil) unidades durante 4 anos, pelo menos.

Agora este novo problema não se refere ao valor esperado do resultado, mas

sim à probabilidade de que os resultados sejam de um certo montante. Por exemplo, se o investidor adopta a política de investir todas as unidades em cada estágio, como foi mostrado no problema anterior, a probabilidade de que ele

termine com 5 ou mais unidades é ( ) 1296,06,0 4 = . A questão é:

- Pode este valor ser melhorado pela escolha de outra política (melhor)?

Os estados e estágios foram definidos no Problema anterior. Façamos

- E Acontecimento que termina o processo com 5 ou mais unidades, - ( )jj um Probabilidade de E , dado que o estado no estágio j é ju e uma

política óptima é seguida do estágio j em diante, - ( )jj ud Montante investido no estágio j que gera ( )jj um .

Se x unidades, jux ,...,1,0= , são investidas no estágio j , então, de acordo

com o Problema anterior

- ( ) 6,01 =+=+ xuuP jj ,

- ( ) 4,01 =−=+ xuuP jj .

8

Agora, a expressão

( ) ( )xumxum jjjj −++ ++ 11 4,06,0

Representa

- A probabilidade de E dado ju para a decisão x , e uma extensão óptima

para o estágio 1+j . Então,

( ) ( ) ( )[ ]xumxummáximoum jjjjjux

jj −++= ++=

11,...,1,0

4,06,0 , 3,2,1=j .

Formalmente esta é uma equação com diferenças idêntica à obtidano

Problema anterior. Mas, uma nova condição de fronteira (final) é pertinente agora.

Tendo em conta o resultado da decisão final de investimento, temos:

( ) ( ) ( )[ ] [ ]GFmáxxuPxuPmáximoumxux

+=≥−+≥+==

54,056,0 444,...,1,0

44

9

De acordo com esta figura obtemos para ( )44 um

( )��

��

�

=

=

=

=

24,6,51

4,36,0

2,1,0,0

4

4

4

44

u

u

u

um

Onde

( )

��

�

��

�

�

=

=

=

=

=

24,...,6,5,0

4,1

3,2

,...2,1,0,0

4

4

4

4

44

u

u

u

u

ud

Indicando-se para ( )44 ud o menor investimento óptimo.

A tabela seguinte

0 1 2 3 4 5 6 … 12 … 24 ( )44 um 0 0 0 0,6 0,6 1 1 … 1 … 1 ( )44 ud 0 0 0 2 1 0 0 … 0 … 0 ( )33 um 0 0 0,36 0,6 0,84 1 1 … 1 ( )33 ud 0 0 1 0 1 0 0 … 0 ( )22 um 0 0,216 0,504 0,648 0,84 1 1 ( )22 ud 0 1 2 1 0 0 0 ( )11 um … … … 0,7056 ( )11 ud … … … 1

Apresenta a solução da condição de óptimo sujeito a estas condições finais. De novo, apenas o menor ( )jj ud é usado no acontecimento.

O preenchimento de ( )44 um e ( )44 ud é evidente e segue de imediato dos ( )44 um e ( )44 ud determinados.

- ( )33 um e ( )33 ud .

Partimos de ( ) ( )xumxum −++ 3434 4,06,0 , 12,...,1,03 =u , 3,...,1,0 ux = .

10

Assim, • 03 =u

( ) ( ) 0,4,06,0 44 =−+ xxmxm Ou ( ) ( ) ( ) 004,06,004,006,0 44 =+=+ mm .

( ) 003 =m ; ( ) 003 =d

• 13 =u ( ) ( ) 1,0,14,016,0 44 =−++ xxmxm . ( ) ( ) 014,016,0 44 =+ mm ( ) ( ) 004,026,0 44 =+ mm

( ) 013 =m ; ( ) 013 =d • 23 =u

( ) ( ) 2,1,0,24,026,0 44 =−++ xxmxm . ( ) ( ) 024,026,0 44 =+ mm ( ) ( ) 36,004,06,06,014,036,0 44 =×+×=+ mm ( ) ( ) 36,004,06,06,004,046,0 44 =×+×=+ mm

( ) 36,023 =m ; ( ) 123 =d • 33 =u

( ) ( ) 3,2,1,0,34,036,0 44 =−++ xxmxm . ( ) ( ) 60,06,04,06,06,034,036,0 44 =×+×=+ mm ( ) ( ) 24,004,06,04,024,046,0 44 =×+×=+ mm ( ) ( ) 4,004,014,014,056,0 44 =×+×=+ mm ( ) ( ) 4,004,014,004,066,0 44 =×+×=+ mm

( ) 6,033 =m ; ( ) 033 =d • 43 =u

( ) ( ) 4,3,2,1,0,44,046,0 44 =−++ xxmxm . ( ) ( ) 60,06,04,06,06,044,046,0 44 =×+×=+ mm ( ) ( ) 84,024,06,06,04,016,034,056,0 44 =+=×+×=+ mm ( ) ( ) 6,004,016,024,066,0 44 =×+×=+ mm ( ) ( ) 6,004,016,014,076,0 44 =×+×=+ mm ( ) ( ) 6,004,016,004,086,0 44 =×+×=+ mm

( ) 84,043 =m ; ( ) 143 =d

11

• 53 =u ( ) ( ) 5,4,3,2,1,0,54,056,0 44 =−++ xxmxm . ( ) ( ) 14,06,054,056,0 44 =+=+ mm ( ) ( ) 84,06,04,06,044,066,0 44 =×+=+ mm ( ) ( ) 84,004,06,034,076,0 44 =×+=+ mm ( ) ( ) 6,004,06,024,086,0 44 =×+=+ mm ( ) ( ) 6,004,06,014,096,0 44 =×+=+ mm ( ) ( ) 6,004,06,004,0106,0 44 =×+=+ mm

( ) 153 =m ; ( ) 053 =d E, assim sucessivamente.

Assim, a probabilidade máxima acumulada de se obter pelo menos 5

unidades em quatro anos é 0,7056. Assim,

- No estágio 1 em que o estado é 3 deve investir-se 1 unidade. Chega-se ao estágio 2 com 4 unidades com probabilidade 0,6 ou com 2 unidades com probabilidade 0,4.

- No estágio 2 Se se estiver no estado 4 não se deve investir nada chegando-se ao

estágio 3 com 4 unidades com probabilidade 1, Se se estiver no estado 2 deve investir-se tudo chegando-se ao estágio 3 com 4 unidades com probabilidade 0,6 ou com 0 unidades com probabilidade 0,4.

- No estágio 3 Se se estiver no estado 4 deve investir-se 1 unidade chegando-se ao estágio 4 com 5 unidades com probabilidade 0,6 ou com 3 unidades com probabilidade 0,4, Se se estiver no estado 0 obviamente não há nada para investir e chega-se ao estágio 4 com 0 unidades.

- No estágio 4 Se se estiver no estado 5 nada se deve investir chegando-se ao fim do processo com 5 unidades, Se se estiver no estado 3 devem investir-se 2 unidades chegando-se ao fim do processo com 5 unidades com probabilidade 0,6 ou com 1 unidade com probabilidade 0,4, Se se estiver no estado 0 obviamente não há nada para investir e chega-se ao fim do processo com 0 unidades.

12

Esquematicamente

Assim, no fim do processo podemos estar nos estados 5, 1 ou 0. Calculemos

as respectivas probabilidades

- 5

( )( ) ( )( ) 7056,084,084,06,04,016,06,04,016,0 ==×+××+× - 1

( )( ) ( )( ) 1344,016,084,04,04,06,04,016,0 ==××+×

- 0

( )( )( )( ) 16,0114,04,0 = E 116,01344,07056,0 =++

Mais um exemplo

Um fabricante de plataformas espaciais para a NASA tem capacidade para produzir no máximo 2 plataformas por ano. Demora-se um ano completo para fabricar uma plataforma, mas como a NASA não faz pedidos antes de Julho, para entregar em Dezembro, o fabricante deve estabelecer a escala de produção antes mesmo de conhecer a procura exacta. Esta procura será de uma plataforma com probabilidade 0,6 ou de duas com probabilidade 0,4. Um pedido de plataforma não satisfeito incorre numa multa de 1,5 milhões de dólares e deve ser entregue no ano seguinte tendo prioridade sobre quaisquer novos pedidos.

Os custos de produção são função do número de plataformas fabricadas, com o custo de uma plataforma fixado em 10 milhões de dólares e o de duas em 19 milhões de dólares. Uma superprodução pode ser armazenada para uma

13

entrega futura, a um custo de 1,1 milhões de dólares por plataforma ao ano, sendo limitada no máximo a 1 plataforma. Determine uma escala de produção para os três anos seguintes que maximizará o custo total esperado, sendo o stock actual de zero plataformas.

Podemos considerar que estamos perante um processo de 4 estágios, representando os estágios 1,2 e 3 os próximos 3 anos, respectivamente, num plano digamos horizontal e o estágio 4 representa a produção atrasada de pedidos de plataformas não entregues no ano 3. Os estados são os stocks possíveis no começo de cada estágio: variam entre um mínimo de -2 (representando duas plataformas pedidas mas não entregues) até um máximo de1. Sejam

u -número de plataformas em stock )1,0,1,2( −−=u ,

( )um j -custo mínimo esperado pela complementação do processo iniciado

no estágio j no estado u ,

( )ud j -produção no estágio j que gera ( )um j ,

D -procura anual [ ] 6,01 ==DP [ ] 4,02 ==DP ,

( )xf -custo de produção anual de x plataformas

Se a firma inicia o estágio 3,2,1, =jj com 1,0=u plataformas em stock e decide produzir ( )2,1,0=xx plataformas adicionais nesse estágio, ela incorre num custo de u1,1 pelo seu stock e num custo ( )xf pela produção de novas plataformas, com uma despesa anual de

( ) uxf 1,1+ .

O número de plataformas, total, disponíveis para entrega no fim do ano é

xu + O que deixa

Dxu −+ Plataformas disponíveis para o estágio seguinte.

14

O custo mínimo de conclusão do processo neste ponto é

( )Dxum j −++1 .

Como 1=D com probabilidade 0,6 e 2=D com probabilidade 0,4, o custo

esperado mínimo para a conclusão do estágio 1+j é

( ) ( )24,016,0 1 −++−++ xuxum j .

Portanto, o custo esperado mínimo para a conclusão do estágio j é o

mínimo, em relação a x de ( ) ( ) ( )24,016,01,1 11 −++−+++ ++ xumxumxfu jj ou

seja:

( ) ( ) ( ) ( )[ ]24,016,01,1 112,1,0

−++−+++= ++=

xumxumxfmínuum jjx

j , 1,0=u e 3,2,1=j .

Vamos pôr, para já, ( ) Mm j +=3 para qualquer j .

Se a firma inicia o estágio j com 2−=u ou 1−=u , então estará com um deficit de produção de u− plataformas do estágio anterior, e estará sujeita a uma multa de u5,1− . Uma decisão de produzir x plataformas, onde x deve ser no mínimo igual a u− para colmatar o deficit anterior, resulta num custo de produção de ( )xf . O custo final para a companhia no estágio j é

( ) uxf 5,1−

Continuando a análise nos mesmos moldes que para 0=u e 1=u obtemos a fórmula recorrente ( ) ( ) ( ) ( )[ ]24,016,0min5,1 11

2,...,−++−+++−= ++

−=xumxumxfuum jj

uxj , Onde

1,2 −−=u e 3,2,1=j . Vamos pôr ( ) Mf +=−1 . Podemos ter então uma relação única:

( ) ( ) ( ) ( ) ( )[ ]24,016,0min 11

2,...,−++−+++= ++

−=xumxumxfugum jj

uxj , 1,0,1,2 −−=u E

3,2,1=j Onde ( )��

��

<−

≥=

0,5,1

0,1,1

uu

uuug .

15

A solução generalizada desta equação, estendida a 4=j com a condição final ( ) 05 =um , é dada na tabela seguinte:

u -2 -1 0 1 ( )um4 22 11,5 0 1,1 ( )ud4 2 1 0 0

( )um3 37,7 25,1 14,6 5,7 ( )ud3 2 2 1 0 ( )um2 52,14 39,3 28,26 19,9 ( )ud2 2 2 2 0 ( )um1 … … 42,24 … ( )ud1 … … 2 …

Níveis de Stock

-2 -1 0 1 1 … … 2 … 2 2 2 2 0 3 2 2 1 0

Anos

4 2 1 0 0

O custo esperado mínimo é de 42,24 milhões de dólares, conseguido através da política óptima mostrada na tabela imediatamente acima:

Alguns exemplos de cálculo:

• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−=

44,036,0min22 552

4 xmxmxfgmx

( ) ( ) ( ) ;2219324,016,023

05

05 =+=−+−++=

��mmf ( ) 224 =−d

• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−

=34,026,0min11 55

2,14 xmxmxfgm

x

( )[ ] { } ;5,1119,10min5,1min5,1

2,1=+=+=

=xf

x ( ) 114 =−d

16

• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−=

34,026,0min11 442,1

3 xmxmxfgmx

( ) ( ) ( ) ( ){ }=−++−+−++= 14,006,019,24,016,010min5,1 4444 mmmm

{ } 1,255,114,006,019;224,05,116,010min5,1 =×+×+×+×++=

Ainda mais um exemplo

Um decreto presidencial reduziu o número de candidatos a vice-presidente para três. Cada um dos três candidatos seria julgado numa escala de 1 (menor) a 10 (maior); o candidato 1 recebeu 10 pontos, o candidato 2 recebeu 8 pontos e o candidato 3 5 pontos. A probabilidade de o candidato 3,2,1, =ii , aceitar a j -ésima, 3,2,1=j , oferta par concorrer à vice-presidência (considerando que as primeiras 1−j ofertas a outros candidatos foram rejeitadas) é designada por

ijp , sendo

Por que ordem poderiam os três potenciais candidatos ser oferecidos à

nomeação vice-presidencial se o decreto presidencial maximizar o número esperado de pontos?

Supõe-se que nenhuma pessoa é requisitada mais do que uma vez e que, de cada vez que um candidato rejeita, um outro é requisitado, até que pelo menos um tenha aceite ou todos tenham rejeitado.

Temos assim um processo de três estágios, representando o estágio j a j -ésima posição na ordem de requisição. Os estados são a lista de pessoas ainda não requisitadas.

O estágio 1 só pode ter o estado único

{ }3,2,111 =U .

O estágio 2 tem três estados

{ }2,121 =U { }3,122 =U { }3,223 =U .

E o estágio 3 tem três estados

{ }131 =U { }232 =U { }333 =U .

4,08,01

2,05,09,0

02,05,0

333231

232221

131211

===

===

===

ppp

ppp

ppp

17

Sejam

- ( )jkj Um O número máximo esperado de pontos conseguidos, começando

no estágio j no estado jkU , dado que não houve nenhuma aceitação

nos estágios anteriores, - ( )jkj Ud Candidato requisitado no estágio j de forma a obter-se ( )jkj Um

(isto é: decisão), - iV Valor em pontos do candidato i .

Para este problema, a fórmula de recorrência é

( ) ( ) { })({ }iUmppVmáxUm jkjijiji

jkUijkj \1 1+

∈−+=

já que

- Se no estágio j o candidato i é requisitado e aceita, o valor é iV ; se rejeita, a melhor forma de continuar é a partir do estado constituído pelos candidatos que ainda não foram requisitados.

A fórmula dada fica restringida a 3,2,1=j se impusermos que ( ) 04 =Um .

Portanto, Estágio 3

• ( ) ( ) 0010313 ==Um ; ( ) 1313 =Ud

• ( ) ( ) 6,12,08323 ==Um ; ( ) 2323 =Ud

• ( ) ( ) 0,24,05333 ==Um ; ( ) 3333 =Ud

Estágio 2

• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 313323212 5,015,08,2,012,010 UmUmmáxUm

( )( ) ( )( ){ } 405,04,7,6,18,02 =++= máx ; ( ) 2212 =Ud

18

• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 313333222 8,018,05,2,012,010 UmUmmáxUm

( )( ) ( )( ){ } 402,04,0,28,02 =++= máx ; ( ) 3222 =Ud

• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 323333232 8,018,05,5,015,08 UmUmmáxUm

( )( ) ( )( ){ } 56,12,04,25,04 =++= máx ; ( ) 2232 =Ud Estágio 1

• ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+−+= 212222232111 1115,9,019,08,5,015,010 UmUmUmmáxUm

( )( ) ( )( ) ( ){ } 6,7405;41,02,7;55,05 =+++= máx ; ( ) 2111 =Ud

A política óptima é requisitar o candidato 2 primeiro; se ele rejeitar, então requisitar o candidato 3; e se este rejeitar, então requisitar o candidato 1. O número esperado de pontos para tal política é 7,6.

programacao_dinamica_estocastica

Documents