programacao_dinamica_estocastica
TRANSCRIPT
1
Programação Dinâmica Estocástica Processos de Decisão Estocástica Multiestágios Um processo de decisão multiestágios é estocástico, se o resultado associado a pelo menos uma decisão do processo é aleatório. Esta aleatoriedade ocorre basicamente de dois modos:
- Os estados são unicamente determinados pelas decisões, mas os resultados relacionados com um ou mais estados ocorrem ao acaso,
- Os resultados são unicamente determinados pelos estados resultantes de
uma ou mais decisões e que se dão ao acaso.
Se as distribuições de probabilidade que governam os acontecimentos aleatórios são conhecidas e se o número de estágios é finito, a Programação Dinâmica vista atrás é útil para a optimização de um processo de decisão multiestágios estocástico. O procedimento geral é optimizar o valor esperado do resultado. Nos casos em que a aleatoriedade ocorre apenas nos resultados relacionados com os estados e não nos estados resultantes das decisões, este procedimento tem como consequência a transformação de um processo estocástico num processo determinístico. Tabelas Políticas
Nos processos em que a aleatoriedade existe em relação aos estados associados com as decisões, uma política - em particular uma política óptima – pode ser explicitada através de uma tabela política que é um quadro do tipo:
Estados
1a 2a … ra 1 ( )11 ad ( )21 ad … ( )rad1 2 ( )12 ad ( )22 ad … ( )rad2 � � � �
Est
ágio
s
n ( )1adn ( )2adn … ( )rn ad Nesta tabela, ( )kj ad , nj ,...,2,1= ; rk ,...,2,1= , representa a decisão no
estágio j quando o processo se encontra no estado ka .
2
Exemplo
Pretende-se distribuir oito (8) lotes de laranja por três (3) mercados. A procura de laranjas em cada um deles é aleatória, de acordo com as distribuições de probabilidade seguintes:
Probabilidades de Procura
Lotes Mercado 1 Mercado 2 Mercado 3 0 0,1 0 0,1 1 0,2 0,2 0,3 2 0,3 0,6 0,2 3 0,2 0 0,2 4 0,1 0,2 0 5 0,1 0 0,2
O lucro por lote vendido nos mercados 1, 2 e 3 é de 18 euro, 20 euro e 21
euro, respectivamente. Determine o número inteiro de lotes que deveria ser distribuído em cada mercado de modo a maximizar o lucro esperado.
Podemos encarar este problema como um processo de decisão de 3 estágios, representando o estágio j uma distribuição de laranjas no Mercado j ,
.3,2,1=j Os estados de cada estágio são 8,...,1,0=u e representam o número de lotes disponíveis para distribuição num mercado.
Não existe aleatoriedade no estado resultante de qualquer decisão: - Por exemplo, se se distribuem dois lotes a um certo Mercado ele ficará
com dois lotes em stock. Mas existe aleatoriedade no resultado de qualquer estado:
- Com dois lotes em stock, um mercado pode vender 0, 1 ou 2 lotes, gerando cada possibilidade lucros diferentes.
Em consequência, vamos maximizar o lucro total esperado (como aliás é pedido) em vez do lucro total.
Sejam - ( )xf j lucro esperado pela distribuição de x lotes no mercado j ,
- ( )um j lucro total esperado iniciando-se o processo pelo estágio j no
estado u , - ( )ud j decisão tomada no estágio j que gera ( )um j .
3
Os valores das funções de pagamento apresentam-se na tabela seguinte (em euro):
x ( )xf j 0 1 2 3 4 5 6 7 8
( )xf1 0 16,2 28,8 36,0 39,6 41,4 41,4 41,4 41,4 ( )xf2 0 20,0 36,0 40,0 44,0 44,0 44,0 44,0 44,0 ( )xf3 0 18,9 31,5 39,9 44,1 48,3 48,3 48,3 48,3
Vejamos um exemplo de cálculo:
- ( )31f
Com 3 lotes distribuídos, o Mercado 1 consegue um lucro de 0 euro se vender 0 lotes, de 18 euro se vender 1 lote, de 36 euro se vender 2 lotes e de 54 euro se vender 3 lotes. As probabilidades dos três primeiros acontecimentos são, de acordo com a tabela atrás, 0,1, 0,2 e 0,3. A probabilidade do quarto acontecimento é igual à probabilidade de que a procura seja igual ou superior a três lotes:
4,01,01,02,0 =++ . Assim,
( ) ( )( ) ( )( ) ( )( ) ( )( ) 364,0543,0362,0181,0031 =+++=f .
Em termos de ( )xf j , 3,2,1=j , temos formalmente um problema
determinístico que pode ser resolvido pelos métodos da Programação Dinâmica Determinística, já estudados, conduzindo então à tabela
u 0 1 2 3 4 5 6 7 8
( )um3 0 18.9 31.5 39.9 44.1 48.3 48.3 48.3 48.3 ( )ud3 0 1 2 3 4 5 5 5 5 ( )um2 0 20.0 38.9 54.9 67.5 75.9 80.1 84.3 88.3 ( )ud2 0 1 1 2 2 2 2 2 3 ( )um1 … … … … … … … … 111,9 ( )ud1 … … … … … … … … 3
4
A política óptima consiste em:
- Distribuir 3 lotes de laranjas para o Mercado 1, - Distribuir 2 lotes para o Mercado 2, - Distribuir 3 lotes para o Mercado 3
Obtendo-se um lucro total esperado de 111.9 euro.
Outro Exemplo
Um investidor tem 3 mil unidades de dinheiro disponíveis há um ano para investir num bom negócio. A oportunidade em risco é de que o retorno seja o dobro ou nada. Baseado em acontecimentos do passado, a probabilidade de dobrar o dinheiro é 6,6, enquanto a “chance” de perder o dinheiro todo é 0,4. Determine uma estratégia de investimento para os 4 anos seguintes que maximize os resultados totais esperados no final do período, supondo que o dinheiro ganho num ano pode ser reinvestido no ano seguinte e os investimentos estão restritos a quantidades unitárias.
Trata-se de um processo com 4 estágios, em que cada estágio corresponde a um ano.
Os estados são os montantes disponíveis para o investimento: 24,...,1,0=u (este último valor é igual ao investimento de todo o montante disponível para cada ano, duplicado de cada vez) para o estágio 4; 12,...,1,03 =u para o estágio 3; 6,...,1,02 =u para o estágio 2; 31 =u para o estágio 1. A aleatoriedade ocorre aqui no estado resultante de uma decisão particular. Por exemplo,
- Se alguém tem 3 unidades (isto é: o presente estado é 3) e decide investir duas unidades, então o estado seguinte é ( )2215 ×+ ou ( )011 + , dependendo de o montante investido ter sido duplicado ou perdido.
Sejam então
- ( )jj um Ganhos esperados máximos no final o processo começando no
estado uj e estágio j , - ( )jj ud Montante investido no estágio j que gera ( )jj um .
Se alguém começa com estágio com ju unidades, então x unidades,
jux ...,1,0= , podem ser investidas, deixando xu j − unidades de reserva. Se o
investimento é duplicado, haverá
5
( ) xuxux jj +=−+2
Unidades disponíveis no estágio seguinte; se as unidades investidas são perdidas, então a reserva ( )xu j − estará disponível para o próximo estágio. O
melhor resultado neste ponto é
- ( )xum jj ++1 Com probabilidade 0,6 ou
- ( )xum jj −+1 Com probabilidade 0,4
e o melhor valor esperado para o melhor resultado é, em consequência,
( ) ( )xumxum jjjj −++ ++ 11 4,06,0 .
A escolha óptima para x é o seu valor que maximiza esta expressão:
( ) ( ) ( )[ ]xumxummáximoum jjjj
juxjj −++= ++
=11
,...,1,04,06,0 .
Esta igualdade é a fórmula de recorrência para o processo. Como é evidente,
- 3,2,1=j - E para 4=j tem que se considerar ( ) uum =5 , visto que o processo
termina no fim do 4.º ano e o estado em que fica nessa altura permanece inalterado.
2345 ,,, mmmm e 1m são funções crescentes, como é óbvio. Então,
( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 54544544544 mumuumuumum
42.6,0 u=
42,1 u=
( ) 444 2,1 uum =
6
( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 43433433433 mumuumuumum
32.2,1.6,0 u=
322,1 u=
( ) 32
33 2,1 uum =
( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 32322322322 mumuumuumum
22 2.2,1.6,0 u=
232,1 u=
( ) 23
22 2,1 uum =
( ) ( ) ( ) ( ) ( ) =+=−++= 04,026,04,06,0 21211211211 mumuumuumum
13 2.2,1.6,0 u=
142,1 u=
( ) 14
11 2,1 uum =
Onde ( ) 111 uud = , ( ) 222 uud = , ( ) 333 uud = e ( ) 444 uud = . Assim, o resultado óptimo esperado é
( ) 2208,63.2,13 41 ==m
Obtido pelo investimento de todas as unidades disponíveis ao processo em cada ano.
Note-se que uma tal política óptima pode resultar
- Em 48 unidades ao fim de 4 anos, se todos os investimentos forem duplicados,
- Em 0 unidades ao fim de 4 anos, se pelo menos um investimento é
completamente perdido.
7
Assim, o resultado esperado desta política é
( )( ) ( )[ ] 2208,66,0106,048 44 =−+ Sendo
- ( )46,0 A probabilidade de todos os investimentos terem sucesso,
- ( )46,01− A probabilidade de que pelo menos um investimento falha. Ainda outro exemplo Resolva o problema anterior mas, agora, com outro objectivo:
- O de maximizar a probabilidade acumulada de se obter um resultado de 5 (mil) unidades durante 4 anos, pelo menos.
Agora este novo problema não se refere ao valor esperado do resultado, mas
sim à probabilidade de que os resultados sejam de um certo montante. Por exemplo, se o investidor adopta a política de investir todas as unidades em cada estágio, como foi mostrado no problema anterior, a probabilidade de que ele
termine com 5 ou mais unidades é ( ) 1296,06,0 4 = . A questão é:
- Pode este valor ser melhorado pela escolha de outra política (melhor)?
Os estados e estágios foram definidos no Problema anterior. Façamos
- E Acontecimento que termina o processo com 5 ou mais unidades, - ( )jj um Probabilidade de E , dado que o estado no estágio j é ju e uma
política óptima é seguida do estágio j em diante, - ( )jj ud Montante investido no estágio j que gera ( )jj um .
Se x unidades, jux ,...,1,0= , são investidas no estágio j , então, de acordo
com o Problema anterior
- ( ) 6,01 =+=+ xuuP jj ,
- ( ) 4,01 =−=+ xuuP jj .
8
Agora, a expressão
( ) ( )xumxum jjjj −++ ++ 11 4,06,0
Representa
- A probabilidade de E dado ju para a decisão x , e uma extensão óptima
para o estágio 1+j . Então,
( ) ( ) ( )[ ]xumxummáximoum jjjjjux
jj −++= ++=
11,...,1,0
4,06,0 , 3,2,1=j .
Formalmente esta é uma equação com diferenças idêntica à obtidano
Problema anterior. Mas, uma nova condição de fronteira (final) é pertinente agora.
Tendo em conta o resultado da decisão final de investimento, temos:
( ) ( ) ( )[ ] [ ]GFmáxxuPxuPmáximoumxux
+=≥−+≥+==
54,056,0 444,...,1,0
44
9
De acordo com esta figura obtemos para ( )44 um
( )���
���
�
=
=
=
=
24,6,51
4,36,0
2,1,0,0
4
4
4
44
u
u
u
um
Onde
( )
���
�
���
�
�
=
=
=
=
=
24,...,6,5,0
4,1
3,2
,...2,1,0,0
4
4
4
4
44
u
u
u
u
ud
Indicando-se para ( )44 ud o menor investimento óptimo.
A tabela seguinte
0 1 2 3 4 5 6 … 12 … 24 ( )44 um 0 0 0 0,6 0,6 1 1 … 1 … 1 ( )44 ud 0 0 0 2 1 0 0 … 0 … 0 ( )33 um 0 0 0,36 0,6 0,84 1 1 … 1 ( )33 ud 0 0 1 0 1 0 0 … 0 ( )22 um 0 0,216 0,504 0,648 0,84 1 1 ( )22 ud 0 1 2 1 0 0 0 ( )11 um … … … 0,7056 ( )11 ud … … … 1
Apresenta a solução da condição de óptimo sujeito a estas condições finais. De novo, apenas o menor ( )jj ud é usado no acontecimento.
O preenchimento de ( )44 um e ( )44 ud é evidente e segue de imediato dos ( )44 um e ( )44 ud determinados.
- ( )33 um e ( )33 ud .
Partimos de ( ) ( )xumxum −++ 3434 4,06,0 , 12,...,1,03 =u , 3,...,1,0 ux = .
10
Assim, • 03 =u
( ) ( ) 0,4,06,0 44 =−+ xxmxm Ou ( ) ( ) ( ) 004,06,004,006,0 44 =+=+ mm .
( ) 003 =m ; ( ) 003 =d
• 13 =u ( ) ( ) 1,0,14,016,0 44 =−++ xxmxm . ( ) ( ) 014,016,0 44 =+ mm ( ) ( ) 004,026,0 44 =+ mm
( ) 013 =m ; ( ) 013 =d • 23 =u
( ) ( ) 2,1,0,24,026,0 44 =−++ xxmxm . ( ) ( ) 024,026,0 44 =+ mm ( ) ( ) 36,004,06,06,014,036,0 44 =×+×=+ mm ( ) ( ) 36,004,06,06,004,046,0 44 =×+×=+ mm
( ) 36,023 =m ; ( ) 123 =d • 33 =u
( ) ( ) 3,2,1,0,34,036,0 44 =−++ xxmxm . ( ) ( ) 60,06,04,06,06,034,036,0 44 =×+×=+ mm ( ) ( ) 24,004,06,04,024,046,0 44 =×+×=+ mm ( ) ( ) 4,004,014,014,056,0 44 =×+×=+ mm ( ) ( ) 4,004,014,004,066,0 44 =×+×=+ mm
( ) 6,033 =m ; ( ) 033 =d • 43 =u
( ) ( ) 4,3,2,1,0,44,046,0 44 =−++ xxmxm . ( ) ( ) 60,06,04,06,06,044,046,0 44 =×+×=+ mm ( ) ( ) 84,024,06,06,04,016,034,056,0 44 =+=×+×=+ mm ( ) ( ) 6,004,016,024,066,0 44 =×+×=+ mm ( ) ( ) 6,004,016,014,076,0 44 =×+×=+ mm ( ) ( ) 6,004,016,004,086,0 44 =×+×=+ mm
( ) 84,043 =m ; ( ) 143 =d
11
• 53 =u ( ) ( ) 5,4,3,2,1,0,54,056,0 44 =−++ xxmxm . ( ) ( ) 14,06,054,056,0 44 =+=+ mm ( ) ( ) 84,06,04,06,044,066,0 44 =×+=+ mm ( ) ( ) 84,004,06,034,076,0 44 =×+=+ mm ( ) ( ) 6,004,06,024,086,0 44 =×+=+ mm ( ) ( ) 6,004,06,014,096,0 44 =×+=+ mm ( ) ( ) 6,004,06,004,0106,0 44 =×+=+ mm
( ) 153 =m ; ( ) 053 =d E, assim sucessivamente.
Assim, a probabilidade máxima acumulada de se obter pelo menos 5
unidades em quatro anos é 0,7056. Assim,
- No estágio 1 em que o estado é 3 deve investir-se 1 unidade. Chega-se ao estágio 2 com 4 unidades com probabilidade 0,6 ou com 2 unidades com probabilidade 0,4.
- No estágio 2 Se se estiver no estado 4 não se deve investir nada chegando-se ao
estágio 3 com 4 unidades com probabilidade 1, Se se estiver no estado 2 deve investir-se tudo chegando-se ao estágio 3 com 4 unidades com probabilidade 0,6 ou com 0 unidades com probabilidade 0,4.
- No estágio 3 Se se estiver no estado 4 deve investir-se 1 unidade chegando-se ao estágio 4 com 5 unidades com probabilidade 0,6 ou com 3 unidades com probabilidade 0,4, Se se estiver no estado 0 obviamente não há nada para investir e chega-se ao estágio 4 com 0 unidades.
- No estágio 4 Se se estiver no estado 5 nada se deve investir chegando-se ao fim do processo com 5 unidades, Se se estiver no estado 3 devem investir-se 2 unidades chegando-se ao fim do processo com 5 unidades com probabilidade 0,6 ou com 1 unidade com probabilidade 0,4, Se se estiver no estado 0 obviamente não há nada para investir e chega-se ao fim do processo com 0 unidades.
12
Esquematicamente
Assim, no fim do processo podemos estar nos estados 5, 1 ou 0. Calculemos
as respectivas probabilidades
- 5
( )( ) ( )( ) 7056,084,084,06,04,016,06,04,016,0 ==×+××+× - 1
( )( ) ( )( ) 1344,016,084,04,04,06,04,016,0 ==××+×
- 0
( )( )( )( ) 16,0114,04,0 = E 116,01344,07056,0 =++
Mais um exemplo
Um fabricante de plataformas espaciais para a NASA tem capacidade para produzir no máximo 2 plataformas por ano. Demora-se um ano completo para fabricar uma plataforma, mas como a NASA não faz pedidos antes de Julho, para entregar em Dezembro, o fabricante deve estabelecer a escala de produção antes mesmo de conhecer a procura exacta. Esta procura será de uma plataforma com probabilidade 0,6 ou de duas com probabilidade 0,4. Um pedido de plataforma não satisfeito incorre numa multa de 1,5 milhões de dólares e deve ser entregue no ano seguinte tendo prioridade sobre quaisquer novos pedidos.
Os custos de produção são função do número de plataformas fabricadas, com o custo de uma plataforma fixado em 10 milhões de dólares e o de duas em 19 milhões de dólares. Uma superprodução pode ser armazenada para uma
13
entrega futura, a um custo de 1,1 milhões de dólares por plataforma ao ano, sendo limitada no máximo a 1 plataforma. Determine uma escala de produção para os três anos seguintes que maximizará o custo total esperado, sendo o stock actual de zero plataformas.
Podemos considerar que estamos perante um processo de 4 estágios, representando os estágios 1,2 e 3 os próximos 3 anos, respectivamente, num plano digamos horizontal e o estágio 4 representa a produção atrasada de pedidos de plataformas não entregues no ano 3. Os estados são os stocks possíveis no começo de cada estágio: variam entre um mínimo de -2 (representando duas plataformas pedidas mas não entregues) até um máximo de1. Sejam
u -número de plataformas em stock )1,0,1,2( −−=u ,
( )um j -custo mínimo esperado pela complementação do processo iniciado
no estágio j no estado u ,
( )ud j -produção no estágio j que gera ( )um j ,
D -procura anual [ ] 6,01 ==DP [ ] 4,02 ==DP ,
( )xf -custo de produção anual de x plataformas
Se a firma inicia o estágio 3,2,1, =jj com 1,0=u plataformas em stock e decide produzir ( )2,1,0=xx plataformas adicionais nesse estágio, ela incorre num custo de u1,1 pelo seu stock e num custo ( )xf pela produção de novas plataformas, com uma despesa anual de
( ) uxf 1,1+ .
O número de plataformas, total, disponíveis para entrega no fim do ano é
xu + O que deixa
Dxu −+ Plataformas disponíveis para o estágio seguinte.
14
O custo mínimo de conclusão do processo neste ponto é
( )Dxum j −++1 .
Como 1=D com probabilidade 0,6 e 2=D com probabilidade 0,4, o custo
esperado mínimo para a conclusão do estágio 1+j é
( ) ( )24,016,0 1 −++−++ xuxum j .
Portanto, o custo esperado mínimo para a conclusão do estágio j é o
mínimo, em relação a x de ( ) ( ) ( )24,016,01,1 11 −++−+++ ++ xumxumxfu jj ou
seja:
( ) ( ) ( ) ( )[ ]24,016,01,1 112,1,0
−++−+++= ++=
xumxumxfmínuum jjx
j , 1,0=u e 3,2,1=j .
Vamos pôr, para já, ( ) Mm j +=3 para qualquer j .
Se a firma inicia o estágio j com 2−=u ou 1−=u , então estará com um deficit de produção de u− plataformas do estágio anterior, e estará sujeita a uma multa de u5,1− . Uma decisão de produzir x plataformas, onde x deve ser no mínimo igual a u− para colmatar o deficit anterior, resulta num custo de produção de ( )xf . O custo final para a companhia no estágio j é
( ) uxf 5,1−
Continuando a análise nos mesmos moldes que para 0=u e 1=u obtemos a fórmula recorrente ( ) ( ) ( ) ( )[ ]24,016,0min5,1 11
2,...,−++−+++−= ++
−=xumxumxfuum jj
uxj , Onde
1,2 −−=u e 3,2,1=j . Vamos pôr ( ) Mf +=−1 . Podemos ter então uma relação única:
( ) ( ) ( ) ( ) ( )[ ]24,016,0min 11
2,...,−++−+++= ++
−=xumxumxfugum jj
uxj , 1,0,1,2 −−=u E
3,2,1=j Onde ( )��
���
<−
≥=
0,5,1
0,1,1
uu
uuug .
15
A solução generalizada desta equação, estendida a 4=j com a condição final ( ) 05 =um , é dada na tabela seguinte:
u -2 -1 0 1 ( )um4 22 11,5 0 1,1 ( )ud4 2 1 0 0
( )um3 37,7 25,1 14,6 5,7 ( )ud3 2 2 1 0 ( )um2 52,14 39,3 28,26 19,9 ( )ud2 2 2 2 0 ( )um1 … … 42,24 … ( )ud1 … … 2 …
Níveis de Stock
-2 -1 0 1 1 … … 2 … 2 2 2 2 0 3 2 2 1 0
Anos
4 2 1 0 0
O custo esperado mínimo é de 42,24 milhões de dólares, conseguido através da política óptima mostrada na tabela imediatamente acima:
Alguns exemplos de cálculo:
• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−=
44,036,0min22 552
4 xmxmxfgmx
( ) ( ) ( ) ;2219324,016,023
05
05 =+=−+−++=
��������mmf ( ) 224 =−d
• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−
=34,026,0min11 55
2,14 xmxmxfgm
x
( )[ ] { } ;5,1119,10min5,1min5,1
2,1=+=+=
=xf
x ( ) 114 =−d
16
• ( ) ( ) ( ) ( ) ( )[ ] =−+−++−=−=
34,026,0min11 442,1
3 xmxmxfgmx
( ) ( ) ( ) ( ){ }=−++−+−++= 14,006,019,24,016,010min5,1 4444 mmmm
{ } 1,255,114,006,019;224,05,116,010min5,1 =×+×+×+×++=
Ainda mais um exemplo
Um decreto presidencial reduziu o número de candidatos a vice-presidente para três. Cada um dos três candidatos seria julgado numa escala de 1 (menor) a 10 (maior); o candidato 1 recebeu 10 pontos, o candidato 2 recebeu 8 pontos e o candidato 3 5 pontos. A probabilidade de o candidato 3,2,1, =ii , aceitar a j -ésima, 3,2,1=j , oferta par concorrer à vice-presidência (considerando que as primeiras 1−j ofertas a outros candidatos foram rejeitadas) é designada por
ijp , sendo
Por que ordem poderiam os três potenciais candidatos ser oferecidos à
nomeação vice-presidencial se o decreto presidencial maximizar o número esperado de pontos?
Supõe-se que nenhuma pessoa é requisitada mais do que uma vez e que, de cada vez que um candidato rejeita, um outro é requisitado, até que pelo menos um tenha aceite ou todos tenham rejeitado.
Temos assim um processo de três estágios, representando o estágio j a j -ésima posição na ordem de requisição. Os estados são a lista de pessoas ainda não requisitadas.
O estágio 1 só pode ter o estado único
{ }3,2,111 =U .
O estágio 2 tem três estados
{ }2,121 =U { }3,122 =U { }3,223 =U .
E o estágio 3 tem três estados
{ }131 =U { }232 =U { }333 =U .
4,08,01
2,05,09,0
02,05,0
333231
232221
131211
===
===
===
ppp
ppp
ppp
17
Sejam
- ( )jkj Um O número máximo esperado de pontos conseguidos, começando
no estágio j no estado jkU , dado que não houve nenhuma aceitação
nos estágios anteriores, - ( )jkj Ud Candidato requisitado no estágio j de forma a obter-se ( )jkj Um
(isto é: decisão), - iV Valor em pontos do candidato i .
Para este problema, a fórmula de recorrência é
( ) ( ) { })({ }iUmppVmáxUm jkjijiji
jkUijkj \1 1+
∈−+=
já que
- Se no estágio j o candidato i é requisitado e aceita, o valor é iV ; se rejeita, a melhor forma de continuar é a partir do estado constituído pelos candidatos que ainda não foram requisitados.
A fórmula dada fica restringida a 3,2,1=j se impusermos que ( ) 04 =Um .
Portanto, Estágio 3
• ( ) ( ) 0010313 ==Um ; ( ) 1313 =Ud
• ( ) ( ) 6,12,08323 ==Um ; ( ) 2323 =Ud
• ( ) ( ) 0,24,05333 ==Um ; ( ) 3333 =Ud
Estágio 2
• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 313323212 5,015,08,2,012,010 UmUmmáxUm
( )( ) ( )( ){ } 405,04,7,6,18,02 =++= máx ; ( ) 2212 =Ud
18
• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 313333222 8,018,05,2,012,010 UmUmmáxUm
( )( ) ( )( ){ } 402,04,0,28,02 =++= máx ; ( ) 3222 =Ud
• ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+= 323333232 8,018,05,5,015,08 UmUmmáxUm
( )( ) ( )( ){ } 56,12,04,25,04 =++= máx ; ( ) 2232 =Ud Estágio 1
• ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ){ } =−+−+−+= 212222232111 1115,9,019,08,5,015,010 UmUmUmmáxUm
( )( ) ( )( ) ( ){ } 6,7405;41,02,7;55,05 =+++= máx ; ( ) 2111 =Ud
A política óptima é requisitar o candidato 2 primeiro; se ele rejeitar, então requisitar o candidato 3; e se este rejeitar, então requisitar o candidato 1. O número esperado de pontos para tal política é 7,6.