uma introduç˜ao `a otimizaç˜ao sob incerteza

97
Uma Introdu¸ c˜ao` a Otimiza¸ c˜aosob Incerteza Humberto Jos´ e Bortolossi Departamento de Matem´ atica Aplicada Universidade Federal Fluminense Bernardo Kulnig Pagnoncelli Departamento de Matem´ atica Pontif´ ıcia Universidade Cat´ olica do Rio de Janeiro III Bienal da Sociedade Brasileira de Matem ´ atica Universidade Federal de Goi ´ as 6 a 10 de novembro de 2006

Upload: buitruc

Post on 31-Jan-2017

220 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Uma Introducao a Otimizacao sob Incerteza

Humberto Jose Bortolossi

Departamento de Matematica Aplicada

Universidade FederalFluminense

Bernardo Kulnig Pagnoncelli

Departamento de Matematica

Pontifıcia Universidade Catolicado Rio de Janeiro

III Bienal da Sociedade Brasileira de Matematica

Universidade Federal de Goias

6 a 10 de novembro de 2006

Page 2: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Sumario

Prefacio iii

1 O Problema do Fazendeiro 1

1.1 Representando cenarios . . . . . . . . . . . . . . . . . . . . . 4

1.2 EVPI e VSS . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 O Problema do Jornaleiro 10

2.1 Resolucao do Problema . . . . . . . . . . . . . . . . . . . . . 11

2.2 Um exemplo numerico . . . . . . . . . . . . . . . . . . . . . 13

2.3 Outras interpretacoes para o problema . . . . . . . . . . . . 15

3 Programacao Linear com Coeficientes Aleatorios 17

3.1 O problema da mistura . . . . . . . . . . . . . . . . . . . . . 18

3.2 O problema da producao . . . . . . . . . . . . . . . . . . . . 27

4 Modelos de Recurso 32

4.1 Motivacao: programacao linear por metas . . . . . . . . . . 32

4.2 Modelos de recurso em otimizacao estocastica . . . . . . . . 36

4.3 Admissibilidade . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.4 Propriedades das funcoes de recurso . . . . . . . . . . . . . . 40

4.5 Casos especiais: recurso completo e simples . . . . . . . . . . 41

Page 3: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

4.6 Mınimos e esperancas . . . . . . . . . . . . . . . . . . . . . . 42

4.7 Cotas para o valor otimo . . . . . . . . . . . . . . . . . . . . 42

4.8 O caso Ω finito . . . . . . . . . . . . . . . . . . . . . . . . . 45

5 O metodo L-shaped 47

5.1 A decomposicao de Benders . . . . . . . . . . . . . . . . . . 47

5.2 O algoritmo de Benders . . . . . . . . . . . . . . . . . . . . 50

5.3 Um exemplo completo . . . . . . . . . . . . . . . . . . . . . 51

5.4 Decomposicao de Benders em otimizacao estocastica: o me-

todo L-shaped . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6 Metodos Amostrais 56

6.1 Aproximacao pela media amostral . . . . . . . . . . . . . . . 56

6.2 A decomposicao estocastica . . . . . . . . . . . . . . . . . . 61

A Probabilidade 69

B Estatıstica 77

C Convexidade 81

D Programacao Linear 86

Bibliografia 91

Page 4: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Prefacio

A maioria dos problemas da vida real trazem, em si, incertezas: elas sao

inerentes em virtualmente todos os sistemas relacionados com atuaria, eco-nomia, meteorologia, demografia, ecologia, etc. Nos dias de hoje, problemasenvolvendo interacoes entre homem, natureza e tecnologia estao sujeitos a

mudancas rapidas, o que aumenta a incerteza. Cada nova revolucao tec-nologica traz novos desafios para o conhecimento estabelecido ate entao.

Mesmo no contexto determinıstico, existem sistemas que sao tao complexos,que eles nao permitem uma medida precisa de seus parametros.

A area de otimizacao estocastica (tambem conhecida como otimizacao sob

incerteza) estuda modelos e metodos para abordar tais situacoes: elas incor-poram incertezas na modelagem atraves da inclusao de variaveis aleatorias

com distribuicao de probabilidade conhecida. O objetivo e, entao, encon-trar solucoes que sejam admissıveis para todas as possıveis realizacoes dasvariaveis aleatorias que sao parte da modelagem.

A inclusao de variaveis aleatorias em um modelo de otimizacao cria muitasdificuldades: O que e uma solucao admissıvel? O que e uma solucao otima?Como resolver estes problemas? Apresentaremos neste texto algumas das

abordagens que procuram responder (dar um sentido) a estas perguntas.Nos concentraremos em uma classe muito importante de problemas de oti-

mizacao estocastica: os chamados modelos de recurso em dois estagios. Emlinhas gerais, estes modelos permitem que se faca uma escolha inicial (dita

de primeiro estagio) antes de se conhecer o valor dos parametros incertos.Apos o conhecimento dos valores dos mesmos, o agente de decisao faz novas

escolhas (ditas de segundo estagio) que visam corrigir possıveis efeitos nega-tivos gerados pela decisao de primeiro estagio (por este motivo, as decisoesde segundo estagio tambem sao chamadas de acoes corretivas).

A solucao obtida atraves da resolucao de um problema de otimizacao

estocastica e balanceada para todos os possıveis cenarios, ou seja, e a me-lhor solucao que leva em contas todos os possıveis valores que os parametros

aleatorios podem assumir. Nao fixamos simplesmente cada cenario e resolve-

Page 5: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

iv Prefacio

mos varios problemas de otimizacao: estamos incorporando todos os cenariosem um mesmo de problema e nos perguntando qual e a melhor decisao a setomar levando em conta todas as situacoes que podem ocorrer.

E um fato geral que muitas aplicacoes de otimizacao estocastica dao ori-

gem a problemas de otimizacao determinıstica de grande porte, que saointrataveis mesmo para os computadores mais modernos. Uma area de pes-

quisa bastante ativa atualmente esta voltada para o desenvolvimento de al-goritmos que aproximam as solucoes de problemas de grande porte. Nestetexto apresentaremos dois deles, a aproximacao pela media amostral e a

decomposicao estocastica.

Do ponto de vista pedagogico, a area de otimizacao estocastica e muitorica, por usar conceitos e resultados de programacao linear, probabilidade e

estatıstica.

Agradecimentos

Este texto e fruto de um ciclo de seminarios realizados na Pontifıcia Uni-

versidade Catolica do Rio de Janeiro desde o segundo semestre de 2005, comoparte do programa de pos-graduacao em atuaria. Alem de varios artigos daarea, os livros [03, 09, 10, 13, 14, 17] foram muito inspiradores!

Gostarıamos de agradecer a todos que participaram dos seminarios: Derek

Hacon, Jessica Kubrusly, Marina Sequeiros Dias, Debora Freire Mondaini,Eduardo Teles da Silva, Niko A. Iliadis, Raphael M. Chabar e, em especial,ao professor Carlos Tomei, organizador dos seminarios e co-autor de direito

deste texto!

Humberto Jose Bortolossi

([email protected])

Departamento de Matematica Aplicada

Universidade Federal

Fluminense

Bernardo Kulnig Pagnoncelli

([email protected])

Departamento de Matematica

Pontifıcia Universidade Catolica

do Rio de Janeiro

Page 6: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 1

O Problema do Fazendeiro

Vamos comecar nosso estudo de otimizacao estocastica pelo problema do

fazendeiro [03]. Joao e um fazendeiro que possui de 500 hectares (ha) deterra disponıveis para cultivo. Alias, lembre-se que 500 ha equivalem a

5 000 000 m2. Ele e especialista em tres cultivos: trigo, milho e cana-de-acucar. Durante o inverno, ele tem que decidir quanto de terra sera dedicada

a cada uma das tres culturas. A Figura 1.1 mostra duas possibilidades dedivisao.

milho cana-de-açúcar

trigo milho

cana-de-açúcar

trigo

Figura 1.1: Duas divisoes possıveis da terra.

Alem do tamanho de sua propriedade, Joao possui outras restricoes a

serem consideradas. Ele tambem e proprietario de gado, que precisa seralimentado. Seu gado precisa de pelo menos 200 toneladas (T) de trigo e240 T de milho para a racao. Alem do trigo e milho produzidos em suas

terras, ele pode comprar esses produtos de outros produtores, no mercadolocal. Seu excesso de producao pode ser vendido para atacadistas, porem o

preco e bem menor devido a margem de lucro destes comerciantes.

Page 7: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

2 III Bienal da Sociedade Brasileira de Matematica

A cana-de-acucar e um cultivo exclusivamente para dar lucro: toda suaproducao e vendida para atacadistas a 36 reais por tonelada (R$/T). Noentanto, o governo impoe uma cota de producao de 6 000 T: qualquer quan-

tidade produzida acima desse valor deve ser vendida por apenas 10R$/T.

Baseado em informacoes de anos anteriores, Joao sabe que o rendimentomedio de suas lavouras e 2.5, 3.0 e 20 toneladas por hectare (T/ha). Alem

disso, existe um custo de producao especıfico de cada lavoura, que e dadoem R$/ha. Os dados completos do modelo estao representados na Tabela

1.1 a seguir:

Trigo Milho Cana-de-acucarRendimento (T/ha) 2.5 3.0 20

Custo de producao ($/ha) 150 230 260Preco de venda ($/T) 170 150 36(≤ 6 000 T)

10(> 6 000 T)Preco de compra ($/T) 238 210 –

Requerimento mınimo para o gado (T) 200 240 –Total de terra disponıvel: 500 ha

Tabela 1.1: Dados para o problema do fazendeiro.

Para ajudar Joao a decidir sobre como dividir suas terras de forma amaximizar seus lucros, vamos formular um problema de otimizacao linear

que descreve essa situacao. Defina

x1 = hectares dedicados ao trigo,

x2 = hectares dedicados ao milho,

x3 = hectares dedicados a cana-de-acucar,

w1 = toneladas de trigo vendidas,

y1 = toneladas de trigo compradas,

w2 = toneladas de milho vendidas,

y2 = toneladas de milho compradas,

w3 = toneladas de cana-de-acucar e

w4 = toneladas de cana-de-acucar.

Queremos modelar essa situacao como um problema de minimizacao aoinves de um de maximizacao, por razoes que ficaram claras um pouco mais

a frente no texto. Logicamente, o valor da funcao objetivo deve ser interpre-

Page 8: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Fazendeiro 3

tado com o sinal oposto. Dessa forma o problema fica

minimizar 150 x1 + 230 x2 + 260 x3+

238 y1 − 170 w1 + 210 y2 − 150 w2 − 36 w3 − 10 w4

sujeito a x1 + x2 + x3 ≤ 500,2.5 x1 + y1 − w1 ≥ 200,

3 x2 + y2 − w2 ≥ 240,w3 + w4 ≤ 20 x3,

w3 ≤ 6 000,x1, x2, x3, y1, y2, w1, w2, w3, w4 ≥ 0.

(1.1)

Esse e um problema de otimizacao linear e existem diversos programasdisponıveis na internet que resolvem esse problema rapidamente. No entanto,

e necessario escreve-lo em uma linguagem especial, chamada AMPL ([08]).Essa linguagem e propria para problemas de otimizacao e e muito simples

de aprender, pois seu codigo e muito semelhante a maneira como escrevemosum problema de otimizacao. Mais detalhes em http://www.ampl.com/. O

mais popular resolvedor de problemas de otimizacao e o CPLEX, que apesarde nao ser gratuito possui uma versao para estudantes gratuita, disponıvelem http://www.ampl.com/DOWNLOADS/cplex80.html. A solucao do pro-

blema esta descrita na Tabela 1.2.

Trigo Milho Cana-de-acucar

Area (ha) 120 80 300Total produzido 300 240 6 000Total vendido 100 – 6 000

Total comprado – – –Lucro total: R $118 600

Tabela 1.2: Solucao do problema.

Pronto, o problema de Joao esta resolvido: basta dividir as terras de

acordo com a Tabela 1.2 para que ele maximize seus lucros. No entanto,Joao fica desconfiado com a solucao. E se sua experiencia em relacao aorendimento medio das culturas nao for tao precisa quanto ele pensa? E se

o ano em questao tiver um clima particularmente desfavoravel e sua lavourarender menos do que o esperado? Sera que a mesma divisao de terras e a

melhor possıvel? Vamos estudar essas questoes na proxima secao.

Page 9: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

4 III Bienal da Sociedade Brasileira de Matematica

1.1 Representando cenarios

Vamos supor que num ano particularmente favoravel os rendimentos se-jam 20% maiores que os rendimentos medios sugeridos por Joao. Alterandoesse dados e resolvendo o problema para esses rendimentos obtemos a solucao

descrita na Tabela 1.3. Por outro lado podemos ter um ano desfavoravel noqual os rendimentos fiquem 20% abaixo da media. Nesse caso a solucao e

dada pela Tabela 1.4.

Trigo Milho Cana-de-acucar

Area (ha) 183.33 66.67 250Total produzido 550 240 6 000Total vendido 350 - 6 000

Total comprado - - -Lucro total: R$ 167 600

Tabela 1.3: Solucao otima com rendimentos 20% acima da media.

Trigo Milho Cana-de-acucar

Area (ha) 100 25 375Total produzido 200 60 6 000Total vendido - - 6 000

Total comprado - 180 -Lucro total: R$ 59 950

Tabela 1.4: Solucao otima com rendimentos 20% abaixo da media.

Esses resultados sao alarmantes para as financas de Joao: mudancas de20% nos rendimentos das culturas em relacao ao rendimento medio fazemo seu lucro variar de R$ 59 950 a R$ 167 667! Pensando na cana-da-acucar,

Joao tem o seguinte dilema: se reservar uma area muito grande para essecultivo e os rendimentos foram acima da media, entao ele tera que vender

uma quantidade da producao a um preco desfavoravel por causa da cota. Poroutro lado, se ele reservar um area muito pequena e os rendimentos forem

abaixo da media, entao ele vai perder a oportunidade de vender cana-de-acucar a um preco favoravel.

Joao conclui que nao existe uma solucao que seja otima para todos oscasos. No entanto, ele se questiona se existe uma solucao que seja satisfatoria

para todos os tipos de rendimentos possıveis. A resposta para essa pergunta

Page 10: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Fazendeiro 5

vira com a primeira formulacao de otimizacao estocastica, que estudaremosa seguir.

Vamos introduzir um pouco de nomenclatura: os cenarios 20% acima damedia, na media e 20% abaixo da media serao indexados por s = 1, 2, 3

respectivamente. As variaveis y e w terao o mesmo significado da for-mulacao (1.1), mas serao indexadas por wis, i = 1, 2, 3, 4, s = 1, 2, 3 e

yjs, j = 1, 2, s = 1, 2, 3. Por exemplo, y23 representa a quantidade demilho vendida no caso de precos abaixo da media. Vamos assumir que oscenarios sao equiprovaveis, ou seja, que cada um ocorre com probabilidade

1/3. Alem disso, supondo que Joao quer maximizar seus ganhos a longoprazo, e razoavel supor que ele procura uma solucao que maximize seu lucro

esperado. Nesse caso o problema fica

minimizar150 x1 + 230 x2 + 260 x3

−1

3(170 w11 − 238 y11 + 150 w21 − 210 y21 + 36 w31 + 10 w41)

−1

3(170 w12 − 238 y12 + 150 w22 − 210 y22 + 36 w32 + 10 w42)

−1

3(170 w13 − 238 y13 + 150 w23 − 210 y23 + 36 w33 + 10 w43)

sujeito ax1 + x2 + x3 ≤ 500

3 x1 + y11 − w11 ≥ 200, 3.6 x2 + y21 − w21 ≥ 240,

w31 + w41 ≤ 24 x3, w31 ≤ 6 000,

2.5 x1 + y12 − w12 ≥ 200, 3 x2 + y22 − w22 ≥ 240,w32 + w42 ≤ 20 x3, w32 ≤ 6 000,

2 x1 + y13 − w13 ≥ 200, 2.4 x2 + y23 − w23 ≥ 240,w33 + w43 ≤ 16 x3, w33 ≤ 6 000

x1, x2, x3 ≥ 0,

y11, y21, y12, y22, y13, y23 ≥ 0,w11, w21, w31, w41, w12, w22, w32, w42, w13, w23, w33, w43 ≥ 0

(1.2)

Esta e a chamada forma extensa de um problema de otimizacao es-

Page 11: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

6 III Bienal da Sociedade Brasileira de Matematica

tocastica. Essa denominacao vem do fato que todas as variaveis que de-pendem de cenarios estao explicitamente descritas no modelo. As variaveisx sao chamadas variaveis de primeiro estagio, pois seu valor tem que ser

definido antes de se conhecer o clima e, consequentemente, o rendimento dasculturas. As variaveis yis e wis sao variaveis de segundo estagio. Sao variaveis

que sao escolhidas apos o conhecimento do rendimento das lavouras. Elasservem para corrigir uma possıvel situacao de deficit nas necessidades ali-

mentares do gado resultante da escolha x de primeiro estagio. O problemado fazendeiro e um exemplo de problema de recurso com dois estagios, que

sera estudado em detalhe mais adiante no texto.

Note que o problema 1.2 e linear e pode ser resolvido da mesma forma

que os anteriores. Exibimos na Tabela 1.5 a solucao otima, bem como asquantidades produzidas em cada cenario e os valores de compra e venda das

culturas.

Trigo Milho Cana-de-acucar

Primeiro estagio Area (ha) 170 80 250s = 1 Rendimento (T) 510 288 6 000

(Acima) Venda (T) 310 48 6 000(preco favoravel)

Compra(T) – – - -s = 2 Rendimento (T) 425 240 5 000

(Media) Venda (T) 225 – 5 000(preco favoravel)

Compra(T) – – –s = 3 Rendimento (T) 340 192 4 000

(Abaixo) Venda (T) 140 – 4 000(preco favoravel)

Compra(T) – 48 –Lucro total: R$ 108 390

Tabela 1.5: Solucao otima do modelo estocastico.

A primeira linha da Tabela 1.5 nos da a solucao de primeiro estagio en-

quanto que as outras descrevem a solucao de segundo estagio para cadacenario. O aspecto mais interessante da solucao estocastica e que ela deixaclaro ser impossıvel escolher uma solucao que seja otima para todos os

cenarios. No caso s = 3 por exemplo, onde os rendimentos sao 20% abaixoda media, temos a compra de 48 toneladas de milho para suprir as necessida-

des do gado. E claro que se soubessemos que os rendimentos seriam abaixo

Page 12: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Fazendeiro 7

da media terıamos reservado mais area para o plantio de milho para evitarque este produto fosse comprado de outros comerciantes.

Dessa forma, a solucao de primeiro estagio (x1, x2, x3) = (170, 80, 250) doproblema (1.2) representa o melhor que se pode fazer diante dos diferentes

cenarios que podem ocorrer. Na proxima secao vamos tentar mensurar oganho de Joao por considerar o problema estocastico bem como a quantidade

de dinheiro perdida por nao conhecer com exatidao o futuro.

1.2 EVPI e VSS

Imagine que Joao tenha uma bola de cristal e consiga prever o clima no

futuro. Sob essa hipotese, ele nao precisa do modelo estocastico (1.2): sempreque ele anteve um rendimento 20% abaixo da media (respectivamente 20%

acima da media) ele escolhe a solucao dada na Tabela 1.4 (resp. Tabela 1.3).Se os rendimentos forem na media, ele se baseia na Tabela 1.2.

Se esperarmos um numero grande de anos, entao o rendimento medio deJoao sob informacao perfeita (WS) sera

WS =R$ 59 950 + R$ 167 667 + R$ 118 600

3= R$ 115 406. (1.3)

Note que estamos assumindo que os diferentes cenarios ocorrem ao acaso

com probabilidade 1/3 cada. Essa rendimento medio corresponde a situacaosob informacao perfeita, ou seja, a situacao onde Joao sabe com precisao que

cenario ocorrera no futuro.

Infelizmente, nos e os meteorologistas sabemos que tal hipotese nao erealista. Assim, ao longo de um perıodo de, digamos, 20 anos, o melhorque Joao tem a fazer e utilizar a solucao estocastica dada pela Tabela 1.5,

obtendo um lucro esperado de R$ 108 390. A diferenca entre este valor e olucro no caso sob informacao perfeita (equacao (1.3)) e o valor esperado de

informacao perfeita, ou EVPI:

EVPI = R$ 115 406− R$ 108 390 = R$ 7 016. (1.4)

Um outro conceito importante em otimizacao estocastica e o valor dasolucao estocastica (VSS). O VSS mede o ganho em considerar o modelo es-

tocastico ao inves de simplesmente basear a decisao nos rendimentos medios.

Page 13: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

8 III Bienal da Sociedade Brasileira de Matematica

Pense que Joao e um fazendeiro teimoso: mesmo sabendo que possıveis va-riacoes de rendimento podem ocorrer, ele insiste em dividir sua terra deacordo com a situacao de rendimentos medios dado pela Tabela 1.2. O lucro

obtido com essa polıtica e chamado Solucao do Valor Esperado, ou EEV.

Como calcula-lo? E simples: fixe a distribuicao de terras do caso de ren-dimentos medios, ou seja, calcule a solucao do problema (1.1) nas variaveis

yis e wis, tomando x1 = 120, x2 = 80 e x3 = 300 e os rendimentos iguaisa 3.0, 3.6 e 24 (para s = 1) e depois 2, 2.4 e 16 (para s = 3). As solucoes

sao R $55 120 e R$ 148 000 respectivamente. Lembrando que a solucao eR$ 118 600 no caso de rendimentos medios e R$ 108 390 no caso estocastico,temos

EEV =R$ 55 120 + R$ 118 600 + R$ 148 000

3= R$107 240,

VSS = R$108 390− R$ 107 240 = R$ 1 150.

Os conceitos de EVPI e VSS sao importantes pois eles quantificam o valor

da informacao e o ganho em se considerar a formulacao estocastica. Nocaso do EVPI, ele diz o quanto vale a pena pagar para se obter informacaoperfeita. Ja o VSS nos da acesso ao quanto estamos ganhando em considerar

o modelo estocastico ao inves de simplesmente supor que os rendimentos dasculturas sao dados pelos rendimentos medios.

Exercıcios

[01] No problema do fazendeiro, suponha que quando os rendimentos sao

altos para um fazendeiro o mesmo ocorre para os fazendeiros vizinhos.Assim ,o aumento na demanda reduz os precos. Considere por exemploque os precos do milho e do trigo caem 10% quando os rendimentos sao

acima da media e sobem 10% quando sao abaixo. Formule e resolva oproblema nesse caso, supondo que as alteracoes de preco sao verificadas

para compra e para venda de milho e trigo e que a cana-de-acucar naosofre mudancas.

[02] Suponha agora que a propriedade do fazendeiro e dividida em quatro

lotes, de tamanhos 185, 145, 105 e 65 hectares respectivamente. Por

Page 14: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Fazendeiro 9

razoes de eficiencia, o fazendeiro so pode cultivar um tipo de produtopor lote. Formule e resolva o problema do fazendeiro nesse caso.

[03] Imagine que as compras e vendas de trigo e milho so podem ser feitasem centenas de toneladas, ou seja, nao e possıvel comprar nem venderesses produtos em quantidades diferentes de multiplos de 100. Formule

e resolva o problema do fazendeiro sob essas restricoes.

Page 15: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 2

O Problema do Jornaleiro

O segundo exemplo que vamos considerar e conhecido como problema do

jornaleiro ou problema da arvore de natal. Este problema e um classico naarea de otimizacao, possuindo vasta literatura a respeito. Uma interessanteaplicacao do problema do jornaleiro e descrita em [01]. Nesse artigo, ideias

do problema do jornaleiro sao aplicadas a distribuicao de revistas da empresaTime inc. e o processo desenvolvido pelos autores gerou uma economia de

3.5 milhoes de dolares por ano. Vamos descrever o problema seguindo aformulacao proposta por [03].

O fazendeiro Joao tem um irmao na cidade chamado Jose, que e jornaleiro.Toda manha ele vai ao editor do jornal e compra uma quantidade x de jornais

a um preco c por unidade. Essa quantidade x e limitada superiormente porum valor u, pois Jose tem um poder de compra finito. Ele vende seus jornais

a um preco q por unidade. Jose possui um acordo com o editor do jornal:qualquer jornal nao vendido pode ser devolvido ao editor, que paga um precor < c por ele.

O dilema de Jose diz respeito a demanda diaria por jornal, que e incerta.

Se ele comprar um numero muito grande de jornais corre o risco de naovende-los e perder dinheiro com isso. Por outro lado, se comprar poucosJose pode nao atender a demanda e deixar de faturar dinheiro. Vamos supor

que a demanda ξ e uma variavel aleatoria nao-negativa com funcao densidadef e funcao distribuicao F , que y e o numero de jornais efetivamente vendidos

e que w e o numero de possıveis jornais devolvidos ao editor. A formulacao

Page 16: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Jornaleiro 11

do problema do jornaleiro e

min0≤x≤u

{cx + Q(x)}

onde

Q(x) = Eξ[Q(x, ξ)]

eQ(x, ξ) = min −qy(ξ) − rw(ξ)

sujeito a y(ξ) ≤ ξ,y(ξ) + w(ξ) ≤ x,

y(ξ), w(ξ) ≥ 0.

O sımbolo Eξ representa a esperanca com respeito a ξ. Para uma quanti-dade x de jornais comprados, a funcao −Q(x, ξ) denota o lucro obtido coma venda destes jornais para um valor fixo de demanda ξ. O valor −Q(x) e o

lucro esperado calculado sobre todos os valores ξ possıveis.

Assim como no problema do fazendeiro, o problema do jornaleiro e estru-turado em dois estagios: no primeiro estagio Jose decide quantos jornais vai

comprar atraves da variavel x. Apos essa escolha, ele vai tentar vender essesjornais para uma demanda ξ. As variaveis de segundo estagio representamquanto ele conseguiu vender (y(ξ)) e quanto ele devolveu ao editor (w(ξ)).

Observe que a dependencia dessas variaveis em ξ deixa claro que elas saode segundo estagio, pois seu valor so e determinado apos o conhecimento da

demanda ξ.

Jose procura a quantidade certa de jornais a comprar de forma a maxi-mizar seu lucro esperado sob incerteza de demanda. Note aqui a semelhancacom o problema do fazendeiro: se a demanda fosse conhecida Jose simples-

mente comprava ξ jornais e obteria o lucro maximo. No entanto, como noproblema do fazendeiro, nao e possıvel escolher um valor x que maximize

seu lucro para todos os possıveis valores de demanda ξ. O que Jose buscaentao e uma escolha que, em media, lhe de o maior lucro.

2.1 Resolucao do Problema

O primeiro passo para encontrar uma solucao explıcita do problema do

jornaleiro e resolver o problema de segundo estagio. Felizmente a solucao

Page 17: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

12 III Bienal da Sociedade Brasileira de Matematica

e imediata: se a demanda ξ for menor que o numero de jornais compradosentao y∗(ξ) = ξ. Se for maior entao y∗(ξ) = x. Para encontar w∗(ξ) bastaobservar que retornos de jornais ao editor so ocorrem se a demanda ξ for

menor que x. Conclui-se entao que

y∗(ξ) = min{ξ, x},w∗(ξ) = max{x − ξ, 0}.

A resolucao desse problema nos permite escrever Q(x) explicitamente:

Q(x) = Eξ [−q min{ξ, x} − r max{x − ξ, 0}] .

Vamos ver posteriormente que a funcao Q e convexa e derivavel quandoa variavel aleatoria ξ for contınua. Como estamos no intervalo [0, u] e afuncao Q(x) e convexa, sabemos que se c + Q′(0) > 0, entao a derivada nao

troca de sinal no intervalo e a solucao otima e x = 0. De maneira analoga,se c + Q′(u) < 0, entao a solucao otima e x = u. Caso nenhuma dessas

condicoes se verifique temos que encontrar o ponto crıtico de c + Q(x).

Usando a definicao A.15 dada no apendice A, temos que

Q(x) =

∫ x

−∞(−qt − r(x − t))f(t) dt +

∫ ∞

x

−qxf(t) dt.

Manipulando a expressao e usando a equacao (A.2) do apendice A obtemosque

Q(x) = −(q − r)

∫ x

−∞tf(t)dt − rxF (x) − qx(1 − F (x)).

Usando integracao por partes, podemos simplificar ainda mais a expressao:

Q(x) = −qx + (q − r)

∫ x

−∞F (t)dt. (2.1)

A partir desta expressao podemos concluir que

Q′(x) = −q + (q − r)F (x). (2.2)

Finalmente, a solucao do problema e⎧⎪⎪⎨⎪⎪⎩x∗ = 0, se q−c

q−r < F (0),

x∗ = u, se q−cq−r > F (u),

x∗ = F−1(

q−cq−r

), caso contrario.

(2.3)

Page 18: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Jornaleiro 13

Qualquer modelagem razoavel da demanda ξ admite que ela so assume va-lores positivos. Nesse caso F (0) = 0 e, portanto, nunca temos x∗ = 0.

O exemplo do jornaleiro e mais um exemplo de problema de recurso com

dois estagios. Novamente o agente decisorio, nesse caso Jose, tem que fazeruma escolha sob incerteza. Ele nao conhece a demanda no momento que

compra os jornais junto ao editor. Apos a compra ele ajusta as variaveisde segundo estagio de acordo com o valor da demanda, agora conhecido.A solucao do problema representa a polıtica de compras que rende o maior

lucro esperado para Jose.

2.2 Um exemplo numerico

Vamos apresentar um exemplo numerico do problema do jornaleiro. Su-

ponha que o custo por jornal para o jornaleiro seja c = 10, que o preco devenda seja q = 25, que o preco de devolucao ao editor seja de r = 5 por

jornal e que o poder de compra e u = 150. Alem disso, considere que ademanda ξ e dada por uma variavel aleatoria uniforme contınua definidano intervalo [50, 150]. Na Tabela A.1 do apendice A listamos a densidade,

media e variancia dessa variavel aleatoria.

Integrando-se a densidade de ξ, obtemos a funcao distribuicao da de-

manda:

F (x) =

⎧⎪⎨⎪⎩x−50100 , se 50 ≤ x ≤ 150,

1, se x > 150,

0, caso contrario.

(2.4)

A inversa dessa funcao e F−1(y) = 100 y + 50 no intervalo [50, 150]. Usan-do (2.3), temos que a solucao do problema e

x∗ = F−1(3/4) = 125,

com lucro esperado de 1312.5. Assim, Jose deve comprar 125 jornais por dia

para maximizar seu lucro esperado.

Podemos tambem calcular o valor da solucao estocastica (VSS) para esseproblema. Lembrando: temos que inicialmente calcular a solucao otima para

o problema do jornaleiro para ξ = 100, ou seja, com demanda constante igual

Page 19: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

14 III Bienal da Sociedade Brasileira de Matematica

a media de ξ, isto e, temos que resolver e

min0≤x≤150

{ cx − q min{100, x} − r max{x − 100, 0}} .

Ao inves de obter o maximo usando calculo, podemos ver imediatemente

pela Figura 2.1 que a solucao e x∗ = 100.

1000 150 x

{1250

{1500

cx+Q(x,100)

Figura 2.1: Grafico de cx + Q(x, ξ) para ξ = 100.

Uma maneira ainda mais facil de ver e que se sabemos que a demanda e

100, entao devemos comprar x = 100 jornais para maximizar o lucro!

Ainda falta calcular o valor de EEV, que e o valor esperado da solucao

supondo que o jornaleiro comprou 100 jornais. Para isso fazemos

EEV = Eξ[10 · 100 + Q(100, ξ)] = 100 · 10 − 25 · 100 + 20

∫ 100

50

ξ − 50

100dξ

= 1000 − 2500 + 20

(75

2− 25

)= −1250,

que resulta num lucro de R$ 1 250. Logo, temos que

VSS = 1312.5− 1250 = 62.5.

Por fim, vamos ao calculo do EVPI. Recordando: para obter o EVPI,

supomos que se conhece o futuro, ou seja, que se sabe o valor que demanda

Page 20: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O Problema do Jornaleiro 15

ξ. O valor do EVPI e a esperanca com relacao a ξ de todas essas solucoes.No problema do fazendeiro, a incerteza estava associada a apenas tres tiposde acontecimentos. Aqui a demanda ξ pode assumir uma quantidade nao

enumeravel de valores. Portanto, teremos que fazer uso da integral paraobter o EVPI.

Dado um valor qualquer de demanda ξ, a solucao otima obviamente e

x∗ = ξ. Assim, temos

WS = Eξ[cξ + −qξ] = −15Eξ(ξ) = −1500. (2.5)

Consequentemente, temos que

EVPI = 1500 − 1312.5 = 187.5.

2.3 Outras interpretacoes para o problema

Primeiramente vamos usar o conceito de ganho marginal para derivar asolucao do problema por uma outra trilha. A expressao ganho marginal em

economia se refere ao crescimento no lucro obtido quando se aumenta emuma unidade a quantidade vendida ou adquirida de um determinado bem.

Vamos apresentar uma aplicacao desse conceito ao problema do jornaleiroque nos permite chegar a resposta (2.3) do problema do jornaleiro de maneira

elementar.

Suponha que jornaleiro comprou k jornais. Qual e o lucro esperado na

venda do k-esimo jornal? A resposta e

lucro esperado = P(ξ < k)(r − c) + P(ξ ≥ k)(q − c), (2.6)

onde P(ξ < k) e probabilidade dele nao vender o k-esimo jornal e P(ξ ≥ k)e a probabilidade dele vender este k-esimo jornal.

A situacao ideal ocorre quando o lucro esperado com a venda do ultimojornal e zero: se fosse negativo a demanda seria menor que k (jornal “en-

calhado”) e se fosse positivo a demanda seria maior que k (falta de jornal).Igualando-se a equacao (2.6) a zero, temos

lucro esperado = 0

= P(ξ < k)(r − c) + P(ξ ≥ k)(q − c)

= F (k)(r − c) + (1 − F (k))(q − c).

Page 21: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

16 III Bienal da Sociedade Brasileira de Matematica

Desta maneira, F (k) = (q − c)/(q − r) e, portanto,

k = F−1(

q − c

q − r

). (2.7)

Assim, o numero de jornais a ser comprado para que em media todos sejam

vendidos e k∗ = F−1( q−cq−r), a mesma solucao encontrada anteriormente.

Uma outra interpretacao interessante do problema do jornaleiro, menci-onada em [02], surge quando nos perguntamos sobre a probabilidade de sevender todos os jornais para um dada escolha de x. Esse valor e igual a

P({vender tudo}) = P(ξ ≥ x) = 1 − F (x).

Vamos ver qual e a probabilidade de se vender tudo se comprarmos x∗ jornais:

P({vender tudo}) = 1 − F (x∗) = 1 − q − c

q − r=

c − r

q − r.

E comum encontrar na literatura artigos que nao permitem que um jornal

nao vendido seja devolvido ao editor, ou seja, r = 0. Nesse caso, temos quea quantidade de jornal a ser comprada deve ser escolhida de maneira que aprobabilidade de se vender todos os jornais seja igual a razao custo unitario

c do jornal dividido pelo seu preco unitario q.

Page 22: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 3

Programacao Linear com CoeficientesAleatorios

Neste capıtulo apresentaremos as abordagens classicas usadas na mode-lagem e solucao de problemas de programacao linear onde um ou mais coe-

ficientes sao aleatorios (otimizacao estocastica linear).

Tradicionalmente, sao propostos dois tipos de modelos classicos para setratar problemas de otimizacao com coeficientes aleatorios: a abordagem “es-pere e veja” (em ingles, “wait and see”) e a abordagem “aqui e agora” (em

ingles, “here and now”). Em “espere e veja”, o agente de decisao pode espe-rar por uma realizacao dos coeficientes aleatorios para tomar a sua decisao.

Ja em “aqui e agora”, o agente de decisao deve fazer suas escolhas antesou sem o conhecimento das realizacoes dos coeficientes aleatorios. Neste

segundo caso, uma dificuldade adicional aparece: sem se conhecer os coefici-entes, as definicoes habituais de admissibilidade e otimalidade nao se aplicam

e especificacoes adicionais sao necessarias.

A teoria pressupoe que seja dada (conhecida) a distribuicao conjunta dos

coeficientes. Poder-se-ia argumentar que esta hipotese e restritiva, visto quedificilmente existem dados suficientes para a construcao de uma estimativaconfiavel. Como consequencia, e o modelador do problema que acaba fa-

zendo a escolha da distribuicao conjunta. Note, contudo, que este tipo dearbitrariedade nao e diferente da que uma abordagem determinıstica faria

ao escolher uma realizacao particular dos coeficientes aleatorios.

Page 23: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

18 III Bienal da Sociedade Brasileira de Matematica

3.1 O problema da mistura

Vamos comecar com um exemplo onde a aleatoriedade se manifesta apenasem alguns dos coeficientes das restricoes em desigualdades. Para isto, consi-

dere a seguinte situacao: um fazendeiro consultou um engenheiro agronomoque recomendou 7 g de um nutriente A e 4 g de um nutriente B para

cada 100 m2 de terra. O fazendeiro dispoe de dois tipos de adubo. Cada kg doprimeiro adubo possui ω1 g do nutriente A e ω2 g de um nutriente B. Cada kgdo segundo adubo, por sua vez, possui 1 g de cada nutriente. Os custos de

compra dos dois adubos sao iguais: uma unidade monetaria por kg. As quan-tidades ω1 e ω2 sao incertas: o fabricante dos adubos garante que elas sao

variaveis aleatorias independentes, uniformemente distribuıdas e com supor-tes nos intervalos [1, 4] e [1/3, 1], respectivamente. O problema (da mistura)

e entao decidir o quanto comprar de cada adubo para atender a necessidadede nutrientes em 100 m2 de terra minimizando o custo de compra:

minimizar f(x1, x2) = x1 + x2

sujeito a ω1 x1 + x2 ≥ 7,

ω2 x1 + x2 ≥ 4,x1 ≥ 0,

x2 ≥ 0.

(3.1)

Note que o conjunto admissıvel deste programa linear depende dos valoresdos coeficientes ω1 e ω2.

Abordagem “Espere e Veja”

Nesta abordagem, supoe-se que o agente de decisao possa fazer a esco-lha dos valores de x = (x1, x2) depois da realizacao de ω = (ω1, ω2). Desta

maneira, o problema (3.1) pode ser considerado um programa linear pa-rametrico1: as solucoes otimas e o valor otimo sao calculados em funcao

de ω. Por exemplo:

(a) Para ω = (ω1, ω2) = (1, 1/3), o conjunto admissıvel correspondente e o

apresentado na Figura 3.1, a solucao otima e1No endereco http://www.professores.uff.br/hjbortol/car/activities/problema-da-mistura-01.html voce

encontrara um applet JAVA interativo que desenha o conjunto admissıvel e calcula a solucao otima doproblema (3.1) para diferentes valores de ω1 e ω2.

Page 24: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 19

x∗(ω) = x∗(1, 1/3) = (x∗1(1, 1/3), x∗

2(1, 1/3)) = (9/2, 5/2)

e o valor otimo e v∗(1, 1/3) = x∗1(1, 1/3) + x∗

2(1, 1/3) = 7.

7

4

79/2

5/2

0 12 x 1

x 2

Figura 3.1: Conjunto admissıvel do problema da mistura para ω = (ω1, ω2) =(1, 1/3).

(b) Para ω = (ω1, ω2) = (5/2, 2/3), o conjunto admissıvel correspondente eo apresentado na Figura 3.2, a solucao otima e

x∗(ω) = x∗(5/2, 2/3) = (x∗1(5/2, 2/3), x∗

2(5/2, 2/3)) = (18/11, 32/11)

e o valor otimo e v∗(5/2, 2/3) = x∗1(5/2, 2/3) + x∗

2(5/2, 2/3) = 50/11 =

4.54.

(c) Para ω = (ω1, ω2) = (4, 1), o conjunto admissıvel correspondente e o

apresentado na Figura 3.3, a solucao otima e

x∗(ω) = x∗(4, 1) = (x∗1(4, 1), x∗

2(4, 1)) = (1, 3)

e o valor otimo e v∗(4, 1) = x∗1(4, 1) + x∗

2(4, 1) = 4.

Page 25: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

20 III Bienal da Sociedade Brasileira de Matematica

7

4

0 614/518/11 x 1

x 2

32/11

Figura 3.2: Conjunto admissıvel do problema da mistura para ω = (ω1, ω2) =(5/2, 2/3).

7

4

0 47/41 x 1

x 2

3

Figura 3.3: Conjunto admissıvel do problema da mistura para ω = (ω1, ω2) =(4, 1).

Page 26: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 21

De fato, e possıvel mostrar (exercıcio) que a solucao otima do problema (3.1)para (ω1, ω2) ∈ Ω = [1, 4]× [1/3, 1] e dada por

(x∗1(ω1, ω2), x

∗2(ω1, ω2)) =

⎧⎪⎪⎪⎨⎪⎪⎪⎩(

3

ω1 − ω2,4 ω1 − 7 ω2

ω1 − ω2

), se

7

ω1≤ 4

ω2,(

7

ω1, 0

), caso contrario,

e que o valor otimo associado e dado por

v∗(x∗1(ω1, ω2), x

∗2(ω1, ω2)) =

⎧⎪⎪⎪⎨⎪⎪⎪⎩3 + 4 ω1 − 7 ω2

ω1 − ω2, se

7

ω1≤ 4

ω2,

7

ω1, caso contrario.

A partir destas expressoes, o agente de decisao pode entao calcular as dis-tribuicoes de x∗ = (x∗

1(ω1, ω2), x∗2(ω1, ω2)) e v∗(x∗

1(ω1, ω2), x∗2(ω1, ω2)) e suas

caracterısticas como media, variancia, etc. (veja o exercıcio [03]).

Abordagem “Aqui e Agora”

Nesta abordagem, o agente de decisao deve fazer a escolha de x = (x1, x2)sem conhecer os valores de ω = (ω1, ω2) (mas sabendo a funcao distribuicao

de ω). Sem se conhecer os coeficientes, as definicoes habituais de admissibili-dade e otimalidade nao se aplicam e especificacoes adicionais de modelagem

sao necessarias. Apresentaremos agora os tipos de especificacoes mais tradi-cionais.

1. Abolir incertezas

O agente de decisao simplesmente faz uma escolha apropriada para ω e,

entao, ele resolve o problema determinıstico correspondente.

(a) Escolha “pessimista”: ω = (1, 1/3).

Neste caso, o conjunto admissıvel e o representado na Figura 3.1 e o

valor otimo correspondente e v = 7.

Page 27: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

22 III Bienal da Sociedade Brasileira de Matematica

(b) Escolha “neutra”: ω = (5/2, 2/2) = E[(ω1, ω2)].

Neste caso, o conjunto admissıvel e o representado na Figura 3.2 e ovalor otimo correspondente e v = 50/11 = 4.54.

(c) Escolha “otimista”: ω = (4, 1).

Neste caso, o conjunto admissıvel e o representado na Figura 3.3 e ovalor otimo correspondente e v = 4.

Vantagem da especificacao: o problema reformulado e facil de se resolver,pois ele e um programa linear determinıstico. Desvantagem: a solucao

otima x∗ = (x∗1, x

∗2), quando implementada, pode nao ser admissıvel.

2. Incorporar riscos nas restricoes (chance constraints)

O agente de decisao descreve uma “medida de risco”, faz uma escolha do“nıvel maximo de risco aceitavel” e, entao, ele incorpora estes elementos nas

restricoes do programa linear. Aqui, o agente de decisao pode ainda esco-lher entre nıveis de confiabilidade individuais ou um nıvel de confiabilidade

conjunto.

(a) Nıveis de confiabilidade individuais.

O agente de decisao escolhe dois nıveis de confiabilidade individuais

α1, α2 ∈ [0, 1] e ele decreta que x = (x1, x2) ∈ [0, +∞) × [0, +∞) eadmissıvel se, e somente se,{

P (ω1 x1 + x2 ≥ 7) ≥ α1

P (ω2 x1 + x2 ≥ 4) ≥ α2. (3.2)

Restricoes deste tipo sao denominadas restricoes probabilısticas indivi-

duais (separadas) (em ingles, individual (separate) chance constraints).Os riscos sao definidos em termos da probabilidade de inadmissibilidade,

isto e, {risco1 := P (ω1 x1 + x2 < 7)

risco2 := P (ω2 x1 + x2 < 4). (3.3)

Podemos reescrever as condicoes (3.2) de forma mais explıcita usando asfuncoes distribuicao2 F1 e F2 das variaveis ω1 e ω2. De fato, e possıvel

2No apendice A voce encontrara, entre outros conceitos de probabilidade, a definicao de funcao distri-buicao de uma variavel aleatoria.

Page 28: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 23

mostrar (exercıcio) que se 0 ≤ α1 < 1 e 0 ≤ α2 < 1, entao{P (ω1 x1 + x2 ≥ 7) ≥ α1

P (ω2 x1 + x2 ≥ 4) ≥ α2⇐⇒

{F−1

1 (1 − α1) x1 + x2 ≥ 7

F−12 (1 − α2) x1 + x2 ≥ 4

(3.4)

onde

F−1i (α) := min

t∈[−∞,+∞){t | Fi(t) ≥ α} (3.5)

e o α-esimo quantil de ωi. Se definirmos F−11 (0) := 1 e F−1

2 (0) := 1/3,entao a equivalencia (3.4) e valida mesmo para α1 = 1 e α2 = 1. As

desigualdades em (3.4) que usam F−1i sao denominadas formas reduzidas

das respectivas restricoes probabilısticas individuais.

Com esta abordagem, o problema da mistura (3.1) fica modelado assim:

minimizar f(x1, x2) = x1 + x2

sujeito a F−11 (1 − α1) x1 + x2 ≥ 7,

F−12 (1 − α2) x1 + x2 ≥ 4,

x1 ≥ 0,

x2 ≥ 0,

(3.6)

isto e, como um programa linear! Por exemplo, para os nıveis de confia-bilidade individuais α1 = α2 = 2/3, verifica-se que

F−11 (1 − α1) = F−1

1 (1/3) = 2 e F−12 (1 − α2) = F−1

2 (1/3) = 5/9.

Para estes valores3, o problema (3.6) se escreve como

minimizar f(x1, x2) = x1 + x2

sujeito a 2 x1 + x2 ≥ 7,

5 x1/9 + x2 ≥ 4,x1 ≥ 0,

x2 ≥ 0,

(3.7)

que alcanca o valor otimo v∗ = 64/13 = 4.923076 no ponto (otimo) x∗ =(x∗

1, x∗2) = (27/13, 37/13) = (2.076923, 2.846153).

3No endereco http://www.professores.uff.br/hjbortol/car/activities/problema-da-mistura-02.html. voceencontrara um applet JAVA interativo que desenha o conjunto admissıvel e calcula a solucao otima doproblema (3.6) para diferentes valores dos nıveis de confiabilidade individuais α1 e α2.

Page 29: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

24 III Bienal da Sociedade Brasileira de Matematica

(b) Nıvel de confiabilidade conjunto.

O agente de decisao escolhe um nıvel de confiabilidade conjunto α ∈ [0, 1]e ele decreta que x = (x1, x2) ∈ [0, +∞) × [0, +∞) e admissıvel se, e

somente se,

P (ω1 x1 + x2 ≥ 7 e ω2 x1 + x2 ≥ 4) ≥ α. (3.8)

Restricoes deste tipo sao denominadas restricoes probabilısticas conjun-

tas (em ingles, joint chance constraints). O risco e definido como aprobabilidade de inadmissibilidade do sistema de restricoes do programalinear, isto e, como o numero

risco := P (ω1 x1 + x2 < 7 ou ω2 x1 + x2 < 4) . (3.9)

Para obter uma forma reduzida da restricao probabilıstica conjunta (3.8),note que

P (ω1 x1 + x2 ≥ 7 e ω2 x1 + x2 ≥ 4)

=

P (ω1 x1 + x2 ≥ 7) · P (ω2 x1 + x2 ≥ 4)

=⎧⎪⎪⎨⎪⎪⎩(

1 − F1

(7 − x2

x1

))·(

1 − F2

(4 − x2

x1

)), se x1 > 0,

1, se x1 = 0 e x2 ≥ 7,0, se x1 = 0 e 0 ≤ x2 < 7,

onde, na primeira igualdade, usamos o fato de que ω1 e ω2 sao variaveis

aleatorias independentes.

Observe que a forma reduzida de uma restricao probabilıstica conjuntapode ser nao-linear. Por exemplo, para o nıvel de confiabilidade con-

junto α = 2/3, pode-se mostrar (exercıcio) que a restricao

P (ω1 x1 + x2 ≥ 7 e ω2 x1 + x2 ≥ 4) ≥ 2

3(3.10)

e equivalente a

x2 ≥ max

⎧⎪⎨⎪⎩−2 x1 + 7,11 − 5 x1 +

√9 − 18 x1 + 43

3 x21

2,−5 x1

9+ 4

⎫⎪⎬⎪⎭(3.11)

Page 30: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 25

Com esta abordagem e para este valor de α, o problema da mistura (3.1)fica modelado assim:

minimizar

f(x1, x2) = x1 + x2

sujeito a

x2 ≥ max

⎧⎪⎨⎪⎩−2 x1 + 7,11 − 5 x1 +

√9 − 18 x1 + 43

3 x21

2,−5 x1

9+ 4

⎫⎪⎬⎪⎭,

x1 ≥ 0, x2 ≥ 0.

(3.12)

Este problema de otimizacao nao-linear assume o valor mınimo

v∗ = 220/43 = 5.1162790 . . .

no ponto otimo x∗ = (x∗1, x

∗2) = (54/43, 166/43) = (1.25 . . . , 3.86 . . .).

O conjunto admissıvel4 de (3.12) e apresentado na Figura 3.4.

3. Aceitar inadmissibilidade, penalizando deficits esperados

A ideia aqui e acrescentar a funcao objetivo parcelas que penalizam inad-

missibilidade. Vamos primeiro estabelecer algumas notacoes. Note que arestricao ω1 x1 + x2 ≥ 7 nao e satisfeita se, e somente se, ω1 x1 + x2 − 7 < 0.

Usando-se a (conveniente) notacao

z− =

{0, se z ≥ 0,

−z, se z < 0,

vemos que uma realizacao de ω1 e escolhas de x1 e x2 nao satisfazem arestricao ω1 x1+x2 ≥ 7 se, e somente se, (ω1 x1+x2−7)− > 0 (podemos entaopensar em (ω1 x1 + x2 − 7)− > 0 como uma “medida de inadmissibilidade”

para a restricao ω1 x1+x2 ≥ 7). Analogamente, ω2 x1+x2 ≥ 4 nao e satisfeitase, e somente se, (ω2 x1 + x2 − 4)− > 0. Escolhendo-se custos de penalidade

unitarios q1 > 0 e q2 > 0, as expressoes

q1 Eω1

[(ω1 x1 + x2 − 7)−

]e q2 Eω2

[(ω2 x1 + x2 − 4)−

]4No endereco http://www.professores.uff.br/hjbortol/car/activities/problema-da-mistura-03.html. voce

encontrara um applet JAVA interativo que desenha o conjunto admissıvel e calcula a solucao otima doproblema da mistura usando restricoes probabilısticas para diferentes valores dos nıvel de confiabilidadeconjunto α.

Page 31: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

26 III Bienal da Sociedade Brasileira de Matematica

7

4

0 127 x 1

x 2

9/5

17/5

Figura 3.4: Conjunto admissıvel do problema da mistura usando restricoesprobabilısticas para o nıvel de confiabilidade conjunto α = 2/3.

representam entao, respectivamente, os custos medios para inadmissibilidadenas restricoes ω1 x1 + x2 ≥ 7 e ω2 x1 + x2 ≥ 4. Nesta abordagem, o agente

de decisao substitui o problema da mistura (3.1) original pelo problema

minimizar

g(x1, x2) = x1 + x2 + q1 Eω1[(ω1 x1 + x2 − 7)−] + q2 Eω2

[(ω2 x1 + x2 − 4)−]

sujeito a x1 ≥ 0, x2 ≥ 0.

(3.13)

Varias questoes surgem neste momento: como calcular as medias (espe-

rancas) envolvidas e como resolver o problema de otimizacao? Como vere-mos, o calculo das esperancas e elementar, mas nao-trivial. Apesar de ser

nao-linear, a funcao objetivo de (3.13) possui propriedades desejaveis paraos algoritmos numericos em otimizacao: ela e convexa e subdiferenciavel. Seos coeficientes aleatorios tem distribuicao contınua (como no problema da

mistura), o calculo da esperanca e especialmente difıcil. Nestes casos, umapratica comum e substituir a distribuicao contınua por uma aproximacao

discreta.

Page 32: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 27

3.2 O problema da producao

Vamos estudar agora um programa linear onde a aleatoriedade aparece

em uma restricao em igualdade. Mais precisamente, considere o problema(da producao):

minimizar f(x) = c xsujeito a x = ω,

x ≥ 0,

(3.14)

onde c > 0 e o custo unitario de producao. Este problema de otimizacaosimples modela o processo de minimizacao do custo de producao c x sob a res-

tricao de que a producao x atenda a demanda ω. Aqui, vamos supor que ω euma variavel aleatoria contınua nao-negativa com media μ = E [ω], varianciaσ2 = E

[(ω − E [ω])2

]e funcao distribuicao F (t) = P (ω ≤ t), com t ∈ R.

Abordagem “Espere e Veja”

Se o agente de decisao pode esperar pela realizacao da demanda ω antes

de escolher o valor da producao x, entao o problema e facil se resolver:x∗(ω) = ω e v∗(ω) = c x∗(ω) = c ω.

Abordagem “Aqui e Agora”

1. Abolir incertezas

Nesta abordagem, o agente de decisao pode, por exemplo, substituir o valor

de ω por ω = μ ou ω = μ+Δ, onde Δ e um “estoque reserva” (por exemplo,Δ = σ ou Δ = 2 σ). A probabilidade de que a demanda seja satisfeita (o nıvel

de servico da producao) e entao dada por P (ω ≤ μ + Δ) = F (μ + Δ).

2. Incorporar riscos nas restricoes (chance constraints)

Construir uma restricao probabilıstica P (x = ω) ≥ α baseada em uma res-tricao em igualdade (x = ω) e inutil. De fato: se ω tem distribuicao contınua,

entao P (x = ω) = 0. Se ω tem um distribuicao discreta finita, digamosP (ω = ωi) = pi (com pi ≥ 0 e p1 + · · · + pn = 1), entao P (ω = x) = 0 para

todo x ∈ {ω1, . . . , ωn}.

Page 33: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

28 III Bienal da Sociedade Brasileira de Matematica

Para valores adequados de α1 e α2, tambem e inutil construir restricoesprobabilısticas P (x ≥ ω) ≥ α1 e P (x ≤ ω) ≥ α2 combinadas, pois nao existeproducao x que satisfaca as condicoes{

P (x ≥ ω) ≥ α1

P (x ≤ ω) ≥ α2⇐⇒

{F (x) ≥ α1

1 − F (x) ≥ α2⇐⇒ α1 ≤ F (x) ≤ 1 − α2

se, por exemplo, α1 = α2 = 3/4, uma vez que a funcao distribuicao F e

nao-decrescente.

Desta maneira, e preciso estabelecer prioridades. Podemos, por exemplo,especificar um nıvel de confiabilidade mınimo α ∈ (1/2, 1) e modelar o pro-blema (3.14) na forma

minx≥0

{cx | P (x ≥ ω) ≥ α} = minx≥0

{cx | x ≥ F−1(α)

}cuja solucao e, evidentemente, x∗ = F−1(α).

3. Aceitar inadmissibilidade, penalizando desvios esperados

Aqui devemos penalizar tanto deficits quanto superavits na producao: usan-

do-se as notacoes

z− =

{0, se z ≥ 0,

−z, se z < 0,e z+ =

{z, se z ≥ 0,

0, se z < 0,(3.15)

isto e feito considerando-se o seguinte problema de otimizacao

minimizar f(x) = c x + Q(x)

sujeito a x ≥ 0,(3.16)

ondeQ(x) = E

[h · (ω − x)− + q · (ω − x)+] ,

com h e q custos unitarios de superavit e deficit na producao, respectivamente

(h < c < q).

Nao e difıcil de se mostrar (exercıcio) que Q e uma funcao convexa e dife-renciavel. De fato,

Q′(x) = −q + (q + h) F (x), para x ∈ R.

Desta maneira, a solucao otima de (3.16) e obtida resolvendo-se a equacao

f ′(x) = c + Q′(x) = c − q + (q + h) F (x) = 0:

Page 34: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 29

x∗ = F−1(

q − c

q + h

).

Note que esta solucao tem a mesma forma da solucao obtida via restricoes

probabilısticas. De fato, se h = 0, a mesma solucao e obtida se q/c =1/(1 − α):

α(nıvel de confiabilidade)

q/c(custo de deficit/custo de producao)

0.990 100

0.975 40

0.950 20

0.900 10

0.800 5

0.500 2

Esta tabela e interessante: ela nos da uma ideia de que valores escolher parao custo q em termos do nıvel de confiabilidade α.

Exercıcios

[01] Deduza as equacoes para a solucao otima (x∗1, x

∗2) do problema da mis-

tura apresentadas na pagina 19.

[02] Mostre 4 ≤ v∗(x∗1(ω1, ω2), x

∗2(ω1, ω2)) ≤ 7 para todo (ω1, ω2) no conjunto

Ω = [1, 4]× [1/3, 1], onde v∗ = v∗(x∗1(ω1, ω2), x

∗2(ω1, ω2)) e o valor otimo

do problema da mistura.

[03] Mostre que a funcao distribuicao F do valor otimo v∗ do problema damistura e dada por

F (t) =

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

0, se 0 ≤ t ≤ 4,

8 t3 − 18 t2 − 105 t + 196

4 t2(7 − t), se 4 ≤ t ≤ 50/11,

49 t3 − 307 t2 + 648 t − 1008

36 t2(t − 4), se 50/11 ≤ t ≤ 7,

1, se t ≥ 7.

Page 35: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

30 III Bienal da Sociedade Brasileira de Matematica

Note que, com esta expressao para F em maos, podemos entao calculara funcao de densidade de v∗ (derivando-se F ):

f(t) =

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

0, se 0 < t < 4,

38 t3 − 210 t2 + 1323 t− 2744

4 t3(t − 7)2 , se 4 < t < 50/11,

37 t3 − 432 t2 + 1872 t− 2688

12 t3(t − 4)2 , se 50/11 < t < 7,

0, se t > 7,

e a sua media:

E [v∗(ω)] =

∫ +∞

−∞t f(t) dt = 4 +

27

2ln 3 − 35

6ln 2 − 77

12ln 11 +

11

4ln 7

= 4.7526655 . . . .

[04] Mostre a equivalencia entre (3.10) e (3.11) para x1 ≥ 0 e x2 ≥ 0.

[05] Mostre que o problema (3.13) pode ser reescrito na forma

minimizar g(x1, x2) = x1 + x2 + Q(x1, x2)

sujeito a x1 ≥ 0, x2 ≥ 0,

onde

Q(x1, x2) = E

[min

y1≥0, y2≥0

{q1y1 + q2y2

∣∣∣∣ ω1 x1 + x2 + y1 ≥ 7ω2 x1 + x2 + y2 ≥ 4

}].

[06] Prove as seguintes relacoes para os operadores z �→ z+ e z �→ z− defini-dos em (3.15):

z+ = max{0, z}, z− = max{0,−z} = −min{0, z},(−z)− = z+, (cz)+ = cz+ para todo c ≥ 0, z+ + z− = |z|,

z+ − z− = z, z+ = (|z| + z)/2, z− = (|z| − z)/2,

z+ · z− = 0, max{z+, z−} = |z|, min{z+, z−} = 0,

(x+ + y+)+ = max{x + y, y, 0}, x+ + y+ = max{x + y, x, y, 0},x+ − |y| ≤ (x − y)+ ≤ x+ + |y|, x− − |y| ≤ (x − y)− ≤ x− + |y|.

Page 36: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear com Coeficientes Aleatorios 31

[07] Mostre que (3.16) pode ser reformulado como um modelo de recurso:

minx≥0

{cx + E

[min

y1≥0, y2≥0

{qy1 + hy2

∣∣∣∣ x + y1 − y2 = ω

}]}.

Page 37: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 4

Modelos de Recurso

Neste capıtulo nos concentraremos na abordagem “aqui e agora” queaceita inadmissibilidade penalizando desvios medios. De fato, veremos que

esta abordagem motiva uma classe importante de modelos em otimizacaoestocastica: os modelos de recurso.

4.1 Motivacao: programacao linear por metas

Em problemas determinısticos, a tecnica de programacao linear por metas(em ingles, goal programming) consiste em classificar (separar) as restricoes

do problema em dois tipos: as restricoes rıgidas (hard constraints) que naopodem ser violadas de maneira alguma e as restricoes flexıveis (soft cons-traints) que podem ser violadas, mas nao a qualquer preco. Mais precisa-

mente, considere o programa linear determinıstico:

minx∈X

{cx | Ax = b e Tx ∼ h} , (4.1)

onde

• X = {x ∈ Rn | x ≤ x ≤ x} ou X = {x ∈ R

n | 0 ≤ x < +∞} (asdesigualdades entre vetores devem ser interpretadas componente a com-

ponente),

• c ∈ Rn, A e uma matriz m× n, b ∈ R

m, T e uma matriz m× n, h ∈ Rm,

• cx =∑n

i=1 ci · xi e

Page 38: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 33

• o sımbolo ∼ representa uma das relacoes =, ≥ e ≤ (componente a com-ponente).

Neste programa linear, consideraremos Ax = b como restricoes rıgidas eTx ∼ h como restricoes flexıveis. Como antes, a ideia e penalizar os des-

vios de meta z = h − Tx das restricoes flexıveis atraves de uma funcao depenalidade z �→ v(z) que e incorporada a funcao objetivo do problema de

otimizacao original:

minx∈X

{cx + v(h− Tx) | Ax = b} = minx∈X

{cx + v(z) | Ax = b e Tx + z = h} .

(4.2)A funcao de penalidade fornece uma medida do quanto se deve pagar pela

violacao das metas (restricoes) z ∼ 0 frente ao custo original cx. Existemvarias maneiras de se especificar a funcao de penalidade v, o que torna ometodo flexıvel. Vamos ver algumas delas agora.

1. Funcao de penalidade com custos individuais

Escrevendo-se

T =

⎡⎢⎢⎢⎢⎣t1

t2...

tm

⎤⎥⎥⎥⎥⎦ , h =

⎡⎢⎢⎢⎢⎣h1

h2...

hm

⎤⎥⎥⎥⎥⎦ e z =

⎡⎢⎢⎢⎢⎣z1

z2...

zm

⎤⎥⎥⎥⎥⎦ ,

vemos que a notacao vetorial Tx ∼ h (respectivamente, z ∼ 0) e uma

maneira compacta e conveniente de se representar as m restricoes escalares:tix ∼ hi (respectivamente, zi ∼ 0) para i = 1, . . . , m. Aqui

ti = (Ti1, Ti2, . . . , Tin)

representa a i-esima linha da matriz T e o produto tix deve ser entendido

como o produto escalar∑n

j=1 Tij xj.

Podemos entao construir uma funcao de penalidade v que e caracterizada por

custos de penalidade individuais, que podem ser diferentes para superavitse deficits:

v(z) =

m∑i=1

vi(zi) =

m∑i=1

(qiz

+i + q

iz−i)

︸ ︷︷ ︸vi(zi)

. (4.3)

Page 39: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

34 III Bienal da Sociedade Brasileira de Matematica

A especificacao dos custos de penalidade unitarios qi e qi

podem seguir asseguintes diretivas:

• Se a restricao e do tipo tix = hi, isto e, zi = 0, penalizamos superavitse deficits escolhendo qi > 0 e q

i> 0. Note que, neste caso, a funcao vi e

convexa como soma de funcoes convexas.

• Se a restricao e do tipo tix ≥ hi, isto e, zi ≤ 0, penalizamos superavitsescolhendo qi > 0 e premiamos deficits escolhendo q

i≤ 0. Para obter

convexidade, as escolhas de qi e qidevem ser tais que q

i+ qi ≥ 0. De fato:

observe que

vi(zi) = qiz+i + q

iz−i =

⎧⎨⎩ +qizi, se zi ≥ 0,

−qizi, se zi < 0.

Desta maneira, vi e convexa se a inclinacao da reta zi �→ −qizi e menor

ou igual do que a inclinacao da reta zi �→ +qizi, isto e, se −qi≤ +qi ou,

ainda, qi+ qi ≥ 0.

0 zi

v(z )i

• Se a restricao e do tipo tix ≤ hi, isto e, zi ≥ 0, penalizamos deficits

escolhendo qi> 0 e premiamos superavits escolhendo qi ≤ 0. Novamente,

para que a funcao vi seja convexa, e necessario que qi+ qi ≥ 0.

2. Funcao de penalidade com custos individuais refinados

Considere o caso de restricoes do tipo tix = hi, isto e, zi = 0. Como antes, a

funcao v e construıda usando-se custos de penalidade individuais mas, agora,

Page 40: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 35

desvios muito grandes, digamos, fora de um intervalo [−li, +ui] contendo 0,receberao uma penalidade extra:

vi(zi) = q(1)i z+

i +(q

(2)i − q

(1)i

)(zi−ui)

++q(1)i

z−i +(q(2)

i− q(1)

i

)(zi+li)

−. (4.4)

Note que esta funcao de penalidade tambem pode ser usada para se modelarrestricoes do tipo zi ∈ [−li, +ui] bastando, para isto, tomar q(1)

i= q

(1)i = 0.

3. Funcao de penalidade com custo conjunto

A seguinte funcao de penalidade pode ser usada se as restricoes do programalinear sao do tipo zi ≥ 0 e se o desvio maximo e mais importante do que asoma ponderada dos desvios individuais:

v(z) = v(z1, z2, . . . , zm) = q0 max{z−1 , z−2 , . . . , z−m}. (4.5)

Como o maximo de funcoes convexas resulta em uma funcao convexa, segue-se que v e uma funcao convexa de q0 > 0.

4. Funcao de penalidade via acoes de recurso

Este quarto exemplo de funcao de penalidade e motivado pela ideia decorrecoes (y) para compensar desvios (z) gerados por decisoes (x) tomadas

a priori. Para construir a funcao de penalidade sao necessarios os seguintesingredientes:

1. Uma estrutura de recurso (q,W).

Aqui q ∈ Rp e W e uma matriz m×p. A matriz W e denominada matriz

de recurso (ou matriz de tecnologia) e o vetor q especifica os coeficientesdo custo da acao de recurso.

2. Um conjunto Y de variaveis de recurso.

Em geral, Y = {y ∈ Rp | y ≤ y ≤ y} ou Y = {y ∈ R

p | 0 ≤ y ≤ +∞} =

Rp+.

A funcao de recurso v da o custo mınimo das acoes de recurso necessariaspara compensar o desvio z ∈ R

m nas restricoes Tx ∼ h:

v(z) = miny∈Y

{qy | Wy ∼ z} . (4.6)

Page 41: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

36 III Bienal da Sociedade Brasileira de Matematica

De fato, todas as funcoes de penalidade (4.3), (4.4) e (4.5) apresentadasanteriormente podem ser representadas deste modo, isto e, como uma funcaode penalidade via acoes de recursos para estruturas de recurso (q,W) e

conjuntos de acoes de recurso Y adequados:

• Se p = 2 m,

q =(

q, q) ∈ R

m × Rm = R

p, W =[

+Im×m −Im×m

]m×2 m

e

Y = Rm+ × R

m+ = R

p+,

entao a funcao de recuso v em (4.6) obtem a funcao de penalidade em (4.3).Aqui Im×m denota a matriz identidade de tamanho m × m.

• Se p = 4 m,

q =(

q(2), q(1), q(1), q(2)) ∈ R

m × Rm × R

m × Rm = R

p,

W =[

+Im×m +Im×m −Im×m −Im×m

]m×4 m

e

Y = {(y(2),y(1),y(1),y(2)) ∈ Rm+ × R

m+ × R

m+ × R

m+ | y(1) ≤ u e y(1) ≤ l}

entao a funcao de recuso v em (4.6) obtem a funcao de penalidade em (4.4).

• Se p = 1, q =(

q0), W =

[ −1 −1 · · · −1]T

(de tamanho m × 1) eY = R+ entao a funcao de recuso v em (4.6) obtem a funcao de penalidade

em (4.5).

4.2 Modelos de recurso em otimizacao estocastica

Nesta secao veremos como usar a ideia de funcao de penalidade via acoes

de recurso para criar um modelo para a seguinte versao estocastica do pro-grama linear determinıstico (4.1):

minx∈X

{cx | Ax = b e T(ω)x ∼ h(ω)} , (4.7)

De fato, o uso de acoes de recurso e muito adequado para uma modelagem

do tipo “aqui e agora” para o problema (4.7). Como o agente de decisaodeve fazer a escolha da variavel x sem conhecer os valores de ω, podemos

pensar nas restricoes estocasticas T(ω)x ∼ h(ω) como restricoes flexıveis,

Page 42: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 37

que serao ou nao satisfeitas dependendo das realizacoes de ω. Os desvioscorrespondentes sao, entao, penalizados via uma funcao de penalidade comacoes de recurso:

Estagio 1 Estagio 2

decisao em x → ocorre ω → acao corretiva y.

Aplicando entao a estrutura de recurso, obtemos o assim denominado modelo

de recurso em dois estagios para o problema (4.7):

minx∈X

{cx + E

[miny∈Y

{q(ω)y | W(ω)y ∼ h(ω) −T(ω)x}] ∣∣∣∣Ax = b

}.

(4.8)Podemos obter uma formulacao mais compacta de (4.8) atraves da funcao

de penalidade via acoes de recurso (tambem denominada funcao de valor dosegundo estagio)

v(z, ω) = miny∈Y

{q(ω)y | W(ω)y ∼ z} (4.9)

e da funcao de custo de recurso mınimo esperado (tambem denominada

funcao de valor esperado)

Q(x) = E [v(h(ω) −T(ω)x, ω)] . (4.10)

De fato, com estas funcoes, nao e difıcil de se ver que o problema (4.8) e

equivalente aminx∈X

{cx + Q(x) | Ax = b} . (4.11)

Observacao 1. E muito importante notar que tanto no programa lineardo segundo estagio

miny∈Y

{q(ω)y | W(ω)y ∼ h(ω) − T(ω)x}

como no calculo da funcao de valor do segundo estagio (4.9), o valor de ω

esta fixo! Neste sentido, os programas lineares envolvidos sao determinısticos(ω e considerado um parametro)!

Observacao 2. Como os exercıcios [05] e [07] do capıtulo 3 pedem paramostrar, os problemas (3.13) e (3.16) podem ser considerados como modelos

de recurso.

Page 43: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

38 III Bienal da Sociedade Brasileira de Matematica

Observacao 3. No problema do fazendeiro, as variaveis de primeiro estagiocorrespondem a distribuicao de terra em milho, trigo e cana-de-acucar(x1, x2 e x3). Elas devem ser escolhidas por Joao antes de ele saber quais

serao os rendimentos destes cultivos. As variaveis de segundo estagio cor-respondem as vendas e as compras destes tres cultivos no mercado local

(w1, y1, w2, y2, w3 e w4). Elas devem ser tomadas como acoes corretivas queorientam Joao a como vender e comprar de maneira otima no mercado local

depois da colheita.

Observacao 4. Sem perda de generalidade, podemos supor que T(ω),h(ω), W(ω) e q(ω) dependem linearmente de ω = (ω1, . . . , ωr) ∈ R

r:

T(ω) = T0 +∑r

k=1 ωk ·Tk, h(ω) = h0 +∑r

k=1 ωk · hk,

W(ω) = W0 +∑r

k=1 ωk · Wk e q(ω) = q0 +∑r

k=1 ωk · qk.

Aqui Tk, hk, Wk e qk sao todos constantes (isto e, nao-estocasticos), comdimensoes m × n, m, m × p e p, respectivamente.

4.3 Admissibilidade

Nem todo programa linear tem solucao (o conjunto admissıvel pode servazio ou a funcao objetivo pode ser ilimitada neste conjunto) e nem todavariavel aleatoria tem media finita. Nesta secao apresentaremos alguns re-

sultados sobre a admissibilidade e finitude do modelo de recurso em doisestagios (4.8). As demonstracoes serao omitidas, pois elas usam ferramentas

de programacao linear e teoria da medida que fogem do escopo deste texto.O leitor interessado pode consultar os livros [03, 13, 14].

Nas consideracoes que se seguem, vamos supor que a matriz de tecnolo-

gia W e determinıstica, isto e, vamos supor que ela nao depende de ω:

W(ω) = W = constante.

Quando isto acontece, dizemos que (q(ω),W(ω)) possui uma estrutura derecurso fixa. Seja entao

ξ(ω) = (q(ω),h(ω), t1(ω), . . . , tm(ω)) ∈ Rp+m+(m×n)

o vetor aleatorio formado por todas as componentes aleatorias do proble-

Page 44: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 39

ma (4.8) e seja Ξ o suporte de ξ, isto e, o menor subconjunto fechadode R

p+m+(m×n) satisfazendo a condicao P(ξ(ω) ∈ Ξ) = 1. Aqui ti(ω) denotaa i-esima linha da matriz T(ω).

Ao estudarmos questoes de admissibilidade e finitude em (4.8), e natural

considerarmos:

1. O conjunto de decisoes x que satisfazem as restricoes (rıgidas) do primeiro

estagio:K1 = {x ∈ R

n | Ax = b}.2. O conjunto de decisoes x de primeiro estagio para as quais a funcao de

valor esperado e finita:

K2 = {x ∈ Rn | Q(x) = E [v(h(ω) −T(ω)x, ω)] < +∞}.

Com estes conjuntos, o problema (4.8) se reescreve da seguinte maneira:

minimizar cx + Q(x)

sujeito a x ∈ K1 ∩ K2.

Note, contudo, que o calculo do conjunto K2 pode nao ser uma tarefa facil,por conta da esperanca envolvida. Mais faceis de se calcular sao:

3. O conjunto de todas as decisoes x de primeiro estagio para as quais oprograma linear do segundo estagio e admissıvel para um valor de ξ ∈ Ξ

fixo1:

K2(ξ) = {x ∈ Rn | Q(x, ξ) = v(h(ω) −T(ω)x, ω) < +∞}.

4. O conjunto de todas as decisoes x de primeiro estagio para as quais oprograma linear do segundo estagio e admissıvel para “muitos” valores

de ξ ∈ Ξ:

KP2 = {x ∈ R

n | “∀ξ ∈ Ξ”, Q(x, ξ) < +∞} =⋂

“ξ∈Ξ”

K2(ξ).

Aqui, “ξ ∈ Ξ” significa para todo ξ ∈ Ξ exceto possivelmente para valores

de ξ em um conjunto de probabilidade 0.1Note que v(h(ω) − T(ω)x, ω) pode ser escrito em termos de ξ ∈ Ξ, ja que Ξ e o suporte do conjunto{

(q(ω),h(ω), t1(ω), . . . , tm(ω)) ∈ Rp+m+(m×n) | ω ∈ Ω

}.

Page 45: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

40 III Bienal da Sociedade Brasileira de Matematica

O proposito do conjunto KP2 e o de construir um mecanismo que permita

identificar se Q(x) < +∞ sem que, para isto, seja necessario calcular aesperanca E [Q(x, ξ)]. Os proximos teoremas descrevem propriedades geome-tricas de KP

2 e K2 e estabelecem condicoes suficientes para que K2 = KP2 .

Teorema 4.1 O conjunto K2(ξ) e um politopo convexo e fechado paratodo ξ ∈ Ξ e, em particular, KP

2 e fechado e convexo. Se Ξ e finito,

entao KP2 tambem e um politopo e KP

2 = K2.

Teorema 4.2 Suponha que W(ω) = W (recurso fixo) e que ξ tenha

segundos momentos finitos. Entao:

(a) Se P (ω ∈ Ω | Q(x, ξ(ω)) < +∞) = 1, entao Q(x) < +∞.

(b) Vale a igualdade KP2 = K2 e, em particular, K2 e fechado e con-

vexo.

(c) Se T(ω) = T = constante, entao o conjunto K2 e um politopo.

(d) Se h(ω) e T(ω) sao variaveis aleatorias independentes e se o su-porte da distribuicao de T(ω) e um politopo, entao K2 e um po-

litopo.

4.4 Propriedades das funcoes de recurso

Nesta secao apresentaremos, sem demonstracoes, as propriedades da fun-

cao de segundo estagio Q(x, ξ) = v(h(ω) − T(ω)x, ω) e da funcao de valoresperado Q(x) = E [v(h(ω) −T(ω)x, ω)] = Eξ [Q(x, ξ)]. O leitor interes-

sado pode consultar os livros [03, 13, 14].

Teorema 4.3 Se W(ω) = W (recurso fixo), entao Q(x, ξ) e (a) con-

vexa e linear por partes em (h(ω),T(ω)) (componentes do vetoraleatorio ξ), (b) concava e linear por partes em q(ω) e (c) convexa

e linear por partes para todo x ∈ K = K1 ∩ K2.

Page 46: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 41

Teorema 4.4 Se W(ω) = W (recurso fixo) e ξ tem segundos momen-

tos finitos, entao (a) Q e uma funcao convexa, lipschitziana e finitaem K2, (b) Q e linear por partes se Ξ e finito e (c) Q e diferenciavel

em K2 se a funcao distribuicao de ξ e absolutamente contınua.

4.5 Casos especiais: recurso completo e simples

Dizemos que o modelo de recurso em dois estagios (4.8) tem recurso rela-tivamente completo se toda escolha de x que satisfaz as restricoes (rıgidas)

do primeiro estagio tambem satisfaz as condicoes de admissibilidade e fini-tude do segundo estagio, isto e, dizemos que (4.8) tem recurso relativamentecompleto se K1 ⊆ K2. Embora a hipotese de recurso relativamente completo

seja muito desejavel e util do ponto de vista computacional, pode ser difıcilidentificar se um determinado problema tem ou nao recurso relativamente

completo, ja que isto exigiria algum conhecimento dos conjuntos K1 e K2.

Existe, contudo, um tipo particular de recurso relativamente completo quee facil de se identificar a partir da matriz de tecnologia W (determinıstica).

Esta forma, denominada recurso completo, ocorre quando a matriz de tec-nologia W de (4.8) satisfaz a seguinte condicao:

para todo z ∈ Rm, existe y ≥ 0 tal que Wy = z. (4.12)

Observe que se W satisfaz esta condicao, entao Q(x, ξ) < +∞ paraqualquer realizacao de ξ em Ξ. Wets e Witzgall propuseram, em [18], umalgoritmo para verificar se uma matriz W satisfaz ou nao (4.12).

Uma outra situacao especial e a de recurso simples. Ela ocorre quandoa matriz de tecnologia W e da forma

[+I −I

], y e dividido em (y,y) e

q(ω) = (q(ω),q(ω)). De fato, se (4.8) tem recurso simples, entao vale o

seguinte resultado (veja [03], pagina 92):

Teorema 4.5 Se o modelo de recurso em dois estagios (4.8) tem re-

curso simples e se ξ tem segundos momentos finitos, entao Q e finitase, e somente se, q(ω) + q(ω) ≥ 0 com probabilidade 1.

Page 47: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

42 III Bienal da Sociedade Brasileira de Matematica

4.6 Mınimos e esperancas

Nesta secao veremos uma reformulacao de (4.8) que sera util tanto doponto de vista teorico como do ponto de vista computacional. Considere os

dois problemas de otimizacao:

PL1

=minx∈X

{cx + E

[miny∈Y

{q(ω)y | W(ω)y ∼ h(ω) −T(ω)x}] ∣∣∣∣Ax = b

}=

minx∈X

{E

[miny∈Y

{cx + q(ω)y | W(ω)y ∼ h(ω) −T(ω)x}] ∣∣∣∣Ax = b

}e

PL0

=

minx∈X,y(·)∈Y

{E [cx + q(ω)y(ω)]

∣∣∣∣ Ax = bW(ω)y(ω) ∼ h(ω) −T(ω)x, ∀ω ∈ Ω

},

onde Y e o conjunto das funcoes (mensuraveis) y : Ω → Rp. Note que

existirao infinitas restricoes em PL0 se Ω for um conjunto infinito.

Apesar de “min{·}” e “E [·]” nao comutarem (veja o exercıcio [05] destecapıtulo), sob certas condicoes (por exemplo, Ω finito), vale que

PL1 = PL0.

A demonstracao deste fato usa teoria da medida, o que foge do escopo destetexto. Ao leitor interessado, indicamos o livro [17], paginas 16 a 21.

4.7 Cotas para o valor otimo

Se o agente de decisao pode esperar pelas realizacoes de ξ para escolher

o valor de x, ele entao ira resolver cada um dos problemas de otimizacao

minx∈X

{f(x, ξ) = cx + min

y∈Y{q(ω) | W(ω) = h(ω) − T(ω)x}

∣∣∣∣Ax = b

}(4.13)

Page 48: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 43

um para cada realizacao possıvel de ξ. Se x(ξ) representa a solucao desteproblema otimizacao (que, evidentemente, depende de ξ) entao, em media,ele ganhara

WS = Eξ [f(x(ξ), ξ)] = Eξ

[minx∈X

{f(x, ξ) | Ax = b}]

(4.14)

Este e o valor otimo para a abordagem “espere e veja” (WS = wait and see).Por outro lado, se o agente de decisao deve fazer a escolha de x antes das

realizacoes de ξ, entao ele ganhara

RP = minx∈X

{Eξ [f(x, ξ)] | Ax = b} . (4.15)

resolvendo um modelo de recurso em dois estagios (RP = recourse problem).

Seja x∗ representa a solucao otima deste problema, entao RP = Eξ [f(x∗, ξ)].O valor esperado de informacao perfeita (EVPI = expected value of perfectinformation) e, por definicao, a diferenca entre os valores otimos para as

abordagens “espere e veja” e “modelo de recurso”:

EVPI = RP − WS. (4.16)

No problema do fazendeiro, o valor otimo para a abordagem “espere eveja” foi igual a WS = −R$ 115 406,00 (quando convertido para um pro-

blema de minimizacao), enquanto que para a abordagem de “modelo de re-curso”, o valor otimo foi igual a RP = −R$ 108 390,00. O valor esperado de

informacao perfeita do fazendeiro foi, entao, igual a RP−WS = R$ 7 016,00.Esta e a quantidade de dinheiro que o fazendeiro deveria pagar em cada ano

para obter uma informacao perfeita sobre o clima no proximo ano. Um bommeteorologista poderia cobrar este valor do fazendeiro para assessora-lo em

questoes climaticas.

Pela definicao de x(ξ), segue-se que f(x(ξ), ξ) ≤ f(x, ξ) para todo ξ ∈ Ξ

e para todo x ∈ X satisfazendo Ax = b. Em particular,

f(x(ξ), ξ) ≤ f(x∗, ξ)

para todo ξ ∈ Ξ. Tomando-se a esperanca dos dois lados, concluımos que

WS = Eξ [f(x(ξ), ξ)] ≤ Eξ [f(x∗, ξ)] = RP.

Isto mostra que WS da uma cota inferior para o valor otimo de RP (que e o

problema (4.8)). Como corolario, obtemos tambem que EVPI ≥ 0.

Page 49: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

44 III Bienal da Sociedade Brasileira de Matematica

Para usar a abordagem “espere e veja”, o agente de decisao deve sercapaz de (1) resolver cada um dos problemas (4.13) e (2) calcular a mediados valores otimos correspondentes. Como o problema da mistura mostrou,

estas tarefas podem ser muito trabalhosas! Uma alternativa tentadora e a desubstituir todas as variaveis aleatorias pelas suas medias e, entao, resolver o

problema correspondente. Este problema e denominado problema do valoresperado ou problema do valor medio:

EV = minx∈X

{f(x, ξ) | Ax = b

}(4.17)

onde ξ = Eξ [ξ] representa a media de ξ. Vamos denotar por x(ξ) a solucaootima de (4.17), denominada solucao do valor esperado. Em princıpio, naoexiste nenhum motivo para esperar que x(ξ) esteja, de alguma maneira,

proxima da solucao x∗ do modelo de recurso (4.15). O valor da solucaoestocastica (VSS = value of stochastic solution) (apresentado no problema

do fazendeiro) e o conceito que justamente mede o quao bom (ou o quaoruim) e a decisao x = x(ξ) em termos de (4.15). Vamos primeiro definir

o resultado esperado no uso da solucao do valor esperado (EEV = Expectedresult of using the EV solution):

EEV = Eξ

[f(x(ξ), ξ

)]. (4.18)

EEV mede a eficacia da decisao x(ξ), permitindo-se que decisoes do segundoestagio sejam escolhidas de maneira otima como funcoes de x(ξ) e ξ. O valor

da solucao estocastica e, entao, definida como

VSS = EEV − RP. (4.19)

O valor de VSS da o custo que se paga quando incertezas sao ignoradas

no processo de decisao. No problema do fazendeiro, vimos que EEV =−R$ 107 240,00 e RP = −R$ 108 390,00, de modo que VSS = −R$ 1 150,00.

Pela definicao de RP, segue-se que Eξ [f(x∗, ξ)] ≤ Eξ [f(x, ξ)] para qual-

quer x ∈ X satisfazendo Ax = b. Em particular,

RP = Eξ [f(x∗, ξ)] ≤ Eξ

[f(x(ξ), ξ)

]= EEV.

Isto mostra que EEV da uma cota superior para o valor otimo de RP (que

e o problema (4.8)). Como corolario, obtemos tambem que VSS ≥ 0.

Page 50: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Modelos de Recurso 45

4.8 O caso Ω finito

Se Ω e finito, digamos Ω = {ω1, . . . , ωS} ⊆ Rr, o modelo de recurso (4.8),

via a equivalencia apresentada na secao 4.6, produz o seguinte programa

linear (basta abrir a esperanca em PL0!) denominada forma estendida de

minimizarx∈X

y1,y2,...,yS∈Y

cx + p1q1y1 + p2q

2y2 + · · · + pSqSyS

sujeito a Ax = b,T1x + Wy1 ∼ h1,

T1x + Wy2 ∼ h2,... . . . ...

...

TSx + WyS ∼ hS,

(4.20)

onde ps = P(ω = ωS

), qs = q(ωs), ys = y(ωs) Ts = T(ωs) e hs = h(ωs).

Aqui estamos supondo que o recurso e fixo (W(ω) = W).

A vantagem deste modelo e que ele e um programa linear. A unica des-

vantagem e o seu tamanho: ele possui n + pS variaveis e m1 + mS restricoesexplıcitas (isto e, nao contando as possıveis restricoes na definicao de X e Y).

Exercıcios

[01] Mostre que para os valores de p, q, W e Y indicados em cada um dostres casos na pagina 36, a funcao de recuso v em (4.6) obtem as funcoes

de penalidade (4.3), (4.4) e (4.5) como casos especiais.

[02] Considere um exemplo de (4.8) onde Q(x, ξ) = miny≥0 {y | ξy = 1 − x}.Mostre que se ξ tem distribuicao triangular em [0, 1] (P(ξ ≤ u) = u2),

entao KP2 = K2.

[03] Mostre que a matriz W =[

+I −I]

satisfaz a condicao (4.12).

[04] Mostre que a matriz W =[�

T −I]

satisfaz a condicao (4.12). Aqui� representa o vetor com todas as componentes iguais a 1.

[05] Considere f(x, ω) = (x − ω)2, onde x ∈ R e ω e uma variavel aleatoria

com distribuicao uniforme no intervalo [0, 1]. Mostre que, para esta

Page 51: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

46 III Bienal da Sociedade Brasileira de Matematica

situacao, “min{·}” e “E [·]” nao comutam:

E

[minx∈R

{f(x, ω)}]= min

x∈R

{E [f(x, ω)]

}.

Page 52: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 5

O metodo L-shaped

O L-shaped e possivelmente o metodo de resolucao e aproximacao de

problemas de otimizacao estocastica mais conhecido e tradicional. Ele seoriginou do metodo de decomposicao de Benders, desenvolvido na decada de

sessenta por J. F. Benders para resolver de maneira mais eficiente problemasde otimizacao com uma determinada estrutura. Na realidade, o L-shaped

pode ser visto como uma aplicacao do metodo de Benders em otimizacaoestocastica. Esse e o ponto de vista que sera adotado nesse texto.

5.1 A decomposicao de Benders

Considere o problema de otimizacao linear abaixo

VAL = minx,y

cTx + qTy

sujeito a Ax = b,

Tx + Wy = hx,y ≥ 0,

(5.1)

onde c,q,x e y sao vetores em Rn, h e b sao vetores de R

m e A,T,W saomatrizes m × n. O primeiro passo e eliminar a variavel y da formulacao

do problema, criando um subproblema parametrizado por x. Para isso, adecomposicao de Benders reescreve o problema da seguinte forma:

VAL = minx

cTx + Q(x)

sujeito a Ax = b,

x ≥ 0,

(5.2)

Page 53: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

48 III Bienal da Sociedade Brasileira de Matematica

onde Q(x) e o valor otimo do subproblema

Q(x) = miny

qTy

sujeito a Wy = h −Tx,y ≥ 0.

(P)

Dualizando (P), temos o problema (D) definido a seguir:

Q(x) = maxp

pT (h −Tx)

sujeito a WTp ≤ q.(D)

Repare que a dualidade tirou a dependencia do conjunto admissıvel D de

(D) em relacao a x, ou seja, para qualquer escolha de x o conjunto admissıvelde (D) e o mesmo:

D = {p ∈ Rm | WTp ≤ q}.

Vamos assumir que o conjunto D e nao vazio e denotar seus pontos extremos

por p1, . . . ,pI e seus raios extremos por r1, . . . , rJ . O problema (D) daorigem a duas situacoes distintas:

• Se Q(x) = +∞, entao o simplex devolve o raio extremo r de D. Em

particular (r)T (h −Tx) > 0.

• Se Q(x) < +∞, entao o simplex devolve um ponto extremo p de D.

Usando o teorema fundamental da programacao linear (D.1), podemosreescrever o problema (D) como

Q(x) = minz

z

sujeito a (pi)T (h − Tx) ≤ z, i = 1, . . . , I,

(rj)T (h −Tx) ≤ 0, j = 1, . . . , J .

(D’)

Nao e difıcil ver que esse problema possui o mesmo valor otimo de (D).As primeiras I restricoes representam os valores da funcao objetivo de (D)avaliada nos pontos extremos de D. Como queremos minimizar z, o valor

otimo de (D’) corresponde ao maior valor de (pi)T (h−Tx), que e exatamenteo otimo de (D). As J restricoes restantes servem para garantir que estamos

na situacao onde (D) e limitado.

Page 54: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O metodo L-shaped 49

Finalmente, usando (D’), chegamos em uma reformulacao do problemaoriginal (5.1), conhecida por problema mestre completo (PMC), que e a basepara a decomposicao de Benders:

VAL = minx,z

cTx + z

sujeito a Ax = b, x ≥ 0,(pi)T (h −Tx) ≤ z, i = 1, . . . , I (∗),(rj)T (h − Tx) ≤ 0, j = 1, . . . , J (∗).

(5.3)

Essa formulacao, apesar de equivalente a (5.1), possui varios diferencas

que serao exploradas pela decomposicao de Benders. Primeiramente, avariavel y nao aparece no PMC. Em seu lugar surge a variavel unidimensi-

onal z. Alem disso, nessa formulacao e preciso conhecer os pontos e raiosextremos do conjunto D. Possivelmente o numero de restricoes de (5.3) e

gigantesco se comparado a (5.1): se o conjunto admissıvel D for muito fa-cetado, entao teremos uma quantidade muito grande de pontos extremos.

Alias, em geral, nao temos nem os pontos nem os raios extremos do con-junto D de imediato. A ideia da algoritmo da decomposicao de Benders econsiderar um problema semelhante a (5.3) nas etapas intermediarias do al-

goritmo e ir acrescentando restricoes do tipo (∗) ao problema em cada passo.Mais precisamente, no passo k do algoritmo, o problema mestre restrito de

ordem k (PMRk) com apenas k restricoes do tipo (∗) e

VALk = minx,z

cTx + z

sujeito a Ax = b, x ≥ 0,

(pi)T (h −Tx) ≤ z, i = 1, . . . , k − l,(rj)T (h− Tx) ≤ 0, j = 1, . . . l.

(5.4)

Para obter pontos e raios extremos de D temos que resolver o problema

(D) em cada passo do algoritmo. Se ele for finito, entao ganhamos umponto extremo e, se for ilimitado, ganhamos um raio extremo. Eles serao

adicionado ao problema PMRk, originando o problema PMRk+1.

Page 55: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

50 III Bienal da Sociedade Brasileira de Matematica

5.2 O algoritmo de Benders

Vamos apresentar o algoritmo de Benders passo a passo. Como a fina-lidade de um algoritmo e geralmente sua implementacao em computador,

incluiremos na sua descricao tanto a condicao de parada teorica quanto acomputacional. A teorica simplesmente diz que se uma certa condicao for

atingida, entao a solucao encontrada e otima. A computacional pode pararantes da solucao otima ser encontrada: basta que a diferenca entre uma cotasuperior e uma cota inferior sejam menores que uma dada tolerancia ε.

Passo 1: Defina a cota inferior CI = +∞ e a cota superior CS= −∞.

Passo 2: Resolva o problema PMRk (5.4). Seja VALk o valor otimo

e (x, z) a solucao encontrada. Atualize CI = VALk.

Passo 3: (a) Se Q(x) < +∞, entao resolva tambem (P) para x = x

e guarde as solucoes (y,p) de (P) e (D), respectiva-mente.

(b) Se Q(x) > z, entao atualize a cota superior

CS = min{CS, cTx + qTy}.Alem disso, faca

melhor solucao = {(x,y)} .

Por fim, se CS − CI < ε, pare. Caso contrario acres-

cente a restricao pT (h−Tx) ao problema PMRk paraobter PMRk+1 e volte ao Passo 1.

(c) Se Q(x) = z, entao (x, z) e a solucao otima do pro-

blema original (5.1).

Passo 4: Se Q(x) = +∞, seja r o raio extremo gerado pelo resol-

vedor. Acrescente a restricao (r)T (h − Tx) ≤ 0 a PMRk

para obter PMRk+1. Volte ao Passo 1.

Vamos analisar em detalhe alguns pontos do algoritmo. No Passo 1,

afirmamos que VALk e uma cota inferior para o problema original (5.1). De

Page 56: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O metodo L-shaped 51

fato, se pensarmos na formulacao (5.3), vemos que o conjunto admissıvelesta contido no conjunto admissıvel de PMRk e, portanto, VALk e menorou igual ao valor otimo de (5.1). Dessa forma, a cota inferior vai sempre

aumentando. A cota superior nao e tao bem comportada. O valor cTx+qTye uma cota superior para (5.1) simplesmente por ser admissıvel. No entanto,

novos pontos admissıveis podem aumentar a cota superior CS, um efeitoindesejado. E por isso que a atualizacao de CS no Passo 3 (b) e um mınimo

entre a cota antiga e o novo candidato gerado.

Para ver que a condicao Q(x) = z implica em otimalidade para PMC,

note que Q(x) = z implica que z e maior ou igual a (pi)T (h−Tx), para i de1 ate I. Entao a solucao (x, z) tambem e admissıvel para PMC e, portanto,

ela e otima. Mas o problema original e nas variaveis x e y. Sera que nessecaso (x,y) e solucao de (5.1)? De fato,

VALk = cTx + z = cTx + Q(x) = cTx + qTy ≥ VAL,

onde a ultima desigualdade segue pois (x,y) e admissıvel. Por outro lado,

o conjunto admissıvel de PMRk contem o de PMC, que e uma reescrita doproblema original (5.1). Assim, e trivial que VALk ≤ VAL, completando aprova.

5.3 Um exemplo completo

Considere o problema

VAL = minx,y

42 x1 + 18 x2 + 33 x3 − 8 y1 − 6 y2 + 2 y3

sujeito a 10 x1 + 8 x2 − 2 y1 − y2 + y3 ≥ 4,5 x1 + 8 x3 − y1 − y2 − y3 ≥ 3,

xi ∈ {0, 1}, yi ≥ 0, i = 1, 2, 3.

(5.5)

Para ver que esse problema e da forma (5.1) basta considerar as matrizes

x =[

x1 x2 x3]T

, y =[

y1 y2 y3]T

,

c =[

42 18 33]T

, q =[ −8 −6 2

]T, h =

[4 3

]T,

T =

[10 8 05 0 8

]e W =

[ −2 −1 1−1 −1 −1

],

Page 57: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

52 III Bienal da Sociedade Brasileira de Matematica

com A = 0. Esse problema e linear, mas as variaveis x1, x2 e x3 so podemassumir os valores 0 e 1. Como a decomposicao de Benders fixa os valoresde x e resolve o problema em y, ela tambem se aplica nesse caso. Vamos

chamar o conjunto de pontos extremos obtidos ate a iteracao k de Pk e osraios de Rk. Os arquivos em AMPL necessarios para obter as solucoes dos

problemas intermediarios estao em http://www.mat.puc-rio.br/∼bernardo/.

Iteracao 0 CS = +∞, CI = −∞, P0 = ∅, R0 = ∅.Resolvendo o problema PMR0, vemos que ele claramente e naolimitado (arquivo benders1.mod), pois nao existem restricoessobre z. Arbitramos x0 = (0, 0, 0) e atualizamos a cota inferior:

CI = 0. Resolvendo o problema (D) (arquivo bendersdu0.mod)obtemos Q(x0) = ∞ e caımos no Passo 4 do algoritmo. O

resolvedor CPLEX nos devolve o raio extremo r0 = (0, 1), quesera acrescentado a PMR1.

Iteracao 1 CS = +∞, CI = −∞, P1 = ∅, R1 = {(0, 1)}.Novamente nao temos restricoes para a variavel z e, portanto,o problema e ilimitado. Escolhemos x1 = (0, 0, 1), pois ele

e admissıvel para PMR1. Resolvendo o problema (D) (ar-quivo bendersdu1.mod) obtemos Q(x1) = 6 e p1 = (4, 2).Como Q(x1) = 6 > −∞ = z1, resolvemos (benderspr1.mod)

o problema (P) e encontramos y1 = (0, 0.5, 4.5). Assim, CS= min{+∞, cTx1 + qTy1} = 39. Por fim acrescentamos o

ponto extremo (4, 2) ao problema PMR1 para obter PMR2.

Iteracao 2 CS = 39, CI = −∞, P2 = {(4, 2)}, R2 = {(0, 1)}.Resolvendo (arquivo benders2.mod) PMR2 encontramos que

VAL2 = 0, x2 = (1, 1, 0) e z2 = −60. Apos atualizar CI= −60, resolva (arquivo bendersdu2.mod) (D) para x = x2.

A solucao encontrada foi Q(x2) = −16 e p2 = (0, 8). Como−16 > −60, temos que resolver (arquivo benderspr2.mod) oproblema (P). A solucao e y2 = (2, 0, 0). A cota superior fica

inalterada nesse caso pois o valor de cTy2 + qTy2 e maior que39. Acrescentando-se o ponto extremo p2 a PMR2 obtemos

PMR3.

Page 58: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O metodo L-shaped 53

Iteracao 3 CS = 39, CI = −60, P3 = {(4, 2), (0, 8)}, R3 = {(0, 1)}.Resolvendo (arquivo benders3.mod) PMR3 encontramos queVAL3 = 17, x3 = (1, 1, 1) e z3 = −76. Atualize CI = 17 e

resolva (bendersdu3.mod) (D) para x = x3. O resultado eQ(x)3 = −68, com p3 = (2, 4). Como −68 > −76, temos que

resolver (arquivo benderspr3.mod) o problema P. A solucao ey3 = (4, 6, 0). A nova cota superior e CS = 25. Acrescentando-

se o ponto extremo p3 a PMR3 obtemos PMR4.

Iteracao 4 CS = 25, CI = 17, P4 = {(4, 2), (0, 8), (2, 4)}, R4 = {(0, 1)}.Resolvendo (arquivo benders4.mod) PMR4 encontramos que

VAL4 = 17, x4 = (1, 1, 1) e z4 = −68. Atualize CI = 25 enote que como x3 = x4, entao Q(x4) = −68. Finalmente,

temos Q(x4) = z4 = −68 e, portanto, a condicao de paradafoi satisfeita! A solucao otima e x∗ = (1, 1, 1) e y∗ = (4, 6, 0),com VAL∗ = 25.

5.4 Decomposicao de Benders em otimizacao estocas-

tica: o metodo L-shaped

Considere um problema de otimizacao estocastica na forma estendida,como em (4.20). Repare que o problema (5.1) tem o mesmo formato de (4.20),

porem com menos restricoes. Vamos apresentar duas versoes do metodo L-shaped: o classico e o multicortes. O metodo L-shaped multicortes consisteem usar decomposicao de Benders na forma estendida de um problema es-

tocastico.

O primeiro passo e reescrever o problema (4.8), de maneira analoga ao quefoi feito para (5.1). Denotando por Ω = {ω1, ω2, . . . , ωS} o espaco amostral

da variavel aleatoria subjacente a (4.20) e definindo pi = P(ωi), temos

VAL = minx

cTx +∑S

s=1 psQs(x, ωs)

sujeito a Ax = b,

x ≥ 0,

(5.6)

Page 59: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

54 III Bienal da Sociedade Brasileira de Matematica

onde

Qs(x, ωs) = miny

qTys

sujeito a Wys = hs −Tsx,

ys ≥ 0.

(5.7)

para cada i de 1 a S.

Repare que a estrutura da formulacao estendida (4.20) naturalmente de-

sacopla os s problemas (5.7). Dualizando cada um deles, tem-se

Qs(x, ωs) = maxp

pT (hs − Tsx)

sujeito a Wp ≤ qs.(5.8)

Agora vamos reescrever o problema (5.8) da mesma forma que foi feitopara (D’):

Qs(x, ωs) = minzs

zs

sujeito a (pi(s)s )T (hs − Tx) ≤ zs, i(s) = 1, . . . , Is,

(rj(s)s )T (hs −Tx) ≤ 0, j(s) = 1, . . . , Js,

(5.9)

onde Is e o numero de pontos extremos do conjunto Ds = {p | Wp ≤ qs},Js e o numero de raios extremos de Ds, p

i(s)s sao os pontos extremos de D

e rj(s)s sao os raios extremos, para cada s = 1, . . . , S. Portanto, podemos

reescrever o problema na forma estendida como

VAL = minx,z

cx +∑S

s=1 pszs

sujeito a (pi(s)s )T (hs − Tx) ≤ zs, i(s) = 1, . . . , Is, s = 1, . . . , S,

(rj(s)s )T (hs − Tx) ≤ 0, j(s) = 1, . . . , Js, s = 1, . . . , S,

(5.10)que e tambem chamado de PMC. A partir daı o algoritmo L-shaped mul-

ticortes e analogo a Benders. Considera-se problema mestre restrito PMRk

e, em cada passo do algoritmo, vao se adicionando cortes da mesma formaque foi feita na secao 5.2. A unica diferenca e que no caso do L-shaped

serao acrescentados ate S cortes em cada passo, oriundos de cada um dos Sproblemas (5.8). Alem disso, a condicao de otimalidade tem que se verificar

para todo s, ou seja, Q(x)s = zs. para s de 1 a S.

Page 60: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

O metodo L-shaped 55

O metodo L-shaped classico pode ser pensado como uma variante do L-shaped multicorte. Por simplicidade, vamos assumir que os s problemas(5.8) possuem solucao otima. Ao inves de se construir S cortes a partir

dessas solucoes, constroi-se apenas um corte, que uma especie de media doscortes obtidos:

S∑s=1

ps(pi(s)s )T (hs − Tsx) ≤ z, i(s) ∈ {1, . . . , Is}, s = 1, . . . , S. (5.11)

Naturalmente, temos apenas uma variavel z nesse caso, pois temos apenasum corte.

Exercıcios

[01] Considere o problema (4.8) com c = 0, X = [0, 10], (q+, q−) = (1, 1) e ξ

discreta assumindo os valores 1, 2 e 4 com probabilidade 1/3. Resolvao problema usando o metodo L-shaped, classico ou multicorte.

[02] Considere o problema (4.8) com c = 1/2, X = [0, 5], (q+, q−) = (1, 3) eξ discreta uniforme assumindo os valores 1, 2, 3 e 4. Resolva o problema

usando o metodo L-shaped (classico ou multicorte).

Page 61: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Capıtulo 6

Metodos Amostrais

Nessa secao vamos estudar metodos amostrais. Esses metodos diferem

dos anteriores por uma razao fundamental: eles supoem que podemos sortearem computador numeros aleatorios com respeito a uma dada distribuicao.

Por essa razao, conceitos de estatıstica vao aparecer no desenvolvimento dosalgoritmos. O primeiro deles, a aproximacao pela media amostral, e um

metodo de amostragem exterior: obtem-se uma amostra e, em seguida, seresolve o problema. Ja a decomposicao estocastica e um metodo interior: a

amostragem ocorre durante a execucao do algoritmo.

6.1 Aproximacao pela media amostral

Considere o problema

VAL = minx∈X

{f(x) = Eω[F (x, ω)] =

∫Ω

G(x, ω)g(x)dx

}sujeito a Ax = b, x ≥ 0,

(6.1)

onde g e a densidade de ω. O problema de recurso com dois estagios (4.8) eum caso particular de (6.1). Para ver isso defina

X = {x | Ax = b}, f(x) = cTx + Q(x), Q(x) = E[Q(x, ω)],

Q(x, ω) = miny∈Y

{qTy | Wy = h(ω) − T(ω)x}.

A principal dificuldade em resolver o problema (6.1) e a presenca da espe-

ranca, que e uma integral. Em geral, nao e possıvel resolver explicitamente

Page 62: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 57

essa integral, que pode ser n-dimensional se o vetor de variaveis aleatoriastiver dimensao n. Como essa integral e a esperanca de F (x, ω), podemosaproxima-la pela soma de n sorteios da variavel aleatoria ω e dividir o re-

sultado por n.

Essa ideia e natural: pense num lancamento de uma moeda honesta mo-

delado por uma variavel aleatoria Y , que assume o valor 1 quando o resultadoe cara e 0 quando e coroa. Se quisermos aproximar a media dessa variavelaleatoria, que e 1/2, podemos lancar uma moeda digamos 100 vezes, somar

os valores obtidos e dividir o total por 100. Espera-se que o valor seja pertode 1/2.

Vamos definir a aproximacao da media amostral (AMA), que e uma apro-

ximacao para o problema (6.1):

vn = minx∈X

{fN(x) =

1

N

N∑i=1

F (x, ωi)

}. (6.2)

O estimador fN(x) e nao-viesado para o valor otimo f(x) do problema

(6.1):

Eω[f(x)] =1

NEω

[N∑

i=1

F (x, ω)

]=

1

NN f(x) = f(x).

Construindo uma cota inferior

Lema 6.1 O estimador vN subestima o valor otimo v∗ do pro-

blema (6.1), isto e,E[vN ] ≤ v∗.

Prova. Note que

v∗ = minx∈X

Eω [F (x, ω)] = minx∈X

{Eω

[N−1

N∑j=1

F (x, ωj)

]}.

Page 63: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

58 III Bienal da Sociedade Brasileira de Matematica

Entao

minx∈X

{1

N

N∑j=1

F (x, ωj)

}≤ 1

N

N∑j=1

F (x, ωj)

[minx∈X

{N−1

N∑j=1

F (x, ωj)

}]≤ Eω

[1

N

N∑j=1

F (x, ωj)

]�

Eω[vN ] ≤ minx∈X

[1

N

N∑j=1

F (x, ωj)

]= v∗.

Temos assim uma cota inferior para o problema original (6.1). Infeliz-mente, nao e facil calcular Eω[vN ]. O que faremos e aproximar esse valoratraves de amostragem. Gere M amostras independentes ω1,j, . . .ωN,j, j =

1, . . . , M , de tamanho N . Para cada pacote j de N amostras resolva o pro-blema AMA correspondente:

vjN = min

x∈X

{1

N

N∑j=1

F (x, ωi,j)

}. (6.3)

Cada um dos j problemas (6.3) fornece uma realizacao da variavel alea-toria vj

N . Logo, conseguimos uma aproximacao para E[vjN ] tirando a media

dos M problemas (6.3):

LN,M =1

M

M∑j=1

vjN . (6.4)

E facil ver que o estimador LN,M e nao viesado para Eω[vjN ] e, portanto, e

um bom candidato para aproximar a cota inferior do problema original (6.1).

Podemos construir um intervalo de confianca para Eω[vjN ], da mesma

forma que foi feito no apendice B, equacao (B.7). Pelo teorema central dolimite (A.2), em particular os resultados equivalentes (A.3), temos

√n (LN,M − E[vN ])

d→ η(0, σ2L),

Page 64: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 59

onde η(μ, σ2) e a variavel aleatoria normal com media μ e variancia σ2. Paraaproximar a variancia σ2

L, vamos usar o estimador S2, definido em (B.2).

σ2L =

1

M − 1

M∑j=1

(vjN − LN,M)2. (6.5)

Por fim basta escolher um tolerancia α e encontrar o valor zα/2 corres-

pondente (ver equacao (B.3)). Assim como foi feito para (B.7), temos umintervalo (aproximado) 100 (1− α)% confiavel para o parametro E[vN ]:[

LN,M − zασL√M

, LN,M +zασL√

M

](6.6)

Construindo uma cota superior

Vamos agora tentar encontrar uma cota superior para o problema (6.1).Para isso, considere x um ponto admissıvel para o problema (6.1). Por se

tratar de um problema de minimizacao, e imediato que f(x) e uma cota su-perior para o problema (6.1). Nossa tarefa sera encontrar um bom estimador

(nao-viesado) para f(x) e assim obter uma cota superior para o problema(6.1).

Comece gerando T amostras independentes ω1,j, . . . , ωN,j de tamanho N .

Para cada um dos T pacotes de amostras defina

f j

N(x) =

1

N

N∑i=1

F (x, ωi,j), ∀x ∈ X e j = 1 . . . , T. (6.7)

Em particular, f j

N(x) e uma aproximacao para f(x), para todo j. Tirando a

media entre as T aproximacoes temos um estimador nao-viesado para f(x):

UN,T (x) =1

T

T∑j=1

f j

N(x). (6.8)

Aplicando novamente o teorema central do limite A.2, temos

√T (UN,T − f(x))

d→ η(0, σ2U), (6.9)

Page 65: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

60 III Bienal da Sociedade Brasileira de Matematica

onde σ2U e a variancia de f(x). Novamente vamos aproximar a variancia pelo

estimador S2:

σ2U =

1

T − 1

T∑j=1

(f j

N(x) − UN,T )2.

Para uma tolerancia α, temos imediatamente um intervalo 100 (1 − α)%

confiavel para f(x):

[UN,T (x) − zασU(x)√

T, UN,T +

zασU(x)√T

](6.10)

Um algoritmo usando as cotas

Agora que sabemos calcular cotas inferiores e superiores para um pro-blema do tipo (6.1), podemos obter uma aproximacao do valor otimo deste

problema. Vamos descrever um algoritmo que nada mais e do que umaestruturacao das ideias para calcular cotas descrita nas secoes anteriores.

O primeiro passo e fixar valores para N e M , por exemplo N = 100 e

M = 12. Em seguida, sorteiam-se M amostras de tamanho N . Em cadaum dos M sorteios obtemos uma aproximacao (6.3) para o valor otimo de

(6.1). O estimador LN,M para a cota inferior e obtido tirando-se a mediadestes valores e o intervalo de confianca e construıdo conforme (6.6). Alem

do valor otimo, em cada um dos M problemas foi obtido um ponto admissıvelxj, j = 1, . . . , M . Fazendo T = 50 por exemplo e escolhendo N = 20 000,

construımos aproximacoes (6.8) para f(xj). Escolhemos a menor entre asM cotas superiores e construımos o intervalo de confianca correspondente(6.10).

Esse metodo e efetivamente usado para aproximar as solucoes de proble-mas de recurso com dois estagios de grande porte, inviaveis de serem resol-vidos diretamente. Para alguns desses problemas as cotas inferior e superior

ficaram extremamente proximas, indicando que a solucao otima provavel-mente foi estimada com precisao. Para a descricao precisa dos problemas e

maiores detalhes desse metodo sugerimos o artigo [15].

Page 66: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 61

6.2 A decomposicao estocastica

Esse metodo foi desenvolvido por J. Higle e S. Sen em 1991, e posterior-

mente publicado em livro [10]. Diferentemente do metodo da aproximacaopela media amostral, a decomposicao estocastica (DE) e um metodo de amos-

tragem interior, ou seja, as amostras sao feitas durante a execucao do algo-ritmo. A DE tambem supoe que e possıvel obter amostras de uma variavelou vetor aleatorio qualquer. E um metodo exclusivamente para problemas

dois estagios e se baseia em aproximacoes lineares por partes da funcao ob-jetivo do problema de recurso (4.8). Para chegar no algoritmo da DE vamos

passar por varios algoritmos intermediarios.

6.2.1 O algoritmo de planos de corte de Kelley

O algoritmo da DE e uma adaptacao de algoritmos existentes de oti-mizacao, visando eficiencia computacional. O primeiro deles e o algoritmo

de Kelley, que se aplica a problemas da forma

minx∈X

{cx + Q(x)} , (6.11)

onde Q e uma funcao convexa e X e um conjunto compacto e convexo. Aescolha na notacao nao e por acaso: a funcao Q do problema (4.8) possui

estas propriedades.

Passo 0: Suponha x1 ∈ X dado.

Faca k = 0, ϕ0(x) = −∞, u0 = cx1 + Q(x1) e l0 = −∞.

Passo 1: Faca k = k + 1. Encontre (αk, βk) tais que Q(xk) =

αk + βkxk e Q(x) ≤ αk + βkx, ∀x ∈ X.

Passo 2: Faca uk = min{uk−1, cxk + Q(xk)} e defina ϕk(x) =

max{ϕk−1(x), αk + βkx}.Passo 3: Faca lk = minx∈X{cx+ϕk(x)} e denote por xk+1 a solucao.

Passo 4: Se uk − lk = 0, entao pare. Caso contrario, volte ao

Passo 1.

Page 67: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

62 III Bienal da Sociedade Brasileira de Matematica

A ideia central do algoritmo e aproximar a funcao Q pelos planos decorte ϕk(x). Mas como encontrar (αk, βk) no Passo 1? Considere o dualdo problema Q(xk, ω), para cada elemento ω no espaco amostral:

Q(x, ω) = maxp

pT (h(ω) − T(ω)xk)

sujeito a WTp ≤ q.(6.12)

Denotando por pk(ω) a solucao otima do dual para cada ω, temos que

Q(xk) = Eω

[pk(ω)(h(ω) − T(ω)xk)

]= Eω

[pk(ω)h(ω)

]− Eω

[pk(ω)T(ω)

]xk. (6.13)

Por outro lado, se deixarmos x variar temos que

Q(x) ≥ Eω

[pk(ω)(h(ω) − T(ω)x)

]= Eω

[pk(ω)h(ω)

]− Eω

[pk(ω)T(ω)

]x. (6.14)

Por (6.13) e (6.14), podemos usar o algoritmo de Kelley em otimizacao es-tocastica tomando

αk = Eω

[pk(ω)h(ω)

]e βk = −E[pk(ω)T(ω)]. (6.15)

Tudo parece resolvido, mas temos um problema computacional: esse pro-

cedimento pressupoe que em cada passo se resolva um problema de oti-mizacao para cada ω pertencente ao espaco amostral Ω. Se tivermos umvetor aleatorio independente com 10 coordenadas onde cada componente

aleatoria assume 4 valores, temos que resolver um total de 410 = 1 048 576problemas de otimizacao em cada passo!

6.2.2 AMA + Kelley

O proximo passo na caminhada rumo a DE e combinar o metodo AMA

descrito em (6.1) com a algoritmo de Kelley. Na realidade, queremos umaversao um pouco diferente do AMA: seja

Qk(x) =1

k

k∑t=1

Q(x, ωt), (6.16)

Page 68: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 63

onde ωt sao observacoes de uma variavel aleatoria ω. Assim com no algo-ritmo AMA, a funcao Qk e um aproximacao de Q(x) = Eω[Q(x, ω)]. Essafuncao e convexa (por que?) e, portanto, podemos usar o algoritmo de Kelley

para resolver o problema

minx∈X

{fk(x) = cx + Qk(x)} . (6.17)

Intuitivamente, esperamos que as funcoes Qk sejam aproximacoes cada vez

melhores de Q(x), quando k cresce. O algoritmo abaixo, chamado apro-ximacao da media amostral sucessiva (AMAS), parte dessa premissa.

Passo 0: Faca k = 0 e Q0(x) ≡ 0.

Passo 1: Faca k = k + 1 e gere uma observacao ωk de ω indepen-dente das anteriores.

Passo 2: Faca Qk(x) =k − 1

kQk−1(x) +

1

kQ(x, ωk).

Passo 3: Resolva minx∈X{cx + Qk(x)} e denote por xk a solucaootima. Volte ao Passo 1.

E possıvel mostrar, usando a lei forte dos grandes numeros (A.1), que

existe uma subsequencia de iteracoes Qk(x) que converge para para Q(x)sempre que xk convergem para x∗, a solucao otima de (4.8). No entanto,esse algoritmo em geral e ineficiente. A razao principal e que no Passo 2

temos que resolver um problema de otimizacao “cru” em cada passo, ou seja,um problema onde nao existem restricoes sobre onde procurar uma solucao.

Alem disso, em cada passo minimizamos Qk(x) baseado numa nova saıda deω, mesmo que essa saıda nao melhore muito a aproximacao Qn.

Uma maneira de melhorar o algoritmo AMAS e reduzir o custo compu-tacional no Passo 2, incluindo cortes que auxiliam na resolucao do pro-

blema. A ideia e aproveitar o aninhamento das amostras, ou seja, o fato que{ωt}k−1

t=1 ⊂ {ωt}kt=1.

Suponha que usamos o metodo de Kelley para otimizar fk−1 e sejam{xj}q

j=1 os pontos onde os cortes foram derivados. Os coeficientes desses

cortes sao (αk−1j , βk−1

j ), onde o subscrito denota que o corte foi derivado

Page 69: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

64 III Bienal da Sociedade Brasileira de Matematica

em xj e o sobrescrito lembra que esses cortes foram obtidos na aplicacao deKelley a fk−1. Queremos achar expressoes para cortes baseados em amostrasde tamanho k (αk

j , βkj ) a partir dos cortes (αk−1

j , βk−1j ) para amostras de

tamanho k − 1.

Denotando por pj(ωt) a solucao otima do dual do problema de segundoestagio para cada ωt, temos por definicao (6.15) que

αk−1j + βk−1

j x =1

k − 1

k−1∑t=1

pj(ωt)(ht −Ttx) e (6.18)

αkj + βk

j x =1

k

k∑t=1

pj(ωt)(ht −Ttx), (6.19)

onde ht = h(ωt) e Tt = T(ωt). Assim, usando (6.18) e (6.19), definimos os

cortes na iteracao k recursivamente por

αkj + βk

jx =k − 1

k(αk−1

j + βk−1j x) +

1

kpj(ωk)(ht − Ttx), (6.20)

para cada j = 1, . . . , q. Essa definicao recursiva permite que no Passo 3 doAMAS + Kelley otimizemos a funcao Qk com a inclusao destes cortes. No

entanto, para calcular pj(ωk) temos que guardar todos os vetores {xj}qj=1 e

resolver os sub-problemas duais (6.12) associados. Infelizmente, com o cresci-

mento do numero de iteracoes, o custo computacional destas duas operacoescresce rapidamente e nao compensa mais a inclusao dos cortes para evitar a

resolucao de um problema “cru” no Passo 2 do AMAS.

A DE que veremos em seguida e exatamente uma estrategia para aliviaro custo computacional do Passo 2 do AMAS. Ela evita o armazenamentodos vetores {xj}q

j=1 e a resolucao dos sub-problemas duais (6.12). Em con-

trapartida, o processo de formacao de cortes sera menos eficiente.

Metodo estocastico dos planos de cortes e decomposicao estocas-

tica

Vamos ver um ultimo algoritmo antes da DE: o metodo estocastico dosplanos de cortes (MEPC). Assuma que exista um numero L tal que L ≤Q(x, ω). Vamos a descricao do algoritmo:

Page 70: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 65

Passo 0: Faca k = 0, ν0(x) = −∞ e tome x1 ∈ X. Seja L um

numero tal que L ≤ Q(x, ω)

Passo 1: Faca k = k + 1 e gere uma observacao ωt de ω indepen-

dente das anteriores.

Passo 2: Calculo de νk(x), uma aproximacao linear por partes

de Qk:

(a) Calculo do k-esimo plano de corte:

αkk + βk

kx =1

k

k∑t=1

pk(ωt)(ht −Ttx),

onde pk(ωk) ∈ argmaxp{pT (hk − Tkxk) | WTp ≤q}.

(b) Atualizacao dos coeficientes de todos os cortes anteri-

ores:

αkt =

k − 1

kαk−1

t +1

kL, βk

t =k − 1

kβk−1

t .

(c) Defina νk(x) = max1≤t≤k{αkt + βk

t x}.Passo 3: Resolva minx∈X{cx + νk(x)} e denote por xk+1 a solucao.

Volte ao Passo 1.

Comecemos tracando algumas semelhancas e diferencas entre o AMASe o MEPC. Ambos geram uma observacao da variavel aleatoria no curso

do algoritmo e a funcao a ser otimizada em cada passo e uma aproximacaoda funcao de recurso Q(x) = Eω[Q(x, ω)]. A natureza dessa aproximacao,

no entanto, e muito diferente. O AMAS gera uma observacao e otimiza afuncao Qk, enquanto que o MEPC usa planos de corte para aproximar a

funcao Q(x).

Aqui aparece uma diferenca em relacao ao algoritmo de Kelley: os planosde corte em MEPC so sao tangentes a funcao Q(x) no momento em que

sao criados: em Kelley, os planos permanecem tangentes durante todas asiteracoes do algoritmo. Mais ainda: cada corte em MEPC e gerado com um

numero diferente de observacoes de ω.

Page 71: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

66 III Bienal da Sociedade Brasileira de Matematica

Quando se usa o algoritmo de Kelley combinado com o AMAS, temos queem cada iteracao os cortes sao gerados de um mesmo numero de observacoes.A aproximacao e mais uniforme, enquanto que em MEPC os cortes gerados

nas ultimas iteracoes, quando a amostra e maior, fornecem aproximacoesmais precisas da funcao Q do que os cortes gerados nas primeiras iteracoes.

Em relacao a maneira como os cortes sao atualizados, podemos inter-pretar o Passo 2 (b) de MEPC como uma relaxacao do procedimento de

atualizacao de cortes de AMAS usando Kelley (equacoes (6.20)). E facil verque

νk(x) = max

{k − 1

kνk−1 (x) +

1

kL, αk

k + βkkx

}(6.21)

Comparando-se com (6.20), podemos ver que o termo pt(ωk)(hk − T kx) etrocado simplesmente por L em MEPC.

Agora estamos prontos para a decomposicao estocastica. Em cada algo-ritmo que vimos havia uma pequena diferenca que o tornava mais eficiente

que o anterior. O AMAS combinado com Kelley e mais eficiente que AMAS,pois a inclusao de cortes permite que se otimize a funcao Qk de maneira mais

eficiente.

O metodo MEPC, por sua vez, apresenta uma maneira mais eficiente de

se atualizar cortes, que da mais peso a cortes gerados quando o tamanho daamostra e maior. No entanto, o Passo 2 deste algoritmo ainda depende da

resolucao de um problema de otimizacao para cada ω no espaco amostral oque pode tornar o algoritmo intratavel computacionalmente.

E exatamente esse ponto que a DE apresenta uma modificacao. Ao invesde resolver estes problemas, o algoritmo resolve apenas um problema poriteracao, baseado na amostra recem gerada. Essa solucao e um vertice do

conjunto admissıvel Π = {p | WTp ≤ q} de (6.12). Os vertices que vaosendo obtidos vao sendo armazenados no conjunto Vk. Novamente, assumi-

mos que uma cota inferior L para Q(x, ω) e dada.

Page 72: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Metodos Amostrais 67

Passo 0: Faca k = 0, η0(x) = −∞ e tome x1 ∈ X. Seja L um

numero tal que L ≤ Q(x, ω)

Passo 1: Faca k = k + 1 e gere uma observacao ωt de ω indepen-

dente das anteriores.

Passo 2: Calculo de ηk(x), uma aproximacao linear por partes

de Qk:

(a) Resolva o subproblema dual e atualize Vk:

pk(ωk) = argmaxp{pT (hk −Tkxk) | WTp ≤ q} e

Vk = Vk−1 ∪ {pk(ωk)}.(b) Calculo do k-esimo plano de corte:

αkk + βk

kx =1

k

k∑t=1

pk(ωt)(ht − Ttx),

onde pk(ωt) = argmaxp∈Vk{pT (hk − Tkx)}.

(c) Atualizacao dos coeficientes de todos os cortes anteri-ores:

αkt =

k − 1

kαk−1

t +1

kL, βk

t =k − 1

kβk−1

t .

(d) Defina ηk(x) = max1≤t≤k{αkt + βk

t x}.Passo 3: Resolva minx∈X{cx + ηk(x)} e denote por xk+1 a solucao.

Volte ao Passo 1.

Pode-se mostrar que existe uma subsequencia do algoritmo da DE que

converge para a solucao otima do problema (4.8). O algoritmo que apresen-tamos aqui e a versao mais simples da DE. Existem melhorias que estabilizam

o metodo e aumentam sua eficiencia. Para maiores detalhes sobre o algo-ritmo e orientacoes para a implementacao, sugerimos ao leitor o excelente

livro [10].

A DE foi aplicada com sucesso em problemas de grande porte e perma-nece ate hoje como um algoritmo eficiente na resolucao de problemas de

otimizacao estocastica.

Page 73: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

68 III Bienal da Sociedade Brasileira de Matematica

Exercıcios

[01] Considere o problema (4.8), com:

X = [0, 5], x =[

x1], y =

[y1 y2 y3 y4

]T,

c =[ −0.75

], q =

[ −1 3 1 1]T

, h =[

ω1 ω2]T

,

T =

[10 8 0

5 0 8

]e W =

[ −1 1 −1 1

−1 1 1 −1

],

onde ω1 e a distribuicao uniforme no intervalo [−1, 0] e ω2 = 1 + ω1.

Faca tres passos do algoritmo de decomposicao estocastica e encontreuma aproximacao para x.

Page 74: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Apendice A

Probabilidade

Este apendice nao se propoe a ser um resumo completo de probabilidade:queremos definir apenas os conceitos de probabilidade usados no texto. Oleitor interessado em se aprofundar no tema pode consultar [12]. O primeiro

conceito que vamos definir e o de variavel aleatoria. Para isso precisamos deduas definicoes preliminares:

Definicao A.1 Uma colecao nao-vazia de conjuntos F de um con-

junto Ω e dita uma σ-algebra de subconjuntos de Ω se as seguintespropriedades se verificam:

(a) Se A ∈ F entao o complemento Ac de A tambem esta em F .

(b) Se An esta em F , n = 1, 2, . . . , entao⋃∞

n=1 An e⋂∞

n=1 estao em F .

Vamos agora definir o que e uma medida de probabilidade. A partir

desse conceito vamos ser capazes de definir o ambiente onde toda a teoriada probabilidade repousa: o espaco de probabilidade.

Definicao A.2 Uma medida de probabilidade P numa σ-algebra de

subconjuntos F de um conjunto Ω e uma funcao real com domınio Fsatisfazendo as seguintes propriedades:

Page 75: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

70 III Bienal da Sociedade Brasileira de Matematica

(a) P(Ω) = 1.

(b) P(A) ≥ 0 para todo A ∈ F .

(c) Se An, n = 1, 2, . . . , sao conjuntos mutuamente disjuntos em Fentao

P

( ∞⋃n=1

An

)=

∞∑n=1

P(An).

Um espaco de probabilidade (Ω,F , P) e uma tripla formada por umconjunto Ω, chamado espaco amostral, uma σ-algebra F e uma medida

de probabilidade P definida em F . Os elementos de F sao chamadoseventos.

Nao e difıcil construir espacos de probabilidade para situacoes simples.Considere uma urna com s bolas numeradas e suponha que a probabilidade

de se retirar uma dada bola e 1/s, ou seja, todas possuem a mesma proba-bilidade de serem sorteadas. Nesse caso o conjunto Ω e um conjunto com spontos, F e a colecao de todos os subconjuntos de Ω e P e tal que P(A) = j/s

se A possui j pontos.

Um dos conceitos mais importantes de probabilidade e o de independen-

cia. Vamos primeiramente definir o conceito de eventos independentes:

Definicao A.3 Seja (Ω,F , P) um espacos de probabilidade e sejam A

e B eventos. Dizemos que os eventos A e B sao independentes se

P(A ∩ B) = P(A) · P(B).

Tendo construıdo o espaco de probabilidade (ω,F , P), podemos construiro conceito de variavel aleatoria:

Definicao A.4 Uma variavel aleatoria discreta X num espaco de pro-

babilidade (Ω,F , P) e uma funcao X com domınio Ω assumindo valo-res em um subconjunto finito ou enumeravel {x1, x2, . . .} de R tal que

{ω | X(ω) = xi} ∈ F para todo i.

Page 76: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Probabilidade 71

Essa definicao se estende imediatamente para mais dimensoes:

Definicao A.5 Sejam X1, X2, . . . , Xn variaveis aleatoria discretas. O

vetor aleatorio discreto X e definindo por

X = (X1, X2, . . . , Xn).

A variavel aleatoria e uma traducao do conjunto Ω para os numeros reais,onde sabemos trabalhar melhor. Seguindo o exemplo anterior, podemos

definir uma variavel aleatoria no espaco (Ω,F , P) dado. Se ωi, i = 1, . . . , se o elemento de Ω associado a i-esima bola, entao X(ωi) = i e uma variavel

aleatoria em (Ω,F , P).

Definicao A.6 A funcao real f definida por f(x) = P(X = x) e cha-mada funcao densidade da variavel aleatoria X. De maneira similar,

sejam X1, X2, . . . , Xn variaveis aleatorias discretas. A funcao g de Rn,

definida por g(x) = P(X1 = x1, X2 = x2, . . . , Xn = xn), e a densidade

conjunta do vetor aleatorio (X1, X2, . . . , Xn), onde x pertence a Rn.

Ainda no exemplo das bolas, temos que f(x) = 1/s para x = 1, 2, . . . , s

e f(x) = 0 caso contrario. Passemos ao conceito de independencia paravariaveis aleatorias discretas:

Definicao A.7 Sejam X1, X2, . . . , Xn variaveis aleatorias discretas,

com densidades f1, f2, . . . , fn e com densidade conjunta f . Estasvariaveis sao ditas independentes se

f(x1, x2, . . . , xn) = f1(x1) · f2(x2) · · · · · fn(xn).

A seguir vamos definir a esperanca de uma variavel aleatoria discreta.

Page 77: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

72 III Bienal da Sociedade Brasileira de Matematica

Definicao A.8 Seja X uma variavel aleatoria discreta com densidade

f assumindo valores x1, x2, . . . , xj, . . .. A esperanca de X e definidapor

E[X] =

∞∑j=1

xj f(xj),

desde que esse valor seja finito. Se for infinito entao dizemos que aesperanca de X nao esta definida.

Voltando ao nosso exemplo, temos que a esperanca de X e E[X] =

(1 + s)/2. A esperanca e linear:

Lema A.1 Sejam α1, . . . , αn constantes reais e X1, . . . , Xn variaveis

aleatorias. Entao

E

[n∑

i=1

αi Xi

]=

n∑i=1

αi E[Xi].

Outro conceito importante e a variancia de uma variavel aleatoria:

Definicao A.9 Seja X uma variavel aleatoria discreta com densidade

f assumindo valores x1, x2, . . . , xj, . . .. A variancia σ2 de X e definidapor

σ2 =

∞∑j=1

(xj − E[X])f(xj),

desde que esse valor seja finito. Se for infinito, entao dizemos que avariancia de X nao esta definida.

O numero σ e chamado de desvio-padrao.

No exemplo da urna, a variancia de X nao e tao facil de calcular. Epreciso usar a formula da soma de quadrados a seguir:

s∑j=1

j2 =(2s + 1)(s + 1)(s)

6. (A.1)

Page 78: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Probabilidade 73

Usando (A.1), temos que uma expressao para a variancia de X:

σ2(X) =(s + 1)(s− 1)

12.

Para variaveis aleatorias independentes, temos o seguinte resultado:

Lema A.2 Sejam X1, . . .Xn variaveis aleatorias independentes iden-

ticamente distribuıdas, com variancia σ2. Entao

variancia(X1 + · · · + Xn) = n σ2.

Precisamos generalizar esses conceitos para o caso contınuo:

Definicao A.10 Uma variavel aleatoria contınua X num espaco deprobabilidade (Ω,F , P) e uma funcao real X : Ω → R, tal que, paratodo x ∈ R, {ω ∈ Ω | X(ω) ≤ x} ∈ F .

A seguir temos a definicao de funcao distribuicao de uma variavel aleatoria

contınua ou discreta:

Definicao A.11 A funcao distribuicao F de uma variavel aleatoria

discreta ou contınua X definida em (ω,F , P) e definida por

F (x) = P(X ≤ x), −∞ < x < ∞.

Definicao A.12 Se X1, X2, . . . , Xn : Ω → R sao variaveis aleatoriasdefinidas em um espaco de probabilidade (Ω,F , P), entao a funcao

F : Rn → R definida por

F (x1, x2, . . . , xn) = P {X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn}e denominada funcao distribuicao conjunta do vetor aleatorio(X1, X2, . . . , Xn).

Page 79: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

74 III Bienal da Sociedade Brasileira de Matematica

Definicao A.13 Uma funcao densidade f e qualquer funcao nao ne-

gativa tal que ∫ ∞

−∞f(x) dx = 1.

E comum descrever uma variavel aleatoria por sua densidade, pois a partirdela podemos definir uma medida de probabilidade e, consequentemente, sua

funcao distribuicao. Mais precisamente se X e uma variavel aleatoria comdensidade f entao definimos

P (X ≤ x) = F (x) =

∫ x

−∞f(t) dt. (A.2)

Definicao A.14 Seja X uma variavel aleatoria contınua com densi-

dade f . Dizemos que X tem esperanca finita se∫ ∞

−∞|x|f(x) dx < ∞,

e, nesse caso, definimos a esperanca de X como

E[X] =

∫ ∞

−∞xf(x) dx.

Uma generalizacao importante da definicao A.14 vem a seguir:

Definicao A.15 Seja g uma funcao contınua e X uma variavel

aleatoria contınua com funcao densidade f . Entao

E[g(x)] =

∫ ∞

−∞g(x)f(x) dx,

caso a integral exista.

Vamos considerar a variavel aleatoria ξ contınua do problema do jor-

naleiro, que era uniforme entre 50 e 150. Dizer que uma variavel aleatoria

Page 80: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Probabilidade 75

contınua e uniforme e o mesmo que dizer que a densidade de ξ e f(x) = 1/100se 50 ≤ x ≤ 150 e 0 caso contrario. Assim, temos que a funcao distribuicaode ξ e

F (x) =

∫ x

50

1

100dt =

x − 50

100.

Logo, a esperanca de ξ e obtida usando a definicao A.14:

E[ξ] =

∫ 150

50x

1

100dx = 100.

Vamos dar um salto conceitual para enunciar dois dos mais importantesteorema de probabilidade. As demonstracoes nao sao simples e necessitamde conceitos mais avancados de teoria da probabilidade.

Teorema A.1 (Lei Forte dos Grandes Numeros) Sejam

X1, X2, . . . , Xn, . . . variaveis aleatorias independentes identicamentedistribuıdas, com esperanca μ. Entao

X1 + · · ·Xn

n→ μ (quase sempre).

Lembrando que a expressao “quase sempre” significa que o resultado vale a

menos de um conjunto com probabilidade 0. Uma consequencia familiar dalei dos grandes numeros ocorre no experimento de se lancar repetidamente

uma moeda honesta. Associando o valor 1 ao evento “cara” e 0 a “coroa”esperamos que, apos um numero grande de lancamentos, aproximadamentemetade deles de cara e outra metade coroa. Nesse caso, a lei dos grande

numeros nos diz, de fato, que o numero de caras dividido pela quantidadede lancamentos se aproxima de 1/2.

Teorema A.2 (Teorema Central do Limite) ConsidereX1, X2, . . . , Xn, . . . variaveis aleatorias independentes identica-

mente distribuıdas, com esperanca μ e variancia σ2 > 0. SeSn = X1 + · · · + Xn, entao

limn→∞ P

(Sn − nμ

σ√

n≤ x

)=

1√2π

∫ x

−∞e−

y2

2 dy.

Essa convergencia ocorre em distribuicao.

Page 81: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

76 III Bienal da Sociedade Brasileira de Matematica

Em palavras, o que o teorema central do limite diz e que as funcoes distri-buicao das somas parciais Sn devidamente normalizadas, convergem para afuncao distribuicao da variavel aleatoria normal, nao importando a distri-

buicao inicial de Xi! O teorema central do limite possui enunciados equi-valentes que serao uteis no texto. Denotando-se por η(μ, σ2) a normal com

parametros μ e σ2 e considerando-se as hipoteses do Teorema A.2, temos que

√n

(X − μ

σ

)d→ η(0, 1) e

√n(X − μ)

d→ η(0, σ2). (A.3)

A convergencia tambem e em distribuicao, ou seja, as funcoes distribuicao dasvariaveis aleatorias Sn normalizadas convergem para a funcao distribuicao

da normal.

Por fim, apresentamos na Tabela A.1 as variaveis aleatorias usadas notexto e suas respectivas densidades, esperancas e variancias.

Densidade E[X] σ2(X)

Uniforme discretaf(x|s) =

1

s,

x = 1, 2, . . . , s, s = 1, 2, . . ..

s + 1

2

(s + 1)(s − 1)

12

Uniforme contınuaf(x|a, b) =

1

b − a,

a ≤ x ≤ b.

a + b

2

(b − a)2

12

Normal (gaussiana)f(x|μ, σ) =

1√2πσ

e−(x − μ)2

2σ2 ,

−∞ ≤ x ≤ ∞, , μ ∈ R,σ > 0.

μ σ2

Tabela A.1: Variaveis aleatoria usadas no texto.

Page 82: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Apendice B

Estatıstica

Este apendice define os conceitos basicos de estatıstica, necessarios a com-preensao do capıtulo 6. Estatıstica e uma area importante para otimizacao

estocastica, especialmente na parte de algoritmos. E comum usar tecnicasestatısticas para obter aproximacoes de problemas de otimizacao estocastica

difıceis de se resolver analiticamente.

O conceito mais importante de estatıstica e o de estimador.

Definicao B.1 Um estimador e simplesmente uma funcao θ =θ(X1, . . . , Xn) com contradomınio em R

n, onde X1, . . . , Xn saovariaveis aleatorias identicamente distribuıdas.

Nesse texto vamos considerar n = 1. Geralmente, um estimador aproxima

um parametro da densidade de uma variavel aleatoria X, sua esperanca ousua variancia. E o problema inverso da probabilidade: dados n valores de

uma variavel aleatoria desconhecida, queremos obter informacao sobre essavariavel. Vamos ver dois exemplos de estimadores:

X =X1 + · · · + Xn

ne (B.1)

S2 =1

n − 1

n∑i=1

(Xi − X)2 (B.2)

Uma propriedade desejavel de um estimador e que ele seja nao-viesado,

ou seja, que em media o seu valor seja igual ao parametro que ele estima. O

Page 83: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

78 III Bienal da Sociedade Brasileira de Matematica

estimador (B.1) e nao viesado para a esperanca μ de uma variavel aleatoriaX, pois

E[X] =1

nn E[X] = μ.

O estimador S2 em (B.2) e nao-viesado para a variancia σ2 de uma variavelaleatoria X, mas nao vamos mostrar esse fato aqui.

E[S2] = σ2.

Vamos ver um exemplo: suponha que seja dada uma amostra (x1, . . . , xn)de uma variavel aleatoria X normal, com parametro μ desconhecido. Deseja-

se construir um estimador que aproxime esse valor, baseado na amostrafornecida. Uma possibilidade e o estimador X, que em media vale μ. Assim,

uma aproximacao μ para o parametro μ e

μ =x1 + · · · + xn

n.

Como o estimador e uma variavel aleatoria, podemos calcular sua vari-ancia. E preferıvel trabalhar com estimadores de baixa variancia, pois um

numero pequeno de amostras permite aproximar bem o parametro a serestimado. Como exemplo, note que a variancia do estimador X e σ2/n,

onde σ2 e a variancia de Xi.

Apesar do estimador X ser nao-viesado para a esperanca, e importante

obter mais informacao sobre a qualidade da aproximacao que esse estimadorfornece. Essa a ideia dos intervalos de confianca: eles fornecem um intervalo

na reta com a propriedade que o parametro estimado pertence ao intervalocom probabilidade, digamos, 90%.

Antes de prosseguirmos, vamos enunciar um resultado de probabilidadeque sera extremamente util para a construcao a seguir. A demonstracao

pode ser encontrada em [12].

Lema B.1 Sejam X1, . . . , Xn variaveis aleatorias normais comparametros (μi, σ

2i ), i = 1, . . . , n. Entao a variavel aleatoria Y =

X1 + · · · + Xn e normal com parametros (μ, σ2), onde

μ = μ1 + · · · + μn e σ2 = σ21 + · · · + σ2

n.

Page 84: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Estatıstica 79

Para construir um intervalo de confianca, vamos supor que a variavelaleatoria Z e normal com parametros 0 e 1. O estimador X (B.1) se baseianas variaveis aleatorias independentes X1, . . . , Xn, com distribuicao normal

de parametros μ desconhecido e σ2 conhecido. Comece escolhendo um nıvelde confiabilidade α. O parametro a ser estimado, no caso a esperanca μ,

pertencera ao chamado intervalo de confianca com probabilidade 1−α. Es-colhido α, defina zα como sendo numero real tal que

P({Z > zα}) = α. (B.3)

Os valores da normal sao tabelados: para um dado α, basta consultar umatabela da distribuicao normal ([11]) para obter o valor zα correspondente. A

variavel normal tem a propriedade

P(Z > zα) = 1 − P(Z > −zα). (B.4)

Usando (B.4), podemos escrever

P(−zα/2 < Z < zα/2) = 1 − α. (B.5)

O proximo passo e calibrar o estimador X . Como a esperanca de X e μ

e a variancia e σ2/n, a variavel aleatoria√

n(X − μ)/n e uma normal comparametros 0 e 1. Assim, podemos reescrever a equacao (B.5) como

P

(−zα/2 <

√n(X − μ)

σ< zα/2

). (B.6)

Isolando-se μ em (B.6) temos um intervalo (1 − α)% confiavel para μ:

P

(X − zα/2

σ√n

< μ < X + zα/2σ√n

)= 1 − α. (B.7)

Esse intervalo contem o parametro μ a ser estimado com 95% de certeza. Na-turalmente, maior precisao implica em um intervalo maior e menor precisao

implica em um intervalo menor.

Apesar de termos feito as contas supondo que a amostra X1, . . . , Xn ti-vesse distribuicao normal, isso nao e necessario. Pelo teorema central do

limite (A.2), a distribuicao de√

n(X − μ)/n e aproximadamente normalpara n suficientemente grande. No entanto, e importante ressaltar que o

intervalo de confianca construıdo nessa situacao e aproximado.

Page 85: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

80 III Bienal da Sociedade Brasileira de Matematica

Outra hipotese que pode ser relaxada e a do conhecimento da varianciaσ2. Na maioria das situacoes, nao conhecemos com precisao seu valor, maspodemos substituı-lo pelo estimador S2 em (B.2), ou por

√S no caso do

desvio-padrao. Novamente, nao teremos um intervalo de confianca exato,mas aproximado.

Page 86: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Apendice C

Convexidade

Neste apendice apresentaremos as definicoes e propriedades basicas de

funcoes convexas necessarias no texto. As demonstracoes omitidas podemser encontradas em [04].

Definicao C.1 (Conjuntos convexos) Dizemos que U ⊂ Rn e um

conjunto convexo se, e somente se, para todo p,q ∈ U tem-se

(1 − t) · p + t · q ∈ U,

para todo t ∈ [0, 1], isto e, se o segmento de reta que une dois pontos

quaisquer de U esta sempre contido em U .

(a) (b)

Figura C.1: O conjunto da esquerda e convexo enquanto que o da direita naoo e.

Page 87: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

82 III Bienal da Sociedade Brasileira de Matematica

Teorema C.1 Seja {Uλ}λ∈Λ uma famılia de conjuntos convexos em Rn

Entao ⋂λ∈Λ

tambem e um conjunto convexo em Rn.

Definicao C.2 (Funcoes convexas e concavas)

(a) Dizemos que uma funcao f : U ⊂ Rn → R definida em um subcon-

junto convexo U de Rn e convexa se, e somente se,

f((1 − t) · p + t · q) ≤ (1 − t) · f(p) + t · f(q), (C.1)

para todo p,q ∈ U e todo t ∈ [0, 1].

A interpretacao geometrica de (C.1) e a seguinte: o segmento de

reta secante que passa pelos pontos (p, f(p)) e (q, f(q)) sempreesta acima ou coincide com o grafico de f para qualquer escolha

de pontos p e q em U (veja a Figura C.2).

(b) Dizemos que uma funcao f : U ⊂ Rn → R definida em um subcon-

junto convexo U de Rn e concava se, e somente se,

f((1 − t) · p + t · q) ≥ (1 − t) · f(p) + t · f(q), (C.2)

para todo p,q ∈ U e todo t ∈ [0, 1].

A interpretacao geometrica de (C.2) e a seguinte: o segmento dereta secante que passa pelos pontos (p, f(p)) e (q, f(q)) sempre

esta abaixo ou coincide com o grafico de f para qualquer escolhade pontos p e q em U .

O proximo teorema estabelece o motivo de convexidade ser uma propriedadetao desejavel em otimizacao.

Teorema C.2 Se f : U ⊂ Rn → R e convexa, entao todo ponto de

mınimo local de f em U tambem e ponto de mınimo global de f em U .

Page 88: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Convexidade 83

segmento de reta secante

p

y

x

z

q

(1— t) p+t q. .

gráfico de f

Figura C.2: Para uma funcao convexa, o segmento de reta secante fica sem-pre acima ou coincide com o grafico da funcao, para quaisquerescolhas de p e q.

Teorema C.3 Se f1 : U ⊂ Rn → R e f2 : U ⊂ R

n → R sao funcoes

convexas, entao:

(a) A funcao α1f1 + α2f2 e convexa para todo α1, α2 ∈ R+.

(b) A funcao x �→ max{f1(x), f2(x)} e convexa.

Page 89: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

84 III Bienal da Sociedade Brasileira de Matematica

Teorema C.4 Seja f : U ⊂ Rn → R uma funcao de classe C1 definida

em um subconjunto convexo U de Rn.

(a) f e uma funcao convexa em U se, e somente se,

f(q) ≥ f(p) + ∇f(p) · (q− p), (C.3)

para todo p,q ∈ U , isto e, se, e somente se, cada hiperplano

tangente ao grafico de f esta sempre abaixo ou coincide com ografico de f .

(b) f e uma funcao concava em U se, e somente se,

f(q) ≤ f(p) + ∇f(p) · (q− p), (C.4)

para todo p,q ∈ U , isto e, se, e somente se, cada hiperplanotangente ao grafico de f esta sempre acima ou coincide com o

grafico de f .

Aqui ∇f(p) denota o vetor gradiente de f em p.

0

y

x

gráfico de f

Figura C.3: Para uma funcao convexa, cada reta tangente ao grafico de festa sempre abaixo do grafico de f .

Page 90: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Convexidade 85

Definicao C.3 (Semiplanos e Semi-Espacos) Seja a um vetor

nao-nulo em Rn e seja c um numero real. Os conjuntos

H+ = {x ∈ Rn | ax ≥ c} e H− = {x ∈ R

n | ax ≤ c}sao denominados, respectivamente, semi-espacos fechados correspon-dentes ao semiplano H = {x ∈ R

n | ax = c}.

Por linearidade, segue-se que semiplanos e semi-espacos sao conjuntosconvexos.

Definicao C.4 (Politopos e Poliedros) Um politopo e um conjunto

que pode ser expresso como a intersecao de um numero finito de semi-espacos fechados. Um poliedro e um politopo limitado. Note que poli-

topos e poliedros sao conjuntos convexos.

Page 91: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Apendice D

Programacao Linear

Neste apendice apresentaremos as definicoes e propriedades basicas da

teoria de programacao linear necessarias no texto. Para detalhes, demons-tracoes e extensoes, recomendamos os excelentes livros [05, 06, 07, 16].

Um programa linear e um problema de otimizacao onde a funcao objetivo

e as restricoes sao todas lineares. Dizemos que um programa linear esta naforma padrao se todas as variaveis de decisao sao nao-negativas e se todasas restricoes sao em igualdade:

minimizarx1,x2,...,xn

∈ R c1x1 + c2x2 + · · · + cnxn

sujeito a a11x1 + a12x2 + · · · + a1nxn = b1,a21x1 + a22x2 + · · · + a2nxn = b2,

......

......

......

am1x1 + am2x2 + · · · + amnxn = bm,

e x1 ≥ 0, x2 ≥ 0, . . . , xn ≥ 0.

Todo programa linear pode ser reescrito na forma padrao com o uso de

variaveis de folga. Por exemplo, uma restricao da forma

ai1x1 + ai2x2 + · · · + ainxn ≤ bi

pode ser substituıda, de maneira equivalente, pelas restricoes

ai1x1 + ai2x2 + · · · + ainxn + yi = bi e yi ≥ 0.

Page 92: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear 87

Se uma variavel de decisao xi pode assumir qualquer valor real, isto e, senao existe restricao de nao-negatividade em xi, entao podemos substituir xi

por ui − vi, a diferenca de dois numeros positivos.

Um programa linear pode ser escrito de forma mais compacta usando-se

matrizes e vetores:

minimizarx∈Rn

cTx

sujeito a Ax = b e x ≥ 0,(D.1)

onde x ∈ Rn, c ∈ R

n, h ∈ Rm e A e uma matriz m × n.

Na teoria de programacao linear, assume-se que m < n (existem maisincognitas do que restricoes em igualdade) e que o posto da matriz A e m,isto e, as m linhas de A sao linearmente independentes. Da teoria de Algebra

Linear sabemos, entao, que existem m colunas de A que sao linearmenteindependentes. Renomeando-se ındices se necessario, podemos assumir que

estas colunas sejam as m primeiras. Isto induz uma decomposicao de A ede x:

A =[

B C], x =

[xB

xC

],

onde B e uma matriz m × m inversıvel. Como o sistema linear Ax = be equivalente a BxB + CxC = b, segue-se entao que existe uma solucao x

de Ax = b na forma [xB

0

].

Esta solucao e denominada solucao basica do sistema linear Ax = b asso-ciada a base B. As componentes de xB sao denominadas variaveis basicas.

Teorema D.1 (Teorema Fundamental da Programacao Li-near) Considere um programa linear na forma padrao (D.1), com Amatriz m × n de posto m.

(a) Se o programa linear possui um ponto admissıvel, entao ele pos-sui um ponto admissıvel que e uma solucao basica do sistema li-

near Ax = b.

(b) Se o programa linear possui um ponto otimo, entao ele possui um

ponto otimo que e uma solucao basica do sistema linear Ax = b.

Page 93: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

88 III Bienal da Sociedade Brasileira de Matematica

O proximo teorema da uma interpretacao geometrica para pontos ad-missıveis que sao solucoes basicas: eles correspondem aos pontos extremos(vertices) do politopo K = {x ∈ R

n | Ax = b e x ≥ 0}.

Definicao D.1 (Ponto Extremo) Dizemos que um ponto x em um

conjunto convexo U e ponto extremo de U se nao existem dois outrospontos distintos x1 e x2 em U tais que x = αx1 + (1 − α)x2 paraalgum α no intervalo (0, 1).

Teorema D.2 (Equivalencia entre Pontos Extremos e Solucoes

Basicas) Seja A uma matriz m × n de posto m, b um vetor em Rm

e K = {x ∈ Rn | Ax = b e x ≥ 0} o conjunto admissıvel de (D.1).

Entao x e um ponto extremo de K se, e somente se, x e um pontoadmissıvel que e solucao basica de Ax = b.

Os teoremas (D.1) e (D.2) dizem que, para se resolver o problema (D.1),nao e preciso considerar todos os pontos do conjunto admissıvel K: basta pro-

curar pelo ponto otimo entre os pontos extremos (vertices) de K! O metodosimplex explora esta estrutura para construir um algoritmo muito popular

para se revolver (D.1). Outra categoria de metodos que recentemente ga-nhou bastante popularidade e a classe dos metodos de ponto interior. Nao

e nosso proposito estudar estes algoritmos aqui. O leitor interessado poderaconsultar os livros [05, 06, 07, 16]. O que e preciso se ter em mente e que

programas lineares podem ser resolvidos numericamente de maneira muitoeficiente nos dias de hoje. E por este motivo que, em otimizacao estocastica,existe esta quase que obsessiva diretiva de converter tudo o que se pode para

programas lineares.

A seguir estabeleceremos resultados sobre dualidade, um conceito funda-mental e muito util em programacao linear.

Definicao D.2 (O problema dual) O problema dual de

minimizarx∈Rn

cTx

sujeito a Ax = b e x ≥ 0,(D.1)

Page 94: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Programacao Linear 89

e o programa linear

maximizarλ∈Rm

λTb

sujeito a ATλ ≤ c,(D.2)

onde λTb =∑m

i=1 λibi. (D.2) e denominado o problema dual de (D.1).

Neste contexto, (D.1) e denominado problema primal.

Teorema D.3 (Teorema fraco de dualidade) Se x e λ sao ad-missıveis para os problemas (D.1) e (D.2), respectivamente, entao

cx ≥ λb.

Este teorema mostra que um ponto admissıvel para um dos problemas

fornece uma cota para o valor da funcao objetivo do outro problema. Osvalores associados com o problema primal sao sempre maiores ou iguais aos

valores associados com o problema dual. Como corolario, vemos que se umpar de pontos admissıveis pode ser encontrado para os problemas primal e

dual com valores iguais da funcao objetivo, entao estes pontos sao otimos.

Teorema D.4 Se um dos problemas (D.1) ou (D.2) tem uma solucaootima finita, entao o outro tambem tera uma solucao otima finita e,

neste caso, os valores das respectivas funcoes objetivo sao iguais. Sea funcao objetivo do problema primal nao e limitada inferiormente,

entao o conjunto admissıvel do problema dual e vazio e, se a funcaodo objetivo do problema dual nao limitada superiormente, entao o

conjunto admissıvel do problema primal e vazio.

Por fim, gostarıamos de observar que se a funcao objetivo do programa

linear (D.1) nao e limitada inferiormente no conjunto admissıvel

K = {x ∈ Rn | Ax = b e x ≥ 0} ,

entao existem ponto extremo x e raio extremo r de K tal que o valor da

funcao objetivo de (D.1) em x = x + t r tende a −∞ quando t tende a +∞.Em particular,

cT r < 0.

Page 95: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

90 III Bienal da Sociedade Brasileira de Matematica

Dizemos que r e um raio de K se, e somente se, r = 0 e o conjunto{p ∈ R

n | p = x + t r e t ≥ 0} esta contido em K para todo x ∈ K.Um raio r de K e extremo, se nao existem outros dois raios r1 e r2 de K

(com r1 = t r2 para todo t > 0) e um escalar s no intervalo (0, 1) tal quer = s r1 + (1 − s) r2.

0 x 1

x 2

r2

r1

r3K

Figura D.1: Os vetores r1 e r2 nao sao raios extremos de K. O vetor r3 e umraio extremo de K.

Page 96: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

Bibliografia

[01] G. Beek, J. Blatt, M. Koschat, N. Kunz, M. LePore e S. Blyakher,News Vendors Tackle The News Vendor Problem. Interfaces, v. 33,

n. 3, pp. 72–84, 2003.

[02] D. Bell, Incorporating The Customer’s Perspective into The Newsven-

dor Problem. Preprint, Harvard Business School, 2003.

[03] J. R. Birge e F. Louveaux, Introduction to Stochastic Programming.

Springer Series in Operations Research, Springer-Verlag, 1997.

[04] S. Boyd e L. Vandenberghe, Convex Optimization. Cambridge Univer-

sity Press, 2005.

Disponıvel em: http://www.stanford.edu/∼boyd/cvxbook/.

[05] V. Chvatal, Linear Programming. W. H. Freeman and Company, 1983.

[06] G. B. Dantzig e M. N. Thapa, Linear Programming 1: Introduction.

Springer Series in Operations Research, Springer-Verlag, 1997.

[07] G. B. Dantzig e M. N. Thapa, Linear Programming 2: Theory and

Extensions. Springer Series in Operations Research, Springer-Verlag,2003.

[08] R. Fourer, D. M. Gay, B. W. Kernighan, AMPL: A Modeling Languagefor Mathematical Programming. Duxbury Press, 2002.

[09] W. K. K. Haneveld e M. H. van der Vlerk, Stochastic Programming.Lecture notes, Departament of Econometrics & OR, University of Gro-ningen, 2004.

[10] J. Higle e S. Sen, Stochastic Decomposition: A Statistical Method forLarge Scale Stochastic Linear Programming. Nonconvex Optimization

and Its Applications, Kluwer Academic Research, 1996.

Page 97: Uma Introduç˜ao `a Otimizaç˜ao sob Incerteza

92 III Bienal da Sociedade Brasileira de Matematica

[11] W. Hines e D. Montgomery, Probability and Statistics in Engineeringand Management Science. John Willey & Sons, 1990.

[12] P. Hoel, S. Port e C. Stone, Introduction to Probability Theory. Hough-ton Mifflin Company, 1971.

[13] P. Kall e J. Mayer, Stochastic Linear Programming: Models, Theory,

and Computation. International Series in Operations Research & Ma-nagement Science, Springer-Verlag, 2005.

[14] P. Kall e S. W. Wallace, Stochastic Programming. Wiley-InterscienceSeries in Systems and Optimization, John Willey & Sons, 1995.

[15] J. Linderoth, A. Shapiro, S. Wright, The Empirical Behavior of Sam-pling Methods for Stochastic Programming. Annals of Operations Re-

search, n. 142, pp. 215–241, 2006.

[16] D. G. Luenberger, Linear and Nonlinear Programming. Addison-Wesley Publishing Company, 1989.

[17] A. Ruszcynski e A. Shapiro, Stochastic Programming. Handbooks inOperations Resarch and Management Science, vol. 10, Elsevier, 2003.

[18] R. J.-B. Wets e C. Witzgall, Algorithms for Frames and Linearity Spa-ces of Cones. Journal of Research of the National Bureau of Standards

Section, B 71B, pp. 1–7, 1967.