2 2wwllpl]]ddomr gh 33urfhvvrv - ftp.feq.ufu.brftp.feq.ufu.br/luis_claudio/books/otimiza.pdf ·...

81,9(56,'$'()('(5$/'25,2*5$1'('268/

(6&2/$'((1*(1+$5,$

&8562'(3Ï6*5$'8$d2(0(1*(1+$5,$48Ë0,&$

²22WWLLPPLL]]DDoommRRGGHH33UURRFFHHVVVVRRVV²

3URI$UJLPLUR56HFFKL

− −

Otimização de Processos - Prof. Argimiro R. Secchi - CPGEQ/UFRGS

2

&&RRQQWWHH~~GGRR

)2508/$d2'(352%/(0$6

1.1 APLICAÇÕES .............................................................................................................................................5

1.2 NOMENCLATURA ......................................................................................................................................7

1.3 PROCEDIMENTO GERAL...........................................................................................................................10

1.4 DIFICULDADES ENCONTRADAS................................................................................................................10

&21&(,726%È6,&26

2.1 MÍNIMOS E MÁXIMOS ..............................................................................................................................11

2.2 CONDIÇÕES PARA A OTIMALIDADE ..........................................................................................................11

2WLPL]DomRVHPUHVWULomR

2WLPL]DomRFRPUHVWULoHV

2.3 CONVEXIDADE ........................................................................................................................................24

*HQHUDOL]DomRGHIXQoHVFRQYH[DV

2.4 FORMAS FUNCIONAIS ..............................................................................................................................29

2.5 ÁLGEBRA VETORIAL................................................................................................................................32

EXERCÍCIOS DE FIXAÇÃO...............................................................................................................................33

27,0,=$d26(05(675,d2

3.1 MÉTODOS DE BUSCA MONOVARIÁVEL E MULTIVARIÁVEL .......................................................................34

0pWRGRGDVHomRiXUHD

0pWRGRGDDSUR[LPDomRSROLQRPLDO

0pWRGRGHEXVFDVHFFLRQDGD

0pWRGRGH+RRNH-HHYHV

0pWRGRGH5RVHQEURFN

0pWRGRGH3RZHOO

0pWRGRGHEXVFDGHOLPLWHV

0pWRGRGRVSROLHGURVIOH[tYHLV


3

0pWRGRVGHEXVFDDOHDWyULD

3.2 MÉTODOS ANALÍTICOS (MÉTRICA VARIÁVEL) .........................................................................................54

0pWRGRVJUDGLHQWHV

0pWRGRGH1HZWRQ

0pWRGRGRJUDGLHQWHFRQMXJDGR

0pWRGRVGDPpWULFDYDULiYHO

7(25,$'$'8$/,'$'(

4.1 PROBLEMA PRIMAL .................................................................................................................................66

4.2 PROBLEMA DUAL ....................................................................................................................................67

4.3 INTERPRETAÇÃO GEOMÉTRICA DO DUAL.................................................................................................68

4.4 DUALIDADE FRACA E FORTE....................................................................................................................71

352*5$0$d2/,1($5/3

5.1 FUNDAMENTOS .......................................................................................................................................75

5.2 MÉTODO SIMPLEX ...................................................................................................................................77

3ULPHLUDVROXomRYLiYHO

)RUPDSDGUmR

5.3 MÉTODO DO PONTO INTERIOR (KARMARKAR) ........................................................................................83

352*5$0$d212/,1($51/3

6.1 PROGRAMAÇÃO QUADRÁTICA (QP)........................................................................................................86

6.2 RELAXAÇÃO LAGRANGEANA ..................................................................................................................90

6.3 FUNÇÕES PENALIDADE............................................................................................................................93

6.4 PROGRAMAÇÃO LINEAR SEQÜENCIAL (SLP) ...........................................................................................97

6.5 GRADIENTES REDUZIDOS GENERALIZADOS (GRG)..................................................................................98

6.6 PROGRAMAÇÃO QUADRÁTICA SEQÜENCIAL (SQP) ...............................................................................103

([HUFtFLRVGHIL[DomR

6.7 OTIMIZAÇÃO MULTI-OBJETIVO ..............................................................................................................109


4

352*5$0$d2,17(,5$0,67$

7.1 PROGRAMAÇÃO DINÂMICA....................................................................................................................121

7.2 PROGRAMAÇÃO LINEAR INTEIRA MISTA (MILP) ...................................................................................123

3ULQFtSLRGRVPpWRGRVGRVSODQRVGHFRUWH

0pWRGRGHEUDQFKDQGERXQG

7.3 PROGRAMAÇÃO NÃO LINEAR INTEIRA MISTA (MINLP).........................................................................132

'HFRPSRVLomR*HQHUDOL]DGDGH%HQGHUV*%'

$SUR[LPDoHV([WHUQDV2$

$SUR[LPDoHV([WHUQDVFRP5HOD[DPHQWRGH,JXDOGDGH2$(5

$SUR[LPDoHV([WHUQDVFRP5HOD[DPHQWRGH,JXDOGDGHH3HQDOLGDGH$XPHQWDGD2$(5$3

$SUR[LPDomR([WHUQD*HQHUDOL]DGD*2$

'HFRPSRVLomR&UX]DGD*HQHUDOL]DGD*&'

%UDQFKDQG%RXQG(VSDFLDO6%%

27,0,=$d2'(352&(6626',1Æ0,&26

8.1 FORMULAÇÃO DA FUNÇÃO OBJETIVO E RESTRIÇÕES .............................................................................149

8.2 PRINCÍPIO DO MÍNIMO DE PONTRYAGIN ................................................................................................151

8.3 CONTROLE ÓTIMO .................................................................................................................................158

(;(5&Ë&,26

%,%/,2*5$),$%È6,&$


5

))RRUUPPXXOODDoommRRGGHH33UURREEOOHHPPDDVV

Os componentes chaves da formulação de um problema de otimização são:

1) A função objetivo

2) O modelo do processo

3) As restrições

A função objetivo representa lucro, custo, energia, produção, distância, etc., emtermos das variáveis de decisão do processo ou sistema em análise. O modelo doprocesso e as restrições descrevem as inter-relações entre estas variáveis.

$$SSOOLLFFDDooHHVV

As técnicas de otimização, que buscam a melhor solução para um problema(máximos ou mínimos de grandezas mensuráveis em seus domínios de definição),fazem-se necessárias em muitas áreas da engenharia, tais como:

• pesquisa operacional: otimização de sistemas técnico-econômicos, controlede estoques, planejamento de produção, etc.;

• projeto de processo: dimensionamento e otimização de processos, integraçãomássica e energética de processos, estimação de parâmetros, reconciliaçãode dados, análise de flexibilidade, etc.;

• controle de processo: identificação de sistemas, controle ótimo, controleadaptativo, controle preditivo, estimadores de estados, etc.;

• análise numérica: aproximações, regressão, solução de sistemas lineares enão-lineares, etc.

A otimização pode ser efetuada em diferentes níveis dentro de uma empresa,desde uma combinação complexa de plantas e unidades de suprimentos, passandopor plantas individuais, combinações de unidades, equipamentos, peças deequipamentos, até entidades menores. Portanto, o escopo de um problema deotimização pode ser toda a empresa, uma planta, um processo, uma equipamento,uma peça de um equipamento, ou qualquer sistema intermediário entre estes. Emuma indústria típica existem três níveis que podem ser otimizados: nível gerencial,nível de projeto de processo e especificação de equipamento e nível de operação deplantas.


6

Existe uma série de atributos de processos que afetam os custos ou lucros,tornando-os atrativos para aplicação de otimização, tais como:

- vendas limitadas pela produção Å aumento de capacidade produtiva

- vendas limitadas pelo mercado Å aumento de eficiência ou produtividade

- grandes unidades de processamento Å redução dos custos de produção

- elevados consumos de matéria-prima ou energia Å redução do consumo

- qualidade do produto superior às especificações Å operar perto das restrições

- perda de componentes valiosos para os efluentes Å ajustes e re-aproveitamentos

- alto custo de mão-de-obra Å automação e replanejamento das unidades.

([HPSOR No projeto de um sistema de resfriamento representado abaixo:

deseja-se dimensionar os trocadores de calor de modo a resfriar a corrente atemperatura Wo para W3 com o menor custo possível. Uma análise econômica levou aseguinte expressão do custo do sistema:

custo por unidade: F D $ E : = +

custo total: F F7 LL

==∑

1

3

onde o coeficiente D é função do tipo de trocador de calor e do fluido refrigerante eE é o custo unitário do refrigerante. Uma análise técnica (balanço de energia) gerouas seguintes relações restritivas:

$) &S

8

W 7

W 7L

L

L L

L L

=−

−

−ln 1 e :

)&SW W = −−λ

( )1

onde &S é o calor específico da corrente, 8i é o coeficiente global de troca térmica eλi é o calor de vaporização do refrigerante. Portanto, dados os tipos de trocadores decalor e fluidos refrigerantes, e conhecidas as temperaturas 7i e as propriedades &S, λi

$1, 81

:1, 71

:1, 71

), Wo$2, 82

:2, 72

:2, 72

), W1$3, 83

:3, 73

:3, 73

), W2 ), W3


7

e 8i, o problema de levar a corrente (), Wo) para a condição (), W3) da maneira maiseconômica possível, consiste em minimizar F no projeto dos trocadores de calor.

11RRPPHHQQFFOODDWWXXUUDD

No contexto de otimização os problemas são tratados dentro da seguintesdefinições:

IXQomRREMHWLYR: é a função matemática cujo máximo ou mínimo deseja-sedeterminar. No exemplo acima a função objetivo é o custo total.

YDULiYHLVGHGHFLVmR: são as variáveis independentes que aparecem na funçãoobjetivo. Correspondem, em número, ao excesso de variáveisem relação ao número de equações (restrições de igualdade),isto é, o JUDXGH OLEHUGDGH do sistema. No exemplo acimatem-se 6 equações (3 para $ e 3 para : ) e 8 variáveis (W1, W2,$ e : ), portanto 2 variáveis de decisão ou grau de liberdadeigual a 2.

UHVWULoHV: são os limites impostos ao sistema ou estabelecidos pelas leis naturaisque governam o comportamento do sistema, a que estão sujeitas asvariáveis de decisão. As restrições podem ser de igualdade (equações)ou de desigualdade (inequações). No exemplo acima tem-se 6 restriçõesde igualdade e 3 restrições de desigualdade: W3 ≤ W2 ≤ W1 ≤ Wo.

UHJLmRGHEXVFD: ou região viável, é a região do espaço definido pelas variáveis dedecisão, delimitada pelas restrições, em cujo interior ou em cujafronteira se localiza o ótimo da função objetivo. No exemploacima, tomando W1 e W2 como variáveis de decisão, a região debusca é aquela delimitada pelas restrições de desigualdade.

W2

W1

W3

Wo

W1 ≥ W2


8

No exemplo acima, o problema de otimização foi gerado pela busca de umprojeto ótimo do processo. Outra aplicação típica de técnicas de otimização aparecena melhoria das condições de operação de um processo em produção.

([HPSOR No processo de extração por solvente puro, ilustrado abaixo, deseja-seencontrar a condição de operação com a maior lucratividade possível.

onde : e :¶ são vazões mássicas de solvente, ) é a vazão mássica de água, [ é a massa de soluto por unidade de massa de água e \ é a massa de soluto porunidade de massa de solvente. Uma análise econômica levou a seguinte expressão dolucro do sistema:

lucro: / = 5 – &receita: 5 = 3 (:¶1 \1 + :¶2 \2)custo: & = 3 (:1 + :2)restrição: 5 > &

onde 3 é o preço do soluto no extrato, 3 é o preço do solvente puro. Uma análisetécnica gerou as seguintes relações restritivas:

balanços de massa para o soluto: ) [o – :¶1\1 –)[1 = 0

F [1 – :¶2 \ 2 – ) [2 = 0

balanços de massa para o solvente: :1 – :¶1 – V) = 0

:2 + V) – :¶2 – V) = 0

relações de equilíbrio: \1 = P[1

\2 = P [2

onde V é a solubilidade do solvente em água (massa de solvente / massa de água) eP é a constante de equilíbrio entre as fases. Portanto, dados ), [o, V, P, 3 e 3 , oproblema de extrair o soluto da água da maneira mais lucrativa possível, consiste emmaximizar / em função das condições de operação. Este exemplo possui também 6equações (4 equações de balanço de massa e 2 equações de equilíbrio) e 8 variáveis

1

:1

:¶1, \1

), [o2

:2

:¶2, \2

), [1 ), [2


9

(: , :¶ , \ , [1 e [2), tendo portanto 2 variáveis de decisão, ou dois graus deliberdade. Tomando [1 e [2 como variáveis de decisão, a região de busca para oproblema de otimização está delimitada pelas seguintes restrições de desigualdade:

[o > [1 > [2 > 0

/([1,[2) > 0

A figura abaixo ilustra a região de busca para ) = 1,0 x 104 kg-água / h, [o =0,02 kg-soluto / kg-água, V = 7,0 x 10-4 kg-solvente / kg-água, P = 4,0 kg-água / kg-solvente, 3 = 0,4 R$ / kg-soluto e 3 = 0,01 R$ / kg-solvente.

0.005 0.01 0.015 0.02 0.025 0.03

0.005

0.01

0.015

0.02

X1

X2

0

5

10

15

18

Outra aplicação muito comum, que utiliza as técnicas de otimização, é oajuste de modelos matemáticos a dados experimentais (ajuste de curvas), onde afunção objetivo utilizada, 6([), é formada pelos quadrados dos desvios do modeloem relação aos dados experimentais (mínimos quadrados):

6 [ \ [ \

( ) [ ( ) ]exp= −=∑ 2

1

onde \([) é o modelo proposto (ou tipo de curva) para ser ajustado aos 1 dadosexperimentais \exp, e [ são os parâmetros de ajuste do modelo. Ou, se for utilizado ométodo da máxima verossimilhança:

6 [ \ [ \

( ) [ ( ) ]exp= −=∑ 1

22

1 σ

onde σ 2 são as variâncias dos dados experimentais.

inviável

economicamente


10

33UURRFFHHGGLLPPHHQQWWRRJJHHUUDDOO

Não existe um único método que pode ser aplicado eficientemente para todosos problemas. O método escolhido para um caso particular depende dascaracterísticas da função objetivo, da natureza das restrições e do número devariáveis do problema. Contudo, os seguintes passos devem ser observados nasolução de um problema de otimização:

1) Análise do processo e suas variáveis;

2) Determinação do critério para otimização e especificação da função objetivo emtermos das variáveis do processo;

3) Desenvolvimento do modelo para o processo, relacionando as suas variáveisatravés de restrições de igualdade e desigualdade. Cálculo do grau de liberdadedo sistema;

4) Se a formulação do problema é de dimensão elevada, então procurar particionar oproblema em partes menores ou simplificar a função objetivo e/ou o modelo;

5) Aplicação de técnicas apropriadas de otimização;

6) Analisar a solução obtida e a sua sensibilidade frente a variações em parâmetrosdo modelo e suas considerações (hipóteses).

''LLIILLFFXXOOGGDDGGHHVVHHQQFFRRQQWWUUDDGGDDVV

Problemas de otimização que apresentam funções objetivo e/ou restriçõescomplicadas podem apresentar grandes dificuldades para obter a solução pelo uso dealgumas técnicas de otimização. Algumas destas complicações estão listadas abaixo:

- função objetivo e/ou restrições podem apresentar descontinuidades;

- função objetivo e/ou restrições não lineares;

- função objetivo e/ou restrições podem estar definidas em termos de complicadasinterações entre as variáveis, podendo ocorrer valores não únicos destas variáveispara o valor ótimo da função objetivo;

- função objetivo e/ou restrições podem exibir patamares (pouca sensibilidade àvariação das variáveis) para alguns intervalos das variáveis e comportamentoexponencial (muita sensibilidade) para outros intervalos;

- função objetivo pode apresentar ótimos locais.


11

&&RRQQFFHHLLWWRRVV%%iiVVLLFFRRVV

00ttQQLLPPRRVVHHPPii[[LLPPRRVV

Seja uma função 6: ; ⊆ ℜn → ℜ. Diz-se que [* é um mínimo global (ouabsoluto) de 6 se 6([*) ≤ 6([) ∀ [ ∈ ;, e que [* é um mínimo local (ou relativo) de 6se existe ε > 0, tal que 6([*) ≤ 6([) ∀ [ tal que ||[ − [*|| < ε. Se as desigualdadesforem estritas, isto é, 6([*) < 6([) tem-se mínimos globais e locais estritos.

Se existe um número β tal que 6([) ≥ β ∀ [ ∈ ; e, para um ε suficientementepequeno, 6([) < β + ε para algum [ ∈ ;, então β é o ínfimo (ou valor inferior) de6([). Considerando os pontos ±∞, então toda função 6([) tem um ínfimo e umsupremo (ou valor superior) em ;. Nem toda função tem mínimo (máximo), mas seele existir deve ser finito e é obtido no ínfimo (supremo), isto é,

6([ ) = )(inf)(min [6[6;[;[ ∈∈

= [6([ ) = )(sup)(max [6[6;[;[ ∈∈

= ]

Por exemplo, a função 6([) = H não tem máximo em ; = ℜ e a função 6([) = H não

tem mínimo em ; = ℜ. Contudo, o supremo de H é +∞, e o ínfimo de H é zero.

&&RRQQGGLLooHHVVSSDDUUDDDDRRWWLLPPDDOOLLGGDDGGHH

22WWLLPPLL]]DDoommRRVVHHPPUUHHVVWWUULLoommRR

No caso da otimização sem restrições, onde deseja-se encontrar os pontosextremos da função objetivo, tem-se as seguintes condições de otimalidade.

• Condição necessária de primeira ordem:

[

6([)mínimos locais

mínimo global


12

Para que [* seja um mínimo (máximo) local da função 6([), diferenciável em[*, é necessário que:

∇6([*) = 0

• Condição necessária de segunda ordem:

Para que [* seja um mínimo (máximo) local da função 6([), duas vezesdiferenciável em [*, é necessário que:

∇6([*) = 0 e que

+([*) ≡ ∇26([*) seja positiva (negativa) semidefinida

onde +([*) é chamada de matriz Hessiana.

Observa-se que estas condições são apenas necessárias porque os termos deprimeira e segunda ordem podem estar nulos, deixando ainda dúvida sobre anatureza de [*.

• Condição suficiente:

Seja 6([) duas vezes diferenciável em [* tal que:

∇6([*) = 0 e

+([*) seja positiva (negativa) definida

então [* é um mínimo (máximo) local estrito de 6.

Pode-se analisar a condição da matriz Hessiana, +([*), pelas seguintesformas:

1) Pela sua contribuição no termo de segunda ordem da expansão em série de Taylorem torno do ponto ótimo.

L+−−=− *)(*)(*)(2

1*)()( [[[+[[[6[6

2) Pelos sinais dos valores característicos de +([*).

Decompondo a matriz Hessiana em seus valores e vetores característicos:

+([*) = 9Λ9-1

onde 9 é a matriz dos vetores característicos (nas colunas) e Λ é a matriz dos valorescaracterísticos (na diagonal). Definindo ]([) 9-1 ([ [ ) e lembrando que sendo a


13

matriz Hessiana simétrica então 9-1 = 9 (matriz ortogonal) e ([[ )

9 = zT. Desta

forma a expansão em série de Taylor pode ser escrita como:

LL +λ=+Λ=− ∑=

]]][6[61

2

2

1

2

1*)()(

3) Pelos sinais dos determinantes das primeiras menores principais de +([*) (critériode Sylvester).

A PHQRU 0 de uma matriz + é definida como a matriz obtida pela remoçãoda L-ésima linha e da M-ésima coluna de +. Uma PHQRUSULQFLSDO de ordem N é umamatriz obtida pela remoção de quaisquer Q – N colunas e suas linhas correspondentesde uma matriz de ordem Q. A SULPHLUDPHQRUSULQFLSDO de ordem N de uma matriz +,denotada por 0 (+), é obtida pela remoção das últimas Q– N colunas e linhas damatriz +. Observa-se que os determinantes das primeiras menores principais deordem 1,2,...,Q da matriz Λ são, respectivamente: λ1, λ1λ2, ..., λ1λ2λ3⋅⋅⋅λ .

Na tabela a seguir apresenta-se as relações entre a matriz Hessiana e as trêsformas de analisar a sua condição.

+([*) Taylor λ ∆ = det (0 )positiva semidefinida [

T + [ ≥ 0 ≥ 0 ≥ 0

positiva definida [T + [ > 0 > 0 > 0

negativa semidefinida [T + [ ≤ 0 ≤ 0 (-1)

∆ ≥ 0

negativa definida [T + [ < 0 < 0 (-1)

∆ > 0

não definida [T + [

<> 0

<> 0 ≠ dos acima

Desta forma, pode-se afirmar que [* é:

• ponto de mínimo local se +([*) for positiva definida, 6([) > 6([*)

• ponto de máximo local se +([*) for negativa definida, 6([) < 6([*)

• ponto de sela se +([*) for não definida, ora 6([) > 6([*) e ora 6([) < 6([*)

Nas situações onde +([*) é semidefinida deve-se ainda investigar os termosde ordem superior da expansão em série de Taylor.


14

([HPSOR 6([) = ([2 – 1)3

∇6([) = 6 [ ([2 – 1)2 → ∇6([) = 0 [

[

[

1

2

3

01

1

=== −

, satisfazem a condição necessária de

primeira ordem;

+([) = ([2 – 1) (30 [2 – 6) → +([1) = 6; +([2) = 0; +([3) = 0 satisfazem acondição necessária de segunda ordem; contudo somente [1 satisfaz a condiçãosuficiente. Neste caso (univariável) [2 e [3 são pontos de inflexão, como pode servisto no gráfico abaixo, ou avaliando o valor da derivada terceira de 6([) nestespontos:

∇36([) = 24 [ (5 [2 – 3) → ∇3

6([2) = 48 ≠ 0 e ∇36([3) = – 48 ≠ 0.

6[

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

[

([HPSOR 6 [ [ [ [ [( , )1 2 12

1 22= +

∇ = +

6 [[ [

[ [( ) 2

21 2

2

1 2

então, [1* = [2* = 0, e:

=

12

2

22

22)(

[[

[[+ → + [( *) =

2 00 0

isto é, uma matriz positiva semidefinida. O gráfico abaixo ilustra a função 6([), ondeobserva-se que [* = 0 não é um ponto de mínimo.


15

-5

0

5

-5

0

5-100

-50

0

50

100

150

x1x2

S(x

)


16

22WWLLPPLL]]DDoommRRFFRRPPUUHHVVWWUULLooHHVV

Seja o problema de otimização sujeito a restrições de igualdade, K([), edesigualdade, J([):

min 6([)

sujeito a: K ([) = 0 , M = 1, 2, ..., P

g ([) ≤ 0 , M = 1, 2, ..., S

[ ∈ ; ⊆ ℜ

onde 6([), J([), e K([) ∈ &2. O conjunto de todos os pontos viáveis é definido por:

. = [ ∈ ;⊆ ℜ / K([) = 0, g([) ≤ 0

Uma restrição de desigualdade g ([) é chamada de DWLYD em um ponto viável[ se g ( [ ) = 0, caso contrário ela é uma UHVWULomR LQDWLYD. As restrições ativasrestringem a região de viabilidade, enquanto que as inativas não impõem restriçãoalguma na vizinhança do ponto [ , definida pela hiperesfera de raio ε em torno desteponto, denotada por %ε( [ ).

Um vetor G é chamado de YHWRU GH GLUHomR YLiYHO a partir do ponto [ seexiste uma hiperesfera de raio ε tal que:

( [ +λ G) ∈ %ε( [ ) ∩ . para todo 0 ≤ λ ≤ G

ε.

O conjunto de vetores de direções viáveis a partir de [ é chamado de FRQH GHGLUHoHVYLiYHLV de . no ponto [ . A figura abaixo ilustra estas definições.


17

Se G ≠ 0, então [ deve satisfazer as seguintes condições:

G∇K( [ ) = 0

G∇J( [ ) ≤ 0 para as J( [ ) ativas

e se G∇6( [ ) < 0, então G é uma direção viável e promissora, isto é,

6( [ + λ G) < 6( [ ) para todo 0 ≤ λ ≤ G

ε.

Se [ = [* é um ponto de mínimo local do problema, então para um λsuficientemente pequeno, tem-se:

6([*) ≤ 6([* + λ G).

A idéia chave para desenvolver as condições necessárias e suficientes para umproblema de otimização com restrições é transformá-lo em um problema deotimização sem restrições e aplicar as condições para este caso. Uma forma de fazeresta transformação é através da introdução de uma função auxiliar, chamada defunção de Lagrange, /([, λ, µ), definida como:

/([, λ, µ) = 6([) + λK([) + µ

J([) , µ ≥ 0

onde λ e µ são os multiplicadores de Lagrange associados com as restrições deigualdade e desigualdade, respectivamente (µ são também conhecidos comomultiplicadores de Kuhn-Tucker). Deste modo, o problema transformado torna-se:

[minmax

0, ≥µλ/([, λ, µ)

onde os multiplicadores λ associados com as restrições de igualdade, K([) = 0,assumem sinais positivos quando K([) ≥ 0 e negativos quando K([) ≤ 0. No pontoótimo tem-se:

/([ , λ*, µ*) = 6([ )

Cada multiplicador de Lagrange indica o quão sensível é a função objetivoem relação à restrição associada. Por exemplo, se as restrições de igualdade sãoperturbadas por um vetor E, isto é, K ([) = E, então:

∇ 6(x*) = −λ*.

Note que neste caso a função de Lagrange tem a forma:

/([, λ) = 6([) + λ[K ([) − E]


18

e sua sensibilidade em relação ao parâmetro E é dada por:

∇ / = 7E∇ [[∇ 6([) + 7

[∇ K ([) λ] + 7E∇ λ [K ([) − E] − λ

Como os termos entre colchetes da expressão acima devem ser nulos no ponto ótimo(condição necessária de primeira ordem), então:

∇ /([ , λ*) = −λ* e ∇ 6([ ) = −λ*

pois ∇ /([ , λ*) = ∇ 6([ ) + 7E∇ λ [K ([ ) − E] + 7

E∇ K ([ ) λ* − λ* ,

K ([) = E e ∇ K ([) = ,

Portanto, o valor de 6([) aumenta ou diminui a partir de 6([*) com um aumento oudiminuição em E, dependendo do sinal de λ*. Por isso, os multiplicadores deLagrange são também conhecidos como “VKDGRZSULFHV” ou “custos marginais” dasrestrições, porque a mudança no valor ótimo da função objetivo por unidade deacréscimo no lado direito da restrição de igualdade é dado por λ*.

([HPSOR Seja o seguinte problema de otimização com restrição

min 6([) = ([1 − 5)2 + ([2 − 5)2

sujeito a: K([) = [1 − [2 = 0

Introduzindo uma perturbação na restrição de igualdade do tipo: [1 − [2 = E, então afunção de Lagrange toma a forma:

/([, λ) = ([1 − 5)2 + ([2 − 5)2 + λ ([1 − [2 − E)

cujo gradiente nulo com relação a [1, [2 e λ leva ao seguinte sistema de equações:

2 ([1 − 5) + λ = 0

2 ([2 − 5) − λ = 0

[1 − [2 − E = 0

resultando na solução ótima: [1* = 5 + E / 2, [2* = 5 − E / 2 e λ* = −E.

Deste modo 6([*) = E2 / 2 e ∇ 6(x*) = E = −λ*.

Para entender a origem da função de Lagrange, o ótimo do exemplo acimadeve satisfazer as seguintes condições:

G6 = 1[

6

∂∂ δ[1 +

2[

6

∂∂ δ[2 = 0


19

GK = 1[

K

∂∂ δ[1 +

2[

K

∂∂ δ[2 = 0

Se 6([) fosse uma função sem restrição, então as suas duas derivadas parciais seriamnulas no ponto ótimo e G6([ ) seria nulo para quaisquer valores das variações δ[1 eδ[2. Entretanto, como as variáveis [1 e [2 estão restritas (δ[1 e δ[2 não sãoindependentes), as duas derivadas parciais de 6([) não podem ser arbitrariamenteigualadas a zero. Contudo, 6([) deve ser um extremo no ponto ótimo e portantoG6([ ) = 0. A segunda condição, GK([ ) = 0, existe porque K([) = 0. Para se obteruma solução (δ[1 e δ[2) não trivial do sistema de equações acima, a matriz doscoeficientes do sistema:

∂∂

∂∂

∂∂

∂∂

21

21

[

K

[

K

[

6

[

6

deve ter determinante nulo, ou seja, as linhas da matriz são linearmente dependentes:

1[

6

∂∂

+ λ1[

K

∂∂

= 0 e 2[

6

∂∂

+ λ2[

K

∂∂

= 0

Então, definindo uma função auxiliar: /([, λ) = 6([) + λK([)

as condições acima são satisfeitas se: ∇ /([, λ) = 0. Para que a restrição deigualdade, K([) = 0, seja também satisfeita é necessário que ∇λ/([, λ) = 0. Portanto,no ponto ótimo é necessário que ∇/([ , λ*) = 0.

A existência dos multiplicadores de Lagrange depende da forma dasrestrições, e estará garantida se e somente se os gradientes das restrições dedesigualdade ativas, ∇J ([*), e das restrições de igualdade, ∇K([*), foremlinearmente independentes. Por exemplo, no caso de um problema somente comrestrições de igualdade, a condição necessária de primeira ordem para /([, λ) fica:

∇ 6([) + [∇ K([)]T λ = 0

cuja solução para λ existirá somente se a matriz ∇ K([) possuir posto completo, P,isto é, estar composta por P vetores linearmente independentes.

• Condição necessária de primeira ordem de Karush-Kuhn-Tucker (KKT):

Para que [* seja um ótimo local do problema com restrições, com 6([), J([), eK([) diferenciáveis em [*, é necessário que:


20

os gradientes das restrições de desigualdade ativas, ∇J ([*), e das restrições deigualdade, ∇K([*), sejam linearmente independentes (TXDOLILFDomR GH VHJXQGDRUGHP das restrições), e que as seguintes condições sejam satisfeitas:

∇ /([ , λ*, µ*) = ∇6([ ) + (λ*)∇K([ ) + (µ*)

∇J([ ) = 0

K([ ) = 0

J([ ) ≤ 0

µ * J ([ ) = 0 , M = 1, 2, ..., S

µ* ≥ 0

A condição de independência linear pode ser relaxada por outrasqualificações de primeira e segunda ordens das restrições (Floudas, 1995, pg. 59 e64).

A condição do gradiente nulo, ∇ /([ , λ*, µ*) = 0, implica em:

(λ*)∇K([ ) + (µ*)

∇J([ ) = −∇6([ )

que interpretada graficamente, figura abaixo, mostra que o vetor −∇6([ ) pertenceao cone das direções viáveis, formado pelo gradientes das restrições de igualdade e

desigualdade ativas (uma vez que *µ = 0 para as restrições inativas).


21

Supondo que −∇6([ ) caia fora do cone das direções viáveis, então haveriauma direção G tal que G

∇6([ ) < 0, G

∇J([ ) ≤ 0 e G

∇K([ ) = 0, isto é, existiria

um ponto melhor que [*, como ilustra a figura abaixo.

• Condição necessária de segunda ordem de KKT:

Para que [* seja um mínimo local do problema com restrições, com 6([), J([),e K([) duas vezes diferenciáveis em [*, é necessário que:

a condição de primeira ordem de KKT seja satisfeita e, que a matriz Hessiana da

função de Lagrange, 2[∇ /([ , λ*, µ*), seja positiva semidefinida para todo vetor não

nulo G tal que:

G∇K ([*) = 0 , L = 1, 2, ..., P

G∇J ([*) = 0 para as J ([*) ativas

isto é, G 2

[∇ /([ , λ*, µ*)G≥ 0.

• Condição suficiente de KKT:


22

Para que [* seja um mínimo local do problema com restrições, com 6([), J([),e K([) duas vezes diferenciáveis em [*, é suficiente que:

a condição de primeira ordem de KKT seja satisfeita e, que a matriz Hessiana da

função de Lagrange, 2[∇ /([ , λ*, µ*), seja positiva definida para todo vetor não

nulo G tal que:

G∇K ([*) = 0 , L = 1, 2, ..., P

G∇J ([*) = 0 para as J ([*) ativas J ([*) = 0 e µ * > 0

G∇J ([*) ≤ 0 para as J ([*) inativas J ([*) < 0 e µ * = 0

isto é, G 2

[∇ /([ , λ*, µ*)G> 0.

A positividade da matriz Hessiana com restrição, isto é:

G 2

[∇ /([ , λ*, µ*)G> 0 ∀ G ∈ G / G∇K ([*) = 0, G

∇J ([*) = 0, G ≠ 0

é garantida se todas as raízes do polinômio característico

00

)(2

=∇−λ=λ 0

0/,S

forem positivas, onde 0 é a matriz formada pelos gradientes de K([*) e J([*) ativas,isto é, a matriz tal que G

0 = 0, com PS

< Q e com posto completo (S

é o número

de restrições J ativas). O mesmo critério se aplica para semipositividade,negatividade e seminegatividade, com os respectivos sinais das raízes.

([HPSOR Verificar as condições necessárias e suficientes para o seguinteproblema (Edgar & Himmelblau, 1988 , pg. 314):

min 6([) = ([1 − 1)2 + 22[

sujeito a: J1([) = [1 − 22[ / 4 ≤ 0

([HPSOR Verificar as condições necessárias e suficientes para o problema coma mesma função objetivo do exemplo 2.4, mas usando a seguinte restrição:

J2([) = [1 − 22[ ≤ 0


23

([HPSOR Verificar se o ponto [* = [1 4,9] é um mínimo local para o seguinte

problema (Edgar & Himmelblau, 1988 , pg. 316):

min 6([) = 4 [1 − 22[ − 12

sujeito a: K1([) = 25 − 21[ − 2

2[ = 0

J1([) = 21[ − 10 [1 +

22[ − 10 [2 + 38 ≤ 0

J2([) = −([1 − 3)2 − ([2 − 1)2 ≤ 0

J3([) = −[1 ≤ 0

J4([) = −[2 ≤ 0


24

&&RRQQYYHH[[LLGGDDGGHH

Um subconjunto . de um espaço vetorial ; é dito convexo se ∀ [1, [2 ∈ . e0 ≤ α ≤ 1:

α [1 + (1 – α) [2 ∈ .

e apresenta as seguintes propriedades:

a) β . = [ ∈ . ⁄ [ = β \, \ ∈ . é convexo para ∀ β ∈ ℜ;

b) . + / e . ∩ / são convexos para ∀ subconjunto convexo / de ;.

Seja . um convexo não vazio do ℜ. A função 6: . → ℜ é dita convexa se ∀

[1, [2 ∈ . e 0 ≤ α ≤ 1:

6[α [1 + (1 – α) [2] ≤ α 6([1) + (1 – α) 6([2)

A função 6([) é estritamente convexa se a desigualdade for estrita. Uma função 7([)é côncava se a função 6([) = –7([) for convexa.

Sejam 6([), 6 ([), L=1,2,...,Q, funções convexas em um convexo não vazio .do ℜ

, então as seguintes propriedades são apresentadas:

a) 6([) é contínua em qualquer ponto do interior de .;

b) as seções .ε = [ ∈ . ⁄ 6([) ≤ ε são conjuntos convexos;


25

c) 6([) = ∑=

!" " [6

1)( é uma função convexa. Se no mínimo uma 6 # ([) é estritamente

convexa, então 6([) é estritamente convexa;

d) β 6([) é convexa para β > 0 ∈ ℜ.

e) se todas 6 # ([) < ∞ ∀ [ ∈ ., então 6([) = max61([), 62([), ..., 6$ ([) é convexa.

Quando 6([) é convexa, as condições de otimalidade simplificam-se, porqueas condições de segunda ordem são equivalentes à convexidade local da função.Além disso, um mínimo local será também global e se a função for estritamenteconvexa o mínimo global é único.

Para ilustrar, define-se \ = α [1 + (1 – α) [2 e w = α 6([1) + (1 – α) 6([2)

Seja ; um conjunto aberto não vazio do ℜ $ e 6([) uma função diferenciável

em [o ∈ ;. Se 6([) é convexa em [o, então

6([) − 6([o) ≥ ∇%6([o)([− [o)

Para uma função 6([) diferenciável em ;,

6([) é convexa ⇔ 6([2) − 6([1) ≥ ∇%6([1)([2

− [1) ∀ [1, [2 ∈ ;.

Seja ; um conjunto aberto não vazio do ℜ $ e 6([) uma função duas vezes

diferenciável em [o ∈ ;. Se 6([) é convexa em [o, então ∇26([o) é positiva

semidefinida. Para uma função 6([) duas vezes diferenciável em ;,

6([) é convexa ⇔ ∇26([) é positiva semidefinida ∀ [ ∈ ;.

Seja. um conjunto convexo não vazio do ℜ $, [o ∈ . e G um vetor não nulo

tal que ([o + α G) ∈ . para um α > 0 suficientemente pequeno. Então, a GHULYDGDGLUHFLRQDO de 6([) no ponto [o, ao longo da direção α, denotada por 6´([o,G), édefinida pelo seguinte limite (incluindo ±∞):

\[1

função convexa6([)

[2

[

6(y)

Z

\[1

função côncava6([)

[2

[

6(y)

Z


26

αα

α

)()(lim),(

0

&&& [6G[6G[6

−+=′+→

Por exemplo, para uma aproximação quadrática em torno do ponto [o, a derivadadirecional é dada por 6´([o,G) = ∇

%6([o) G.

Seja. um conjunto convexo não vazio do ℜ $ e 6([) uma função convexa.

Então, o sub-gradiente de 6([) no ponto [o ∈ ., denotado por G, é definido como:

6([) ≥ 6([o) + G% ([− [o) , ∀ [ ∈ .

Isto é, a aproximação linear com o uso do vetor G sempre resulta em uma sub-estimativa de 6([).

**HHQQHHUUDDOOLL]]DDoommRRGGHHIIXXQQooHHVVFFRRQQYYHH[[DDVV

Para generalizar a definição de funções convexas é necessário definir acontinuidade de funções escalares multivariáveis.

Sejam ; ⊆ ℜ $, [o ∈ ;, e 6([): ; → ℜ.

6([) é contínua em [o se:

para cada ε > 0 existir δ(ε) tal que ||[− [o|| < δ ⇒ |6([) −6([o)| < ε, ou

para cada seqüência [1, [2, ..., [' em ; convergindo para [o:

)(lim)(lim ())

)) [6[6[6 =

=

∞→∞→.

6([) é contínua em ; se ela for contínua para todo [o ∈ ;.

6([) é semicontínua inferior em [o se:

para cada ε > 0 existir δ(ε) tal que ||[− [o|| < δ ⇒ −ε < 6([) −6([o), ou


)(lim)(inflim *++

++ [6[6[6 =

=

∞→∞→,

onde )(),...,(),(minlim)(inflim 21 P

P

P

P[6[6[6[6

∞→∞→= .

6([) é semicontínua inferior em ; se ela for semicontínua inferior para todo [o

∈ ;.


27

IXQomRVHPLFRQWtQXDLQIHULRUIXQomRVHPLFRQWtQXDVXSHULRU

6([) é semicontínua superior em [o se:

para cada ε > 0 existir δ(ε) tal que ||[− [o|| < δ ⇒ 6([) −6([o) < ε, ou


)(lim)(suplim ())

)) [6[6[6 =

=

∞→∞→,

onde )(),...,(),(maxlim)(suplim 21 P

P

P

P[6[6[6[6

∞→∞→= .

6([) é semicontínua superior em ; se ela for semicontínua superior para todo[

o ∈ ;.

Seja . um convexo não vazio do ℜ $. A função 6: . → ℜ é dita TXDVL

FRQYH[D se ∀ [1, [2 ∈ . e 0 ≤ α ≤ 1:

6[α [1 + (1 – α) [2] ≤ max6([1), 6([2)

A função 6([) é estritamente quasi-convexa se a desigualdade for estrita quando6([1) ≠ 6([2). Uma função 7([) é (estritamente) TXDVLFQFDYD se a função 6([) = –7([) for (estritamente) quasi-convexa. Um mínimo local de uma função estritamentequasi-convexa será também global.


28

)XQomRTXDVLFRQYH[D )XQomRHVWULWDPHQWHTXDVLFRQYH[D

Definindo as seções .ε = [ ∈ . ⁄ 6([) ≤ ε, então:

6([) é quasi-convexa ⇔ .ε é convexo ∀ ε ∈ ℜ.

Seja 6([) uma função semicontínua inferior no convexo . ⊆ ℜ $. Se 6([) é

estritamente quasi-convexa em ., então 6([) é quasi-convexa, mas o converso não éverdadeiro.

A soma de funções quasi-convexas não é necessariamente uma função quasi-convexa, propriedade válida para funções convexas. Por outro lado, o recíproco deuma função quasi-convexa, 1/6([), é uma função quasi-côncava, mas o recíproco deuma função convexa não é necessariamente uma função côncava (já o recíproco deuma função côncava positiva é uma função convexa). Por exemplo, 6([) = H

, é

convexa e 1/6([) é convexa também.

Seja 6([) uma função diferenciável em um conjunto convexo aberto não vazio.⊆ℜ $

, então:

6([) é quasi-convexa ⇔ 6([2) ≤ 6([1) → ∇%6([1)([2

− [1) ≤ 0 ∀ [1, [2 ∈ ..

Seja 6([) uma função quasi-côncava duas vezes diferenciável em um conjuntoconvexo aberto não vazio .⊆ℜ $

, então uma direção, G, ortogonal ao ∇6([) exibe asseguintes propriedades:

a) se [o ∈ ., G ∈ ℜ $ e G

% ∇6([o) = 0, então G

%∇26([o) G ≤ 0;


29

b) a matriz Hessiana de 6([) tem no máximo um valor característico positivo ∀ [ ∈.. Isto é, a generalização da concavidade de funções (para quasi-côncavidade) éequivalente à existência de no máximo um valor característico positivo da Hessiana.

Seja 6([) uma função diferenciável em um conjunto aberto não vazio ;⊆ℜ $.

6([) é SVHXGRFRQYH[D se 6([2) < 6([1) → ∇%6([1)([2

− [1) < 0 ∀ [1, [2 ∈ ;.

Uma função 7([) é SVHXGRFQFDYD se a função 6([) = –7([) for pseudo-convexa. O recíproco de uma função pseudo-côncava, 1/6([), é uma função pseudo-cônvexa. As seguintes relações são válidas:

a) uma função convexa diferenciável é pseudo-convexa;

b) uma função convexa é estritamente quasi-convexa;

c) uma função convexa é quasi-convexa;

d) uma função pseudo-convexa é estritamente quasi-convexa;

e) uma função estritamente quasi-convexa e semicontínua inferior é quasi-convexa.

))RRUUPPDDVVIIXXQQFFLLRRQQDDLLVV

O método empregado para solucionar um problema de otimização depende,fundamentalmente, da forma da função objetivo e de suas restrições. Com relação afunção objetivo tem-se:

função linear: 6 [ D F [ D F [7L

L

Q

L( ) = + = +=∑

1

como neste caso ∇6([) = F ≠ 0 ∀ [, a função 6([) não apresenta pontos de máximoou mínimo. Para este tipo de função objetivo, só faz sentido a existência de umproblema de otimização com restrição, cuja solução, se existir, estará localizada emalgum ponto da fronteira da região de busca.

função quadrática: 6 [ D F [ [ $ [ D F [ D [ [7 7L

L

Q

L LM L MM

Q

L

Q

( ) = + + = + += ==∑ ∑∑1

2

1

21 11

como [%$[ é um escalar ⇒ [

%$[ = [[

%$[]

% = [

%$%[,

tem-se que: [ $ [ [ $ [ [ $ [ [ $ $ [- - - - - -

= + = +

1

2

1

2( ) ( ) ,


30

então definindo 4 $ $.

= +1

2( ) , que é uma matriz simétrica: 4 = 4

/,

resulta em: [/$[ = [

/4[, isto é:

6 [ D F [ [ 4 [ D F [ T [ [7 7L

L

Q

L LM L MM

Q

L

Q

( ) = + + = + += ==∑ ∑∑1

2

1

21 11

e portanto:

∇ =

= + +

==

∑∑6 [6

[F T

[

[[ [

[

[NN LM

L

NM L

M

NM

Q

L

Q

( )∂∂

∂∂

∂∂

1

2 11

,

mas como ∂∂

δ[

[

L N

L N

L

NLN= =

≠

=

0

1

,

, , tem-se: ∇ = + +

==

∑∑6 [ F T [ T [N NM M LN LM

Q

L

Q

( ) ( )1

2 11

e sabendo que a matriz 4 é simétrica:

∇ = +

= +

=∑6 [ F T [ F 4[N LN LL

Q

( )1

e +([) = ∇26([) = 4

com isto, a condição necessária de primeira ordem, ∇6([*) = 0, para este tipo defunção resulta em:

4 [* = −F ou de forma similar ([*)/4 = −F

/

e

6 [ D F [ [ 4 [ D F [0 0 0

( *) * ( *) * *= + + = +1

2

1

2

Subtraindo 6([*) da função 6([) tem-se:

[ ]6 [ 6 [ F [ [ [ 4 [ [ 4 [1 1 1

( ) ( *) ( *) ( *) *= + − + −1

2

como F/ = −([*)

/4,

[ ]6 [ 6 [ [ 4 [ [ 4 [ [ 4 [ [ [ 4 [ [2 2 2 2

( ) ( *) ( *) * ( *) ( *) ( *) ( *)= + − − − − −1

2


31

[ ]6 [ 6 [ [ 4 [ [ 4 [ [ 4 [ [3 3 3

( ) ( *) ( *) ( *) ( *)= + − − −1

2

[ ]6 [ 6 [ [ [ 4 [ [ 4 [ [4 4

( ) ( *) ( *) ( *) ( *)= + − − −1

2

6 [ 6 [ [ [ 4 [ [5

( ) ( *) ( *) ( *)= + − −1

2

função não linear: 6([): ℜn → ℜ

a expansão em série de Taylor de 6([) em torno de um ponto [o é dada por:

6 [ 6 [ 6 [ [ [ [ [ 6 [ [ [4 4

( ) ( ) ( ) ( ) ( ) ( ) ( )= + ∇ − + − ∇ − +0 0 0 02

0 01

2K

No caso particular de [o = [*, tem-se ∇6([*) = 0 e:

6 [ 6 [ [ [ + [ [ [6

( ) ( *) ( *) ( *) ( *)≈ + − −1

2

Se 6([) for duas vezes diferenciável em [*, então + [6

[ [L M [

( *)*

=

∂∂ ∂

2

é simétrica.

Portanto, tanto no caso de função quadrática, onde +([*) = 4, quanto no caso geralde função não-linear, a matriz Hessiana fornece as características do(s) ponto(s)ótimo(s) de 6([).

Algumas observações adicionais:

1) no caso de 6([) ser uma função quadrática, o ponto ótimo é global;

2) se +([*) é positiva definida, então 6([) é estritamente convexa na vizinhança de[* (ou ∀ [ no caso da função quadrática);

3) se +([*) é positiva semidefinida, então 6([) é convexa na vizinhança de [* (ou ∀[ no caso da função quadrática)..

4) se +([*) é negativa definida, então 6([) é estritamente côncava na vizinhança de[* (ou ∀ [ no caso da função quadrática);


32

5) se +([*) é negativa semidefinida, então 6([) é côncava na vizinhança de [* (ou ∀[ no caso da função quadrática);

função mista linear e inteira: 6([, \) = F/[ + G

/\ , [ ∈ ; ⊆ ℜn e \ ∈ <

onde \ é um vetor de variáveis inteiras de dimensão T, < ⊆ ℑ7, ou um vetor de

variáveis binárias de dimensão T, < = 0, 17. Como a função é linear, só faz sentido

a existência de um problema de otimização com restrição.

função mista não linear e inteira: 6([, \): ; × <→ ℜ

Problemas de otimização mista não linear e inteira apresentam grandes desafios edificuldades associados com o caráter combinatorial do domínio discreto (inteiro)junto com as comumente encontradas não convexidades e não linearidades dodomínio contínuo.

função unimodal: é a função que apresenta apenas um extremo.

função multimodal: é a função que apresenta mais de um extremo.

NOTA: toda função côncava ou convexa é unimodal, mas nem toda funçãounimodal é necessariamente côncava ou convexa. Veja exemplo 6([) = ([2 – 1)3.

ÈÈOOJJHHEEUUDDYYHHWWRRUULLDDOO

Sejam [ e\ ∈ ; ⊆ ℜ8, $ e% ∈ ℜ

8 × 8 , 6([): ; → ℜ, J([) e K([): ; → ;. Entãoas seguintes regras de diferenciação se aplicam:

∇[J([)/ K([)] = ∇

/J([) K([) + ∇

/K([) J([)

∇[6([) g([)] = g([) ∇/6([) + 6([) ∇J([)

∇($[) = $

∇([/$) = $

∇([/$[) = ($ + $

/) [

∇6[J([)] = ∇/J([) ∇g6(J)

∇6J[K([)] = ∇/K([) ∇ 9 / J(K) ∇g6(J)


33

∇J[K([)] = ∇ 9 J(K) ∇K([)

\[\[GW

\[G :::&& +=)(

[$[$GW

[$G&& +=)(

%$%$GW

%$G&& +=)(

[$[[$[[$[GW

[$[G 4444&&& ++=)(

(([[HHUUFFttFFLLRRVVGGHHIILL[[DDoommRR

1. Teste as condições necessárias e suficientes do problema abaixo.

min 6([) = [1 [2

sujeito a: J [ [ [1 12

22 25 0( ) = + − ≤

2. Determine se as funções abaixo são côncavas, convexas, estritas ou não, ounenhum destes casos ?

a) 6([) = 2 [1 + 3 [2 + 6

b) 6([) = 2221

21 232 [[[[ +−

c) 6([) = 283 2122

31 ++−+ [[[[

3. Verifique se as restrições abaixo, definindo uma região fechada, formam umaregião convexa.

J1([) = 21[− + [2 ≥ 1 e J2([) = [2 − [1 ≤ 2

NOTA: se todas as restrições colocadas na forma Ji([) ≤ 0 são funções convexas (ouna forma Ji([) ≥ 0 são funções côncavas), então elas formam uma região convexa.Funções lineares são tanto convexas quanto côncavas.

4. Mostre que a função 6([) = −[1 [2 com [1 ≥ 0 e [2 ≥ 0 é quasi-convexa. Ela étambém convexa ? Por quê ?

5. Mostre que a função 6([) = 2221

21 35 [[[[ ++ com [1 > 0 e [2 > 0 é pseudo-

convexa. Ela é também convexa ? Por quê ?


34

22WWLLPPLL]]DDoommRR66HHPP55HHVVWWUULLoommRR

Na otimização sem restrição o problema que está sendo resolvido é:

PLQ 6 [[ ;∈ℜ

( ) ou PD[ 6 [[ ;∈ℜ

( )

como PD[ 6 [[ ;∈ℜ

( ) é equivalente a PLQ 6 [[ <∈ℜ

− ( ) , os métodos descritos a seguir são

para problemas de minimização. Os métodos existentes para a solução desteproblema podem ser agrupados em duas categorias:

1) métodos que não usam derivadas (métodos de busca, métodos diretos);

2) métodos que usam derivadas (métodos analíticos, métodos da métricavariável, métodos indiretos).

Como regra geral, na solução de problemas sem restrição, os métodos que usamderivadas convergem mais rapidamente que os métodos de busca. Por outro lado, osmétodos de busca não requerem regularidade e continuidade da função objetivo e,principalmente o cálculo de derivadas primeira ou segunda de 6([).

00ppWWRRGGRRVVGGHHEEXXVVFFDDPPRRQQRRYYDDUULLiiYYHHOOHHPPXXOOWWLLYYDDUULLiiYYHHOO

Uma forma de avaliar os diferentes algoritmos de busca é utilizando os seguintescritérios:

1) Número de problemas resolvidos

2) Número de cálculos da função objetivo em cada exemplo

3) Tempo computacional para a solução de cada exemplo

Pode-se então definir uma tabela de classificação, com índices de 0 (pior) a 100(melhor) usando os seguintes índices:

∑=

==> >?

>?7

7

1 1 ,

*100θ ∑

==

@A AB

AB6

6

1 1 ,

*100χ

1

1 CC 100=η

onde, para o L-ésimo algoritmo, θ D é a sua eficácia, χ D é a sua eficiência, η D é a suarobustez para resolver problemas, 7 D E F é o seu tempo computacional para resolver o


35

problema M, *G7 é o menor tempo entre os algoritmos para resolver o problema M, 6 D E F éo seu número de avaliações da função objetivo para resolver o problema M, *G6 é o

menor número de avaliações entre os algoritmos para resolver o problema M, 1 D é oseu número de problemas resolvidos e 1 é o número total de problemas. Quando o L-ésimo algoritmo não consegue resolver o M-ésimo problema, então 7 D E F = ∞ e 6 D E F = ∞.

00ppWWRRGGRRGGDDVVHHoommRRiiXXUUHHDD

É um método de busca monovariável, onde a cada iteração o intervalo de busca éreduzido por um fator α, chamado de razão áurea, obtido pela relação geométricaabaixo (retângulo áureo) :

D E

E

E

D

− =

E

D

E

D

+ − =2

1 0

α = = − + =E

D

1 5

20 618,

Outras escolhas do fator α levariam a métodos similares, como por exemplo ométodo da bisseção para α = 0,5. Contudo, a vantagem da razão áurea está naredução do número de cálculos da função objetivo, em função da propriedade destemétodo de conservar o retângulo áureo a cada iteração. Outro método comcaracterísticas similares a seção áurea é a busca de Fibonacci.

algoritmo

1) Determinar o intervalo de busca [/o, 8o] que contém o ponto de mínimo

2) Fazer N = 0 e calcular ∆o = 8o − /o,

[ / 6 6 [/ / /o o o o o= + =α ∆ , ( ) ,

[ 8 6 6 [8 8 8o o o o o= − =α ∆ , ( ) ,

3) 6H 6 [ 6 [8N

/N( ) ( )> , HQWmR / [N

8N+1 = , [ [8

N/N+ =1 , 6 68

N/N+ =1

VHQmR 8 [N/N+1 = , [ [/

N8N+ =1 , 6 6/

N8N+ =1

4) Fazer (N ← N + 1) e calcular ∆H = 8k − /k,

E

D

D-E

E


36

[ / 6 6 [/ / /k k k k k= + =α ∆ , ( ) se 6 [ 6 [8

N/N( ) ( )− −>1 1

ou [ 8 6 6 [8 8 8k k k k k= − =α ∆ , ( ) se 6 [ 6 [8

N/N( ) ( )− −<1 1

5) 6H ∆H > ε (tolerância), HQWmR (ir para 3)

VHQmR FIM.

00ppWWRRGGRRGGDDDDSSUURR[[LLPPDDoommRRSSRROOLLQQRRPPLLDDOO

Na verdade é uma classe de métodos de busca monovariável, que aproxima a função6([) por uma interpolação polinomial, 3 I ([):

∑=

=Q

MMMQ [6[[3

1)()()( l

onde ∏≠= −

−=

JKLL LK

LK[[

[[[

1 )(

)()(l são os interpoladores de Lagrange. Quando a derivada de

6([) está disponível, então ela também é usada na aproximação polinomial:

[ ]∑=

− ∇+=Q

MMMQ [6[K[6[K[3

12112 )()()()()(

onde [ ])()(21)()( 21 MMMM [[[[[K ll ∇−−= e )()()( 2

2 MM [[[[K −= l são os

interpoladores de Hermite.

,,QQWWHHUUSSRROODDoommRRTTXXDDGGUUiiWWLLFFDDRRXXPPppWWRRGGRRGGHH&&RRJJJJLLQQVVRRXX''66&&33RRZZHHOOOO

O método de G.F. Coggins (1964) ou de Davies-Swann-Campey-Powell (1964)aproxima a função 6([) por uma interpolação quadrática, 32([):

/ 8

6([U)

6([L)

6([)

[[U [L

α∆

α∆

/ 8

6([L)

6([U)

6([)

[[L[U

α∆

α∆


37

)())((

))(()(

))((

))(()(

))((

))(()( 3

2313

212

3212

311

3121

322 [6

[[[[

[[[[[6

[[[[

[[[[[6

[[[[

[[[[[3

−−−−

+−−

−−+

−−−−

=

calculando o mínimo desta função quadrática, isto é, 02 =G[

G3, tem-se:

)()()()()()(

)()()()()()(

2

1

321213132

322

212

21

231

23

22#

[6[[[6[[[6[[

[6[[[6[[[6[[[

−+−+−−+−+−

=

algoritmo

1) Determinar o intervalo de busca [[1, [3]

2) Calcular 61 = 6([1) e 63 = 6([3)

3) Calcular [2 = 0,5 ([1 + [3) e 62 = 6([2)

4) Calcular 321213132

322

212

21

231

23

22#

)()()(

)()()(

2

1

6[[6[[6[[

6[[6[[6[[[

−+−+−−+−+−

= e 6N = 6([

N)

5) 6H |[N − [ O | < ε para algum L = 1, 2, 3, HQWmR FIM.

6) 6H ([3 − [N) ([

N − [2) > 0, HQWmR N = 1

VHQmR N = 3

7) 6H 6N < 62, HQWmR [ P ← [2, 6 P ← 62 e N = 2

8) [4- P ← [N, 64- P ← 6

N e (ir para 4).

,,QQWWHHUUSSRROODDoommRRFF~~EELLFFDD

Para a aproximação cúbica são necessárias quatro informações sobre a funçãoobjetivo, ou seja, quatro valores da função ou dois valores da função e de suaderivada:

32([)6([)

6([N)

[2

[[3[

N[1


38

∑=

=4

13 )()()(

MMM [6[[3 l ou [ ]∑

=∇+=

2

1213 )()()()()(

MMM [6[K[6[K[3

Escrevendo o polinômio na forma: 33([) = D3 [3 + D2 [

2 + D1 [1 + D0 , a condição

necessária de primeira ordem para o mínimo:

G[

[G3 )(3 = 3 D3 [2 + 2 D2 [ + D1 = 0

resulta no ponto 3

31222#

3

3

D

DDDD[

−±−= cujo sinal usado é aquele que fornece um

valor positivo para a derivada segunda de 33([), isto é, 6 D3 [N + 2 D2 > 0. No caso de

usar dois pontos tem-se as expressões:

)(2)()(

)(12

12

22

# [[Z[6[6

]Z[6[[ −

+∇−∇

−+∇−=

onde ] = ∇6([1) + ∇6([2) − 3 [6([1) − 6([2)] / ([1 − [2) e

Z = []2 − ∇6([1) ∇6([2)]1/2

algoritmo

1) Determinar o intervalo de busca [[1, [2]

2) Calcular 61 = 6([1), ∇61 = ∇6([1) e 62 = 6([2), ∇62 = ∇6([2)

3) Calcular [N, 6

N = 6([

N) e ∇6

N = ∇6([

N)

4) 6H |[N − [ O | < ε para algum L = 1, 2, HQWmR FIM.

5) 6H ∇6N ∇61 > 0, HQWmR N = 1

VHQmR N = 2

6) [ P ← [N, 6 P ← 6

N , ∇6 P ← ∇6

N e (ir para 3).

00ppWWRRGGRRGGHHEEXXVVFFDDVVHHFFFFLLRRQQDDGGDD

É um método de busca multivariável, mas em uma única direção por vez, que utilizaos métodos de busca univariável em cada direção. As figuras abaixo ilustram a idéiado método na busca de um ponto de mínimo.


39

00ppWWRRGGRRGGHH++RRRRNNHH--HHHHYYHHVV

É um método de busca multivariável dividido em duas fases (R. Hooke e T.A.Jeeves, 1962):

fase de exploração: estimar a direção provável do extremo, a partir de um pontoinicial (ponto base).

fase de progressão: progredir na direção provável do extremo enquanto o valor dafunção objetivo for diminuindo.

algoritmo

Partida:

1) Determinar a região de busca [/ O , 8 O ], (L = 1,2,...,Q)

2) Selecionar o ponto base inicial [Lo (L = 1,2,...,Q)

6([)

6([ )

[1 = G[1 = D

[1 = F[1 = E

[2

[2*

[2

9

10

12

1517[20

[1

δδ2

δ1 δ1

δ2

[10

[21+

[21−

[11− [11

+

exploração

[24

9

10

12

1517[20

[1

δ

δ

[10

[21+

[21−

[11− [11

+

progressão


40

3) Calcular o valor 6o = 6([o) da função objetivo em [o

4) Selecionar os incrementos iniciais δL e as respectivas tolerâncias εL (L = 1,2,...,Q)

5) Tomar a primeira direção de busca (N = 1)

Fase de Exploração:

6) Calcular [ [N N No o− = − δ (sentido negativo)

7) 6H [No− estiver fora da região de busca, HQWmR insucesso em N- (ir para 10)

8) Calcular o valor de 6 6 [o o− −= ( )

9) 6H 6 6o o− > HQWmR insucesso em k-

VHQmR sucesso em k- e fazer [ [N No o← − e 6 6o o← − (ir para 14)

10) Calcular [ [N N No o+ = + δ (sentido positivo)

11) 6H [No+ estiver fora da região de busca, HQWmR insucesso em N+ (ir para 14)

12) Calcular o valor de 6 6 [o+

o= +( )

13) 6H 6 6o o+ > HQWmR insucesso em N+

VHQmR sucesso em N+ e fazer [ [N No o← + e 6 6o o← +

14) 6H já foram exploradas todas as direções (N = Q) HQWmR (ir para 15)VHQmR tomar a direção seguinte (N ← N + 1) e (ir para 6)

15) 6H houve sucesso em alguma direção HQWmR (ir para 17)

16) 6H δ εL L≤ ∀L HQWmR FIM.

VHQmR δ δL L← / 2 ∀Ltal queδ εL L> (ir para 5)

Fase de Progressão:

17) Tomar [ [L LR L1 = ± δ (e, opcionalmente, δ δL L← 2 ) para todas as direções que

houve sucesso18) 6H x1 estiver fora da região de busca, HQWmR insucesso na progressão (ir para 5)

19) Calcular o valor de 6 6 [1 1= ( )

20) 6H 6 61 > o HQWmR insucesso na progressão (ir para 5)

VHQmR sucesso na progressão e fazer [ [o ← 1 e 6 6o ← 1 (ir para 17)

00ppWWRRGGRRGGHH55RRVVHHQQEEUURRFFNN

É um método de busca multivariável parecido com a fase de exploração do métodode Hooke & Jeeves (H.H. Rosembrock, 1960). Entretanto, ao invés de


41

continuamente explorar nas direções dos eixos coordenados, são construídas novasdireções ortogonais, usando o procedimento de Gram-Schmidt, baseadas nostamanhos dos passos das direções bem sucedidas.

Sejam NLG ∈ ℜ

Q , L = 1,2, ..., Q, vetores direção unitários do N-ésimo estágio de

busca e ∑δ=∆ LNL a soma de todos os passos bem sucedidos (distância percorrida) na

L-ésima direção durante o N-ésimo estágio de busca. Ordenando os valores das

distâncias em ordem decrescente: NQ

NN ∆>>∆>∆ L21 , onde as últimas P direções

(se existirem) possuem 0=∆NL , L = (Q − P) + 1, ..., Q, então os novos vetores direção

para o estágio de busca N + 1 são obtidos pelo seguinte processo de ortogonalização:

∑=

∆=Q

LM

NM

NM

NL G$ , 1 ≤ L ≤ Q

N

NN

$

$G

1

111 =+

NL

NLN

L%

%G =+1 , [ ]∑

−

=

++−=1

1

11)(L

M

NM

NM

7NL

NL

NL GG$$% 1 < L ≤ (Q − P)

NL

NL GG =+1 (Q − P) i ≤ Q

algoritmo

1) Selecionar o ponto base inicial [o, fazer N = 0, e LL HG =0 (direção dos eixos)

2) Selecionar os incrementos iniciais δL e as respectivas tolerâncias εL (L = 1,2,...,Q)

3) Calcular 6 R = 6([o) , escolher a direção P =1 e fazer 00 =∆ L (L = 1,2,...,Q)

4) Fazer [1 = [o + δ S NPG e calcular 61 = 6([1)

5) 6H 61 > 6 R HQWmR insucesso e fazer δ S ← −δ S / 2

VHQmR sucesso e fazer [o ← [1, 6 R ← 61 , PNP

NP δ+∆←∆ , δ S ← 3 δ S

6) Se alguma direção ainda não teve insucesso, fazer P ← minP+1, Q (ir para 4)

7) 6H δ εL L≤ ∀L HQWmR FIM.

8) Calcular a nova direção ortogonal e fazer N ← N + 1(ir para 4).


42

00ppWWRRGGRRGGHH33RRZZHHOOOO

É um método de busca multivariável ao longo de direções conjugadas (C.S. Smith,1962 e M.J.D. Powell, 1964). Duas direções G1 e G2 ∈ ℜ

Q são ditas conjugadas entre

si, com respeito a uma matriz +, se:

7G1 + G2 = 0

A ortogonalidade é um caso particular de conjugância, onde + = ,. Em geral, umconjunto de Q direções linearmente independentes G T ∈ ℜ

Q , L = 1,2,...,Q, são

conjugados com respeito a uma matriz positiva definida + ∈ ℜQ × Q se:

7LG + GU = 0 1 ≤ L ≠ M ≤ Q

Se + é a matriz Hessiana de uma função quadrática, 6([), então o mínimo éalcançado após Q estágios de buscas unidirecionais exatas. Se os eixos coordenadossão transladados e rotacionados por transformações adequadas de modo que os eixosestejam nas direções dos vetores característicos de + e centralizados no pontoestacionário de 6([), então a conjugância pode ser interpretada como ortogonalidadeno espaço transformado.

Para construir uma direção conjugada sem o uso das derivadas de 6([), pode-se partir de um ponto [o e obter o ponto [

V que minimiza 6([) ao longo de uma

direção G, como ilustra a figura abaixo. Então, partindo de outro ponto [1 ≠ [o eobtendo o ponto [

W que minimiza 6([) ao longo da mesma direção G, o vetor ([

W − [

V)

é conjugado ao vetor G, com respeito a matriz Hessiana, +, se 6([) é uma funçãoquadrática (para funções não lineares em geral, este conceito é uma aproximação).


43

Para verificar esta conjugância, basta representar 6([) em série de Taylor em tornodo ponto [o:

)()(2

1)()()()( XYXXXYX [[+[[[[[6[6[6 −−+−∇+=

e minimizá-la ao longo da direção G: [ = [o + α G, isto é, obter α tal que:

G+G[6GG+GG[6G

G[G6 Z[ZZ[Z[α+∇=α+∇==

αα+

)()(0)(

resultando em: G+G

G[67

R7 )(∇=α

Rescrevendo a função 6([) na forma: 6([) = D + E\[ + ½ [

\+[, tem-se:

∇6([) = E + + [ e ∇6([o) = E + + [o

que substituído na equação G6/Gα = 0, sabendo que α G [V − [o, resulta em:

G\ (E + +[o) + G

\ + ([

V − [o) = 0 → G

\ (E + +[

V) = 0

e portanto: G\ ∇6([

V) = 0, isto é, o gradiente de uma função quadrática no mínimo da

direção de busca é ortogonal a esta direção. Fazendo a mesma análise para o ponto[

1, tem-se: G\ ∇6([

W) = G

\ (E + +[

W) = 0. Subtraindo estes dois resultados chega-se a:

G\ +([

W− [

V) = 0

que mostra que G é conjugado a direção ([W− [

V) com respeito a matriz +.

O método de Powell é uma implementação da busca em direções conjugadas,que pode ser sumarizado nos seguintes passos:

algoritmo

1) Selecionar um ponto inicial 00[ , fazer estágio N = 0 e LL HG =0 (direção dos eixos)

2) A partir do ponto N[0 determine α1 via busca unidimensional na direção de NG1 eN[1 = N[0 + α1

NG1 . A partir do ponto N[1 , determinar α2 via busca

unidimensional na direção de NG2 e fazer N[2 = N[1 + α2 NG2 , e assim

sucessivamente até determinar todos os α T , L = 1, 2, ..., Q. A transição do pontoN[0 para o ponto N

P[ é equivalente a:

∑=

α+=]^

_^^__] G[[1

0 , P = 1, 2, ..., Q


44

3) Calcular NQ[ 1+ = 2 N

Q[ − N[0 , isto é, fazer um passo adicional de tamanho ( NQ[ −

N[0 ) na direção resultante das Q buscas unidimensionais. Este passo procura

garantir que duas direções de busca não se tornem colineares quando algum α T =0.

4) Calcular )]()([max 1,...,1

`a`aba`

[6[6 −=∆ −=

. A direção de busca relativa a esta variação

máxima será designada por NPG . Definindo 61 = 6( N[0 ), 62 = 6( N

Q[ ) e 63 =

6( NQ[ 1+ ), 6H 63 ≥ 61 e/ou (61 − 2 62 + 63) (61 − 62 − ∆

c)2 ≥ ½ ∆

c(61 − 63)

2, HQWmR

usar as mesmas direções do estágio N, isto é, NL

NL GG =+1 , L = 1, 2, ..., Q e iniciar o

próximo estágio a partir do ponto NQ

N [[ =+10 (ou N

Q[ 1+ se 63 > 62).

5) 6HQmR usar as direções [ 11

+NG 12

+NG ... 1+NQG ] = [ NG1 NG2 ... N

PG 1− NPG 1+ ... N

QG NG ],

onde a direção NPG (de máxima variação) é eliminada e a nova direção

resultante, NG , (de N[0 para NQ[ ) é incluída em último lugar, com o

correspondente valor de α obtido via minimização nesta direção e 10

+N[ = NQ[ +

α NG .

6) 6H ε≤− NNQ [[ 0 HQWmR FIM

7) Fazer N ← N + 1(ir para 2).

00ppWWRRGGRRGGHHEEXXVVFFDDGGHHOOLLPPLLWWHHVV

A maioria dos métodos de busca necessitam da definição do intervalo de busca, quecontém o ponto extremo, para garantirem a determinação do ótimo. Segue abaixo umalgoritmo de busca para a determinação de um intervalo [[o, [1] que contém umponto de mínimo.

algoritmo

1) Escolher um ponto inicial, [o, e um passo inicial, α

2) Calcular 6o = 6([o), N = 0

3) Calcular [1 = [o + α e 61 = 6([1)

4) 6H 6o ≤ 61, HQWmR α ← −α, N ← N + 1 e (ir para 7)

5) 6o ← 61, α ← 2 α, [1 = [o + α e 61 = 6([1)


45

6) 6H 6o > 61, HQWmR (ir para 5)

VHQmR N = 1 (ir para 8)

7) 6H N < 2, HQWmR (ir para 3)

8) [o ← [o + α (N - 1), I = [[o, [1], FIM.

00ppWWRRGGRRGGRRVVSSRROOLLHHGGUURRVVIIOOHH[[ttYYHHLLVV

É um método de busca multivariável (J.A. Nelder e R. Mead, 1964), onde o piorvértice de um poliedro com Q + 1 vértices é substituído por um novo vértice colinearcom o vértice antigo e o centróide, como ilustra a figura abaixo.

de fg hji hkh

hmlh no

p l

p hlq

h q

As coordenadas do centróide são dadas por:

[Q

[ [ M QM L M K ML

Q

01

111 2, , , , ,= −

=

=

+

∑ K

onde [ rts u é o pior vértice.

O algoritmo envolve quatro operações de busca, que para o caso daminimização da função objetivo têm as seguintes formas:

1) Reflexão: [ [ [ [

RQGH 6 [ PD[ 6 [ 6 [

v w w w x wx w w y w

= + − >

=

+

0 0

1 1

0α α( ) ,

( ) ( ), , ( )K


46

2) Expansão:

6H 6 [ 6 [ PLQ 6 [ 6 [

HQWmR [ [ [ [

6H 6 [ 6 [ HQWmR [ [

mR [ [

N N LU SDUD

5N N N

QN

(K K

5N N

(N

5N

KN

(N

KN

5N

( ) ( ) ( ), , ( ) ,

( ) ,

( ) ( ),

sen

( )

≤ =

= + − >

< =

== +

+

+

+

lK1 1

0 0

1

1

1

1 1

γ γ

onde [ Nl

é o melhor vértice.

3) Contração:

6H 6 [ 6 [ L K HQWmR [ [ [ [

[ [

N N LU SDUD

z | ~ ~ ~

~ ( ) ( ) , ( )

,

( )

> ∀ ≠ = + −

= < <= +

+0 0

1 0 1

1 1

β

β

4) Redução:

6H 6 [ 6 [ HQWmR [ [ [ [

L Q

N N LU SDUD

5N

KN

LN N

LN N( ) ( ), ( )

, , ,

( )

> = + −

= += +

+1 1

21 2 1

1 1

l l

K

O critério usado por Nelder e Mead para terminar a busca é o seguinte:

[ ]1

1 0

2

1

11

2

Q6 [ 6 [

+−

≤=

+

∑ ( ) ( ) ε .

00ppWWRRGGRRVVGGHHEEXXVVFFDDDDOOHHDDWWyyUULLDD

São os métodos de busca menos elegantes e eficientes (menores valores para χ) detodas as técnicas de busca, mas são mais robustos para problemas multimodais eatrativos para computação paralela (multiprocessamento).

00ppWWRRGGRRFFRRPPSSOOHH[[

É similar ao método dos poliedros flexíveis, sem a restrição de usar somente Q+1vértices (M. J. Box, 1965). A partir de um ponto inicial, [1, outros S−1 pontos sãoobtidos aleatoriamente:

[ = / + ψ [8 - /] , L = 2, 3, ..., S


47

onde / e 8 são vetores que limitam a região de busca e ψ é uma matriz diagonalde números aleatórios, distribuídos uniformemente no intervalo [0,1]. A buscaprocede de forma análoga ao método dos poliedros flexíveis. Recomenda-se, emgeral, usar S = 2 Q.

%%XXVVFFDDDDOOHHDDWWyyUULLDDUUHHSSHHWWLLWWLLYYDD

É uma busca completamente aleatória (R.J. Kelly e R.F. Wheeling, 1962), onde umcaminho aleatório é construído na seqüência dos passos em busca do ótimo, atravésda seguinte relação:

β+β−α+=+

U

G

G[[ )1(1 , N = 1,2,...

onde α ∈ ℜ é o passo, que é ampliado após uma direção bem sucedida e reduzidocaso contrário, β é um coeficiente ajustável durante a busca (grau de aleatoriedadedas direções), U

∈ ℜ

é um vetor unitário gerado aleatoriamente, G

∈ ℜ

é um vetor

da história da busca (uma direção média dos passos anteriores), obtido por:

G +1 = γ G

+ (1 − γ) ([

+1 − [) Λ

onde γ ∈ [0, 1] é o fator de esquecimento das direções e Λ ∈ ℜ

+ é uma matrizdiagonal de fatores de escala para as variáveis [. A figura abaixo ilustra um caminhotípico de uma busca aleatória.


48

''LLUUHHooHHVVDDOOHHDDWWyyUULLDDVV

É uma técnica onde as direções de busca são aleatórias, geradas a partir de um raiode busca uniforme, isto é, os pontos aleatórios em cada estágio estão localizadossobre a superfície de uma hiperesfera com centro no ponto [

. Uma busca em linha é

realizada na direção que passa pelo ponto [ e pelo melhor ponto da hiperesfera. A

figura abaixo mostra que quanto maior o raio da hiperesfera (limitado pela posiçãodo ponto ótimo), maior é a probabilidade do melhor ponto cair dentro do cone dedireções melhores que a direção do gradiente no ponto [

. Para atender os critérios

de convergência, o raio de busca deve ser periodicamente reduzido. A busca podeser acelerada se os pontos aleatórios forem restritos a um ângulo mínimo entre eles ea direção do estágio anterior.

%%XXVVFFDDDDOOHHDDWWyyUULLDDDDGGDDSSWWDDWWLLYYDD

É método de otimização “global”, baseado em uma busca aleatória memorizada, comdistribuição assimétrica e redução sistemática da hiperelipse de amostragem (A.R.

Secchi e C.A. Perlingeiro, 1989), onde os pontos são selecionados da seguinte forma:

[ ]δ+ −ψδ

+= )1(1 $%5

[[ , L = 1, 2, ..., Q , N = 1, 2, ...


49

onde [ ∈ ℜ

é o melhor ponto da última amostragem, ψ é um vetor de números

aleatórios ∈ (0, 1), 5 é o vetor dos eixos da hiperelipse, δ é o parâmetro de forma dadistribuição das amostras (δ = 1, 3, 5, ..., sendo que para δ = 1 tem-se umadistribuição uniforme), $ é o vetor de assimetria da distribuição ($ = 2 Ådistribuição simétrica), % é o vetor de direção da assimetria (% = −1 Å assimetriapositiva, no sentido de aumento de [ , e % = 1 Å assimetria negativa). Após aamostragem, se estiver na etapa de exploração, um número determinado de pontossão armazenados para uso posterior, quando a busca na direção do melhor ponto forencerrada. As etapas principais do algoritmo de busca são as seguintes:

1) Amostragem de pontos aleatórios em torno de [, usando a equação acima;

2) Ordenação das amostras baseado no valor da função objetivo;

3) Memorização das amostras, isto é, armazenar os melhores pontos, exceto omelhor de todos, durante a fase de exploração (δ = 1);

4) Análise do melhor ponto: verificar os critérios de convergência;

5) Checar validade de um novo ponto ótimo encontrado: análise de redundância depontos, baseado em uma métrica;

6) Resgate de um ponto da memória;

7) Eliminação pelos ótimos: verificar a tendência da busca;

8) Ajustar direção e critérios de amostragem: alteração dos parâmetros de busca ($,%, δ);

9) Análise dos critérios de parada: número máximo de avaliações e ótimos;

10) Ordenação dos ótimos.

A figura abaixo ilustra a característica de memorização de pontos amostrados,que são utilizados como novos pontos de partida quando a busca em umadeterminada direção é terminada. O encerramento da busca em uma direção podeocorrer devido a localização de um ponto ótimo local ou pela análise de redundânciados pontos.


50

-5 -4 -3 -2 -1 0 1 2 3 4 5-5

-4

-3

-2

-1

0

1

2

3

4

5

s tart pointoptim um

$$OOJJRRUULLWWPPRRJJHHQQppWWLLFFRR

A idéia dos algoritmos genéticos (GA), J. Holland (1975), está baseada no processoevolutivo dos organismos biológicos da natureza (princípios da seleção natural e dasobrevivência do mais adaptado). Os indivíduos que têm mais sucesso para seadaptar ao meio ambiente terão mais chance de sobreviver e reproduzir, enquantoque os menos ajustados serão eliminados. Isto significa que os genes dos indivíduosmais adaptados serão disseminados em um número crescente de indivíduos naspróximas gerações. A combinação de características de ancestrais bem ajustadospode produzir indivíduos que são bem mais adaptados que os pais. Os GAsprocuram simular este processo natural pela aplicação de RSHUDGRUHVJHQpWLFRV sobreuma população inicial e suas próximas gerações. Cada indivíduo da população écodificado em um FURPRVVRPR (VWULQJ), que representa uma solução possível para oproblema. A adaptação de um indivíduo é avaliada pelo valor da função objetivo.Indivíduos altamente ajustado são permitidos a se reproduzirem pela troca de partede sua informação genética (em um procedimento de cruzamento) com outroindivíduo altamente ajustado, produzindo filhos (RIIVSULQJV) com características deambos os pais. Mutações são freqüentemente permitidas pela alteração de algunsgenes dos cromossomos. Os filhos podem substituir toda a geração anterior (WpFQLFD


51

GDVJHUDoHV), ou substituir apenas os indivíduos menos ajustados (WpFQLFDGRHVWDGRHVWDFLRQiULR). Os passos básicos de um algoritmo genético são os seguintes:

1) Gerar aleatoriamente uma população inicial e avaliar a adaptação de cadaindivíduo;

2) Selecionar os pais de uma população, cruzá-los para produzirem os filhos eavaliar a adaptação dos filhos;

3) Substituir alguns ou todos os indivíduos da população pelos filhos;

4) Se o critério de convergência não foi satisfeito ir para o passo (2);

5) FIM.

O procedimento de cruzamento (operação genética) consiste em gerar aleatoriamenteum ou mais pontos de cruzamento e, então trocar os segmentos dos cromossomosdos dois pais para produzir dois filhos.

A mutação é aplicada a um filho após um certo número de cruzamentos, pelasubstituição de um gene do cromossomo por um valor aleatório (ou inversão de bitno caso de cromossomos binários). A mutação ajuda resguardar a possível perda deinformação genética valiosa devido a uma convergência prematura, expandindo oespaço de busca.

66LLPPXXOODDWWHHGGDDQQQQHHDDOOLLQQJJ

É uma técnica de busca direta com relaxação estocástica (S. Kirkpatrick, C. GelattJr. e M. Vecchi, 1983), baseada no processo de recozimento de sólidos (onde umsólido é aquecido a altas temperaturas e gradualmente resfriado para permitir a suacristalização). Como o processo de aquecimento permite que os átomos semovimentem aleatoriamente, se o resfriamento não é realizado muito rapidamente,então os átomos terão tempo suficiente para se alinharem de modo a atingir umestado de mínima energia. Usando esta analogia, o estado do sólido corresponde auma solução viável e a energia de cada estado corresponde ao valor da funçãoobjetivo. Neste procedimento, a busca é permitida a prosseguir mesmo se omovimento causar um aumento na função objetivo, através do uso de um parâmetrochamado “WHPSHUDWXUD” (7), onde o movimento é aceito com uma probabilidade deexp(−∆/7), com ∆ = 6([

+1) − 6([k). O valor de 7 ∈ (0,∞) é controlado pelo processode “UHVIULDPHQWR”, sendo que valores baixos resultam em um algoritmo de busca


52

local, ao passo que valores altos reduzem a velocidade de convergência. Os passosbásicos de um algoritmo VLPXODWHGDQQHDOLQJ (SA) são os seguintes:

1) Escolher um ponto inicial, [o ∈ ℜ, e os parâmetros α e β

2) Calcular 6o = 6([o), 7 7o, T = α 7o, 1 = β Q λ, U = 0, F = 0, N = 0

3) Fazer 1 vezes:

Mudar de direção λ componentes de [ e gerar aleatoriamente um vizinho, [

Calcular ∆ = 6([) − 6([k)

6H ∆ < 0 ou exp(−∆/7 ) > <, HQWmR [ ← [ e F = 0, VHQmR U ← U + 1

4) 6H U = 1, HQWmR F ← F + 1

5) Atualizar 7 , U = 0, N ← N + 1

6) 6H o processo não estiver “FRQJHODGR” (7 > 7 ou F ≤ & m ), HQWmR ir para (3)

7) FIM.

onde α é um parâmetro que define o nível de WHPSHUDWXUD (7 ) que o algoritmo deveterminar, β é um parâmetro utilizado para definir o número de iterações (1) em cadanível de WHPSHUDWXUD, 7o é a WHPSHUDWXUD inicial, U é o número de rejeições, λ énúmero de mudanças de direção, < ∈ [0,1] é uma variável aleatória uniforme e & mé o número de máximo de níveis consecutivos de temperatura sem progressão (isto é,rejeição total). O cálculo de 7o e a atualização de 7 podem ser feitos de diversasmaneiras, tal como (Aarts et al., 1988):

1

12

2

)1(lnˆ

−

η−−η

∆=PP

P7R e

N

N

NN 7

77

σδ+

+=+

3

)1ln(1

1

onde após um número P de tentativas iniciais, P1 e P2 são os números demovimentos com ∆ ≤ 0 e ∆ > 0, respectivamente, ∆ é o valor médio dos ∆ > 0, η ∈(0, 1) é a taxa de aceitação inicial (≈ 0,95), σ é o desvio padrão da função objetivodurante a busca em 7 e δ é a máxima mudança relativa permitida para aprobabilidade de aceitação dos estados (≈ 0,1).


53

%%XXVVFFDDWWDDEEXX

É um procedimento para levar métodos de busca local para fora da região de atraçãode um ótimo local (meta-estratégia ou meta-heurísticas), pela incorporação defunções de memória flexível para proibir movimentos que levam a características(ou DWULEXWRV, ou estado das variáveis) de soluções passadas (F. Glover, 1986). Osatributos que não são permitidos a serem retomados são chamados de WDEX e sãomantidos em uma memória de curta duração (OLVWDGHWDEXV).

Para maiores detalhes deste procedimento e dos dois métodos anteriores, sugere-se aleitura de Hasan et al. (2000) e suas referências.


54

00ppWWRRGGRRVVDDQQDDOOttWWLLFFRRVVPPppWWUULLFFDDYYDDUULLiiYYHHOO

Apesar da literatura referenciar somente os métodos quasi-Newton, que utilizamaproximações para o cálculo da matriz Hessiana (também conhecidos como métodosda secante), como métodos da métrica variável, nestas notas o termo “métricavariável” engloba todos os métodos que utilizam a primeira e/ou a segunda derivadada função objetivo. Estes métodos têm como equação básica para o processoiterativo:

[ +1 = [

− α :([

) ∇6([

) (3.1)

onde αk é o tamanho do passo, G = −:([

) ∇6([

) é o vetor direção e

:([k) é a matriz direção (inversa da matriz Hessiana ou aproximação desta)

Em qualquer método de otimização, uma boa direção de busca deve reduzir (para ocaso da minimização) o valor da função objetivo, isto é, 6([

+1) < 6([). Tal direção,

G, satisfaz o seguinte critério em cada ponto:

∇6([

) G

< 0

ou em outras palavras, o ângulo (θ) formado entre os vetores ∇6([) e G

deve ser

sempre maior que 90º, ou seja:

∇6([

) G

= |∇

6([

)| |G

| cos θ < 0 ⇔ θ > 90º


55

Como a otimização sem restrições é equivalente a encontrar a solução dosistema de equações não-lineares )([) = ∇6([) = 0, pode-se utilizar todos os métodosdisponíveis para a solução de )([) = 0. Por exemplo, na utilização do método deNewton-Raphson, a matriz Jacobiana é a própria matriz Hessiana.

A seguir serão descritos os métodos mais conhecidos desta classe, seguidos deuma generalização dos métodos da métrica variável.

00ppWWRRGGRRVVJJUUDDGGLLHHQQWWHHVV

Utilizam somente a primeira derivada da função objetivo, caso em que :([k) = I:

[ +1 = [

− α ∇6([

)

Quando α é escolhido de modo a minimizar:

g (α) = 6([ − α ∇6([

)) , α > 0 (3.2)

tem-se o método da maior descida (“steepest descent”), cujo algoritmo básico podeser escrito da seguinte forma.

algoritmo

1) Escolher um ponto inicial [o, N = 0

2) Calcular G = −∇6([

)

3) Encontrar α tal que 6([ + α G ) = PLQ

α > 0 g (α) = 6([

+ α G

)

4) Calcular [ +1 = [

+ α G


56

5) 6H o critério de convergência não foi satisfeito, HQWmR N ← N + 1 (ir para 2)

6) FIM.

0.005 0.01 0.015 0.02 0.025 0.03

0.005

0.01

0.015

0.02

X1

X2

A minimização de J (α), conhecida como IXQomR GHPpULWR, também chamada debusca em linha (“linesearch”), pode ser realizada com o uso de qualquer método deminimização univariável. Para ilustrar esta função, a figura abaixo mostra a funçãoJ2(α) do problema acima:

Aproximando 6([) por uma função quadrática:

6 [ 6 [ 6 [ [ [ [ [ + [ [ [

( ) ( ) ( ) ( ) ( ) ( ) ( )+ + + +≈ + ∇ − + − −1 1 1 11

2

ou de forma similar: G[+GG[6[6G[6J )()(

2

1)()()()( 2α+∇α+≈α+=α

[o

J1(α)

J2(α)

J2(α)

αα2

−/([1,[2)


57

que minimizando em relação a α, GJ

G

α

= 0 , resulta:

NN7N

N7N

NN7N

NN7

NG[+G

GG

G[+G

G[6

)()(

)(

)()(

)(* =∇−=α=α (3.3)

Contudo, a equação (3.3) não é utilizada para o cálculo de α nos métodos gradientes,pois exigiria o cálculo da segunda derivada da função objetivo. Neste caso, utiliza-se, em geral, métodos de busca para a sua seleção.

00ppWWRRGGRRGGHH11HHZZWWRRQQ

Faz uso da segunda derivada da função objetivo, caso em que :([k) = [+([)]-1:

[ +1 = [

− α [+([

)]-1 ∇6([

)

que é resultado da minimização da aproximação de 6([) por uma função quadrática:

6 [ 6 [ 6 [ [ [ + [ [

( ) ( ) ( ) ( ) ( )≈ + ∇ +∆ ∆ ∆1

2(3.4)

onde ∆[ = [ - [, na direção ∆[ , isto é:

∂∂∆6

[LN

= 0

∆[ = −[+([)]-1 ∇6([

)

Neste caso α ou é um parâmetro de relaxação do processo iterativo 0 < α ≤ 1, ou éum fator de correção da inversa da matriz Hessiana, caso esta não seja atualizada emtodas as iterações. A positividade da matriz Hessiana deve estar sempre garantida


58

para evitar a migração para um ponto sela. E, para assegurar a convergência dométodo de Newton, a correção ∆[ deve ser tal que 6([

+1) < 6([).

Uma maneira de assegurar a positividade da matriz Hessiana é através damodificação de Levenberg-Marquardt, que adiciona um fator ajustável na diagonalda matriz Hessiana, ou em sua inversa:

)(~ N[+ = +([

) + β I , β > −minλ

W([) = [+([

)]-1 + γ I , γ > −min1/λ

onde λ são os valores característicos de +([).

Em particular, quando o método de Newton é utilizado para a solução deproblemas de mínimos quadrados, ele é comumente referenciado na literatura comométodo de Gauss-Newton. Sendo que uma das aplicações é a solução de sistemas deequações não-lineares, )([) = 0, transformados em problemas de mínimos quadradosao procurar minimizar o quadrado dos resíduos, isto é,

∑=

==

[I[)[)[61

2 )()()()(

neste caso ∇6([) = 2 -

([) )([

) e +([

) = 2 -

([) -([

) + 2 4([

), onde

- [I

[

L

M L M

( ),

=

∂∂

é a matriz Jacobiana do sistema, ∑=

= [+[I[4

1)()()( e + ([) é a

matriz Hessiana da função I ([). Quando I ([ ) → 0 para [ → [*, então 4([

) tende a

zero, e as direções de busca do método de Gauss-Newton para o problema demínimos quadrados:

2)()(min

¡ [)G[-¢ −

ℜ∈

são equivalentes as direções do método de Newton, ou seja:

G = −[-

([) -([

)]-1 -

([) )([

) ≈ −[+([

)]-1 ∇6([

)

00ppWWRRGGRRGGRRJJUUDDGGLLHHQQWWHHFFRRQQMMXXJJDDGGRR

Utiliza somente a primeira derivada da função objetivo, gerando uma seqüência dedireções que são combinações lineares do gradiente:

G+1 = ε +1 G

− ∇6([

+1) (3.5)


59

onde a nova direção é conjugada com a direção anterior com respeito a Hessiana,isto é:

(G+1)

+([

) G

= 0

e [+1 = [

+ α G , onde α é obtido de forma similar ao método da maior descida.

Para calcular ε +1, faz-se a aproximação quadrática de 6([), equação (3.4), de ondeobtém-se:

∇6([) ≈ ∇6([) + +([

) ([ − [

) (3.6)

e portanto: ∇6([+1) − ∇6([

) = +([

) ([

+1 − [

) = +([

) α G , que multiplicado por

G+1 à esquerda, resulta:

(G+1)

[∇6([

+1) − ∇6([

)] = α (G +1)

H([

) G

= 0

substituindo a equação (3.5) na expressão acima, tem-se:

[ε +1 G − ∇6([

+1)]

[∇6([

+1) − ∇6([

)] = 0 ,

mas devido as direções conjugadas (G) ∇6([

+1) = 0 e para a aproximação

quadrática ∇6([

+1) ∇6([

) = 0, resultando em:

)()(

)()(

)()(

)()( 1111

1 NN7

NN7

N7N

NN7

N[6[6

[6[6

[6G

[6[6

∇∇∇∇=

∇∇∇−=ε

++++

+

a última igualdade resulta do fato de G = ε G -1 − ∇6([

) , que multiplicado por

∇6([) à direita:

(G) ∇6([

) = ε (G -1) ∇6([

) − ∇

6([

) ∇6([

) = −∇

6([

) ∇6([

),

pois (G-1) ∇6([

) = 0, pela mesma razão acima.

algoritmo

1) Escolher um ponto inicial [o

2) Calcular Go = −∇6([o) , N = 0

3) Encontrar α tal que 6([ + α G ) = PLQ

α > 0 g (α) = 6([

+ α G

)

4) Calcular [+1 = [

+ α G e ∇6([

+1)


60

5) 6H o critério de convergência foi satisfeito, HQWmR FIM.

6) Calcular )()(

)()()(

1111

NN7

NN7NNN

[6[6

[6[6G[6G

∇∇∇∇+−∇=

++++ , N ← N + 1

7) 6H N = Q, isto é, realizou Q direções L.I. HQWmR fazer [o = [ e (ir para 2)

VHQmR (ir para 3)

00ppWWRRGGRRVVGGDDPPppWWUULLFFDDYYDDUULLiiYYHHOO

A partir da equação (3.6), pode-se tirar a seguinte relação:

[+1 − [

= ∆[

= [+([

)]-1 [∇6([

+1) − ∇6([

)]

Fazendo uso de uma aproximação da inversa da matriz Hessiana:

[+([)]-1 ≈ ω :([

+1) = ω [:([

) + ∆:([

)]

onde ω é um fator de escala e ∆:([) = :([

+1) − :([

), resulta em:

∆[ = ω [:([

) + ∆:([

)] [∇6([

+1) − ∇6([

)] ,

que rearranjando tem-se:

∆ ∆ ∆ ∆: [ I [[

: [ I [N NN

N N( ) ( ) ( ) ( )= −ω

(3.7)

onde ∆I([) = ∇6([

+1) − ∇6([

). Como o sistema (3.7) possui Q equações e Q2

variáveis a determinar (os elementos de ∆:([)), então existe um número infinito de

soluções, sendo que a solução geral é dada por:

∆∆

∆∆∆

: [[ X

X I [

: [ I [ Y

Y I [

NN N

N N

N N N

N N( )

,

, ( )

( ) ( ),

, ( )=

< >−

< >1

ω(3.8)

onde X e Y

são vetores arbitrários

[, \ = [\ é o produto transposto (uma matriz)

<[, \> = [\ é o produto escalar (um escalar)

Conseqüentemente, pode existir uma infinidade de métodos que utilizam a equação(3.1), dependendo da escolha de ω, X

e Y

. O parâmetro α pode ser minimizado

(“OLQHVHDUFK”) ou escolhido adequadamente (“WUXVWUHJLRQ”).


61

Do mesmo modo que no método de Newton o parâmetro α é usado essencialmentepara assegurar a convergência (6([

+1) < 6([

)), pois a inversa da matriz Hessiana já

contém o tamanho ideal do passo (para funções quadráticas), os métodos quasi-Newton não necessitam minimizar α exatamente, pois :([

) → [+([

)]-1 a medida

que as iterações avançam. Portanto, as técnicas de “OLQHVHDUFK” não necessitamencontrar uma solução precisa para α , mas ajustá-lo adequadamente. Por exemplo,as técnicas de ajuste usadas nas implementação de “OLQHVHDUFK” no MATLAButilizam os seguintes critérios para a interpolação cúbica, quando são conhecidosdois valores da função objetivo e seus gradientes.

onde α £ é o mínimo obtido por interpolação ou extrapolação cúbica, I([) ≡ 6([) é afunção objetivo, T

= ∇6([

+1) − ∇6([

) e V

= ∆[

= α G . A relação (T

)V > 0

assegura a possitividade da matriz Hessiana.


62

Outra técnica de “OLQHVHDUFK” empregada no MATLAB é quando apenas umvalor do gradiente da função objetivo é utilizado juntamente com dois ou três valoresde 6([), onde uma mescla de interpolação cúbica e quadrática são realizadas. Nestecaso os critérios utilizados para a seleção do passo são os seguintes.

onde α ¤ é o mínimo obtido por interpolação ou extrapolação quadrática. Emqualquer uma das estratégias, quando o α¤ ou α £ resultarem em valores negativos,então α +1 = 2 α .As técnicas de “WUXVWUHJLRQ” (região de confiança) para o ajuste da direção de busca,consiste em aproximar 6([) por uma função mais simples, 4([), (geralmente umaforma quadrática) que represente razoavelmente bem a função 6([) em umavizinhança %ε([) em torno de [. Então um novo passo, V

= ∆[

= α G , é obtido pela

minimização de 4([) em %ε([), ou seja:

)(minarg V[4V N

V

N += , ([ + V) ∈ %ε([

)


63

se 6([ + V

) < 6([

), então o novo ponto é aceito, caso contrário a região de

confiança é reduzida e o procedimento é repetido. A figura abaixo ilustra estatécnica, onde as curvas de níveis tracejadas representam a aproximação quadráticaconvexa de 6([) no ponto [

.

As peculiaridades dos métodos da região de confiança estão relacionadas coma escolha da função 4([), a forma de redução de %ε([) e o quão preciso é resolvido oproblema de minimização de 4([

+ V).

algoritmo da métrica variável (com OLQHVHDUFK)

1) Escolher [o, ω, X e Y

2) Calcular :([o), N = 0

2) Calcular Gk = −:([k) ∇6([k)

3) Encontrar α tal que 6([ + α G ) ≈

0min

>α g (α) = 6([

¥ + α G

¥)

4) Calcular [¥+1 = [

¥ + α ¥ G ¥ , 6([

¥+1) e ∆I([

¥) = ∇6([

¥+1) − ∇6([

¥)

5) 6H o critério de convergência foi satisfeito, HQWmR FIM.

6) calcular :([¥+1), N ← N + 1, verificar a necessidade de UHVHW e (ir para 3)


64

onde UHVHW é uma reinicialização (ou modificação) de :([¥) devido a problemas de

convergência. No caso do método dos gradientes conjugados, o UHVHW acontece a cadaQ iterações (Q direções linearmente independentes). Para os demais casos, ele énecessário quando a matriz :([

¥) deixa de ser positiva definida, ou quando a

correção ∆:([¥) torna-se divergente devido a erros de arredondamento, ou ainda

quando G¥ estiver na mesma direção de G

¥-1, tornando :([

¥+1) singular.

No algoritmo acima, quando a interpolação cúbica é usada, então os passos (3) e (4)são concomitantes.

Definindo:

: = :([¥) :

-1 = [:([¥)]-1

∆[ = ∆[¥

∆I = ∆I([¥)

G = ∆[ − : ∆I $G = ∆I − :-1 ∆[

δ = <∆[, ∆I> $δ = <∆I , ∆I>γ = <∆I , W ∆I> $γ = <∆[, :-1 ∆[>

$ = ∆[, ∆[ / δ $$ = ∆I, ∆I / δ% = : ∆I, : ∆I / γ $% = :-1 ∆[, :-1 ∆[ / $γ

E = ∆[, ∆I ) = ∇6([¥),∇6([

¥+1) / <∇6([

¥),∇6([

¥)>

é apresentado na tabela a seguir alguns métodos de otimização que utilizam aprimeira e/ou a segunda derivada da função objetivo. Por exemplo, para o métodoBFGS a atualização apresenta a seguinte formulação:

NN7N

7N7NNN

N7N

7NNNN

[[+[

[+[[[+

I[

II[+[+

∆∆∆∆−

∆∆∆∆+=+

)()(

)]([)()(

)(

)()()( 1

que ao multiplicar à esquerda por (∆[¥)¦ e à direita por ∆[

¥, resulta em:

(∆[¥)¦ +([

¥+1) ∆[

¥ = (∆I

¥)¦ ∆[

¥ = (T

¥)¦ V¥

mostrando que se (T¥)¦ V¥ > 0, então +([

¥+1) é positiva definida.


65

PpWRGR :([¥+1)

6WHHSHVWGHVFHQW I

Gradiente Conjugado I + :)

Newton [+([¥+1)]-1

Greenstadt, λ § (C)→ max|λ § |,10-4 '-1 & '-1; ' = diag ( | | ,

/: L M− 1 1 2 ) e & = '-1 : '-1

Levenberg-Marquardt '-1 (&βI '-1; β > −min (valor caract. de &)

Broyden :G G

G I+

< > ,

, ∆

Davidon-Fletcher-Powell (DFP) W + A − B

Pearson I :G [

: $ % (¨

+ = + − − , $∆δ

γ 1

Pearson II :G : I

: %+ = +

−

, ∆γ

δγ

1

Newton Projetado (Zoutendijk) : − %

Greenstadt-Goldfarb I (GGI): G I I G I G $+ + − < >

1$

, , $

, $

δδδ

∆ ∆ ∆

Greenstadt-Goldfarb II (GGII):

( : : (%

©+

+− +

γδγ

1

Gill-Murray ou (GGIII) : $( : : ( 7

+ +

−+

1γδ δ

Fletcher ou (GGIII)-1: $

( : : (ª

−− − −

+ +

−+

1

1 1 1

1$

$γδ δ

Broyden-Fletcher-Goldfarb-Shanno (BFGS) ou (DFP)-1 [ ]: $ %− −

+ −1 1$ $

(Broyden)-1 :G G

G [

−−

+

11

$, $

$ , ∆

Goldstein-Price aproximação por diferenças-finitas


66

77HHRRUULLDDGGDD''XXDDOOLLGGDDGGHH

Problemas de otimização com restrição apresentam duas formas de representação: oSUREOHPDSULPDO (3) e o SUREOHPDGXDO (').

33UURREEOOHHPPDDSSUULLPPDDOO

Genericamente, o problema primal pode ser escrito da seguinte forma:

min 6([)

sujeito a: K« ([) = 0 , M = 1, 2, ..., P

J« ([) ≤ 0 , M = 1, 2, ..., S

[ ∈ ; ⊆ ℜ¬

onde ; é um conjunto convexo não vazio.

Definindo a função perturbação, Y(\), abaixo associada ao problema primal (3):

inf 6([)

sujeito a: K« ([) = 0 , M = 1, 2, ..., P

J« ([) ≤ \ , M = 1, 2, ..., S

[ ∈ ; ⊆ ℜ¬

onde Y(0) corresponde ao valor ótimo de 3. Se o conjunto <, definido como:

< = \ ∈ ℜ | K([) = 0, J([) ≤ \ para algum [ ∈ ;

for convexo, então Y(\) é uma função convexa em <, e Y(\) = ∞ ⇔ \ ∉ <. Apropriedade de convexidade de Y(\) é o elemento fundamental para a relação entre osproblemas primal e dual. Particularmente, se K([) é linear e J([) é convexo em ;,então < é um conjunto convexo.

O problema 3 é HVWiYHO se Y(0) é finito e Y(\) é uma função Lipschitzcontínua, isto é, existe um escalar / > 0 tal que:

Y(0) − Y(\) ≤ / ||\|| , ∀ \ ≠ 0

Esta definição de estabilidade não depende da norma ||\|| usada, sendo necessária esuficiente a consideração de um vetor \ variando em uma dimensão.

3 =

Y(\) =


67

Seja [* a solução ótima de 3, então os multiplicadores λ* e µ* existem se esomente se 3 for estável. Portanto, a estabilidade de 3 é uma qualificação necessáriae suficiente das restrições. Vale lembrar que a existência dos multiplicadores deLagrange depende da forma das restrições, e estará garantida se e somente se osgradientes das restrições de desigualdade ativas, ∇J« ([*), e das restrições deigualdade, ∇K([*), forem linearmente independentes.

Se a função objetivo, 6([), for suficientemente bem comportada, então oproblema 3 será estável, mesmo que as restrições não sejam bem comportadas. Porexemplo, se 6([) = F, então 3 é estável desde que as restrições estejam satisfeitas.Por outro lado, se a restrição for bem comportada (por exemplo, linear) é aindapossível que 3 seja instável.

([HPSOR Seja o problema:min 6([) = −[1/3

sujeito a: J([) = [ ≤ 0[ ∈ ;= [ | [ ≥ 0

Perturbando J([) na direção positiva tem-se:

Y(0) − Y(\) = 0 − (−\1/3) = \1/3 , ||\|| = |\| e 1 ≤ / \2/3

ou seja, para y → 0 tem-se / → ∞, isto é, Y(\) não é Lipschitz contínua.

33UURREEOOHHPPDDGGXXDDOO

O problema dual de 3 tem a seguinte forma:

;[∈λ≥µinfmax

,0/([,λ,µ)

sujeito a: /([,λ,µ) = 6([) + λ®K([) + µ

®J([)

Como o problema interno φ(λ,µ) =;[∈

inf /([,λ,µ) do dual ' é uma função paramétrica

de λ e µ, φ(λ,µ), também chamado de IXQomRGXDO, ele pode assumir valores (−∞)para algum valor de λ ou µ. Se o problema interno é finito para todos µ ≥ 0 e λ,então ele pode ser escrito como:

φ(λ,µ) = ;[∈

min /([,λ,µ)

' =


68

Observe que para um valor de [ fixo no ínfimo de /([,λ,µ), o problema externo,

λ≥µ ,0max φ(λ,µ), torna-se linear em λ e µ.

Sejam 6([), K([) e J([) funções contínuas e ; ⊆ ℜ¬ um conjunto compacto

não vazio, então φ(λ,µ) é uma função côncava. Observe que φ(λ,µ) é côncava sem anecessidade de considerar algum tipo de convexidade da função objetivo ou de suasrestrições, pois ela é uma coleção de pontos ínfimos de funções lineares em λ e µ.Como φ(λ,µ) é côncava e o problema externo é uma maximização, então o ótimo deφ(λ,µ) é global. Contudo, a dificuldade surge da forma paramétrica de φ(λ,µ) emrelação a λ e µ, isto é, não se tem uma forma funcional explícita de λ e µ.

,,QQWWHHUUSSUUHHWWDDoommRRJJHHRRPPppWWUULLFFDDGGRRGGXXDDOO

Considere o problema primal (3) monovariável:

min 6([)

sujeito a: J1([) ≤ 0 ,

J2([) ≤ 0 ,

[ ∈ ; ⊆ ℜ

e seu dual ('):

¯° ∈≥µminmax

0/([,µ)

sujeito a: /([,µ) = 6([) + µ1 J1([) + µ2 J2([)

O conjunto , ⊆ ℜ3 que é a imagem de ; sob as três funções 6([), J1([) e J2([) édado por:

, = (]1, ]2, ]3) ∈ ℜ3 | ]1 ≥ J1([), ]2 ≥ J2([) e ]3 = 6([) para algum [ ∈ ;

Sobre este conjunto a formulação equivalente do dual é dada por:

,]∈≥µminmax

0/(],µ)

sujeito a: /(],µ) = ]3 + µ1 ]1 + µ2 ]2

Para valores fixos dos multiplicadores 1µ ≥ 0 e 2µ ≥ 0, /(], µ ) é um plano no ℜ3 cominclinação (− 1µ , − 2µ ). O conjunto , e um plano tangente, K , no ponto 3 ∈ , estão

ilustrados na figura abaixo.

3 =

' =

' =


69

Interpretação geométrica do problema primal: O ponto de interseção de , com o eixo]3, denotado por 3* na figura acima, é a imagem da solução ótima, [*, do problemaprimal:

3* = [J1([ ), J2([ ),6([ )]

Portanto, o problema primal consiste na determinação do ponto em , que minimizaz3 sujeito a ]1 ≤ 0 e ]2 ≤ 0.

Interpretação geométrica da função dual: A função dual φ(µ) no ponto ( 1µ , 2µ )corresponde a determinação do plano mais baixo com inclinação (− 1µ , − 2µ ) que

intercepta o conjunto ,. Isto corresponde ao hiperplano suporte K que é tangente aoconjunto , no ponto 3 mostrado na figura acima.

Note que o ponto 3 é a imagem do ;[∈

min 6([) + 1µ J1([) + 2µ J2([) cuja solução é o

valor de ]3 onde o hiperplano K intercepta a ordenada, denotada por 3] na figura

acima.

Interpretação geométrica do problema dual: O ponto 3* na figura acima correspondeaos valores de 1µ e 2µ que maximizam 3] . Portanto o problema dual consiste na

determinação dos valores de 1µ e 2µ que definem a inclinação do hiperplano suporte

do conjunto ,, tal que ele intercepta a ordenada na valor mais alto possível.

Nem sempre é possível obter o valor ótimo do problema dual igual ao valorótimo do problema primal. Esta igualdade está garantida quando 6([) e J([) forem


70

funções convexas, K([) for uma função afim (mapeamento linear de [) e o problemaprimal for estável. A diferença entre os valores ótimos dos problemas primal e dual éconhecida como brecha dual (GXDOLW\ JDS). Esta diferença pode ser devido a umadescontinuidade da função perturbação Y(\) em \ = 0, que impossibilita a existênciade um hiperplano suporte neste ponto.

Se a função perturbação Y(\) é finita em \ = 0, então não existe brecha dual see somente se Y(\) é semicontínua inferior em \ = 0. Para que isto ocorra as seguintescondições devem ser satisfeitas:

a) ; é um conjunto fechado;

b) 6([) e J([) são funções contínuas em ;;

c) 6([*) é finito;

d) [ ∈ ; | K([) = 0, J([) ≤ 0 e 6([) ≤ α é um conjunto limitado, não vazio econvexo, para algum escalar α ≥ Y(0).

([HPSOR Seja o seguinte problema:

min 6([) = [2

sujeito a: [1 ≤ 0 ,

[ ∈ ; ([1,[2) | 0 ≤ [1 ≤ 2, 1 ≤ [2 ≤ 4 e [2 ≥ 2 se [1 = 0 ⊆ ℜ2

onde ]1 = [1 e ]2 = [2. A figura abaixo ilustra a imagem de ; deste problema.

3 =


71

A solução ótima do problema primal é obtida no ponto [1 = 0 e [2 = 2. Contudo, ovalor ótimo do problema dual não pode ser igual ao do primal devido a perda desemicontinuidade inferior de Y(\) em \ = 0.

''XXDDOOLLGGDDGGHHIIUUDDFFDDHHIIRRUUWWHH

A possível existência da brecha dual leva a necessidade da definição de dualidadefraca e dualidade forte.

Dualidade Fraca: seja [ uma solução viável do problema primal (3) e ),( µλ uma

solução viável do problema dual ('). Então,

),()( µλφ≥[6

Observe que qualquer solução viável do problema ' é um limite inferior dasolução ótima do problema 3 e qualquer solução viável do problema 3 é um limitesuperior para a solução ótima do problema '. Estas relações de limites sãoimportantes para estabelecer critérios de parada em algoritmos de otimização. Isto é,se em alguma iteração de um algoritmo existirem soluções viáveis para os problemasprimal e dual e estas estiverem suficientemente próximas, então elas podem serconsideradas soluções ótimas dentro da precisão desejada. Além disto, estas relaçõesnão estão baseadas em considerações de convexidade, portanto são de grandeimportância para tratar de problemas não convexos, desde que o problema dual sejaresolvido eficientemente.

Nota: se o valor ótimo de 3 é −∞ então ' deve ser inviável, ao passo que se o valorótimo de ' é +∞ então 3 deve ser inviável.

Dualidade Forte: sejam 6([) e J([) funções convexas, K([) função afim e ; ⊆ ℜ¬ um

conjunto convexo não vazio. Se o problema primal (3) é estável, então

a) o problema dual (') tem uma solução ótima;

b) os valores ótimos dos problemas 3 e ' são iguais;

c) (λ*, µ*) é uma solução ótima de ' ⇔ (−λ*, −µ*) é um sub-gradiente da funçãoperturbação Y(\) em \ = 0, isto é,

Y(\) ≥ Y(0) + GT \ , onde G é um vetor sub-gradiente

d) todas as soluções ótimas (λ*, µ*) do problema ' caracterizam o conjunto detodas as soluções ótimas do problema 3 obtidas pela minimização da função de


72

Lagrange: /([,λ*,µ*) = 6([) + (λ*)®K([) + (µ*)

®J([) para [ ∈ ;, satisfazendo as

restrições K([) = 0, J([) ≤ 0 e a condição de complementaridade (µ*)®J([) = 0.

([HPSOR Seja o seguinte problema não convexo (devido a bilinearidade de J):

min 6([) = −[1 − [2

sujeito a: J([) = [1[2 − 4 ≤ 0 ,

[ ∈ ; ([1,[2) | 0 ≤ [1 ≤ 4, 0 ≤ [2 ≤ 8 ⊆ ℜ2

cuja ótimo global é [ = [0,5 8]® e 6([ ) = −8,5. O seu dual (') somente em relação

a restrição J([) é dado por:

¯° ∈≥µminmax

0/([,µ)

sujeito a: /([,µ) = −[1 − [2 + µ ([1[2 − 4)

Fazendo ∇± /([,µ) = 0, tem-se como resultado [1 = [2 = 1/µ e, portanto, a funçãodual (mínimo de / em relação a [) toma a forma:

φ(µ) = −1/µ − 4µ

cujo máximo (∇φ = 0) ocorre quando µ = 0,5 e φ( µ ) = −4. Neste ponto [ = (2, 2) e6( [ ) = −4 ≥ φ( µ ). Contudo 6([ ) < φ( µ ), contrariando o limite inferior da dualidade

fraca. O problema é que o ponto [ na verdade é um ponto de máximo de 6([) sobre

a restrição J([), pois para vetores direção satisfazendo G® ∇J( [ ) = 0, tem-se G

®2[∇ /( [ , µ ) G < 0. Por outro lado, se a restrição [2 ≤ 8 for incluída na formulação do

dual:

¯° ∈≥µminmax

0/([,µ)

sujeito a: /([,µ) = −[1 − [2 + µ1 ([1[2 − 4) + µ2 ([2 − 8)

O mínimo de / em relação a [ é dado por: [1 = (1 − µ2) / µ1 e [2 = 1/µ1. Neste caso afunção dual é dada por:

φ(µ) = −1/µ1 − 4µ1 + µ2/µ1 − 8µ2

cujo máximo ocorre quando µ = [1/8 15/16]® e φ( µ ) = −8,5. Neste ponto [ = [* e

6( [ ) = −8,5 ≥ φ( µ ). A figura abaixo ilustra as duas situações descritas acima.

3 =

' =

' =


73

0 0.5 1 1.5 2 2.5 3 3.5 40

1

2

3

4

5

6

7

8

x1

x 2

-1

-2

-3

-4

-5

-6

-7

-8

-9

-10

-11

-8.5

g(x)<0g(x)=0

g(x)>0


74

33UURRJJUUDDPPDDoommRR//LLQQHHDDUU//33

Na otimização com restrição o problema que está sendo resolvido é:

min 6([) ou max 6([)

sujeito a restrições de igualdade e/ou de desigualdade, que definem a região viável,sendo que qualquer ponto nesta região é uma solução viável. Dependendo do tipo defunção objetivo e de suas restrições, os problemas de otimização com restrição sãocomumente chamados de programação linear, programação quadrática, programaçãonão-linear, programação inteira e programação mista.

Programação linear: função objetivo e restrições lineares

min 6([) = F®[

sujeito a: $[ ≤ E[ ≥ 0

onde $ é uma matriz P x Q, isto é, P restrições e Q variáveis.

Programação quadrática: função objetivo quadrática e restrições lineares

min [4[[F[6²²

2

1)( +=


Programação não-linear: função objetivo e/ou restrições não-lineares

min 6([)sujeito a: K« ([) = 0 , M = 1, 2, ..., P

J« ([) ≤ 0 , M = 1, 2, ..., S

onde K« ([) são P restrições de igualdade e g« ([) são S restrições de desigualdade.

Programação inteira: variáveis de decisão pertencem ao campo dos números inteiros.

Programação mista: é uma combinação da programação inteira com as demais. Porexemplo, no problema de projeto de trocadores de calor as variáveis de decisãopoderiam ser as temperaturas das correntes (campo real) e os tipos de trocadoresexistentes (campo inteiro).


75

Neste capítulo é tratado o problema da programação linear. As demaisformulações são assuntos dos capítulos subseqüentes.

Lista-se abaixo alguns exemplos típicos de problemas de gerenciamento deplantas industriais que recaem em programação linear:

a) associar trabalhadores a horários diários de trabalho de modo a adequar asnecessidades da planta, maximizando a satisfação do trabalhador e aprodutividade;

b) selecionar produtos a serem fabricados para o próximo período, tirando o melhorproveito dos recursos disponíveis e dos preços atuais para maximizar os lucros;

c) determinar o padrão de distribuição de produtos das plantas para os armazéns demodo a minimizar os custos dentro dos limites de capacidade.

A programação linear é um tipo de programação convexa, onde a funçãoobjetivo é convexa e as restrições formam um conjunto convexo, portanto o ótimolocal é também global.

))XXQQGGDDPPHHQQWWRRVV

6HPLHVSDoRYHWRULDODEHUWR: + = [ / F³[ < α, [ ∈ ℜ

´, α ∈ ℜ, F ≠ 0 ∈ ℜ

´

6HPLHVSDoRYHWRULDOIHFKDGR: + = [ / F³[ ≤ α, [ ∈ ℜ

´, α ∈ ℜ, F ≠ 0 ∈ ℜ

´

+LSHUSODQR: K = [ / F³[ = α, [ ∈ ℜ

´, α ∈ ℜ, F ≠ 0 ∈ ℜ

´

3ROLWRSR: IP

LL+

1=

3ROLHGURFRQYH[R: Politopo limitado.&DVFD FRQYH[D: é o conjunto convexo, &(;), formado pela interseção de todosconjuntos convexos no ℜ

´ que contêm o conjunto ; ⊆ ℜ

´ (convexo ou não

convexo). Se [ ∈ &(;), então

∑+

=α=

1

1

µ¶

¶¶ [[ com ∑+

==α

1

11

·¸ ¸ , α ¹ ≥ 0 e [

¹ ∈ ; (teorema de Caratheodory).

A região de busca da programação linear é formada por interseções de planos, dadospelas restrições lineares, $[ ≤ E e [ ≥ 0, gerando um poliedro convexo, isto é, umconjunto 3 = [ / $[ ≤ E e [ ≥ 0 de vetores no ℜ

´. Por exemplo, para as seguintes

restrições:2 [1 + [2 ≤ 84 [1 + [2 ≤ 10[1 ≥ 0 e [2 ≥ 0


76

isto é,

=

14

12$ e E = [8 10]

³, o poliedro formado é mostrado abaixo.

A solução da programação linear pode ser enunciada através do seguinte teorema:

“O ótimo de uma função linear em um poliedro convexo 3 ⊆ ℜ´ é obtido em no

mínimo um vértice. Se ele é obtido em mais de um vértice, então ele é obtido emtodos os pontos pertencentes a combinação convexa destes vértices”.

SURYD: sejam [1, [2, ..., [º, os vértices do poliedro 3, então, fazendo:

6 PLQ 6 [» ¼»

* ( ), , ,

==1 2 ½

e sabendo que ∀ [ ∈ 3 pode ser obtido pela combinação convexa [ [NN

N

S

==

∑α1

,

onde α¾ ≥ 0 e α NN

S

==

∑ 11

, então 6 [ 6 [NN

N

S

( ) ( )==

∑α1

, pois 6([) é linear e

6([) ≥ S* α NN

S

=∑

1

= S*.

([HPSOR: min 6([1, [2) = −6 [1 − 2 [2

sujeito a 2 [1 + [2 ≤ 8

4 [1 + [2 ≤ 10

[1 ≥ 0 e [2 ≥ 0

[6 [

[2 123= − −( )

[2

8 −

10 −

6 −

4 −

2 −

5|

4|

3|

1|

2| [1

[2

8 −

10 −

6 −

4 −

2 −

5|

4|

3|

1|

6([) = -18

2|

6([) = -12

6([) = -6

6([) = 0

[1


77

Se o problema de programação linear não está bem posto, ele pode apresentaruma solução não única (quando a função objetivo é paralela a restrição com melhorvértice), ou uma solução infinita (quando a região viável não é limitada), ounenhuma solução (quando as restrições não formam uma região viável), taisproblemas são ditos GHJHQHUDGRV.

00ppWWRRGGRRVVLLPPSSOOHH[[

A generalização para o ℜ´, chamado de método simplex (Dantzig, 1947), que

é um método da classe dos conjuntos ativos (“DFWLYH VHW”), é feita através datransformação das desigualdades em igualdades, pela inclusão das chamadasvariáveis de folga, I ¹ ≥ 0 (L = 1, 2, ..., P, onde P é o número de restrições):

$ [ ≤ E ⇒ $ [ + I = E, E ≥ 0

$ [ ≥ E ⇒ $ [ − I = E, E ≥ 0

gerando um sistema sub-determinado de P equações com S = Q+P variáveis.Portanto, é necessário especificar Q variáveis (chamadas de YDULiYHLVQmREiVLFDV)para obter as demais (YDULiYHLVEiVLFDV) em função destas. Se algum E ¹ < 0, entãobasta multiplicar a inequação correspondente por (−1) para deixá-lo na formapadrão, antes de introduzir a variável de folga.

Quando atribui-se valores nulos para as variáveis não básicas e obtém-se valores nãonegativos para as variáveis básicas, tem-se uma VROXomR EiVLFD YLiYHO (ousimplesmente VROXomREiVLFD), caso contrário tem-se um ponto inviável. Se algumavariável básica for nula, então tem-se uma VROXomR EiVLFD GHJHQHUDGD, sendonecessário substituir as variáveis básicas nulas por variáveis não básicas. Estasituação ocorre na figura abaixo no ponto [ = (5/2, 0), onde tem-se [2 = I2 = I3 = 0,isto é, como Q = 2 e P = 3, o número de variáveis não básicas é 2 e o número devariáveis nulas é 3 > Q.

[2

8 −

10 −

6 −

4 −

2 −

5|

4|

3|

1|

2| [1


78

O método simplex busca o ótimo ao longo das restrições, pulando de umvértice viável para outro adjacente até não haver mais progressão. Para descrever oalgoritmo simplex, observa-se que o problema de otimização modificado pode serrepresentado pela matriz aumentada

±=

0

I7

P

F

$%

de dimensão (P+1) × S, e pelo vetor aumentado \ = [[ I]³, de dimensão S, onde I ¿ é a

matriz identidade de tamanho P × P. O sistema resultante é dado por:

% \ = [E 6([)]³

Considerando como ponto de partida o vértice [ = 0, então as variáveis de folga, I,formam um conjunto de variáveis básicas do sistema. As demais variáveis, [,formam o conjunto de variáveis não básicas. Partindo desta formação, o algoritmosimplex (minimização) pode ser descrito da seguinte forma:

algoritmo

1) Se F ¹ ≥ 0 ∀ L = 1,2,...,Q, então a solução ótima foi encontrada, bastando igualar azero as variáveis não básicas e resolver o sistema [$ I ¿ ] \ = E. FIM.

2) Pivotamento: identificar o N-ésimo elemento da linha P+1 da matriz % com omenor valor (corresponde ao índice da variável que causa a maior redução dafunção objetivo). A N-ésima variável será incluída na base. Identificar o V-ésimoelemento do vetor E ¹ / D ¹ À ¾ com menor valor positivo (corresponde a restrição maispróxima, e valores negativos não violam a restrição com o aumento da N-ésimavariável). A V-ésima variável de folga será removida da base.

3) Eliminação de Gauss-Jordan: executar as operações elementares na matriz % (paralevar de uma solução básica para outra), tomando como elemento pivô: D Á À ¾ e (irpara 1).

([HPSOR: resolvendo o exemplo anterior pelo método simplex, tem-se:

[1 [2 I1 I2 E [1 [2 I1 I2 E [1 [2 I1 I2 E

2 1 1 0 8 ⇒ 0 1/2 1 -1/2 3 ⇒ 0 1 2 -1 6

4 1 0 1 10 1 1/4 0 1/4 5/2 1 0 -1/2 1/2 1

-6 -2 0 0 6 0 -1/2 0 3/2 S+15

0 0 1 1 S+18

base: I1 e I2 base: [1 e I1 base: [1 e [2


79

A solução do sistema [$ I Â ] \ = b, após eliminação de Gauss-Jordan, com :I1 = I2 =0 (variáveis não básicas), é dada por:

0 1 2 11 0 1 2 1 2

61

1

2

1

2

−−

=

/ /

[

[

I

I

⇒ [1 = 1 e [2 = 6

Observe que ao igualar as variáveis não básicas a zero, as variáveis básicassão obtidas simplesmente fazendo [ Ã = E Ã . Deste modo, se algum E Ã = 0 significa quehá dependência entre restrições, gerando uma solução básica degenerada.

Outra observação importante é que ao escrever a função de Lagrange para oproblema de programação linear tem-se:

/([,µ) = FÄ[ + µ

Ä($ [ − E) = (F

Ä+ µ

Ä$ ) [− µ

ÄE = [

Ä (F+ $

Ä µ)− µ

ÄE

e portanto ∇Å /([ ,µ*) = F + $Ä µ* = 0, resulta em:

/([ ,µ*) = −(µ*)ÄE = 6([*) = F

Ä[

Usando a definição de variável de folga, a função de Lagrange é dada por:

/([,µ) = FÄ[ − µ

ÄI = [

Ä η− µ

ÄE , η = F+ $

Ä µ

Consequentemente, ao obter a solução ótima pelo algoritmo simplex, os coeficientesdas variáveis de folga na última linha da matriz aumentada correspondem aosmultiplicadores de Lagrange das respectivas restrições. O sinal negativo na equaçãoacima é compensado pelo fato de que no final do algoritmo tem-se do lado direito otermo 6 − 6([*). No exemplo acima µ1 = µ2 = 1. Vale lembrar que:

∇ Æ S(x) = −µ*

isto é, a sensibilidade da função objetivo em relação as restrições é dada pelonegativo do multiplicador de Lagrange. No exemplo dado, aumentando E1 de 8 para8,2 a função objetivo passaria de −18 para −18 − 0,2 * µ1 = −18,2. Esta constataçãotambém pode ser obtida pelo fato de 6([*) = −(µ*)

ÄE.

A formulação dual do problema de programação linear pode ser escrita como:

max φ(µ) = −µÄE −E

Äµ

sujeito a: −$Äµ ≤ F

µ ≥ 0


80

Este problema pode ser resolvido da mesma maneira que o problema primal,introduzindo as correspondentes variáveis de folga (η, definido acima).

Observe que o mínimo de /([,µ) em relação a [ existe se η ≥ 0, cuja soluçãoé −µ

ÄE, pois pelas condições de complementaridade [

Ä η = µ

Ä I = 0 (= JDS dual).

Ou seja, quando $ [ = E→ (µ*)Ä$ [ = (µ*)

Ä E= −F

Ä[ → [F

Ä + (µ*)

Ä$] [ = 0.

No caso de restrição de igualdade, a variável dual, λ, é irrestrita.

O número de soluções básicas possíveis nos problemas de programação linearprimal e dual são dados pelas seguintes expressões, respectivamente:

)!(!

!

PSP

S

P

S1 S −

=

=

)!(!

!

QSQ

S

Q

S1G −

=

=

sendo que o algoritmo simplex chega na solução ótima, geralmente, entre P e 3⋅Piterações para o problema primal (e entre Q e 3⋅Q para o dual), não necessariamenteseguindo o caminho mais curto para o ótimo. O problema dual não requer umasolução inicial básica viável para [, mas para µ. Por outro lado, o problema primalsempre mantém a viabilidade das soluções para [ a cada iteração.

33UULLPPHHLLUUDDVVRROOXXoommRRYYLLiiYYHHOO

Se o ponto inicial não é viável, então é necessário realizar uma busca para aprimeira solução viável. Isto pode ser feito com o uso de YDULiYHLVDUWLILFLDLV.

([HPSOR: considere o problema

min 6([1, [2) = [1 + 2 [2

sujeito a 3 [1 + 4 [2 ≥ 5 [1 + [2 ≤ 4[1 ≥ 0 e [2 ≥ 0

Introduzindo as variáveis de folga I1 e I2 tem-se:

3 [1 + 4 [2 − I1 = 5

[1 + [2 + I2 = 4

e partindo do ponto inicial [1 = [2 = 0, resulta em I1 = −5 e I2 = 4, violando arestrição de não negatividade das variáveis. Definindo uma variável de folgaartificial, Y1, a restrição violada é rescrita como:

3 [1 + 4 [2 − I1 + Y1 = 5


81

sendo satisfeita com valores positivos de I1 e Y1 para [ = 0 (e.g., I1 = 1 e Y1 = 6).Deste modo uma solução viável é obtida quando as restrições forem satisfeitas e osvalores das variáveis artificiais forem todos nulos. As variáveis de folga podem serlevadas a zero pela inclusão de uma penalização (Murty, 1983) na função objetivodo tipo:

6’([,Y) = 6([) + SÄY

onde S Ã >> 0 é a penalização da variável Y Ã . Ou pelo uso do algoritmo simplex emduas fases, sendo a primeira fase usando a seguinte função objetivo:

6’(Y) = ∑=

ÇÈ ÈY

1

e a segunda fase como descrita anteriormente a partir da solução básica obtida naprimeira fase. Se o mínimo da primeira fase é diferente de zero então não há soluçãoviável para o problema.

))RRUUPPDDSSDDGGUUmmRR

Se um problema de otimização linear possuir alguma variável irrestrita, isto é,pode assumir valores positivos e negativos, então é possível transformá-lo na IRUPDSDGUmR de programação linear:

min 6([) = FÄ[

sujeito a: $[ = E (forma padrão)[ ≥ 0 , E ≥ 0

pela substituição desta variável por outras duas variáveis restritas. Por exemplo, seum dado problema tem a variável [1 irrestrita, então fazendo [1 = \1 − ]1, com \1 ≥ 0e ]1 ≥ 0, o problema equivalente com \1 e ]1 no lugar de [1 é restrito nestasvariáveis. Se [ possuir limite superior finito, estas restrições podem ser incluídas namatriz $ com o uso das variáveis de folga. Por outro lado, se o limite inferior fordiferente de zero ([ ≥ Z), então faz-se uma mudança de variável do tipo \ = [ − Z,com \ ≥ 0. Em suma, qualquer problema de programação linear pode ser posto naforma padrão. Observe que os problemas com restrições de desigualdade, tratadosanteriormente, são transformados na forma padrão acima pela inclusão das variáveisde folga.

Quando uma linha, L, da matriz de restrições de igualdade possuir somente umelemento não nulo, o componente, M, de [ associado a este valor é chamado deVLQJOHWRQ, pois não pode assumir outro valor diferente de [É = E Ã / D Ã É .


82

A etapa de eliminação Gaussiana do algoritmo simplex pode ser descrita emuma forma mais compacta através da seguinte notação matricial:

[Ä = [[Ê ¦ [Ë ] , [Ê ∈ ℜ Â

(vetor básico) e [Ë ∈ ℜÌ (vetor não básico)

$ = [% ¦ 1] , % ∈ ℜ Â × Â (matriz base) e 1 ∈ ℜÌ × Ì (matriz não básica)

FÄ = [FÊ ¦ FË ] , FÊ ∈ ℜ Â

e FË ∈ ℜÌ são os coeficientes da função objetivo

onde QP = S é o número total de variáveis do sistema. Usando esta notação aforma padrão é escrita como:

min 6([) = 171%

7% [F[F +

sujeito a: %[Ê + 1[Ë = E

[Ê ≥ 0, [Ë ≥ 0, E ≥ 0

Como a matriz base é de posto cheio, o vetor básico (das variáveis dependentes) édado por:

[Ê = %−1E−%−1 1[Ë

Esta operação transforma o problema na forma padrão para a sua IRUPDFDQQLFD, ouseja:

min 6([) = 171%

7% [F[F +

sujeito a: [Ê + 1 [Ë = E (forma canônica)

[Ê ≥ 0, [Ë ≥ 0, E ≥ 0

que é caracterizada por [Ê = E quando [Ë = 0. Substituindo [Ê na função objetivoresulta em:

6([) = 17%

71

7% [1%FFE%F )( 11 −− −+

O termo UË = FË − (%−1 1)Ä FÊ , conhecido como vetor dos “custos relativos” ou

gradiente reduzido da função objetivo ( )([6Í[∇ = UË ), é usado para determinar qual

a variável não básica se tornará básica (determinação da coluna pivô). A variável quedeixará a base resulta do teste da razão entre as linhas do termo independente %−1

E

e a coluna pivô da matriz %−1 1.

Fazendo [Ë = 0 (como parte da solução básica viável), tem-se:

[Ê = %−1E e 6([) = E%F7%

1−


83

00ppWWRRGGRRGGRRSSRRQQWWRRLLQQWWHHUULLRRUU..DDUUPPDDUUNNDDUU

O método de Karmarkar (1984) (ou Dikin, 1967), desenvolvido para tratar deproblemas de dimensões elevadas (com um número elevado de vértices), determinadireções de busca no interior estrito da região viável.

A tarefa mais difícil na solução do problema primal é determinar quais oscomponentes de [ podem ser estritamente positivos em uma solução viável. Isto éequivalente a determinar quais as restrições do problema dual podem ser satisfeitassomente como restrições de igualdade (ou seja, satisfazer as condições decomplementaridade). Os algoritmos de conjuntos ativos (DFWLYH VHW), tal como ométodo simplex, atualizam repetitivamente um conjunto de no máximo P elementosde [ que podem ser positivos a cada vez. Por outro lado, os algoritmos de pontointerior, tal como o de Karmarkar, trabalham com soluções viáveis onde todos oscomponentes de [ são positivos. Eles repetitivamente fazem uma mudança devariável, calculam a direção de busca neste novo conjunto (em geral na direção demaior descida ou conjugada), caminham alguma distância nesta direção e levam oponto resultante para as variáveis originais.

Considerando o problema de programação linear na forma padrão:

min 6([) = FÄ[

sujeito a: $[ = E[ ≥ 0

O algoritmo de Karmarkar inicia no centróide do simplex formado pelas restriçõesde igualdade $ [ = E, que é um ponto interior viável, [o (pontos próximos asfronteiras podem tornar lenta a convergência). A seguir o vetor direção da maiordescida, dado por G = −∇6([) = −F é projetado na interseção das restrições deigualdade (que define o espaço nulo, ou núcleo da matriz $, isto é, o conjunto ℵ =GÎ ∈ ℜ

Ì | $ GÎ = 0). A matriz de projeção é obtida sabendo-se que G = GÎ + G Ï , onde

G Ï é um vetor do espaço ortogonal ao espaço nulo (conhecido como “UDQJHVSDFH”),isto é, a imagem de $

Ä, ou seja 5 = G Ï ∈ ℜ

Ì | G Ï = $

Ä µ, µ ∈ ℜ Â

= ℵ⊥. Portanto,

(G Ï ) Ä GÎ = 0 e GÎ = G− G Ï = G− $Ä µ → µ

Ä $ (G− $

Ä µ) = 0

que resolvendo para µ resulta em:

µ = ($$Ä)−1 $ G

e, deste modo, a direção projetada GÎ = 3 G, é obtida pela seguinte matriz deprojeção:


84

3 = , − $Ä ($$

Ä)−1 $

Esta projeção pode ser melhor interpretada ao analisar duas soluções viáveis durantea busca, [

Ð e [

Ð+1, onde $[

Ð = E e $[

Ð+1 = E, e portanto $([

Ð+1 − [

Ð) = 0, ou seja

([Ð+1 − [

Ð) = αk GÎ , isto é, GÎ é ortogonal as linhas da matriz $ estando portanto no

espaço nulo de $. A figura abaixo ilustra a projeção.

A busca segue então na direção projetada até as proximidades de uma restrição,obtendo o ponto [

Ð, que é normalizado por:

[Ð+1 = '−1 [

Ð

onde ' é a matriz diagonal de [Ð. Então o problema é reformulado em função desta

matriz para que o ponto de partida do próximo estágio também esteja eqüidistante detodos os hiperplanos que formam o poliedro (ou seja, o centróide). Tem-se então:

$[Ð = E = $''−1 [

Ð = $' [

Ð+1

6([) = FÄ''

−1 [Ð F

Ä'[

Ð+1

resultando no novo problema:

min 6([) = FÄ'[

sujeito a: $'[ = E [ ≥ 0

devendo-se proceder como no início do algoritmo, substituindo a matriz $ por $' evetor F

Ä por F

Ä'. O critério de parada é verificado pela análise dos multiplicadores

de Lagrange, calculados por:µ = −($$

Ä)−1 $ F

e do gradiente projetado, isto é, na solução 3G = 0.

([HPSOR: considere o problema

origem •

G

GÑ

G Ò

ℵ


85

min 6([) = [1 + 2 [2 + 3 [3

sujeito a [1 + [2 + [3 = 1

[1 ≥ 0, [2 ≥ 0, [3 ≥ 0

ilustrado na figura abaixo, com centróide em [o = [1/3 1/3 1/3]Ä e [* = [1 0 0]

Ä.

A primeira direção projetada é dada por: GÎ = 3G = −3F = [1 0 −1]Ä. O tamanho do

passo nesta direção é obtido de modo a obter o maior avanço sem tornar a soluçãoinviável, isto é:

α* = γ × max α > 0 | [Ð + α GÎ ≥ 0 = γ × min ÓkÔÕÔ G[ /− | GÎ Ã < 0, L = 1,..., Q

onde 0 < γ < 1 é um IDWRUGHVHJXUDQoD para que os pontos permaneçam no interiorda região viável (usualmente γ ∈ [0,9 0,9999]). Para o exemplo α* = γ × 1/3. Usandoum valor γ = 0,98, tem-se o próximo ponto [1 = [1,98/3 1/3 0,02/3]

Ä, ilustrado na

figura acima pelo ponto da fronteira [2/3 1/3 0]Ä. Portanto, a matriz de

escalonamento é dada por ' = diag(1,98/3, 1/3, 0,02/3).

Existe uma grande variedades de implementações de algoritmos do pontointerior, tanto na forma primal quanto na dual, mantendo a idéia básica da projeçãodo gradiente no espaço nulo.


86

33UURRJJUUDDPPDDoommRR11mmRR//LLQQHHDDUU11//33

Os problemas de programação não linear podem ser representados pelas seguintesfunção objetivo e restrições não lineares:

min 6([)sujeito a: KÉ ([) = 0 , M = 1, 2, ..., P

JÉ ([) ≤ 0 , M = 1, 2, ..., S

onde KÉ ([) são P restrições de igualdade e gÉ ([) são S restrições de desigualdade.

A maioria dos algoritmos de programação não linear procuram linearizarlocalmente a fronteira da região viável, gerando restrições lineares. Algunsaproximam a função objetivo por funções quadráticas, outros por funções lineares.Portanto, os problemas de programação linear e quadrática são de grandeimportância para auxiliar na solução de problemas de programação não linear. Oproblema da programação linear já foi tratado no capítulo anterior. A seguir édiscutido o problema de programação quadrática.

33UURRJJUUDDPPDDoommRR44XXDDGGUUiiWWLLFFDD4433

O problema de programação quadrática é caracterizado por uma função objetivoquadrática e restrições lineares:

min [4[[F[6ÖÖ

2

1)( +=


onde $ é uma matriz P x Q, isto é, P restrições e Q variáveis, F é um vetor de Qcoeficientes e 4 é uma matriz simétrica Q x Q. Vale lembrar que uma matrizquadrada, 0, pode ser transformada em uma matriz simétrica usando atransformação 4 = (0 + 0

×) / 2 e que [

×0[ = [

×4[.

O problema de programação quadrática geralmente surge como um sub-problema da programação não linear. Também ocorre em problemas de mínimosquadrados com restrição, controle ótimo de sistemas descritos por modelos lineares efunção custo quadrática, controle preditivo linear, etc.

Sendo as restrições lineares e linearmente independentes, as condições dequalificação de segunda ordem das restrições são sempre satisfeitas. Portanto, as


87

condições de primeira ordem de KKT são as condições necessárias para obter asolução ótima, ou seja:

∇Ø /([ , λ*, µ*) = ∇6([ ) + (λ*)×∇K([ ) + (µ*)

×∇J([ ) = 0

K([ ) = 0

J([ ) ≤ 0

µÙ * JÙ ([ ) = 0 , M = 1, 2, ..., S

µ* ≥ 0

Além disto, se a matriz 4 for positiva definida, as condições de segunda ordem deKKT são as condições suficientes para a solução ser um ponto extremo e o ótimoglobal do problema. Se 4 não for positiva definida, então o problema pode não tersolução limitada ou apresentar mínimos locais.

A função de Lagrange para o problema de programação quadrática, na formaacima, é dada por:

/([, µ, η) = F×[ + ½ [

×4[+ µ

×($ [ − E) − η

× [

onde η são os multiplicadores associados ao limite inferior do vetor [ (o sinalnegativo surge porque a restrição é do tipo ≥). Portanto, o gradiente de / comrelação a [ fica:

∇Ø /([, µ, η) = F + 4[+ $× µ − η

Inserindo as variáveis de folga, I, e aplicando as condições KKT, resulta em:

$[ + I − E = 0

F + 4[+ $× µ − η = 0

µ× I = 0, η

× [ = 0 (ou µ

× I + η

× [ = 0, pois todos são ≥ 0)

[ ≥ 0, I ≥ 0, µ ≥ 0, η ≥ 0

Multiplicando o segundo sistema de equações transposto por [ / 2, tem-se:

½ [×4[= ½ (η

× [− µ

×$[− F

× [)

que substituindo na equação função objetivo leva a:

6([, µ, η,I) = ½ (F×[ + µ

×$ [ − η

× [)

como $[ = E−I , η× [ = 0 e µ

× I = 0, tem-se então:

6([, µ, η,I) = ½ (F×[ − µ

×E)


88

Fazendo o mesmo para a função de Lagrange tem-se:

/([, µ, η,I) = ½ (F×[ − µ

×E) − ½ (µ

× I + η

× [)

Portanto, o problema de programação quadrática pode ser resolvido pelo seguinteproblema de programação linear, conhecido como SUREOHPDGHFRPSOHPHQWDULGDGHOLQHDU:

min 6([) = F×[

sujeito a: $ [ = E[ ≥ 0

onde F× = ½ [F¦ 0 Ú ¦ −E ¦ 0 Û ]

[× = [[¦ I ¦ µ ¦ η] ∈ ℜ2Ü

E× = [E¦ −F]

$ I Ú 0 Ú 0 Û4 0 Ú $

×−I Ú

e observando a condição de complementaridade ½ (µ× I + η

× [) = 0 (= JDS dual).

Onde 0 Ú é um vetor nulo de tamanho P na definição de F, e uma matriz nula dedimensão P × P na definição de $. As condições de complementaridade implicamque no algoritmo simplex não é permitido que os pares ([ Ý , η Ý ) e (µ Ý , I Ý ) sejamsimultaneamente variáveis básicas em uma solução viável.

Observe que no problema acima, quando 4 = 0, tem-se uma formulaçãoprimal-dual de um problema de programação linear.

Rescrevendo a função de Lagrange na seguinte forma, sem incluir a restrição[ ≥ 0 na função:

/([, µ) = (F×+ [

×4+ µ

×$) [− ½ [

×4 [ − E

× µ

então o mínimo de /([,µ) em relação a [ existe se 4 for pelo menos positiva semi-definida e se η = F + 4[+ $

× µ ≥ 0, cuja solução é −½ [

×4 [ − µ

×E, pois pelas

condições de complementaridade η× [ = 0. Neste caso o problema dual pode ser

formulado, sendo dado por:

max φ(µ,]) = −½ ]×4 ] − E

× µ

sujeito a: −$× µ − 4]≤ F

µ ≥ 0, ] irrestrito

$ =


89

Do mesmo modo que na programação linear, também é possível resolver oproblema de programação quadrática usando os métodos do ponto interior. Nestecaso, a direção da maior descida, a matriz de projeção e os multiplicadores deLagrange são dados por, respectivamente:

G = −∇6([Þ) = −F − 4 [

Þ

3 = 4 ß 1 − 4 ß 1$ × ($4 ß 1$ × )−1 $4 ß 1µ = 4 ß 1$ × ($4 ß 1$ × )−1 $4 ß 1 G

que resultam da solução das condições de otimalidade do problema:

min 6([Þ +GÜ ) = 6([

Þ) + ∇

×6([

Þ) GÜ + ½ (GÜ )

×4 GÜ

sujeito a: $GÜ = 0

isto é, da minimização da função objetivo sobre o espaço nulo, como ilustra abaixo,onde GÜ = 3G. A solução acima é possível se 4 for positiva definida e $ possuirposto completo.

Ou seja, ao aplicar a condição de gradiente nulo para a função de Lagrange doproblema acima: /(GÜ , µ) = 6([

Þ) + ∇

×6([

Þ) GÜ + ½ (GÜ )

×4 GÜ + µ

×$GÜ , tem-se:

∇ à Ü /(GÜ , µ) = ∇6([Þ) + 4 GÜ + $

×µ = 0

∇µ/(GÜ , µ) = $GÜ = 0

ou na forma matricial, usando G = −∇6([Þ):

=

µ

00

GG

$

$4 áâ

cuja solução para µ e GÜ é dada acima com o uso da matriz de projeção.

origem •

G

GÑ

G Ò

ℵ


90

55HHOODD[[DDoommRR//DDJJUUDDQQJJHHDDQQDD

O método da relaxação Lagrangeana consiste em utilizar os multiplicadores deLagrange para a solução de problemas convexos, transformando o problema:

.[∈

min 6([)

sujeito a: KÙ ([) = 0 , M = 1, 2, ..., PJÙ ([) ≤ 0 , M = 1, 2, ..., S

onde 6([), KÙ ([) e JÙ ([) são funções convexas e . é um convexo, no problema:

ãäℜ∈µℜ∈λ ,

max φ(λ,µ)

sujeito a: µ ≥ 0

onde φ(λ,µ) = PLQ[ .∈

6([) + λ× K([) + µ

× I([), IÙ ([) = JÙ ([) + (YÙ )2 e YÙ (M = 1,2,...,S)

são as variáveis de folga. Isto é, transforma em um problema sem restrições.

([HPSOR: min 6([) = [1 [2


22 25 0( ) = + − ≤

)25(),( 21

22

21121 Y[[[[[/ +−+µ+=µ

02 1121

=µ+=∂∂

[[[

/

02 2112

=µ+=∂∂

[[[

/

025 21

22

21

1=+−+=

∂µ∂

Y[[/

02 111

=µ=∂∂

YY

/

µ1 [1 [2 Y1 6([) ponto

0 0 0 5 0 sela

PtQLPR

PtQLPR

-0,5 3,54 3,54 0 12,5 máximo

-0,5 -3,54 -3,54 0 12,5 máximo


91

Observe que como 02 =µ=∂∂

MMM

YY

/ (isto é, as condições de complementaridade das

restrições de desigualdade) implica em µÙ = 0 ou YÙ = 0, então para o caso de YÙ = 0,tem-se a solução sobre a M-ésima restrição de desigualdade, e quando µÙ = 0, asolução está distante da restrição pela variável de folga YÙ . Observe também que oponto ótimo de 6([) corresponde a um ponto sela de sua correspondente função deLagrange (isto é, um ponto de mínimo em relação a [ e de máximo em relação aosmultiplicadores, também conhecido como problema PLQLPD[).

O uso das variáveis de folga na forma (YÙ )2 nas restrições de desigualdadeevita a necessidade de restringir Y ≥ 0, como foi feito para os casos da programaçãolinear e quadrática.

([HPSOR: min 6([) = 22

21 54 [[ +

sujeito a: K1([) = 2 [1 + 3 [2 − 6 = 0

)632(54),( 21122

21 −+λ++=µ [[[[[/

028 121

=λ+=∂∂

[[

/

0310 112

=λ+=∂∂

[[

/

0632 111

=−+=∂λ∂

[[/

A solução deste sistema de equações leva a [1 = 1,071, [2 = 1,286, λ1 = -4,286.

Em suma, a solução do método da relaxação Lagrangeana (ou método deLagrange) consiste em aplicar as condições de otimalidade sobre /([,λ,µ), ou seja:

∇Ø /([, λ, µ) = ∇6([) + λ×∇K([) + µ

×∇J([) = 0

K([) = 0

JÙ ([) + (YÙ )2 = 0

µÙ YÙ = 0 , M = 1, 2, ..., S

µ ≥ 0

Como o conjunto resultante de equações forma, geralmente, um sistema não linearde equações algébricas, então o método da relaxação Lagrangeana não é muitoatrativo, pois a solução deste sistema não linear pode ser mais complexa que asolução direta do problema de otimização por outros métodos. Além disto, a solução


92

somente está garantida se as condições de convexidade forem satisfeitas. Casocontrário, os testes de otimalidade de segunda ordem devem ser verificados, isto é, a

matriz Hessiana da função de Lagrange com relação a [, 2[∇ /([ , λ*, µ*), deve ser

pelo menos positiva semi-definida para todo vetor não nulo G tal que:

G×∇K Ý ([*) = 0 , L = 1, 2, ..., P

G×∇JÙ ([*) = 0 para as JÙ ([*) ativas YÙ * = 0 e µÙ * > 0

G×∇JÙ ([*) ≤ 0 para as JÙ ([*) inativas YÙ * ≠ 0 e µÙ * = 0

isto é, G× 2

[∇ /([ , λ*, µ*)G≥ 0, ou se todas as raízes do polinômio característico:

00

)(2

=∇−λ=λ åæ0

0/,S

forem não negativas, onde 0 é a matriz formada pelos gradientes de K([*) e J([*)ativas, isto é, a matriz tal que 0

× G= 0 (espaço nulo de 0

×), com PS

ç < Q e com

posto completo (Sç é o número de restrições J ativas). Observe que 0

× = $ para os

casos da programação linear e quadrática.

Para a segunda solução do exemplo 6.1 a matriz 0 = ∇J1([*) = 2 [[1 [2]× =

[7,08 −7,08]× e a matriz Hessiana é dada por:

=

µ

µ=∇

11

11

21

122/[

resultando em G×

∇J1([*) = 7,08 (G1 − G2) = 0 → G1 = G2 e 04 21

2 >=∇ GG/G [7 , e

portanto o ponto é um mínimo local, ou de forma equivalente S(λ) = 0 resulta novalor característico λ > 2. Para o exemplo 6.2, que é convexo, a solução obtida é omínimo global do problema.

Apesar da dificuldade da aplicação do método de Lagrange para a solução deproblemas não lineares, ele é muito útil para analisar a sensibilidade da funçãoobjetivo em relação as restrições.

A aplicação do método do gradiente para a solução da relaxação Lagrangeanano espaço dual, quando há somente restrições de desigualdade, sem o uso dasvariáveis de folga, resulta no seguinte algoritmo (Uzawa). Lembrando que se µ*maximiza φ(µ) sobre µ ≥ 0, então o correspondente [* é solução do problema primal.

algoritmo


93

1) Escolher um ponto inicial µo, N = 0

2) Resolver o problema φ(µÞ) =

.[∈min 6([) + (µ

Þ)× J([), obtendo [

Þ.

3)

=µ>µ=

0)(,0max

0)( èé

èé

èé

èéè

éVH[J

VH[JG L = 1, 2, ..., S

4) Encontrar αÞ tal que φ(µÞ + αÞ G Þ ) =

0max

>αφ(µ

Þ + α G

Þ)

5) Calcular µÞ+1 = µ

Þ + αÞ G Þ


7) FIM.

Naturalmente, assim como foi utilizado o método do gradiente, qualquer outrométodo de otimização sem restrição poderia ser utilizado para resolver esteproblema.

))XXQQooHHVVSSHHQQDDOOLLGGDDGGHH

Transforma o problema:

PLQ[ .∈

6([)

sujeito a: Kê ([) = 0 , M = 1, 2, ..., P

gê ([) ≤ 0 , M = 1, 2, ..., S

no problema:

PLQ[ ë∈ℜ

[6([) + 3([, U)] , otimização sem restrição

onde 3([, U) é a função penalidade e U ≥ 0. A função penalidade deve satisfazer asseguintes propriedades:

3([, U) ≥ 0 ∀[

3([, U) = 0 para todo [ viável

O caso mais comum de funções penalidades é a penalidade quadrática:

( ) ( )[ ]

+= ∑ ∑= =

ìí

îí íí [J[KUU[3

1 1

22 )(,0max)(),(


94

Esta função, ilustrada abaixo, causa uma descontinuidade da matriz Hessiana quandoalgum Jï ([) = 0, dificultando o uso de algoritmos quasi-Newton.

Além disto, o condicionamento do problema, que é responsável pelo desempenho dequalquer algoritmo de descida, piora quando U cresce. Um aumento de U gera umamelhor aproximação da fronteira da região viável, mas torna-se mais difícilsatisfazer as condições de KKT. Uma estimativa para os multiplicadores deLagrange (e Kuhn-Tucker) é dada por:

λ = U K[[(U)]

µ = U max0, J[[(U)]

Uma estratégia possível, para minimizar estes problemas, seria um auto-ajustedo parâmetro U, iniciando com valores baixos e se 3([

ð, Uð) > ε então fazer U

ð+1 = γ U

ðcom γ > 1. O fator de escala U pode também ser individualizado para cada restrição,em função da importância ou da ordem de grandeza da mesma.

Outra função penalidade usada, não suave, é dada por:

( )

+= ∑ ∑= =

ñò

óò òò [J[KUU[3

1 1)(,0max)(),(

sendo uma penalidade exata, pois existe um valor finito de U , U ôöõ ÷ , tal que [* é ummínimo local de 6([) + 3([, U) quando U > U ôøõ ÷ , ao contrário da penalidadequadrática onde U deve ser infinito para se ter uma penalidade exata.

No caso de restrições de desigualdades é possível usar penalidades interioresà região viável, conhecidas como IXQoHV EDUUHLUDV, sendo a forma mais comumdada por:

∑=

−=S

L L [JUU[%

1 )(

1),(

3

J0


95

sendo as soluções sucessivas estritamente viáveis. Obviamente, as dificuldadescomputacionais aumentam quando se aproxima da fronteira.

Uma penalização mais satisfatória e exata, no sentido de que existe um valorfinito de U, acima do qual a solução do problema modificado satisfaz as condições deotimalidade do problema original, é o PpWRGRGR/DJUDQJHDQRDXPHQWDGR (Powell,1969 e Hestenes, 1969). Neste caso a função de Lagrange toma a forma:

/ù ([,λ;U) = S(x) + λú K([) + µ

ú I([) + 3([, U)

onde Iï ([) = Jï ([) + (Yï )2 , Yï (M = 1,2,...,S)

3([, U) = ½ U Kú([) K([) + I

ú([) I([)

Neste caso, a parte da matriz Hessiana de /ù , correspondente a função penalidade édada por:

U $ú([)$([) + 4([)

onde $ = ∇úZ([), Z

ú = [K

ú([) I

ú([)] , ∑

+

==

SP

LLL [+[Z[4

1)()()( e + õ ([) é a matriz

Hessiana da função Z õ ([). Como Z õ ([ ) = 0, então 4([ ) = 0, reduzindo a Hessianada função penalidade para U $

ú([ )$([ ), que é uma matriz positiva semi-definida.

Portanto, se um vetor G pertence ao núcleo de $([ ), isto é, $([ ) G = 0, então:

Gú /ù ([ ,λ*;U) G = G

ú /([ ,λ*) GUG

ú $ú([ )$([ ) G G

ú /([ ,λ*) G ≥ 0

E se G pertence ao UDQJHVSDFH de $([ ), isto é, G = $ú([ ) µ, então:

Gú /ù ([ ,λ*;U) G = G

ú /([ ,λ*) GUµ

ú $([ )$

ú([ )$([ )$

ú([ ) µ≥ 0

se U for suficientemente grande, aumentando os valores característicos de /([ ,λ*)no UDQJHVSDFH de $([ ), que podem ser negativos, deixando os demais inalterados.Logo, se o problema original possuir uma matriz Hessiana positiva semi-definida (oudefinida), então existe um U finito tal que valores acima dele resultarão em umamatriz Hessiana aumentada positiva semi-definida (ou definida), o que implica que[* minimiza /ù ([,λ*;U).

No caso de usar um vetor de pesos, U, ao invés de um escalar, a análise acimatambém se aplica, bastando trocar a expressão U $

ú([ )$([ ) por $

ú([ ) 5$([ ),

onde 5 = diag(U õ ).


96

([HPSOR: min 6([) = [3

sujeito a: K([) = [ + 1 = 0

Obviamente a solução deste problema é [* = −1. O valor ótimo do multiplicador deLagrange pode ser obtido por:

∇û /([, λ) = 3 [2 + λ = 0 → λ* = −3 ([*)2 = −3.

Definindo o Lagrangeano aumentado:/ù ([, λ; r) = [3 + λ ([ + 1) + U ([ + 1)2 / 2

tem-se os seguintes resultados:

∇û /ù ([ , λ*; U) = 3 ([ )2 + λ* + U ([ + 1) = 0

*)*,(2 λ∇ [/[ = 6[ = −6 (negativa definida)

Gú∇K([*) = 0 → G = 0 (P = Q, grau de liberdade nulo)

)*;*,(2 U[/$[ λ∇ = 6[ + U = U− 6 (positiva definida se U> 6).

A figura abaixo ilustra este exemplo, fixando λ* = −3 e usando dois valoresdiferentes para U (U = 2 < 6 e U = 9 > 6). Observe que para [* = −1 o valor de /([,λ*)é máximo, e é onde o valor de 6([) intercepta /([,λ*). Também neste ponto a função/ù ([, λ*; 9) apresenta um mínimo local. O ínfimo de /ù ([, λ*; 9) = −∞. Observetambém que quando U < 6 o mínimo de /ù ([, λ*; U) é deslocado para um pontoinviável.


97

33UURRJJUUDDPPDDoommRROOLLQQHHDDUUVVHHTTHHQQFFLLDDOO66//33

A técnica mais direta para resolver problema de programação não linear emgeral é a linearização do problema e a aplicação de técnicas de programação linear,tais como:

1. Linearizar o problema (função objetivo e restrições) em torno de um pontonominal de operação e obter a solução do problema de programação linearresultante;

2. Linearizar sucessivamente o problema não linear na medida em que melhoressoluções viáveis são obtidas por métodos de programação linear. No caso deobter uma solução inviável na programação linear, então é localizado um pontoviável próximo a este;

3. Linearizar por partes a função objetivo e as restrições gerando um problemaaproximado, formado por séries de segmentos de reta.

Contudo, não há garantias de convergência para estes métodos. A segunda estratégiaé a base do método da programação linear seqüencial (SLP - 6HTXHQWLDO /LQHDU3URJUDPPLQJ), onde a cada estágio um problema de programação linear é resolvidopelo método simplex. Este método também é conhecido como método daprogramação aproximada (MAP - 0HWKRG RI $SSUR[LPDWH 3URJUDPPLQJ),denominado por Griffith & Stewart, 1961.

A linearização do problema de programação não linear em torno de um ponto[ð resulta em:

ü.[∈

min 6([ð) + ∇

ú6([

ð) ([− [

ð) ≈ 6([)

sujeito a: Kï ([) ≈ Kï ([ ð ) + ∇úKï ([ ð ) ([− [

ð) = 0 , M = 1, 2, ..., P

gï ([) ≈ gï ([ ð ) + ∇úgï ([ ð ) ([− [

ð) ≤ 0 , M = 1, 2, ..., S

sendo ([ − [ð) arbitrariamente restrito por limites inferior e superior para que os

pontos permaneçam em uma vizinhança próxima a [ð.

algoritmo

1) Escolher um ponto inicial [o viável e seus limites /o e 8o, N = 0

2) Linearizar a função objetivo e as restrições em torno do ponto [ð

3) Resolver o problema de programação linear resultante


98

4) 6H [ð+1 (solução do LP) não for viável para o NLP, HQWmR reduzir o intervalo [/

ð

8ð] para [/

ð+18

ð+1] e ir para (3)


6) FIM.

As maiores desvantagens do SLP são:

a) pode convergir lentamente se o ótimo estiver no interior da região viável, ou se oproblema for muito não linear;

b) geralmente viola as restrições não lineares por uma quantidade razoável,necessitando de muitas iterações para a redução dos intervalos.

Por outro lado, em problemas de grandes dimensões e não linearidadesmoderadas, o método SLP pode ser competitivo. A convergência pode ser rápida emproblemas cuja solução está em um vértice das restrições.

**UUDDGGLLHHQQWWHHVVUUHHGGXX]]LLGGRRVVJJHHQQHHUUDDOOLL]]DDGGRRVV**55**

O método dos gradientes reduzidos generalizados tem se mostrado o melhormétodo de linearizações sucessivas. É uma extensão do método de Wolfe (1962),aplicado a problemas com restrições lineares, para acomodar restrições não lineares.Em essência, o método define novas variáveis que são normais às restrições linearesou linearizadas, e expressa o gradiente (ou outra direção de busca) em termos destabase normal.

O problema não linear, para ser resolvido pelo método GRG, deve estar naforma padrão, ou seja:

min 6([)

sujeito a: Kï ([) = 0 , M = 1, 2, ..., P

/ õ ≤ [ ≤ 8 õ , L = 1, 2, ..., Q

onde as restrições de desigualdade estão incluídas em K([) pelo uso das variáveis defolga:

Kï ([) = Jï ([) + (Yï )2 , −∞ ≤ Yï ≤ ∞ ou

Kï ([) = Jï ([) + Yï , 0 ≤ Yï


99

ou ainda usando a estratégia dos conjuntos ativos (DFWLYHVHW), onde a cada estágio debusca as restrições ativas são adicionadas ao conjunto das restrições de igualdade eas inativas são removidas, baseado nas estimativas dos multiplicadores de Lagrange.

Lembrando que o vetor direção G pode ser decomposto em G = G ý + Gþ , ondeGþ é um vetor do espaço nulo (ℵ) da matriz $ = ∇

úK, G ý é um vetor do “UDQJH

VSDFH” (5) de $ e (Gþ ) ú G ý = 0, ou seja, Gþ é a projeção ortogonal de G em ℵ.Portanto, qualquer vetor G ∈ ℜ ÷

pode ser representado unicamente por umacombinação linear da base < de 5 e da base = de ℵ:

G = < G ý + = Gþonde < é uma matriz com P colunas independentes e Z é uma matriz com Q−Pcolunas independentes e ortogonais a <, tendo ambas Q linhas.

Por exmeplo, se [ é um ponto viável de restrições lineares (ou linearizadas), $ [ = E,a sua representação nas base acima: [ = < [ ý + = [þ , resulta em:

$[ = $< [ ý + $= [þ = E

mas como $= = 0, tem-se $< [ ý = E e portanto:

[ ý = ($<)−1 E

ou seja, todos os pontos viáveis possuem os mesmos componentes no “UDQJHVSDFH”de $ e a solução do problema de otimização é determinada somente peloscomponentes de [ no espaço nulo de $. Em outras palavras, partindo de um pontoviável, [

ð, o vetor direção deve permanecer no espaço nulo:

[ð+1 = [

ð + αð G ð , com $ G

ð = 0

ou seja Gð = =

ÿG (< N

UG = 0). Então, o vetor direção tem dimensão reduzida Q−P.

No caso das programações linear e quadrática tem-se, respectivamente:

=ú 3 = , − $

ú ($$

ú)−1 $

=ú 3 = 4−1 − 4−1

$ú ($4

1$ú)−1 $4−1

Observe que =ú =

−1, pois a base é ortogonal.

No método GRG a matriz = é obtida pela seguinte forma:

=

− &

=I

B- -1


100

onde % é uma matriz não singular de dimensão P×P e & é uma matriz P × (Q−P),ambas com colunas independentes, obtidas da decomposição da matriz $:

$ = [% ¦ &]

Do mesmo modo o vetor [ é decomposto em [ú = [[ ¦ [ ], onde % = )( N7

[ [K∇ e

)( N7[ [K& ∇= . Deste modo, [ = %−1

E −%−1&[ , que é conhecido como vetor das

variáveis dependentes (ou vetor básico) e [ é o vetor das variáveis independentes(ou vetor superbásico). Aquelas variáveis mantidas fixas em um de seus limites sãochamadas de variáveis não básicas.

O termo gradiente reduzido, J , é dado ao seguinte vetor:

J ([) = =

∇6([

) =

∇∇

− )(

)(

I

B- 1-

[6

[6&

= ∇ 6([)−&

(%−1)

∇ 6([

)

onde ∇ 6([) = )( N

[ [6∇ (para simplificar a notação), sendo que o vetor direção de

busca é dado por −J nas direções que não violam os limites das variáveis.

Naturalmente, como as restrições foram linearizadas, a direção de busca éviável localmente, como ilustra a figura abaixo.

e a busca pode parar em um ponto inviável, em relação as restrições originais.

A relação entre os multiplicadores de Lagrange e os gradientes reduzidospode ser obtida da seguinte forma:


101

/([, λ) = 6([) + λK([)

∇ /([, λ) = ∇ 6([) + ∇ K([) λ = ∇ 6([) + % λ = 0

∇ /([, λ) = ∇ 6([) + ∇ K([) λ = ∇ 6([) + & λ = 0

então, λ = −(%−1)∇ 6([)

e ao substituí-lo em ∇ /([, λ), resulta em:

∇ /([, λ) = ∇ 6([) − ∇ K([) λ = ∇ 6([) − & (%−1)

∇ 6([) = J ([) = 0

quando [ for um ponto ótimo.

([HPSOR: min 6([) = 22

21 22 [[ +

sujeito a: K1([) = [1 + 2 [2 − 2 = 0

arbitrando [ = [1 e [ = [2, tem-se:

% = [

K

∂∂

= 1 & = [

K

∂∂

= 2

∇ 6([) = 4[1 ∇ 6([) = 4[2

portanto, J ([) = ∇ 6([)−&

(%−1) ∇ 6([) = 4 [1 −8 [2 , que pode ser

visualizado na figura abaixo.


102

algoritmo

1) Escolher um ponto [o viável e selecionar Q−P variáveis independentes, N = 0

2) Linearizar a função objetivo e as restrições em torno do ponto [

3) Calcular N5J

4) Determinar a direção de busca no espaço das variáveis independentes:

VH 8[ =, e

J , < 0 ou /[ =, e

J , > 0, HQWmR 0, = !"G

VHQmR #

JG ,, −=

5) Determinar a direção de busca no espaço das variáveis dependentes:

N,

NNN' G&%G 1)( −−=

(isto é, GK = [

K

∂∂

G[ + [

K

∂∂

G[ = 0)

6) Encontrar α tal que 6([ + α G

) = PLQ

α > 0 g (α) = 6([

+ α G

), sujeito a /≤ [ ≤ 8

onde

= $%

$&$G

GG

7) Calcular N,N

N,

N, G[[ α+=+1

N'N

N'

N' G[[ α+=+1~ (ponto tentativa ou SUHGLomR)

8) Usar o método de Newton para tornar as variáveis dependentes em um ponto

viável 0),( 11 =++ N,

N' [[K (FRUUHomR), usando 1~ +N

'[ como estimativa inicial.

9) 6H [+1 é viável e 6([

+1) ≤ 6([

), HQWmR N ← N + 1 e VH o critério de convergência

não foi satisfeito (ir para 2) VHQmR FIM.

10) 6H [+1 é viável e 6([

+1) > 6([

) ou se o método de Newton não convergiu, HQWmR

reduzir α e (ir para 7).

NOTA: se a obtenção de um ponto viável [+1 não foi possível, após um determinado

número de iterações, então deve-se trocar alguns elementos da base e reiniciar oalgoritmo. Também aquelas variáveis independentes que atingirem seus limitesdevem ser substituídas por outras variáveis dependentes. A determinação da direçãode busca no espaço das variáveis independentes pode também ser obtida pelométodo dos gradientes conjugados:


103

$'($'

$'($'$%$'$%JJ

JJGJG

)(

)( 1111

++++ +−=

As figuras abaixo ilustram o procedimento de predição-correção. No primeiro caso acorreção foi bem sucedida, mas no segundo foi necessário mudar de base. Asvariáveis independentes na iteração N são [1 e [2. Do ponto A para o ponto B tem-sea correção somente nas variáveis independentes. O ponto C é a predição da variáveldependente (retorno ao plano tangente, ou restrições linearizadas). O ponto Dcorresponde a correção da variável dependente para satisfazer as restrições originais.No caso da segunda figura, as correções de Newton não levam o ponto C para dentrodas restrições. Então no ponto D (fora das restrições) é feita uma mudança de basetornando [2 como variável dependente e [3 como variável independente, sendo queuma nova correção leva o ponto D para o ponto E, que satisfaz as restrições.

33UURRJJUUDDPPDDoommRRTTXXDDGGUUiiWWLLFFDDVVHHTTHHQQFFLLDDOO664433

Programação quadrática seqüencial, ou sucessiva, ou recursiva, ou iterativa, ou aindamétodos da métrica variável com restrição, são as várias formas de referenciar ométodo SQP (Wilson, 1963), que resume-se, basicamente, a resolver as equações deKarush-Kuhn-Tucker (KKT), ou condições necessárias de primeira ordem. A idéia échegar o mais próximo possível do método de Newton empregado na solução deproblemas sem restrição, que apresenta convergência quadrática.

Ao nível mais externo das iterações são feitas aproximações da Hessiana dafunção de Lagrange, usando métodos de atualização tipo quasi-Newton. O problemade programação quadrática resultante, associado a uma busca em linha (OLQHVHDUFK)


104

ou a uma técnica de região de confiança (WUXVWUHJLRQ), é então resolvido para proveruma direção de busca.

Aplicando as condições de KKT ao problema de programação não linear:

.[∈

min 6([)

sujeito a: K) ([) = 0 , M = 1, 2, ..., PJ) ([) ≤ 0 , M = 1, 2, ..., S

com o uso da função de Lagrange:

/([, λ, µ) = 6([) + λ*K([) + µ

*J([)

chega-se no seguinte conjunto de equações:

∇+ /([, λ, µ) = ∇6([) + λ*∇K([) + µ

*∇J([) = 0

K([) = 0

J) ([) = 0 , M ∈ restrições ativa

µ , ≥ 0 , L ∈ restrições inativas

que é transformado nos sucessivos problemas de programação quadrática:

-G ℜ∈min T(G) = ∇

*6([

.) G + ½ G

*+([

.,λ

.,µ

.) G

sujeito a: K([.) + ∇

*K([

.) G = 0

J([.) + ∇

*g([

.) G ≤ 0

para determinar a melhor direção de busca a partir do ponto [. e então proceder a

atualização para o próximo ponto [.+1 = [

. + α.

G.. Assim como no método de

Newton, apesar do valor ótimo do passo ser α. = 1, valores de α. ∈ (0,1] sãodeterminados para garantir as propriedades de convergência global do método. Esteprocedimento geralmente é feito com o uso de técnicas de OLQHVHDUFK (minimizaçãounidirecional de uma função de mérito) ou pela limitação do problema quadráticoacima na WUXVWUHJLRQ. A matriz +([

.λ

.,µ

.) é uma aproximação positiva definida da

matriz Hessiana da função de Lagrange, que pode ser atualizada por qualquermétodo da métrica variável (DFP, BFGS, etc.). Como parte da solução do problemade programação quadrática tem-se também os multiplicadores de Lagrange λ

.+1 e

µ.+1.

Se método de otimização estiver bem implementado, é provável que a soluçãodo problema com restrição seja obtida em um número menor de iterações que o


105

respectivo problema sem restrição. Isto geralmente ocorre porque as restriçõespodem gerar informações adicionais para a determinação da melhor direção de buscae do tamanho do passo mais apropriado.

([HPSOR: min 6([) = 21

2212 )1()(100 [[[ −+− (Rosenbrock, 1960)

sujeito a: J([) = 222

21 −+ [[ ≤ 0

Partindo do ponto [o = [−1,9 2]*, a solução do problema sem restrição, usando o

método BFGS chega na solução [* = [1 1]* após 165 avaliações da função objetivo,

ao passo que o método SQP (com atualização BFGS) obtém a mesma solução comapenas 84 avaliações da função objetivo, usando a mesma tolerância (10−6). A figuraabaixo ilustra a trajetória dos dois métodos.

-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5-2

-1

0

1

2

3

4

x1

x 2

start pointoptimum

SQP

BFGS

g(x)=0

A solução do problema interno de programação quadrática, que pode serescrito na seguinte forma:

-G ℜ∈min T(G) = F

*G + ½ G

*+([

.,λ

.,µ

.)G

sujeito a: $ / G = E /$0 G ≤ E0


106

onde F = ∇6([.), $ / = ∇

*K([

.), $0 = ∇

*g([

.), E / = −K([

.) e E0 = −J([

.), é geralmente

realizada em duas etapas. A primeira destina-se a encontrar um ponto viável e asegunda obtém um seqüência de pontos viáveis que convergem para a solução.

A obtenção de um ponto viável pode ser realizada pela inclusão de variáveisartificiais, do mesmo modo que no caso da programação linear, isto é, resolve-se oseguinte problema auxiliar de programação linear:

1GY ℜ∈ℜ∈ ,

min Y

sujeito a: $ / G = E /$0 G − Y ≤ E0

Se uma solução viável não é encontrada, então a direção de busca é aquela queminimiza o valor de Y.

Usando a estratégia dos conjuntos ativos para a solução da segunda etapa daprogramação quadrática, é construída a matriz das restrições ativas, $, e determina-se a base, =, de seu espaço nulo ($= = 0). A matriz = é formada pelas últimas P−Zcolunas da decomposição QR (ou decomposição ortogonal-triangular, oudecomposição de Householder) da matriz $

*, ou ainda pelas últimas P−Z colunas da

matriz 9 da decomposição em valor singular da matriz $ ( 8692), onde Z é o

número de restrições ativas do problema quadrático (Z < P), isto é:

= , 3 ) = 4 , 3 )5476 L = 1,2,..., Q , M=1,2,...,P−Z

onde 42$

* =

0

5 (4 é uma matriz unitária e Q−1 = 4

2 é a transposta conjugada)

Uma vez encontrada a base =, determina-se a direção de busca que minimiza T(G) noespaço nulo das restrições ativas. Escrevendo a função objetivo quadrática, T(G), emtermos da projeção de G no espaço nulo, G8 = =

*G(ou G = = G8 ), tem-se:

T(G8 ) = F*=G8 + ½ (G8 )

*=

*+([

.,λ

.,µ

.)=G8

que diferenciado em relação a G8 , resulta em:

∇T(G8 ) = =* F + =

*+([

.,λ

.,µ

.)=G8

ou seja, o gradiente projetado de T(G). O termo =* +([

.,λ

.,µ

.) = é chamado de

Hessiana projetada. Como a matriz Hessiana é mantida sempre positiva definida no


107

método SQP, então o mínimo de T(G8 ) ocorre quando ∇T(G8 ) = 0, ou seja a soluçãodo problema linear:

=*+([

.,λ

.,µ

.)=G8 = −=

* F

e a correção em [ . é então realizada nesta direção: [.+1 = [

. + α. G

., com G

. = = G8 .

Devido a natureza quadrática da função objetivo, T(G8 ), existe somente duasescolhas possíveis para α . . O valor exato, α. = 1, que é usado quando nenhumarestrição é violada em [

.+1. Caso contrário, o passo ao longo de G

. até a restrição

mais próxima é α. < 1, sendo esta restrição incluída no conjunto ativo da próximaiteração. Tal distância é dada por (multiplicando [

.+1 = [

. + αk G

. por $ , ):

9::9:

;:9G$

E[$ )(min

,...,1

−−=α

∈ , com $ , G

. > 0

que é definida para as restrições que não estão no conjunto ativo, e na direção de suafronteira ($ , G

. > 0).

Quando Q restrições independentes estão incluídas no conjunto ativo e omínimo ainda não foi localizado, então os multiplicadores de Lagrange sãocalculados de modo a satisfazer o sistema não singular de equações:

$* λ

. = F

Se todos os elementos de λ. ≥ 0, então [

. é a solução ótima do problema quadrático.

Entretanto, se algum componente de λ. é negativo e este não corresponder a uma

restrição de igualdade, então a restrição associada é removida do conjunto ativo paraa próxima iteração.

A solução do problema de programação quadrática gera um vetor direção, G.,

que é usado para calcular o próximo ponto no nível mais externo das iterações SQP,ou seja:

[.+1 = [

. + α .

G.

sendo α . determinado de modo a minimizar uma função de mérito, escritagenericamente como:

Ψ(α,[., G

., λ

.,µ

.,λ

.+1,µ

.+1,U . )

onde λ.+1 e µ

.+1 são os multiplicadores de Lagrange obtidos na solução do problema

quadrático que gerou G., e U . é um escalar (ou vetor) usado na penalização das


108

restrições. Por exemplo, a função implementada no SQP do MATLAB tem a forma(Han, 1977 e Powell, 1978):

Ψ(α) = 6([) + U /* K([) + U0

* max0, J([) , [ = [

. + α G

.

onde

+== + )(

2

1,max ,

1,,

<>=?< =< ==<>=?=? UUU λλ e

+== + )(

2

1,max ,

1,,

<@=A<=<==<@=A=A UUU µµ , que

permite uma contribuição para a função de mérito das restrições que não estavamativas na última programação quadrática, mas que estiveram ativas em iteraçõesadjacentes. O valor inicial do fator de penalização pode ser calculado da seguinteforma:

)(

)(0,

[K

[6U BBC

∇∇

= e )(

)(0,

[J

[6U DDE

∇∇

=

que assegura uma elevada penalização das restrições com menor gradiente, isto é, asque estiverem mais perto de suas fronteiras (este mesmo procedimento pode serusado para obter uma estimativa inicial para os multiplicadores de Lagrange).

Outra forma muito utilizada é a do Lagrangeano aumentado (Powell, 1969 eHestenes, 1969). Neste caso a função de mérito é dada por:

Ψ(α) = S([) + λ* K([) + µ

* I([) + 3([, U . )

onde I) ([) = max0, J) ([), M = 1,2,...,S

3([, U . ) = ½ U . K*([) K([) + I

*([) I([)

[ = [. ou [ = [

. + α G

.

λ = λ. ou λ = λ

. + α (λ

.+1 − λ

.)

µ = µ. ou µ = µ

. + α (µ

.+1 − µ

.)

(([[HHUUFFttFFLLRRVVGGHHIILL[[DDoommRR

Resolver os seguintes problemas de programação não linear usando SQP:

1. min 6([) = [1 [2


22 25 0( ) = + − ≤

2. min 6([) = ([1 − 2)2 + ([2 − 1)2

sujeito a: K1([) = [1 − 2 [2 + 1 = 0

014/)( 22

211 ≤−+= [[[J


109

3. min 6([) = 31[ − 3 [1 [2 + 4

sujeito a: K1([) = −2 [1 + 22[ − 5 = 0

J1([) = 18 − 5 [1 − 2 [2 ≤ 0

22WWLLPPLL]]DDoommRRPPXXOOWWLLRREEMMHHWWLLYYRR

O projeto ou operação ótima de um sistema geralmente implica na satisfação devárias especificações e requisitos, tais como elevada confiabilidade, baixo custo, altaprodutividade, baixo risco de operação, alta qualidade e baixa poluição. Estesaspectos, freqüentemente, estão em conflito uns com os outros e, portanto, umasolução compromisso deve ser obtida. Consequentemente, a formulação de umaúnica função objetivo com restrições pode não representar de forma adequada oproblema. Sendo necessária a definição de um conjunto de funções objetivos, quedevem ser balanceadas de alguma maneira.

Em geral, a importância relativa destas funções objetivos não são conhecidasaté que se tenha idéia das potencialidades do sistema e do grau de compromisso quepode ser admitido. As preferências entre as funções objetivos recaem muito sobre aexperiência e intuição do projetista. Existem pelo menos três estratégias diferentespara expressar estas preferências:

1) Método da soma ponderada das funções objetivos;

2) Método das restrições ε;

3) Método da perseguição dos objetivos.

O método da soma ponderada transforma o problema de otimização multi-objetivo:

.[∈

min )([) = [)1([) )2([) ... ) F ([)]G

sujeito a: KH ([) = 0 , M = 1, 2, ..., P

JH ([) ≤ 0 , M = 1, 2, ..., S

em um problema de otimização escalar pela definição da soma ponderada dasfunções objetivos:

.[∈

min 6([) = ZG )([)

sujeito a: KH ([) = 0 , M = 1, 2, ..., PJH ([) ≤ 0 , M = 1, 2, ..., S


110

onde Z é o vetor dos pesos relativos, geralmente definido como uma combinaçãoconvexa:

∑=

=IJ JZ

1

1 e Z ≥ 0

Consequentemente, este problema pode ser resolvido por qualquer uma das técnicasde otimização de um funcional escalar. Uma das dificuldades desta estratégia é ahomogeneização das diferentes unidades de medida tratadas em cada função objetivo(tais como grau de confiabilidade, custo, segurança, qualidade), ou seja, comoescolher os pesos adequadamente. Outra dificuldade está associada ao tratamentodas não convexidades que podem existir no espaço das funções objetivos, ilustrado aseguir.

O método das restrições ε consiste em minimizar uma das funções objetivos,expressando as demais como restrições de desigualdades, ou seja:

.[∈

min ) K ([)

sujeito a: KH ([) = 0 , M = 1, 2, ..., P

JH ([) ≤ 0 , M = 1, 2, ..., S

) L ([) ≤ ε L , L = 1, 2, ..., T , L ≠ U

As dificuldades naturais deste método estão associadas à seleção da função objetivoa ser minimizada e a definição do nível de restrição para as demais funções (ε L ).Pode-se também associar a este método uma estratégia de priorização das funçõesobjetivos durante o processo de otimização.

No método da perseguição dos objetivos (JRDO DWWDLQPHQW) é definido um

conjunto de objetivos ) = ,,, **2

*1 M))) K a ser perseguido pelas respectivas

funções )([) = )1([), )2([), ..., ) F ([). A formulação do problema é dada por:

NO ∈ℜ∈γ ,min γ

sujeito a: KP ([) = 0 , M = 1, 2, ..., P

JP ([) ≤ 0 , M = 1, 2, ..., S

) Q ([) − Z Q γ ≤ *L) , L = 1, 2, ..., T

o termo Z Q γ permite uma certa folga para mais ou para menos no alcance dosobjetivos. Valores nulos de Z Q implicam em restrições rígidas para os objetivos.Como nesta formulação os objetivos podem ser super-alcançados (γ < 0) ou sub-


111

alcançados (γ > 0), os valores de ) não necessitam de elevada precisão. O grau

relativo deste alcance é controlado pelo vetor de pesos, Z. Quando Z Q = | *L) |, é

assegurado um mesmo percentual de super- e sub-alcance na respectiva função

objetivo, pois neste caso γ ≥ [) Q ([) − *L) ] / | *

L) |. Observe que γ representa a

quantidade máxima relativa de desvio do objetivo (para mais ou para menos).

O grande problema existente na otimização multi-objetivo é que se existeconflito entre as funções objetivos, então a solução do problema original não é única.Consequentemente, a solução obtida por qualquer um dos métodos acima vai estarassociada aos pesos ou restrições impostas em cada alternativa. Para tratar da nãounicidade de solução é definido o conceito de QmRLQIHULRULGDGH, também conhecidocomo RWLPDOLGDGHGH3DUHWR.

Uma solução não inferior é aquela que uma posterior melhoria em uma dasfunções objetivos causa a degradação de outras. Para entender melhor este conceito,define-se a região viável, Ω, no espaço das variáveis de decisão [ ∈ ℜ

R, que satisfaz

todas as restrições, isto é:Ω = [ ∈ . ⊆ ℜ

R

sujeito a: KP ([) = 0 , M = 1, 2, ..., PJP ([) ≤ 0 , M = 1, 2, ..., S

e a correspondente região viável, Λ, no espaço das funções objetivos:

Λ = \ )([) ∈ ℜS | [ ∈ Ω

Ou seja, o vetor de desempenho)([) é um mapeamento do espaço das variáveis dedecisão no espaço das funções objetivos, como ilustra a figura abaixo.

Então, um ponto [* ∈ Ω, é uma solução não inferior se para alguma vizinhança de[* não existe um ∆[ tal que ([* + ∆[) ∈ Ω e:


112

) Q ([* + ∆[) ≤ ) Q ([*) , L = 1, 2, ..., T

)P ([* + ∆[) < )P ([*) , para algum M

Na representação bidimensional, o conjunto de soluções não inferiores (ou FRQMXQWRGH3DUHWR) está sobre a curva entre os pontos C e D da figura abaixo. Os pontos A eB representam dois pontos não inferiores distintos, ou seja, pontos onde a melhoriaem uma função objetivo requer a degradação de outra: )1B < )1A → )2B > )2A.

Como qualquer ponto em Ω que não seja um ponto não inferior há a possibilidade deobter um novo ponto com melhoria em todas as funções objetivos, o problema deotimização multi-objetivo resume-se em gerar e selecionar pontos do conjunto dePareto.

([HPSOR: min )([) = [)1([) )2([)]T

sujeito a: )1([) = 1 + ½ [2

)2([) = 4 ([ − ½)2 + ½ [ ≥ 0

Para este exemplo o conjunto de Pareto (3) está ilustrado nos gráficos abaixo.


113

Resolvendo este exemplo pelo método das restrições ε, com a escolha de )2([) comofunção objetivo, tem-se o seguinte problema de otimização:

ℜ∈Umin 6([) =)2([)

sujeito a: )1([) ≤ ε

[ ≥ 0

cujas soluções para vários valores de ε ≥ 1 (observe que min )1([) = 1, [ ≥ 0,ocorrendo em [ = 0) são dadas por:

≤ε≤−ε≥ε

=ε125,11)1(2

125,12/1)(*[

o valor de ε = 1,125 corresponde a )1(½), sendo que para valores de ε ≥ 1,125 arestrição )1([) ≤ ε é inativa, e valores entre 1 ≤ ε ≤ 1,125, a restrição está ativa.Portanto, o conjunto de Pareto para este problema corresponde a 3 = [ (ε) | 1 ≤ ε ≤1,125 = 0 ≤ [ ≤ ½.

A solução do exemplo acima pelo método das somas ponderadas recai noseguinte problema de otimização:

ℜ∈Umin 6([) = Z

T )([) = Z1 )1([) + (1 − Z1) )2([)

sujeito a: [ ≥ 0

cujas soluções em função do peso Z1 são dadas por:

1

11 78

)1(4)(*

Z

ZZ[

−−

=

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

w1

x


114

Quando Z1 = 0, a solução é o mínimo de )2([), ou seja, [* = ½, e para Z1 = 1 asolução é o mínimo de )1([), isto é, [* = 0. Para valores entre 0 ≤ Z1 ≤ 1, a figuraacima mostra que 3 = [ (Z1) | 0 ≤ Z1 ≤ 1 = 0 ≤ [ ≤ ½.

A existência de soluções não concorrentes dentro do conjunto de Pareto podegerar um conjunto não convexo, dificultando a obtenção de soluções, principalmentepelo método das somas ponderadas. Neste método, a função objetivo é linear dentrodo espaço das funções objetivos: 6(\) = Z

T \ e, portanto, as curvas de níveis são

hiperplanos dentro deste espaço. Consequentemente, a minimização de 6(\) pode serinterpretada como encontrar a menor curva de nível que toca no conjunto Λ, comopode ser visto na figura abaixo.

onde / é a linha de nível. A seleção dos pesos, Z, define a inclinação do hiperplanoe, consequentemente, o ponto onde o conjunto Λ será tocado. O problema de nãoconvexidade surge quando a fronteira inferior de Λ é não convexa, como ilustra afigura abaixo.

Neste caso, o conjunto de soluções não inferiores entre os pontos A e B não estãoacessíveis. Este problema de não convexidade pode ser tratado pelo método dasrestrições ε, conforme ilustra a figura a seguir relativa ao problema abaixo:

Ω∈Umin 6([) =)1([)

sujeito a: )2([) ≤ ε2

[*


115

onde verifica-se que o método é capaz de identificar pontos não inferiores dentro daregião de não convexidade de Λ.

Uma informação importante do método das restrições ε é a sensibilidade da soluçãono ponto [*(ε). Ou seja, o quanto varia o valor de ) V ([*) em relação as variações nasdemais funções objetivos, usadas como restrições. Esta informação é diretamentedada pelos multiplicadores de Kuhn-Tucher no ponto ótimo:

** )( WWX)

)µ−=

∂ε∂

, ∀ L ≠ U

representando uma ajuda importante na tomada de decisão em estabelecer oscompromissos entre as funções objetivos.

O método da perseguição dos objetivos apresenta uma forma maisconveniente de expressar os compromissos entre as funções objetivos, dando umamaior flexibilidade para o algoritmo de otimização buscar a melhor solução. Afigura abaixo ilustra a evolução deste método na direção da solução.

onde *1) e *

2) são os objetivos estabelecidos, representados pelo ponto P, e ()1s, )2s)

é o ponto ótimo obtido para um determinado conjunto de pesos Z1, Z2, que definea direção de busca. A região viável, Λ(γ), vai encolhendo à medida que o valor de γ éreduzido. Este método pode ser visto como uma generalização do método dasrestrições ε, que é resgatado quando Z Q = 0 ∀ L ≠ U e Z V = 1.

γo


116

A formulação do problema de otimização pelo método da perseguição dosobjetivos também pode ser escrito na forma minimax, ou seja:

Ω∈Umin Ymax Λ Q

onde ZZZZ

Z

)[) *)( −=Λ , L = 1, 2, ..., T, ou seja, deseja-se minimizar o pior caso.

Ao resolver este problema usando métodos tipo SQP, uma forma apropriadade representar a função de mérito é a seguinte:

Ψ([) = Ymax Λ Q

pois funções tipo Lagrange:

Ψ([,γ) = γ + )(,0max *

1

[[[\[ [ )Z[)U −γ−∑=

podem apresentar problemas devido as possíveis concorrências entre as funçõesobjetivos. Contudo, como Λ Q = ∞ para Z Q = 0 (restrições rígidas), uma combinaçãoentre as duas formas acima é mais recomendada, ou seja:

≠Λ

=−γ−=γΨ ∑

=0max

0)(,0max),(

*

1 ]]]

]]]]^] ]

ZVH

ZVH)Z[)U[

Finalmente, ao usar métodos quasi-Newton na solução deste problema, devido alinearidade de γ na função objetivo, a contribuição desta variável é nula para a matrizHessiana. Portanto, ao inicializar a aproximação da Hessiana com a matrizidentidade, o elemento da diagonal relacionado com γ deve ser anulado (ou próximoa zero para manter a matriz positiva definida), de modo a acelerar a convergência daprogramação quadrática interna.


117

33UURRJJUUDDPPDDoommRR,,QQWWHHLLUUDD00LLVVWWDD

A programação inteira mista (MIP − 0L[HG,QWHJHU 3URJUDPPLQJ), caracterizadapela existência de variáveis contínuas e inteiras, surge em uma grande variedade deaplicações, tais como:

• síntese de processos (rede de trocadores de calor e/ou massa, superestruturas,sistemas de utilidades, etc.);

5HGHGHWURFDGRUHVGHFDORU

/RFDOL]DomRGHDOLPHQWDomRHRXUHIOX[RGHFROXQDVGHGHVWLODomR


118

6HTHQFLDPHQWRGHGHVWLODoHV

6XSHUHVWUXWXUDSDUDDKLGURGHDOTXLODomRGRWROXHQR


119

• projeto, programação e planejamento de sistemas descontínuos com múltiplosprodutos e/ou múltiplos propósitos;

• localização, alocação, planejamento e programação de facilidades;

• interação entre projeto e controle de sistemas;

• projeto de produtos;

• síntese de topologias (redes de transporte e distribuição, estruturas, etc.).

As variáveis inteiras de decisão cujos níveis formam uma dicotomia (porexemplo, instalar ou não instalar um equipamento) são chamadas de YDULiYHLVELQiULDV (ou variáveis 0−1), assumindo os valores de 0 ou 1. As variáveis inteirasque assumem valores elevados, podem as vezes ser tratadas como variáveiscontínuas (UHOD[DPHQWR), sendo a solução ótima arredondada para o número inteiromais próximo, podendo resultar em uma solução sub-ótima. Por exemplo, as figurasabaixo apresentam situações onde a solução relaxada difere significativamente dasolução ótima.

As variáveis inteiras, ], com limites superiores e inferiores dados, ]_ ≤ ] ≤ ]

`,

podem ser expressas como um vetor de variáveis binárias, \ ∈ < = 0,1a, pela

seguinte fórmula:

bbc\\\\]] 1

321 242 −+++++= L

onde T é o número mínimo de variáveis 0−1 necessárias para representar ]. Estenúmero mínimo é dado por:

( )

−+=

2log

logint1

de]]

T

ótimo discreto

[2

3 −

2 −

1 −

5|

4|

3|

1|

2| [1

PLQ6([) = 11[1 + 21 [2

s.a.: 4[1 + 6,5 [2 ≥ 12,5

[ ∈ I2

fhgjilkfhgjmnmfhgjonofhgpolqfhgrksont o

ótimo contínuo ótimo discreto

[2

3 −

2 −

1 −

5|

4|

3|

1|

2| [1

ótimo contínuo


120

sendo que a função “int” trunca o argumento real para um valor inteiro. Estaaproximação, entretanto, pode não ser prática quando os limites são grandes.

A maioria dos problemas de programação mista são inerentemente denatureza combinatorial, isto é, as variáveis inteiras do problema de otimizaçãocorrespondem a combinações de Q elementos tomando P de cada vez, resultando em

um número de

P

Q combinações, ou correspondem a permutações de Q elementos,

levando a Q! possibilidades.

Os problemas MIP que envolvem somente variáveis inteiras são denotadospor IP (,QWHJHU 3URJUDPPLQJ), tendo como caso particular a programação inteirabinária (BIP), onde todas as variáveis inteiras são binárias. Quando um problemaMIP é linear na função objetivo e nas restrições, tem-se o caso MILP (0L[HG,QWHJHU/LQHDU 3URJUDPPLQJ). Finalmente, quando há relações não lineares na funçãoobjetivo ou nas restrições, tem-se o problema de programação não linear inteiramista (MINLP).

Exemplos clássicos de programação inteira são o do caixeiro viajante e o damochila. O problema da mochila consiste em colocar T artigos valiosos dentro deuma mochila, não ultrapassando um peso (ou volume) máximo :, de modo amaximizar o valor total dos artigos. Designando cada artigo como \ u , seu respectivopeso (ou volume) de Z u e seu valor de F u , o problema BIP pode ser descrito como:

max 6(\) = Fv\

sujeito a: Zv\ ≤ :

\ ∈ < = 0,1a

sendo \ u = 1 quando o L-ésimo artigo for selecionado e \ u = 0 caso contrário.

O problema do caixeiro viajante consiste em fazer um vendedor visitar Qcidades somente uma vez, retornando para a cidade de origem, percorrendo o menorcaminho possível. Designando como \ u w = 1 a viagem da cidade L para a cidade M e F u wa distância entre estas cidades, o problema BIP pode ser formulado como:

min 6(\) = ∑ ∑= =

Q

LLM

Q

MLM \F

1 1


121

sujeito a: ∑=

=xy y z\

11, ∑

==

Q

MLM\

11, \ uu = 0, LM = 1,2,...,Q

\ ∈ < = 0,1a7|p ×

Este problema também pode ser interpretado como um problema de associação,como por exemplo, a associação de correntes de processo a trocadores de calor,limitando um trocador por corrente.

33UURRJJUUDDPPDDoommRRGGLLQQkkPPLLFFDD

Embora a programação dinâmica não esteja, necessariamente, enquadrada dentro daprogramação mista, ela é descrita neste capítulo por se tratar de um método desolução de problemas que podem ser decompostos em um número inteiro deestágios. Muitos processos e equipamentos podem ser representados (física ouimaginariamente) por múltiplos estágios (ou períodos de tempo), como ilustra afigura abaixo.

onde 5 ~ é o valor da função objetivo do estágio N,

[ ~ é o vetor de variáveis de entrada do estágio N,

[ ~ −1 é o vetor de variáveis de saída do estágio N,

G ~ é o vetor de variáveis de decisão (independente) do estágio N,

6 ~ ([ ~ ) é a função objetivo global dos estágios 1 a N.

A essência da programação dinâmica é decompor um problema de otimizaçãomultivariável interconectado em uma seqüência de subproblemas que podem serresolvidos serialmente. Cada subproblema contém um subconjunto de variáveis de

estágio

N

5

G

[ −1

[ [ −1

6 ([ )

estágio

N−1

5 −1

G −1

[ −2

[ −2

6 −1([ −1)

estágio

252

G2

[1

[2 [1

62([2)

estágio

151

G1

[0

[0

61([1)


122

decisão, que pode ser otimizado por qualquer uma das técnicas de otimizaçãodescritas nos capítulos anteriores.

A programação dinâmica está baseada no SULQFtSLR GD RWLPDOLGDGH GH%HOOPDQ (1957): “Se uma decisão forma uma solução ótima em um estágio de umprocesso, então qualquer decisão remanescente deve ser ótima com respeito aoresultado desta decisão tomada”. Este conceito pode ser melhor implementado se astomadas de decisão de um estágio para outro são realizadas na direção do fluxo deinformação nos estágios, que pode estar no sentido oposto ao fluxo de material.

([HPSOR Para ilustrar este princípio, seja o problema de distribuição decombustível através de uma rede de tubulações, cujo escoamento se dá somenteatravés do terminal H, segundo a figura abaixo, onde os valores representam oscustos de transporte.

Deseja-se determinar o menor custo de transporte da estação de bombeamento Cpara o terminal H. Ao invés de tentar todos os caminhos possíveis (isto é, uma buscaexaustiva), pode-se aplicar o princípio da otimalidade. Partindo do terminal H,obtém-se o custo mínimo de transporte de G para H: CGH* = 2, e de E para H:

CEH* = min CEH, (CEF + CFH*)

como CFH* = 3 + 2 = 5, tem-se CEH* = min 8, 2 + 5 = 7. O custo mínimo de Dpara H é dado por CDH* = CDE + CEH* = 3 + 7 = 10. Portanto, o menor custo debombeamento de C para H é obtido de:

CCH* = min (CCD + CDH*), (CCF + CFH*) = min (5 + 10), (3 + 5) = 8.

O princípio de Bellman pode ser formulado como segue:

*N6 ([ ) =

Gmin [5 ([ , G ) + *

1−N6 ([ −1)]

Como cada função objetivo otimizada, *N6 ([ ), depende de suas variáveis de entrada,

[ , estas formas funcionais devem ser obtidas antes de passar para o próximo estágio,ou devem ser calculadas recursivamente. Portanto, a programação dinâmica só é

A D E H

B C F G

5

8

95

3 8

332 2


123

atrativa para problemas de baixa dimensão. Por exemplo, se um estágio N possuir Pvariáveis de entrada, cada uma podendo assumir U níveis viáveis, M= 1,2,...,P, entãoo número de combinações possíveis onde a função objetivo otimizada deste estágio

deve ser calculada é ∏=

U

1, ou U

se U =U.

Vários métodos tem sido propostos para reduzir a dimensionalidade daprogramação dinâmica. Contudo, não existe uma formulação matemática padrãopara esta programação, ou seja, o problema é formulado em função dascaracterísticas do processo.

33UURRJJUUDDPPDDoommRROOLLQQHHDDUULLQQWWHHLLUUDDPPLLVVWWDD00,,//33

Como na grande maioria das aplicações que recaem em problemas de programaçãolinear inteira mista, as variáveis inteiras podem ser representadas por variáveisbinárias, somente este caso é tratado nesta seção, sem perda de generalidade.

A formulação MILP com variáveis 0−1 é dada por:

min 6([,\) = F[ + G

\

sujeito a: $[ + %\ ≤ E

[ ≥ 0

[ ∈ ; ⊆ ℜ, \ ∈ < = 0,1

Para um dado valor do vetor \, o problema acima recai em um problema deprogramação linear (LP). Uma busca exaustiva (ou HQXPHUDomR), enumerando todasas possíveis combinações de variáveis 0−1 para os elementos do vetor \, poderia serutilizada para a solução do problema. Contudo, para problemas de médio e grandeporte este procedimento torna-se proibitivo, devido a natureza combinatorial.

Os algoritmos existentes para problemas MILP podem ser classificados como:

1) Métodos “EUDQFKDQGERXQG”;

2) Métodos dos planos de corte;

3) Métodos de decomposição;

4) Métodos baseados em lógica e disjunções.

Nos algoritmos “EUDQFKDQGERXQG” (Land e Doig, 1960), uma árvore bináriaé empregada para representar as combinações 0−1, a região viável é


124

sistematicamente particionada em subdomínios e limites inferiores e superiores sãogerados em diferentes níveis da árvore binária.

Nos métodos dos planos de corte (Gomory, 1958), a região viável não édividida em subdomínios, mas novas restrições (chamadas de planos de cortes) sãogeradas a cada estágio e adicionadas ao conjunto de restrições, reduzindo a regiãoviável até obter uma solução ótima.

Nos métodos de decomposição (Benders, 1962), a estrutura matemática domodelo é explorada através de partições das variáveis, dualidade e métodos derelaxação.

Nos métodos baseados em lógicas e disjunções, técnicas de inferênciasimbólica, em termos das variáveis binárias, são utilizadas para restringir a regiãoviável.

Nesta seção é dada ênfase ao método de “EUDQFK DQG ERXQG”, que é maiscomumente utilizado nos algoritmos de MILP e MINLP. O método da decomposiçãode Benders é tratado em detalhe na próxima seção.

33UULLQQFFttSSLLRRGGRRVVPPppWWRRGGRRVVGGRRVVSSOODDQQRRVVGGHHFFRRUUWWHH

A idéia básica destes métodos é a seguinte:

1) Resolve-se o problema MILP com as variáveis inteiras relaxadas (ou seja,consideradas como contínuas), transformando-se em um problema LP. Se asolução do problema LP possuir todas as variáveis relaxadas inteiras, então asolução ótima do problema original foi encontrada;

2) Caso contrário, é sempre possível eliminar a solução obtida pela adição derestrições extras ao problema, sem contudo eliminar qualquer solução inteira.Tais restrições são chamadas de SODQRVGHFRUWH;

3) Após a adição de um plano de corte (ou possivelmente mais do que um), oproblema MILP aumentado é novamente resolvido, com as variáveis inteirasrelaxadas. Observa-se que, como a solução eliminada é viável no dual, évantajoso usar algoritmos duais para a solução deste problema, pois parte-se deum ponto inicial viável;


125

4) Se a solução do problema aumentado apresentar todas as variáveis relaxadasinteiras, então a solução ótima do problema original foi encontrada. Casocontrário, o procedimento é repetido até a convergência.

Se os planos de corte forem adequadamente escolhidos a cada estágio, então opoliedro inicial será progressivamente reduzido até coincidir com a casca convexa dasolução inteira (pelo menos na vizinhança da solução ótima) e, consequentemente, asolução contínua do problema aumentado se tornará inteira nas variáveis relaxadas.Portanto, a maneira em que os planos de corte são escolhidos é decisiva para aconvergência do método. Infelizmente, não há um método sistemático para gerartodas as restrições que definem a casca convexa dos pontos inteiros contidos dentrode um poliedro convexo. Além disto, seria custoso e supérfluo gerar todas as facesde uma casca convexa, pois a maioria das restrições estariam inativas, nãocontribuindo para a definição do ponto ótimo. Contudo, existem vários métodos naliteratura que procuram definir os planos de corte de modo a obter uma convergênciafinita do algoritmo.

([HPSOR Seja o problema:

min 6([) = −10 [1 − 11 [2

sujeito a: 10 [1 + 12 [2 ≤ 59

[ ∈ I2 e [ ≥ 0

A solução do problema original relaxado éobtida no ponto [ = [5,9 0]

. Portanto, a

restrição adicional:

[1 ≤ 5

eliminaria este ponto sem excluir qualquersolução inteira. Similarmente, qualquerrestrição suplementar da forma:

[1 + [2 ≤ α

com 5 ≤ α ≤ 5,9 é um plano de corte. Defato, muitos outros planos de corte são possíveis, existindo, em princípio infinitaspossibilidades. Em particular, se as seguintes restrições fossem utilizadas comoplanos de corte:

ótimo discreto

[2

5|

4|

3|

1|

2|

[1

ótimo contínuo

4 −

5 −

3 −

2 −

1 −

6|

∇


126

[1 + [2 ≤ 5 e [2 ≤ 4

então o problema aumentado:

min 6([) = −10 [1 − 11 [2

sujeito a: 10 [1 + 12 [2 ≤ 59

[1 + [2 ≤ 5

[2 ≤ 4

[ ≥ 0

teria como solução a ponto ótimo do problema original [ = [1 4], pois as restrições

formam uma casca convexa de suas soluções inteiras.

00ppWWRRGGRRGGHHEEUUDDQQFFKKDDQQGGEERRXXQQGG

O método de EUDQFK DQG ERXQG está baseado nas idéias chaves de VHSDUDomR,UHOD[DomR e VRQGDJHP.

6HSDUDomR

Denotando o problema MILP abaixo por (P) e o conjunto de suas soluçõesviáveis por FS(P).

min 6([,\) = F[ + G

\

sujeito a: $[ + %\ ≤ E

[ ≥ 0

[ ∈ ; ⊆ ℜ, \ ∈ < = 0,1

Então o conjunto de subproblemas (P1), (P2), ..., (Pn) de (P) é uma separação de (P)se:

(i) uma solução viável de qualquer subproblema (P1), (P2), ..., (Pn) é tambémuma solução viável de (P);

(ii) cada solução viável de (P) é uma solução viável de exatamente um de seussubproblemas.

Neste caso, o problema (P) é chamado de problema 3DL e os subproblemas (P1), (P2),..., (Pn) são chamados de problemas )LOKRV.

P


127

Uma questão importante no método de EUDQFK DQG ERXQG é de como geraruma separação do problema (P). A maneira geralmente utilizada é a introdução derestrições contraditórias em uma única variável binária (ou inteira) a cada estágio.Por exemplo, selecionando a variável binária \1 de (P), pode-se separá-lo, ouramificá-lo (EUDQFKLQJ), em dois subproblemas (P1) e (P2):

min 6([,\) = F[ + G

\ min 6([,\) = F

[ + G

\

sujeito a: $[ + %\ ≤ E sujeito a: $[ + %\ ≤ E

[ ≥ 0 [ ≥ 0

\1 = 0 \1 = 1

[ ∈ ; ⊆ ℜ

[ ∈ ; ⊆ ℜ

\ ∈ < = 0,1 \ ∈ < = 0,1

Construindo-se desta maneira uma iUYRUH ELQiULD. Outra maneira de gerarseparações, aplicável para problemas com restrições generalizadas de limitesuperior, ou seja:

∑∈

= \ 1

é igualar a zero parte desta soma e gerar outra soma mutuamente excludente. Porexemplo, se o problema (P) possuir a seguinte restrição:

\1 + \2 + \3 + \4 = 1

então ao subproblema (P1) seria adicionado a restrição \1 + \2 = 0 e ao subproblema(P2) a restrição \3 + \4 = 0.

5HOD[DomR

Um problema de otimização, denotado por (RP), é uma relaxação doproblema (P) se o conjunto de soluções viáveis de (P) é um subconjunto de soluçõesviáveis de (RP), isto é,

FS(P) ⊆ FS(RP)

Deste modo, se (RP) não tem solução viável, então (P) também não tem. Além disto,se ]P é a solução ótima de (P) e ]RP é a solução ótima de (RP), então:

]RP ≤ ]P

P2


128

ou seja, a solução do problema relaxado fornece um OLPLWHLQIHULRU para a solução doproblema original. Naturalmente, se a solução ótima de (RP) é viável para (P), entãoela é a solução ótima de (P).

A forma de relaxação mais freqüentemente utilizada em problemas MILP étornar as variáveis binárias em variáveis contínuas: 0 ≤ \ ≤ 1, gerando um problemaLP relaxado. Outra forma de relaxação é remoção de algumas restrições de (P).Porém, existe um compromisso entre a relaxação e a qualidade do limite inferior(]RP) para a solução ótima. Em geral, quanto mais fácil for a solução do problemarelaxado (maior relaxamento), maior será a diferença entre ]RP e ]P.

6RQGDJHP

Seja (CS) um subproblema candidato para a solução de (P). Deseja-se entãodeterminar se a região viável de (CS), FS(CS), contém uma solução ótima de (P),para então encontrá-la. Este subproblema (CS) será considerado VRQGDGR se uma dasseguintes condições for satisfeita:

(i) estiver garantido que FS(CS) não pode conter uma solução melhor que amelhor solução já encontrada em estágios anteriores (ou solução titular, ]*).Se nenhuma solução viável havia sido encontrada, então ]* = ∞;

(ii) uma solução ótima de (CS) foi encontrada, ]CS.

Em qualquer uma destas situações o subproblema (CS) não necessita de novasseparações.

Denotando por (RCS) uma relaxação do subproblema (CS), e ]RCS a suasolução ótima, então os critérios gerais de sondagem em um algoritmo de EUDQFKDQGERXQG, baseado em relaxação, são:

1) Se (RCS) não possui solução viável, então (CS) também não possui e pode serconsiderado sondado;

2) Se ]RCS ≥ ]* então (CS) está sondado;

3) Se uma solução ótima de (RCS) é viável para (CS), então ela é também umasolução ótima de (CS), portanto o problema (CS) pode ser considerado sondado.Neste caso, a solução também é viável para (P) e se ]RCS < ]*, então a soluçãotitular é substituída por esta nova solução, senão ]RCS é um OLPLWHVXSHULRU para oproblema.


129

Note que é possível ter ]CS ≥ ]* > ]RCS, e neste caso (CS) não pode ser consideradosondado, sendo ]RCS um OLPLWH LQIHULRU para o problema. Portanto, quanto menor adiferença entre a solução do problema (RCS) e o problema (CS), maisfreqüentemente estes critérios serão utilizados para eliminar ramificações. O sucessodos algoritmos de EUDQFKDQGERXQG está baseado no percentual de eliminação desubproblemas e no esforço requerido para resolver os subproblemas candidatos.

Um algoritmo genérico para os métodos de EUDQFK DQG ERXQG pode serdescrito como segue:

algoritmo

1) Inicializar a lista de subproblemas (CS) = (P), ou árvore binária, ]* = ∞;

2) 6H a lista de subproblemas (CS) estiver vazia, HQWmR FIM (se ]* = ∞, então nãoexiste solução viável);

3) Selecionar um candidato da lista, tornado-o candidato (CS) corrente;

4) Selecionar e resolver uma relaxação (RCS) do (CS) corrente, obtendo a solução]RCS;

5) Aplicar os três critérios de sondagem:

(i) 6H (RCS) é inviável, HQWmR o (CS) corrente não tem solução viável e (ir para2);

(ii) 6H ]RCS ≥ ]*, HQWmR o (CS) corrente não tem solução viável melhor que ]* e (irpara 2);

(iii) 6H a solução ótima de (RCS) é viável para (CS) e ]RCS < ]*, HQWmR ]* ← ]RCS

e (ir para 2);

6) Separar o (CS) corrente e adicionar os seus subproblemas filhos na lista desubproblemas (CS). (ir para 2).

Existem três alternativas principais para selecionar os candidatos da árvorebinária:

a) Busca em primeira profundidade (GHSWKILUVW VHDUFK) com retrocesso (LIFO:/DVW,Q)LUVW2XW). Técnica padrão da maioria dos algoritmos;

b) Busca em primeira largura (EUHDGWKILUVWVHDUFK);

c) Busca pelo melhor limite.


130

Na técnica de busca em primeira profundidade o próximo (CS) selecionado éum dos filhos do (CS) corrente. Quando um nó é considerado sondado, a busca éretrocedida até o ancestral mais próximo que tenha um filho que ainda não foiselecionado. Esta técnica tem como característica uma maior facilidade de re-otimização e compactação de informação, mas pode requerer um número elevado desubproblemas (CS).

Na técnica de busca em primeira largura, todos os nós de um mesmo nível daárvore binária são considerados antes dos nós de níveis subseqüentes. Esta técnica égeralmente utilizada como base de heurísticas para a seleção de nós para a melhoriados limites inferiores.

Na técnica de busca pelo melhor limite, o próximo (CS) escolhido da lista éaquele que possui o menor limite inferior. Esta técnica resulta em um menor númerode subproblemas (CS), mas apresenta uma maior heterogeneidade no caminho para oótimo. Nota-se que existe um compromisso entre o número de (CS) gerados e ocontrole da otimização, dificultando a seleção da melhor estratégia.

([HPSOR Para ilustrar o método de EUDQFK DQG ERXQG com relaxação dasvariáveis binárias, seja o seguinte problema:

min 6([,\) = 2[1 − 3\1 − 2\2 − 3\3

sujeito a: [1 + \1 +\2 +\3 ≥ 2

10 [1 + 5 \1 + 3\2 + 4\3 ≤ 10

[1 ≥ 0

\ ∈ < = 0,13

onde a solução ótima ocorre no ponto [ = 0 e \ = [1 0 1], com o valor da

função objetivo 6([ ,\ ) = ]* = −6. Resolvendo o problema LP relaxado na raiz daárvore binária, tem-se a solução:

[ = 0 , \ = [0,6 1 1] e ] = −6,8

que representa um limite inferior para o problema MILP. As árvores binárias para astécnicas de busca em primeira profundidade e busca em primeira largura sãomostradas abaixo, onde o número dentro do nó indica a seqüência do subproblema(CS).


131

%XVFDHPSULPHLUDSURIXQGLGDGH %XVFDHPSULPHLUDODUJXUD

Observa-se que na busca em primeira profundidade, a solução ótima é obtidano nó 5, sendo necessário considerar 6 nós da árvore, além da raiz. Por outro lado, nabusca em primeira largura, o ótimo é obtido no nó 3, mas é necessário considerar omesmo número de nós que no caso anterior para certificar-se da otimalidade do nó.Os limites inferiores e superiores em cada nó da árvore binária, para as duastécnicas, são apresentados na tabela abaixo.

SULPHLUDSURIXQGLGDGH SULPHLUDODUJXUD

QyQtYHO LQIHULRU VXSHULRU ] QtYHO LQIHULRU VXSHULRU ]

0 0 −6,8 ∞ ∞ 0 −6,8 ∞ ∞

1 1 −6,667 ∞ ∞ 1 −6,8 −5 −5

2 2 −6,667 ∞ ∞ 1 −6,667 −5 −5

3 3 −6,5 −5 −5 2 −6,667 −6 −6

4 3 −6,5 −5 −5 2 −6,5 −6 −6

5 2 −6,667 −6 −6 3 −6,5 −6 −6

6 1 −6 −6 −6 3 −6 −6 −6

QtYHO

QtYHO

QtYHO

QtYHO

UDL]


132

33UURRJJUUDDPPDDoommRRQQmmRROOLLQQHHDDUULLQQWWHHLLUUDDPPLLVVWWDD00,,11//33

A formulação MINLP com variáveis 0−1 é dada por:

min 6([,\)

sujeito a: K ([,\) = 0 , M = 1, 2, ..., P

J ([,\) ≤ 0 , M = 1, 2, ..., S

[ ∈ ; ⊆ ℜ, \ ∈ < = 0,1

Os algoritmos existentes para resolver problemas MINLP podem serclassificados em quatro categorias principais:

• %UDQFKDQG%RXQG

• Decomposição Generalizada de Benders (GBD)

• Aproximações Externas (OA)

• Lógica e disjunções

O método de EUDQFK DQG ERXQG, aplicado ao problema MINLP, iniciaresolvendo o correspondente problema NLP relaxado, para então realizar aenumeração implícita e seleção dos subproblemas através das técnicas descritas naseção anterior (busca em primeira profundidade ou busca em primeira largura). Oscritérios de sondagem são aplicados às soluções dos subproblema NLP relaxados acada nó, que geram limites inferiores e superiores.

''HHFFRRPPSSRRVVLLoommRR**HHQQHHUUDDOOLL]]DDGGDDGGHH%%HHQQGGHHUUVV**%%''

Geoffrion (1972) generalizou a aproximação proposta por Benders (1962), paraexplorar a estrutura de problemas de programação MINLP. A idéia básica é gerar,para cada iteração, um limite superior e um limite inferior sobre a busca da soluçãodo problema MINLP. O limite superior resulta a partir de um problema primal,enquanto o limite inferior resulta a partir de um problema mestre.

Com o decorrer das iterações verifica-se que a seqüência de limites superioresnão cresce e a seqüência de limites inferiores não decresce, logo, as seqüênciasconvergem em um número finito de iterações.


133

3UREOHPDSULPDO1/3

O problema primal corresponde ao MINLP com as variáveis \ fixas emvalores inteiros:

min 6([,\)

sujeito a: K([,\) = 0

J([,\) ≤ 0

[ ∈ ; ⊆ ℜ

onde \ ∈ 0,1

corresponde ao vetor \ fixo na iteração N.

Se o problema primal é viável, então sua solução fornece um OLPLWHVXSHULRU,6([

,\), para a função objetivo e os respectivos multiplicadores de Lagrange das

restrições, λ e µ

. A função de Lagrange para este problema é dada por:

/([,\,λ,µ

) = 6([,\) + (λ

) K([,\) + (µ

)J([,\)

Se o problema primal é inviável, então o seguinte problema de viabilidadegeral, FP, (Fletcher e Leyffer, 1994) é resolvido:

min ∑∈

+ \[JZ ),(


J ¡ ([,\) ≤ 0, L ∈ ,

[ ∈ ; ⊆ ℜ

onde Z ¡ ≥ 0 são pesos associados a cada restrição, ),( NL \[J + = max [0,J ¡ ([,\

)], , é

o conjunto de restrições de desigualdade viáveis, e ,¢ é o conjunto de restrições de

desigualdade inviáveis. A solução do problema FP fornece informações sobre os

multiplicadores de Lagrange, Nλ e Nµ , sendo a função de Lagrange para este caso

dada por:

/ ([,\, Nλ , Nµ ) = ( Nλ ) K([,\) + ( Nµ )

J([,\)

3UREOHPDPHVWUH

O problema mestre é derivado via teoria de dualidade não linear, faz uso dosmultiplicadores de Lagrange obtido no problema primal e sua solução produzinformação sobre o limite inferior, caracterizada pelas seguintes idéias chaves:

FP

P(\)


134

(i) projeção do problema MINLP sobre o espaço \ (i.e., \ ∈ < ∩ 9);

(ii) representação dual de 9, onde 9 = \| K([\) = 0, J([\) ≤ 0, [ ∈ ;;

(iii) representação dual da projeção do problema MINLP sobre o espaço \.

min αsujeito a: α ≥

;[∈inf /([,\,λ,µ) , ∀ λ , ∀ µ ≥ 0

0 ≥ ;[∈

inf / ([,\, λ , µ ) , ∀ ( λ , µ ) ∈ Λ

\ ∈ < = 0,1 , α ∈ ℜ

onde Λ = λ ∈ ℜ£, µ ∈ ℜ

¤ | µ ≥ 0 , ∑

==µ

S

LL

11. Observa-se que o problema

mestre (M) tem como restrição dois problemas de otimização, que precisam serconsiderados para todos λ e µ ≥ 0 (primal viável) e para todos ( λ , µ ) ∈ Λ (primal

inviável), resultando em um problema com um número elevado de restrições. Aestratégia natural de resolver este problema é através de relaxação das restrições,gerando um problema mestre relaxado (RM).

min αsujeito a: α ≥

;[∈inf /([,\,λ

,µ

) , N = 1,2,...,1¥

0 ≥ ;[∈

inf / ([,\, Nλ , Nµ ) , k = 1,2,...,1¦7¥

\ ∈ < = 0,1 , α ∈ ℜ

onde 1¤ é o número de problemas primais viáveis e 1¦p¥ é o número de problemasprimais inviáveis resolvidos.

$$SSUURR[[LLPPDDooHHVV(([[WWHHUUQQDDVV22$$

Duran e Grossmann (1986) propuseram um algoritmo para tratar de problemasMINLP na forma abaixo, cuja idéia básica é similar ao GBD, onde a cada iteraçãogera-se um limite superior e um limite inferior da solução MINLP. O limite superiorresulta a partir da solução viável do respectivo problema primal com \ fixo.

min 6([,\) = F\ + I([)

sujeito a: J([) + %\ ≤ 0

[ ∈ ; ⊆ ℜ, \ ∈ < = 0,1

M

RM


135

O limite inferior resulta a partir da solução do problema mestre. O problemamestre é derivado pela projeção do MINLP no espaço \ e pela aproximação externa(linearização) das restrições e função objetivo não linear ao redor da solução primal[. Ou seja, consiste de suportes lineares válidos, e, consequentemente, relaxamentos

de funções não lineares para todos pontos [ que resultam fixando \ = \

∈ <.

Se o problema primal é viável, então as aproximações externas são dadas pelalinearização das funções convexas I([) e J([) no ponto [

:

I([) ≥ I([) + ∇

I([

) ([ − [

)

J([) ≥ J([) + ∇

J([

) ([ − [

)

Se o problema primal é inviável, então resolve-se o respectivo problema de

viabilidade geral, para então linearizar as restrições no ponto obtido, N[ :

J([) ≥ J( N[ ) + ∇J( N[ ) ([ − N[ )

Então o problema mestre pode ser formulado como:

min F\ + α

sujeito a: α ≥ I([) + ∇

I([

) ([ − [

), ∀ N ∈ P(\

)

0 ≥ J([) + ∇

J([

) ([ − [

) + %\, ∀ N ∈ P(\

)

0 ≥ J( N[ ) + ∇J( N[ ) ([ − N[ ) + %\, ∀ N ∈ FP(\

)

[ ∈ ;, \ ∈ < = 0,1 , α ∈ ℜ

A aproximação natural da resolução do problema mestre é o relaxamento, queconsidera para cada iteração os suportes lineares das restrições e função objetivo aoredor de todos os pontos linearizados previamente. Deste modo, para cada iteraçãoum novo conjunto de restrições e suportes lineares são adicionadas, os quaismelhoram o relaxamento e por esta razão melhoram o limite inferior. Observe que oproblema mestre corresponde a um problema MILP.

Com as iterações ocorridas, duas seqüências de limites superiores e inferioressão gerados, que não aumentam nem diminuem, respectivamente. Então, é mostradoque essas duas seqüências convergem dentro de uma tolerância ε com um númerofinito de iterações.

M


136

$$SSUURR[[LLPPDDooHHVV(([[WWHHUUQQDDVVFFRRPP55HHOODD[[DDPPHHQQWWRRGGHH,,JJXXDDOOGGDDGGHH22$$((55

Para lidar com restrições de igualdade não lineares explicitamente da forma K([) = 0,Kocis e Grossmann (1987) propuseram uma aproximação externa com relaxamentode igualdade para a seguinte classe de problemas MINLP.

min 6([,\) = F\ + I([)

sujeito a: $ [ + %\ ≤ EK([) = 0J([) ≤ 0[ ∈ ; ⊆ ℜ

, \ ∈ < = 0,1

A idéia básica do OA/ER é relaxar as restrições de igualdade não lineares emdesigualdades e subseqüentemente aplicar o algoritmo OA. O relaxamento dasigualdades não lineares é baseada no sinal dos multiplicadores de Lagrangeassociados a este relaxamento quando o problema primal (com \ fixo) é resolvido.Se um multiplicador λ ¡ é positivo então a correspondente igualdade não linearK ¡ ([)=0 é relaxada como K ¡ ([) ≤ 0 Se um multiplicador λ ¡ é negativo, então aigualdade não linear é relaxada como ±K ¡ ([) ≤ 0. Entretanto, se λ ¡ = 0, então arestrição de igualdade não linear associada é escrita como 0.K ¡ ([) = 0, a qual implicaque esta restrição pode ser eliminada. Tendo transformado as igualdades não linearesem desigualdades, na seqüência formula-se o problema mestre baseado sobre osprincípios da aproximação OA discutida anteriormente.

min F\ + α

sujeito a: α ≥ I([) + ∇

I([

) ([ − [

), ∀ N ∈ P(\

)

0 ≥ J([) + ∇

J([

) ([ − [

), ∀ N ∈ P(\

)

0 ≥ T [K([

) + ∇

K([

) ([ − [

)], ∀ N ∈ P(\

)

0 ≥ J( N[ ) + ∇J( N[ ) ([ − N[ ), ∀ N ∈ FP(\

)

0 ≥ N7 [K( N[ ) + ∇K( N[ ) ([ − N[ )], ∀ N ∈ FP(\

)

$ [ + %\ ≤ E

[ ∈ ;, \ ∈ < = 0,1 , α ∈ ℜ

onde7 é a matriz diagonal dos sinais dos multiplicadores de Lagrange.

O algoritmo OA/ER tem a vantagem de exigir um número menor de iteraçõesque o GBD, porém o tamanho de seus problemas mestres MILP é consideradogrande em relação ao GBD.

M


137

$$SSUURR[[LLPPDDooHHVV (([[WWHHUUQQDDVV FFRRPP 55HHOODD[[DDPPHHQQWWRR GGHH ,,JJXXDDOOGGDDGGHH HH 33HHQQDDOOLLGGDDGGHH

$$XXPPHHQQWWDDGGDD22$$((55$$33

Os algoritmos EUDQFKDQGERXQG, GBD e OA/ER requerem que algumas formas desuposições de convexidade sejam satisfeitas de modo a garantir a otimização globaldo problema MINLP. Viswanathan e Grossmann (1990) propuseram o algoritmoOA/ER/AP (conhecido como DICOPT - ',VFUHWHDQG&2QWLQXRXV237LPL]HU), queé um variante do algoritmo OA/ER, com objetivo de evitar as limitações impostaspela suposição de convexidade feita no algoritmo OA/ER.

Este algoritmo recorre a mesma formulação do OA/ER e introduz a funçãopenalidade aumentada nos subproblemas de limite inferior da aproximação OA/ER.

Como a suposição de convexidade não é imposta em OA/ER/AP, então:

(i) a equivalência de K([) = 0 e 7K([) ≤ 0 pode não se manter, onde K([) e 7

K([)

são as igualdades não lineares e as igualdades relaxadas, respectivamente (7

é a matriz diagonal dos sinais dos multiplicadores de Lagrange);

(ii) as linearizações podem não representar suportes válidos;

(iii) o problema mestre pode não produzir um limite inferior válido sobre asolução do MINLP.

A idéia básica em OA/ER/AP é limitar (i), (ii) e (iii) pelo relaxamento daslinearizações no problema mestre, permitindo-os de serem violados e utilizando umaaproximação tipo penalidade que penaliza essas violações das funções suportes.Então, o problema mestre para o método AO/ER/AP pode ser formulado como:

min F\ + α + Z§

V + ∑ (Z¤ )

S +∑ (Z )

T

sujeito a: α + V ≥ I([) + ∇

I([

) ([ − [

), ∀ N ∈ P(\

)

S ≥ J([) + ∇

J([

) ([ − [

), ∀ N ∈ P(\

)

T ≥ T [K([

) + ∇

K([

) ([ − [

)], ∀ N ∈ P(\

)

0 ≥ J( N[ ) + ∇J( N[ ) ([ − N[ ), ∀ N ∈ FP(\

)

0 ≥ N7 [K( N[ ) + ∇K( N[ ) ([ − N[ )], ∀ N ∈ FP(\

)

$ [ + %\ ≤ E

[ ∈ ;, \ ∈ < = 0,1 , α ∈ ℜ , V ,S ,T ≥ 0

onde Z§ , Z¤ e Z são os pesos para as variáveis de folga das restrições. Ou seja, asviolações das linearizações são permitidas pela introdução de variáveis de folga,

M


138

enquanto a penalidade das violações é introduzida como um conjunto adicional determos na função objetivo que consiste de variáveis de folga multiplicadas porfatores de peso positivos. Deste modo, por causa do relaxamento de restrições, aregião viável é expandida e, consequentemente, a possibilidade de partes das regiõesviáveis serem cortadas devido a linearizações inválidas é reduzida.

$$SSUURR[[LLPPDDoommRR(([[WWHHUUQQDD**HHQQHHUUDDOOLL]]DDGGDD**22$$

Fletcher e Leyffer (1994) estenderam a aproximação OA para problemas MINLP dotipo abaixo, introduzindo funções penalidades exatas, criando o algoritmo GOA.

min 6([,\)

sujeito a: J([,\) ≤ 0

[ ∈ ; ⊆ ℜ, \ ∈ < = 0,1

para 6 e J convexas e continuamente diferenciáveis e ; convexo, compacto e nãovazio. O GOA é similar ao OA, com as principais diferenças sendo:

(i) tratamento da inviabilidade;

(ii) problema mestre considera as inviabilidades explicitamente;

(iii) tratamento unificado de funções penalidades exatas.

Se o problema primal P(\) é inviável, então o seguinte problema de viabilidade

geral é dado por:

( )∑∈

+¨©ª«ªª¬ \[JZ , min

sujeito a J ¡ ([,\) ≤ 0, L ∈ ,

[ ∈ ; ⊆ ℜ

onde Z ¡ são os pesos, ),( NL \[J + = max [0,J ¡ ([,\

)], , é o conjunto de restrições de

desigualdade viáveis, e ,¢ é o conjunto de restrições de desigualdade inviáveis. Note

que o problema acima tem dentro da função objetivo um somatório somente dasrestrições de desigualdade inviáveis.

Se o problema primal P(\) é inviável de modo que [

resolve o problema de

viabilidade geral e tem ( ) 0, >∑∈

+®¯°°¯¯ \[JZ , então \

± é inviável dentro das restrições:


139

( ) ( ) ;[,,L\\

[[\[J\[J ²

²³²²´²²´ ∈∀∪∈∀

−−∇+≥ , ,,0 1

Observe que as restrições acima são as linearizações das restrições dedesigualdade não lineares em torno do ponto ([

±\±). Então a inviabilidade no

problema primal P(\±) significa que os cortes de linearizações de desigualdade viável

e inviável em torno de ([±\±) são violados.

A formulação do problema mestre que considera a inviabilidadeexplicitamente, é baseada nas seguintes idéias:

a) projeção do problema MINLP sobre o espaço \;

b) aproximação externa da função objetivo e da região viável, com tratamento dasinviabilidades do problema primal.

''HHFFRRPPSSRRVVLLoommRR&&UUXX]]DDGGDD**HHQQHHUUDDOOLL]]DDGGDD**&&''

Holmberg (1990) generalizou a aproximação proposta por Van Roy (1983) para aclasse de problemas de otimização da forma:

min 6([,\)


J([,\) ≤ 0

[ ∈ ; ⊆ ℜµ, \ ∈ < = 0,1

¶

para 6, J e K convexas para cada \ fixo, limitadas e Lipschitz contínuas e ; convexo,compacto e não vazio. Outra condição é que a otimização com respeito a [ da funçãode Lagrange pode ser realizada independentemente de \.

A decomposição cruzada generalizada consiste de duas fases. A fase I écomposta de subproblemas primal e dual e a fase II é constituída de problemasmestres e testes de convergência apropriados.

Na fase I, o subproblema primal produz um limite superior sobre a soluçãoprocurada do MINLP e multiplicadores de Lagrange λ

±, µ

± para o subproblema dual.

O subproblema dual produz um limite inferior sobre a solução do MINLP e fornece\± para o subproblema primal. Ambos subproblemas, primal e dual, geram cortes

para o problema mestre na fase II. Para cada iteração do GCD, os problemas primale dual são resolvidos, e um teste de convergência primal é aplicado sobre \

±,


140

enquanto o teste de convergência dual é aplicada sobre λ±, µ

±. Se qualquer teste de

convergência falhar, então entra-se na fase II, que caracteriza a solução do problemamestre e retorna subseqüentemente para a fase I. A idéia chave é fazer uso extensoda fase I e limitar tanto quanto possível o uso da fase II para a aplicação de testes deconvergência apropriados. Isto é porque o problema mestre é mais difícil e demandaum maior tempo computacional que os problemas da fase I.

%%UUDDQQFFKKDDQQGG%%RRXXQQGG((VVSSDDFFLLDDOO66%%%%

Os algoritmos GBD e OA têm a limitação do tamanho do problema mestre (MILP)que cresce a medida que as iterações ocorrem, devido as restrições adicionais, sendoeste o maior problema quando o MINLP original tem um número grande devariáveis inteiras. O tempo usado para resolver o problema mestre cresce conformeas iterações ocorrem, enquanto o tempo para os subproblemas NLP mantém-se namesma ordem de magnitude.

%UDQFKDQG%RXQG(VSDFLDO/LQHDUL]DGR

Quesada e Grossmann (1992) propuseram um algoritmo para evitar osproblemas relatados acima, melhorando a eficiência da solução dos problemasMINLP convexos e reduzindo o trabalho computacional exigido para resolver osproblemas mestres MILP.

O algoritmo SBB (6SDWLDO%UDQFKDQG%RXQG) consiste da busca em árvoresobre o espaço de variáveis binárias. O problema mestre MILP é definidodinamicamente durante a busca em árvore para reduzir o número de nós quenecessitam ser enumerados. Uma busca EUDQFK DQG ERXQG é conduzida paradeterminar limites inferiores na solução de subproblemas LP até encontrar soluçõesinteiras viáveis. Para estes nós, subproblemas NLP são resolvidos, determinandolimites superiores e novas aproximações lineares, as quais são usadas para estender arepresentação linear dos nós abertos na árvore de busca. Estas aproximações linearespodem ser feitas de diversas formas.

A seguir descreve-se detalhadamente o algoritmo de Quesada e Grossmann(1992) com modificações propostas por Pereira e Secchi (2000). Considera-se osproblemas MINLP da forma:

] = min 6([,\) = F·\ + I([)

sujeito a: J([) + %\ ≤ 0[ ∈ ; ⊆ ℜ

µ, \ ∈ < = 0,1

¶


141

3DVVR ± Arbitram-se valores iniciais para as variáveis binárias “\” e variáveiscontínuas “[”. Durante a implementação, existe a opção do próprio algoritmoescolher estes valores, caso não sejam arbitrados.

3DVVR ± Fixando \ \0, o problema MINLP transforma-se num subproblemaNLP, ou seja:

] = [

min F·\

0 + I([)

sujeito a J([) + %\0 ≤ 0[ ∈ ; ⊆ ℜ

µ

O problema NLP é resolvido, encontrando uma solução ([0\

0), a qual corresponde aum determinado valor “]” da função objetivo. Considera-se ]X ], o limite superiorpara a solução ótima do problema MINLP.

Se a violação de restrição for maior que ε ¸ , onde “ε ¸ ” é a tolerância deviolação de restrição, então faz-se ]X ∞, o que significa que este primeiro NLP éconsiderado inviável.

Na implementação, quando \0 não for dado, existe a possibilidade de ser

resolvido um NLP com condições de integralidade sobre as variáveis bináriasrelaxadas. Neste caso é resolvido um NLP relaxado, resultando uma solução ([0

\0).

Se \0 não for inteiro, então \0 sofre um arredondamento e é resolvido um outro NLP.

3DVVR – As funções não lineares do problema MINLP são linearizadas, usando asolução ótima [0 do subproblema NLP, resultando no seguinte problema MILP.

] = α,,

min¹º α

sujeito a α ≥ F·\ + I([0) + ∇

·I([0) ([ − [0)

%\ + J([0) + ∇·J([0) ([ − [0) ≤ 0

α ∈ ℜ, [ ∈ ; ⊆ ℜµ, \ ∈ < = 0,1

¶

3DVVR – O problema MILP transforma-se num problema LP, com as condições deintegralidade sobre as variáveis binárias relaxadas. A solução deste LP éconsiderada um limite inferior, ]O, para a solução ótima do problema MINLP. Caso

]X]O » ≥+ ε , onde “ε¼ ” é a tolerância da função objetivo, então este problema é

desconsiderado. Se ]O ]X, este primeiro problema LP é armazenado como oprimeiro nó da árvore de busca e se a solução deste LP para as variáveis binárias “\´for inteira, segue-se para o passo 8.


142

3DVVR– Se não existe mais LPs para serem resolvido, ou seja, nenhum nó abertona árvore, então o limite superior corrente ]X é a solução ótima do problema MINLPe terminou o algoritmo.

3DVVR – Se a solução do LP para variáveis binárias não for inteira, então haveráuma ramificação na árvore de busca com a criação de dois nós filhos, isto é, doisproblemas LPs. A criação desses LPs será feita da seguinte forma, seleciona-sedentro da solução do último ( )

½¾/3 , onde “M” é o número do nó e “N” é o número do

nó pai, o “\ ¿ ” cujo valor fracionário encontra-se mais distante dos extremos 0 e 1 eadiciona-se as restrições \ ¿ = 0 e \ ¿ = 1 para os subproblemas ( )

ÀÂÁÀ/3 + e ( )¾ÂÃ¾/3 + ,

respectivamente. Substitui-se o problema pelos dois subproblemas filhos na lista deLPs.

3DVVR – Se no final da lista de LPs tem-se dois problemas filhos para seremresolvidos que tem o mesmo problema pai, então faz-se o seguinte:

i) resolve-se o ( )¾ÂÃ¾/3 + . Se o valor da função objetivo ]X] ÄÅÆ ≥++ ε , este

problema é desconsiderado. Caso ÇÈ] + seja uma solução inteira, segue-

se para o passo 8;

ii) resolve-se o ( )ÀÂÁÀ/3 + . Se o valor da função objetivo ]X] ÉÊË ≥++ ε , este

problema é desconsiderado. Caso ÌÍ] + seja uma solução inteira, segue-

se para o passo 8;

iii) se ÎÏÐÏ ]] ++ ≥ , inverte-se ( )¾ÂÃ¾/3 + e ( )

ÀÂÁÀ/3 + , no armazenamento de LPs.

Caso contrário (isto é, existe somente um problema filho), resolve-se o ( )½ ¾/3 e se

]X] ÑÒ ≥+ ε , este deve ser desconsiderado, mas se ]Ó é uma solução inteira, segue-se

para passo 8.

Retornar ao passo 5.

3DVVR – Resolve-se um subproblema NLP fixando as variáveis binárias “\” dasolução do problema LP para o nível do nó onde o problema LP se encontra. Se ]ÔÖÕØ×]X, faz-se ]X ]ÔÖÕØ× . Se ]ÔÖÕØ× ≥]X, então continua-se com o limite superior anterior.

3DVVR – A solução dos NLPs é usada para gerar restrições adicionais, isto é, amedida que é resolvido um subproblema NLP, esta solução é adicionada comorestrição para a solução do próximo subproblema LP e assim sucessivamente. Estasrestrições adicionais podem ser feitas de diversas formas como será comentado a


143

seguir. Desconsiderar todos os nós de ( )Æ/3 para os quais ]Ù ≥]X e retornar para o

passo 5.

5HVWULoHV$GLFLRQDLV

As restrições adicionais, comentadas no passo 9 do algoritmo, a partir dasinformações da solução dos subproblemas NLP podem ser adicionadas para os nósabertos na árvore de busca de diversos modos.

$SUR[LPDoHV([WHUQDV2$

O algoritmo OA consiste de uma seqüência de subproblemas NLP e problemasmestres MILP, onde as linearizações dos termos não lineares são derivadas para asolução ótima dos subproblemas NLP. O problema mestre MILP é dado por:

] = α,,

minÚÛ α

sujeito a α ≥ FÜ\ + I([

Ý) + ∇

ÜI([

Ý) ([ − [

Ý)

%\ + J([Ý) + ∇

ÜJ([

Ý) ([ − [

Ý) ≤ 0

α ∈ ℜ, [ ∈ ; ⊆ ℜÞ, \ ∈ < = 0,1

ß

N 1,2, ...,. à áãâØäæå çonde [

Ý é a solução viável ou inviável do N-ésimo subproblema NLP.

'HFRPSRVLomR*HQHUDOL]DGDGH%HQGHUV*%'

Na decomposição generalizada de Benders uma seqüência de subproblemas NLP eproblemas mestres MILP no espaço das variáveis binárias é resolvido. Ossubproblemas NLPs são gerados fixando as variáveis binárias no MINLP originalpara um dado valor \

Ý. O problema mestre é gerado projetando o problema original

no espaço reduzido das variáveis binárias. Isto é feito derivando, para cadasubproblema, uma função Lagrangeana parametrizada nas variáveis discretas “\”.

Aplicando as condições de Kuhn-Tucker em um subproblema NLP,consideradas em relação as variáveis não lineares “[”, tem-se:

∇I([Ý) + ∇J([

Ý) λ

Ý = 0

Multiplicando a equação acima por ([±[Ý), tem-se:

∇ÜI([

Ý) ([±[

Ý) + (λ

Ý)Ü ∇

ÜJ([

Ý) ([±[

Ý) = 0

Da segunda inequação do problema MILP, tem-se


144

∇ÜJ([

Ý) ([ − [

Ý) ≤ −[%\ + J([

Ý)]

Então, ∇ÜI([

Ý) ([±[

Ý) − (λ

Ý)Ü [%\ + J([

Ý)] ≥ 0. Logo, a primeira inequação do MILP

reduz-se a:

α ≥ FÜ\ + I([

Ý) + (λ

Ý)Ü [%\ + J([

Ý)]

Desta forma, a formulação do problema mestre para os cortes de Benders é dado por:

] = α,

minè α


Ý) + (λ

Ý)Ü [%\ + J([

Ý)] , N 1,2, ...,. à áÖâ5äæåÖéê ëìéîíê å ç

(λÝ)Ü [%\ + J([

Ý)] ≤ 0, N 1,2, ...,. à áãâØäïåðê Þ éê ëìéñíê åç

α ∈ ℜ, \ ∈ < = 0,1ß

onde [Ý e λ

Ýsão as variáveis ótima primal e dual do subproblema NLP.

A vantagem das aproximações externas é que elas têm a representaçãoestendida da região viável. Entretanto, têm a limitação que o número de colunas dosproblemas LPs que são resolvidos para os nós pode tornar-se muito grande. Tambémem um número de casos, as novas linearizações não determinam aproximações muitoreais da região viável não linear. Para evitar este problema, uma opção são os cortesde Benders, que em geral, não provêm cortes fortes.

Por estas razões, Quesada e Grossmann (1992) propuseram uma restriçãoaproximada, cuja a idéia básica é agregar as linearizações de funções não lineares,enquanto mantém as restrições lineares em ordem para fortalecer os cortes.

5HVWULomR$SUR[LPDGDSURSRVWDSRU4XHVDGDH*URVVPDQQ

A partir do problema MINLP original, considere a partição das variáveis contínuasem dois subconjuntos “Z” e “Y” tais que as restrições são divididas em restriçõeslineares e não lineares e as variáveis contínuas em variáveis lineares e não lineares.

] = min FÜ\+ D

Ü Z + U(Y)

sujeito a&\ + 'Z + W(Y) ≤ 0

(\ + )Z + *Y ≤ E

\ ∈ < , Z ∈ :, Y ∈ 9

Nesta representação I([) = DÜ Z + U(Y), %

Ü = [& (]

Ü, J([) = ['Z + W(Y) )Z + *Y]

e ; :×9.


145

O problema acima é reformulado com a adição de duas variáveis contínuas αe β para representar as partes lineares e não lineares da função objetivo, ou seja:

] = min α

sujeito a &\ + 'Z + W(Y) ≤ 0

U(Y) ≤ β

(\ + )Z + *Y ≤ E

FÜ\+ D

Ü Z + β − α = 0

α,β ∈ ℜ, \ ∈ < , Z ∈ :, Y ∈ 9

Fazendo aproximações externas no problema acima para o ponto (ZÝ, Y

Ý) gerado pelo

N-ésimo subproblema NLP tem-se:

] = min α

sujeito a &\ + 'Z + W(YÝ) + ∇W(Y

Ý) (Y−Y

Ý) ≤ 0

U(YÝ) + ∇U(Y

Ý) (Y−Y

Ý) ≤ β

(\ + )Z + *Y ≤ E

FÜ\+ D

Ü Z + β − α = 0

α,β ∈ ℜ, \ ∈ < , Z ∈ :, Y ∈ 9

Se as condições de Kuhn-Tucker do subproblema NLP são consideradas emrelação as variáveis não lineares “Y”, então:

∇U(YÝ) + ∇W(Y

Ý) λ

Ý + G

Ü µ

Ý = 0

que multiplicado por (Y−YÝ), tem-se:

∇ÜU(Y

Ý) (Y−Y

Ý) + (µ

Ý)Ü G (Y−Y

Ý) = −(λ

Ý)Ü∇W

Ü(Y

Ý) (Y−Y

Ý)

Do problema linearizado tem-se:

∇W(YÝ) (Y−Y

Ý) ≤ −[&\ + 'Z + W(Y

Ý)]

então:

∇ÜU(Y

Ý) (Y−Y

Ý) ≥ (λ

Ý)Ü[&\ + 'Z + W(Y

Ý)] − (µ

Ý)Ü G (Y−Y

Ý)

Finalmente, substituindo este expressão na segunda inequação do problemalinearizado, tem-se o MILP:


146

] = min α

sujeito a β ≥ U(YÝ) + (λ

Ý)Ü[&\ + 'Z + W(Y

Ý)] − (µ

Ý)Ü G (Y−Y

Ý)

(\ + )Z + *Y ≤ E

FÜ\+ D

Ü Z + β − α = 0

α,β ∈ ℜ, \ ∈ < , Z ∈ :, Y ∈ 9

N 1,2, ...,. à áãâØäæå çObserve que usando as aproximações lineares acima somente a primeira

inequação é modificada para os nós abertos na árvore de busca, quando aconteceuma solução inteira de um LP.

5HVWULomR$SUR[LPDGDSURSRVWDSRU3HUHLUDH6HFFKL

Considerando o problema MINLP original na forma:

] = min 6([,\) = FÜ\ + I([) + µ X

sujeito a: J([) + %\ ≤ X

[ ∈ ; ⊆ ℜÞ, \ ∈ < = 0,1

ß , X ≥ 0

onde µ > 0. Se X > 0 há violação de restrições para problemas inviáveis. Isto é, µ X éuma penalização introduzida na função objetivo quando as restrições são violadas.

Fazendo aproximações externas para o ponto [ò o qual foi gerado pelo primeiro

subproblema NLP, tem-se o MILP

] = óôõ ,,,min

αα


ö) + ∇

ÜI([

ö) ([ − [

ö) + µ X

%\ + J([ö) + ∇

ÜJ([

ö) ([ − [

ö) ≤ X

α ∈ ℜ, [ ∈ ; ⊆ ℜÞ, \ ∈ < = 0,1

ß , X ≥ 0

A partir do relaxamento das variáveis binárias no problema acima, resolve-seM-LPs até encontrar uma solução inteira. Quando esta solução é encontrada éresolvido um subproblema N-NLP e a partir desta solução há um acréscimo de umainequação para todos os nós abertos na árvore de busca, sendo que se não houverviolação de restrição, a aproximação feita será do tipo OA e se houver violação derestrição, a aproximação será feita através de cortes de Benders. Assim, o MILP teráa seguinte forma:


147

] = óôõ ,,,min

αα


ö) + ∇

ÜI([

ö) ([ − [

ö) + µ X

%\ + J([ö) + ∇

ÜJ([

ö) ([ − [

ö) ≤ X

α ≥ FÜ\ + I([

Ý) + ∇

ÜI([

Ý) ([ − [

Ý) + µ XN 1,2, ...,. à áãâØäæåÖéê ë÷éîíê åç

α ≥ FÜ\ + I([

Ý) + (λ

Ý)Ü [%\ + J([

Ý) − X] + µ XN 1,2, ...,. à áÖâØäïåøê Þ éê ëìéñíê åç

α ∈ ℜ, [ ∈ ; ⊆ ℜÞ, \ ∈ < = 0,1

ß , X ≥ 0

onde .(NLPs viáveis) são todos pontos viáveis obtidos pelo NLP e .(NLPs inviáveis) sãotodos os pontos inviáveis resultantes do NLP.

%UDQFKDQG%RXQG(VSDFLDO 1mR/LQHDU

A diferença entre o SBB linearizado e o SBB não linear está na solução do problemarelaxado. Enquanto que o SBB linearizado resolve problemas LP relaxados paraencontrar limites inferiores, o SBB não linear resolve problemas NLP relaxados.

Os algoritmos SBB linearizados partem da suposição de que o LP relaxadopode ser resolvido mais eficientemente que o NLP relaxado. Contudo, se muitosNLPs resultantes de soluções inteiras do LP relaxado forem inviáveis, então osalgoritmos SBB linearizados podem encontrar dificuldades de convergência. Aintrodução de novas restrições, resultantes de sucessivas linearizações, tambémpodem trazer mau condicionamento para os problemas LP relaxados, além de levar apossíveis cortes de soluções ótimas em problemas não convexos.

Por outro lado, os algoritmos SBB não lineares partem da premissa de que ossubproblemas NLPs diferem por apenas algumas restrições e, portanto, a solução deum NLP pode servir como uma boa estimativa inicial para outro NLP, acelerando aconvergência.

É de se esperar que o SBB não linear seja mais eficiente em problemas compoucas variáveis discretas e com maior não linearidade e não convexidade.


148

22WWLLPPLL]]DDoommRRGGHH33UURRFFHHVVVVRRVV''LLQQkkPPLLFFRRVV

([HPSOR Para ilustrar o problema de otimização dinâmica, algumas vezeschamado de otimização em GLPHQVmRLQILQLWD, pois envolve variáveis de decisão quesão funções, considere o sistema abaixo de um reator semi-batelada, com reaçõesduas exotérmicas:

onde C é o produto de interesse e D é um sub-produto. Iniciando com o reator vazio,as alimentações de A e B, bem com a taxa de água de resfriamento, estão livres paravariar ao longo da operação. Para um dado reator, com dimensões fixas, o objetivooperacional pode ser o de determinar o tempo de duração da operação e as taxas dealimentação de reagentes e água, de modo a maximizar a concentração final de C. Oprojeto do equipamento também pode ser parte do objetivo do problema.Geralmente, quando as variáveis de decisão envolvem somente variáveisoperacionais, o problema é denominado de FRQWUROHyWLPR.

A formulação matemática do processo acima pode ser genericamenterepresentada por:

)([(W), )(W[& ,\(W),X(W),Y) = 0

onde [(W), )(W[& são as variáveis diferenciais e suas derivadas em relação a variável

independente, W (geralmente o tempo), \(W) são as variáveis algébricas, X(W) são asvariáveis de controle e Y são os parâmetros invariantes no tempo, a seremdeterminados pela otimização. Para o exemplo, X(W) representa as taxas dealimentação dos reagentes e da água de refrigeração e Y pode ser o volume do reator.As condições iniciais para este problema podem ser descritas genericamente por:


149

,([(0), )0([& ,\(0),X(0),Y) = 0

que juntamente com a forma funcional de X(W) e os valores de Y determinamcompletamente a resposta transiente do sistema.

))RRUUPPXXOODDoommRRGGDDIIXXQQoommRRRREEMMHHWWLLYYRRHHUUHHVVWWUULLooHHVV

A formulação da função objetivo para um problema de otimização dinâmica podeestar associada a determinação dos seguintes valores:

• horizonte de tempo da operação, Wù (tempo final);

• parâmetros invariantes no tempo, Y;

• variação temporal das variáveis de controle, X(W), para W ∈ [0, Wù ].de modo a minimizar (ou maximizar) um funcional Φ(X(W),Y,Wù ). A função objetivo éum IXQFLRQDO pois depende da escolha da função X(W). No problema do reator semi-batelada Φ seria a concentração final do produto C e Wù seria a duração da batelada,resultando no problema de otimização abaixo:

],0[),(,,max úú

WWWXYW ∈Φ = [3(Wù )

sujeito a: )([(W), )(W[& ,\(W),X(W),Y) = 0

,([(0), )0([& ,\(0),X(0),Y) = 0

onde [3 é a concentração de C.

Se a função objetivo a ser minimizada for a integral de uma função sobre todoo intervalo [0, Wù ]:

Φ(X(W),Y,Wù ) = ∫ ϕûü

0

([(W), )(W[& ,\(W),X(W),Y) GW

pode-se adicionar ao sistema de equações algébrico-diferenciais do problema, aseguinte equação:

Φ& = ϕ([(W), )(W[& ,\(W),X(W),Y)

com a condição inicial Φ(0) = 0, para ser integrada simultaneamente. Para o casoparticular de Φ& = 1, tem-se o problema de minimização do tempo de operação, Wù .

Uma formulação mais geral para a função objetivo envolve as duas formasacima, ou seja:


150

Φ(X(W),Y,Wù ) = ψ([(Wù ), )( ýW[& ,$Wù ),X(Wù ),Y) + ∫ ϕûü

0

([(W), )(W[& ,\(W),X(W),Y) GW

Dentre as mais variadas formas de restrições adicionais em um problema deotimização dinâmica, tem-se:

a) Limites nas variáveis de decisão

Wù þ ê Þ ≤ Wù ≤ Wù þ ÿ

Xmin ≤ X(W) ≤ X

þ ÿ , ∀ W ∈ [0,Wù ]

Ymin ≤ Y ≤ Y

þ ÿ

b) Restrições terminais

de igualdade: Z(Wù ) = Z

de desigualdade: Zmin ≤ Z(Wù ) ≤ Zþ ÿ

onde Z representa alguma variável do sistema ([ ou $, ou uma relação entre elas.Para o exemplo do reator, a quantidade final de material no reator pode ser fixada oua temperatura final pode estar limitada em uma dada faixa.

c) Restrições interiores

Aparecem quando algumas variáveis devem estar limitadas em alguns pontos nointerior do intervalo de operação, ou seja:

Zmin(W ) ≤ Z(W ) ≤ Z

þ ÿ(W )

onde W ∈ [0,Wù ). Como por exemplo, limitar a curva de aquecimento do reator dentrode uma faixa determinada.

d) Restrições de trajetória

São aquelas restrições que devem ser satisfeitas durante todo o intervalo deoperação, ou seja:

Zmin ≤ Z(W) ≤ Z

þ ÿ , ∀ W ∈ [0,Wù ]

Por exemplo, no reator semi-batelada pode-se impor que a temperatura da reação nãodeva ultrapassar um determinado valor para evitar a degradação do produto.


151

33UULLQQFFttSSLLRRGGRR00ttQQLLPPRRGGHH33RRQQWWUU\\DDJJLLQQ

Antes de enunciar o princípio do mínimo de Pontryagin, é necessário introduzir osconceitos do cálculo variacional, que trata da seleção de uma função desconhecidaque aparece no integrando de uma integral que deve ser minimizada ou maximizadaem função desta seleção.

Considere a seguinte integral:

∫ ϕ=2

1

)](),(,[)(

GWW[W[W[6 &

onde )(W[& é a derivada de [(W) em relação a W. O problema do cálculo variacional

consiste na seleção de [(W) de modo a minimizar (ou maximizar) o funcional 6([).Supondo que [ (W) é a função que minimiza 6([) e [(W) é uma outra função com umadiferença infinitesimal de [ (W) em cada ponto dentro do intervalo (W1, W2), define-se:

δ[ = [(W) − [ (W)

como o operador variação, ou seja, a variação de uma função representa umamudança infinitesimal arbitrária na função a um dado valor de W. Note que a variaçãodifere da diferenciação, pois esta última corresponde a uma medida da mudança deuma função resultante de uma mudança específica (não arbitrária) na variávelindependente. A equação acima pode ser escrita como:

δ[ = [(W) − [ (W) = ε φ(W)

onde φ(W) é uma função arbitrária contínua e diferenciável e ε é um parâmetrovariável que tende a zero.

Como o operador variação acarreta uma mudança infinitesimal em umafunção para um valor fixo de W, tem-se:

δW = 0

ou seja, a variável independente não participa do processo de variação. Outrapropriedade importante do operador variação é a comutatividade com os operadoresde diferenciação e integração:

G[

GW

GW

G[

GW

G φε=φε=δ )]([ e G[

G[[

GW

G

GW

G[

GW

G[

GW

G[ φε=−=−=δ *)(*

∫∫∫∫∫ δ=−=−=δ2

1

2

1

2

1

2

1

2

1

)()](*)([)(*)()(

GWW[GWW[W[GWW[GWW[GWW[


152

Como a condição necessária de primeira ordem para o mínimo local de umafunção, 6([), pode ser interpretada como a existência de um ponto estacionário dafunção objetivo, então dentro de uma região infinitesimal em torno deste ponto tem-se que:

δ6 = 0

Usando a propriedade comutativa chega-se a:

∫ δϕ=δ2

1

GW6

onde δϕ = ϕ[[, )(W[& ,W] − ϕ[[ , )(* W[& ,W] = ϕ[[*+ ε φ, )(* W[& + ε )(Wφ& ,W] − ϕ[[ , )(* W[& ,W].

Expandindo ϕ em série de Taylor tem-se:

ϕ[[*+ ε φ(W), )(* W[& + ε )(Wφ& , W] = ϕ[[ , )(* W[& , W] + 7[∇ ϕ[[ , )(* W[& , W] ε φ(W) +

7[&∇ ϕ[[ , )(* W[& , W] ε )(Wφ& + 2[ε2 φ2(W), ε2 )(2 Wφ& ]

que eliminando os termos de ordem 2(ε2), resulta em:

δϕ = ε 7[∇ ϕ[[ , )(* W[& , W] φ(W) + 7

[&∇ ϕ[[ , )(* W[& , W] )(Wφ&

Para um ponto estacionário tem-se:

( )∫ =φϕ∇+φϕ∇ε=δ2

1

0

GW6 &

sobre qualquer função arbitrária φ(W). O segundo termo no integrando pode serintegrado por partes (X = ∇ ϕ e Y = φ), resultando em:

∫∫ φϕ∇−φϕ∇=φϕ∇2

1

2

1

2

1][][

GW

GW

GGW &

Se a função [(W) é fixada nos contornos, W1 e W2, então φ(W) deve se anular nestespontos, pois não pode existir variação de [(W) nos contornos. Deste modo o primeirotermo da integração por partes é nulo. Para o caso mais geral, onde algum contornopode estar livre, as seguintes condições de FRPSOHPHQWDULGDGH devem ser satisfeitas:

0=φϕ∇7[& para W = W1 e W = W2

ou seja, se δ6 é para ser zero para todas as variações admissíveis (restritas somentepela continuidade e diferenciabilidade) então o primeiro termo da integração porpartes deve ser sempre nulo. No caso de existir uma contribuição terminal na funçãoobjetivo:


153

∫ϕ+Ψ=2

1

)](),(,[]),([)( 22

GWW[W[WWW[[6 &

a condição de complementaridade terminal seria:

0][ =φϕ∇+Ψ∇ para W = W2

Substituindo a integração por partes em δ6 = 0, tem-se então:

∫ =φ

ϕ∇−ϕ∇ε=δ

2

1

0][

GW

GW

G6

Como a equação acima deve ser satisfeita para qualquer função arbitrária φ(W),contínua, diferenciável e que satisfaça as condições de contorno, então o termo entreparêntesis deve ser nulo, resultando na equação de (XOHU/DJUDQJH:

0][ =ϕ∇−ϕ∇ GW

G

([HPSOR Para ilustrar, considere o problema de determinar a curva de menorcomprimento conectando dois pontos no espaço, conforme a figura abaixo.

O comprimento de uma curva conectando os pontos (W1, [1) e (W2, [2) é dado por:

∫∫ +==2

1

2

1

2)(

)(

1)(

GW[GV[6 &

onde 21)](),(,[ [W[W[W && +=ϕ e 22 G[GWGV += que é o comprimento de um

segmento infinitesimal da curva.


154

Aplicando a equação de Euler-Lagrange para o problema acima, tem-se:

0=∂ϕ∂=ϕ∇[

21 [

[

[[

&

&

&&

+=

∂ϕ∂=ϕ∇

01

0][2

=

+−=

∂ϕ∂−=ϕ∇−ϕ∇

[

[

GW

G

[GW

G

GW

G[[

&

&

&&

ou seja: =+ 21 [

[

&

&constante, o que implica que )(* W[& = constante. Portanto,

como não poderia deixar de ser, o caminho mais curto entre dois pontos é uma reta:[ (W) = D W + E.

Naturalmente, para assegurar que a função [(W) minimize o funcional 6([), acondição suficiente de segunda ordem deve ser verificada, que no caso de variaçõessignifica que a segunda variação de 6 deve ser positiva para todas variaçõespossíveis de [, isto é:

δ26 > 0 , ∀ δ[

que é equivalente a (δ[) 6[

2∇ (x*) δ[ > 0, ou ainda pela condição de segunda ordem

de Legendre:

)*,*,(2 W[[[ &&ϕ∇ > 0

Aplicando esta condição para o exemplo acima tem-se:

0)1(

12/32

2 >+

=ϕ∇[

[&

&

logo, a solução ótima [ (W) minimiza o funcional 6([).

Retornando ao problema de otimização de sistema dinâmicos, seja então oproblema:

],0[),(),(,min

WWWXW[W ∈Φ[[(W),X(W),W ] = ψ[[(W ),W ] + ∫ ϕ

0

[[(W),X(W),W] GW

sujeito a: )(W[& = I[[(W),X(W),t] , [(0) = [o

K[(W ),W ] = 0

Introduzindo os multiplicadores de Lagrange associado às restrições chega-se a:


155

/[[(W),X(W),λ(W),η,W ] = ψ[[(W ),W ] + ηK[[(W ),W ] +

∫ ϕ

0

[[(W),X(W),W] + λ(t) (I[[(W),X(W),t] − )(W[& ) GW

que pode ser dividida em duas funções:

Θ[[(W ),η,W ] = ψ[[(W ),W ] + ηK[[(W ),W ] e

Λ[[(W),X(W),λ(W),W] = ϕ[[(W),X(W),W] + λ(t) (I[[(W),X(W),t] − )(W[& )

resultando no funcional:

/[[(W),X(W),λ(W),η,W ] = Θ[[(W ),η,W ] + ∫ Λ

0

[[(W),X(W),λ(t),W] GW

que ao ser minimizado resulta nas equações de Euler-Lagrange:

λ+λ∇+ϕ∇==Λ∇−Λ∇ & IGW

G !""""0][

0][ =Λ∇−Λ∇ ωω #GW

G ⇒ FWH=Λ∇ω&

onde )(Wω& = X(W), e pelas condições de complementaridade para )( $Wω& :

0][ =δωΛ∇+Θ∇ ωω %&' ⇒ 0=Λ∇+Θ∇ ωω ( ⇒ 0=Λ∇ω) para W = W

pois ω(W ) é livre (δω ≠ 0) e Θ não depende de ω, chega-se a 0=Λ∇ω& ∀ W, ou seja:

λ∇+ϕ∇=λ∇+ϕ∇==Λ∇ ωωω II 7XX

7&&& 0

Definindo a seguinte IXQomRGH+DPLOWRQ (ou +DPLOWRQLDQR):

+[[(W),X(W),λ(W),W] = ϕ[[(W),X(W),W] + λ*(t) I[[(W),X(W),t]

então, as condições necessárias de primeira ordem (Euler-Lagrange) descritas acimasão equivalentes a:

I+[ =∇= λ&

λ∇−ϕ−∇=−∇=λ I+ 7[[[

&

0=λ∇+ϕ∇=∇ I+ 7XXX

que devem ser resolvidas juntamente com as condições iniciais e finais e ascondições de complementaridade:


156

[(0) = [o

K[[(W+ ),W+ ] = 0

[ Θ∇ )( ,W[ − λ(W+ )]* δ[(W+ ) = 0

+[[(W+ ),X(W+ ),λ(W+ ),W+ ] + Θ∇ -W δW+ = 0

A condição de segunda ordem pode ser verificada pela positividade de +X2∇ . Este

conjunto de condições são conhecidos como 3ULQFtSLR GR0tQLPR GH 3RQWU\DJLQ

(1962), e os multiplicadores de Lagrange, λ(W), são conhecidos como YDULiYHLVDGMXQWDV. Para as partes do caminho X(W) sobre as restrições Xmin ou X

.0/1, vale a

seguinte condição de otimalidade, no lugar de 0=∇ +2 :

+[[ (W),X (W),λ*(W),W] ≤ +[[ (W),X(W),λ*(W),W]

para todos as possíveis funções X(W).

Para problemas com restrições de desigualdade do tipo:

J[[(W),X(W),W] ≤ 0 , ∀ W ∈ [0, W+ ]onde J ∈ ℜ

3 é duas vezes continuamente diferenciável e o subconjunto de restrições

ativas, J/, não deve ser maior que o número de variáveis de controle, X, e deve

apresentar uma matriz Jacobiana, ∇ 4 J / , de posto completo ∀ W ∈ [0, W+ ]. Exemplos derestrições de desigualdade que satisfazem estas condições são:

Xmin ≤ X(W) ≤ X

.0/1 , ∀ W ∈ [0,W+ ]

Xmin[[(W),W] ≤ X(W) ≤ X

.0/1[[(W),W] , ∀ W ∈ [0,W+ ]

|X(W)| ≤ X. , ∀ W ∈ [0,W+ ]

||X(W)||2 ≤ U2 , ∀ W ∈ [0,W+ ] , U ∈ ℜ

Introduzindo funções de folga )(W]& , isto é:

J 5 [[(W),X(W),W] + )(2 W] 6& = 0 , L = 1,2,...,S

tem-se o integrando da função de Lagrange na forma:

Λ[[(W),X(W),λ(W),W] = ϕ[[(W),X(W),W] + λ7(t) (I[[(W),X(W),t] − )(W[& ) + µ

7(t) (J[[(W),X(W),t] + )(2 W]& )

onde o vetor )(2 W]& = [... )(2 W] 6& ...]*. Neste caso as equações de Euler-Lagrange são

dadas por:


157

λ+µ∇+λ∇+ϕ∇==Λ∇−Λ∇ &8 JIGW

G 9 :9 ::::0][

0][ =Λ∇−Λ∇ ωω ;GW

G ⇒ FWH=Λ∇ω&

0][ =Λ∇−Λ∇ <<GW

G = ⇒ FWH> =Λ∇ ?

De modo análogo às condições de complementaridade para ω(W), que resultam em0=Λ∇ω& ∀ W, para a função ](W) tem-se:

0][ =δΛ∇+Θ∇ @ABB ]C ⇒ 0=Λ∇+Θ∇ DD E ⇒ 0=Λ∇ F G para W = WH

logo, 0=Λ∇ F G ∀ W e, pela definição de Λ, µ I J]& = 0, ou ainda µ I J I = 0, L = 1,2,...,S.

Definindo o Hamiltoniano para este caso:

+[[(W),X(W),λ(W),W] = ϕ[[(W),X(W),W] + λK(t) I[[(W),X(W),t] + µ

K(t) J[[(W),X(W),t]

então o Princípio do Mínimo de Pontryagin (ou condições necessárias de otimalidadepara systemas dinâmicos) é dado por:

I+[ =∇= λ&

µ∇−λ∇−ϕ−∇=−∇=λ JI+LMLMMM&

0=µ∇+λ∇+ϕ∇=∇ JI+NONOOO

µ ≥ 0

+X2∇ ≥ 0 ∀ δX | PQR J∇ δX = 0

juntamente com as condições iniciais, finais e de complementaridade:

[(0) = [o

K[[(WH ),WH ] = 0

[ Θ∇ )( SW[ − λ(WH )]K δ[(WH ) = 0

+[[(WH ),X(WH ),λ(WH ),WH ] + Θ∇ TW δWH = 0

µ I J I = 0, L = 1,2,...,S.


158

&&RRQQWWUURROOHHyyWWLLPPRR

Analisando inicialmente o problema de controle ótimo para sistemas lineares:

)(W[& = $(W) [(W) + %(W) X(W) , [(0) = [o

com a seguinte função objetivo quadrática:

6[[(W),X(W),WH ] = [ ]∫ ++UV

VWVXYZ GWWXW[W[0

2

)(

2

)(

2)()(

2

1)(

2

1

onde 2[[ = [

K5[ e 5 ≥ 0, 4(W) ≥ 0 e :(W) ≥ 0 são matrizes simétricas de pesos.

Definindo o Hamiltoniano para este problema:

+[[(W),X(W),λ(W),W] = 2

)(

2

)()(

2

1)(

2

1 \]\^ WXW[ + + λK [$ [ + % X]

então, pelo princípio do mínimo de Pontryagin, tem-se:

=∇= λ+[& $ [ + % X

=−∇=λ +_& −4 [ − $Kλ

=∇ +` :X + %Kλ = 0

[(0) = [o

λ(WH ) = 5[(WH )que resolvendo para X(W), chega-se a:

X = −:−1%

Kλ

[& $ [ − % :−1%

Kλ

gerando um problema de TPBVP (WZRSRLQW ERXQGDU\ YDOXH SUREOHP) para [ e λ,

cuja solução minimiza a função objetivo, pois +X2∇ = : > 0, e é um mínimo global

devido a convexidade do problema. Se a solução λ(W) do problema de TPBVP puderser expressa como uma função da solução [(W) em termos de uma transformaçãolinear 3(W) ∈ ℜ

a × a , isto é, [(W) ser uma base de soluções para λ(W):

λ(W) = 3(W) [(W)

então a solução do TPBVP pode ser facilmente obtida. Para verificar talpossibilidade, primeiro substitui-se esta dependência nas equações para [& e λ& , esubtrai-se uma da outra resultando em:

(3& +3$ + $K3 − 3% :−1

%K 3 + 4) [(W) = 0


159

que deve ser satisfeita ∀ W, logo como [(W) ≠ 0 então:

3& = −3$ − $K3 + 3% :−1

%K 3 − 4

que é uma equação diferencial matricial não linear, conhecida como equação de5LFFDWLdinâmica, cuja condição de contorno é obtida de λ(WH ) = 5[(WH ), ou seja:

3(WH ) = 5

Fazendo a mudança de variável τ = WH − W, tem-se Gτ = −GW e:

3& = 3$ + $K3 − 3% :−1

%K 3 + 4

3(0) = 5

Portanto, o problema de TPBVP foi transformado em um problema de valor inicialde dimensão Q (Q + 1) / 2, pois 3(W) é uma matriz simétrica. Com a solução daequação de Riccati dinâmica, a lei de controle ótimo quadrático é dada por:

X = −.(W)[ (W)

.(W) = :(W)−1%(W)

K3(W)

que é independente da condição inicial [o. O sistema dinâmico em malha fechadapode ser escrito como:

[& * = ($ − % :−1%

K 3)[ = $b [ , [(0) = [o

onde $b (W) = $ − % :−1 %

K 3 é a matriz característica da dinâmica do sistema

regulado. Observa-se também que o valor ótimo da função objetivo é dado por:

6[[ ,X ,WH ] = cdc [3[ )0(

2

1

onde 3(0) é obtido em W = 0 (τ = WH ). Este resultado pode ser verificado pela equação:

[3[[3[[3[[3[GW

G eeee&&& ++=)(

que ao substituir as expressões para 3& e [& *, resulta em:

)( [3[GW

G f = −[

g4[− [

g3% :−1

%g 3[ = −[

g4[−X

g:X

Integrando a equação acima em [0, Wh ] tem-se:

[(0)g3(0)[(0) = [(Wh )

g3(Wh )[(Wh ) + ∫ +

ij kkGWX:X[4[

0

)( = 6[[(W),X(W),Wh ]

pois 3(Wh ) = 5.


160

Fazendo a integração em [W, Wh ] tem-se:

[(W)g3(W)[(W) = [(Wh )

g5[(Wh ) + ∫ +

ij

j

kkGWX:X[4[ )( ≥ 0

de onde conclui-se que 3(W) é positiva semidefinida.

Para o caso particular de um sistema invariante no tempo, com [$ %]controlável, Wh = ∞ e matrizes pesos constantes, a lei de controle ótimo pode serobtida através da solução da equação de 5LFDWWLHVWDFLRQiULD:

3$ + $g3 − 3% :−1

%g 3 + 4 = 0

que pode ser eficientemente resolvida via decomposição em valores característicosdo gradiente do Hamiltoniano associado. Neste caso a matriz de ganhos, ., da lei decontrole é invariante no tempo.

Na maioria dos casos de controle ótimo não linear, é mais eficiente tratar oproblema como uma programação não linear do que utilizar o princípio do mínimode Pontryagin, para obter o controle ótimo, X(W). Nestes casos, a escolha da forma dasvariáveis de controle toma um aspecto mais de engenharia do que matemático, poisdependerá da forma com que as ações de controle serão implementadas na prática.Alguns tipos de variações mais comuns para as variáveis de controle estão ilustradosabaixo.


161

Sendo as duas primeiras mais freqüentemente utilizadas em controle ótimo deprocessos.

Para qualquer um dos casos acima, o algoritmo abaixo mostra uma maneira desolucionar o problema de otimização dinâmica via NLP, conhecida como método datentativa-e-erro ou VLQJOHVKRRWLQJ.

algoritmo

1) Escolher um perfil inicial para as variáveis de controle, X0(W), N = 0.

2) Integrar o sistema de equações algébrico diferenciais.

3) Calcular a função objetivo e restrições.

4) Corrigir as variáveis de controle pelo uso de métodos de NLP.

5) Verificar a convergência de Xl(W). Caso não esteja satisfeita N ← N + 1 (ir para 2).

6) FIM.

Outra forma de resolver o problema é através da discretização das equaçõesdiferenciais (ou método de PXOWLSOHVKRRWLQJ) por técnicas de elementos finitos,diferenças finitas ou aproximação polinomial, gerando um problema algébrico deprogramação não linear de elevada dimensão, que também pode ser resolvido porqualquer método de NLP com restrição.


162

(([[HHUUFFttFFLLRRVV

A figura abaixo representa um extrator onde entram uma solução com uma vazão ) =104 kg H2O / h e uma concentração [o = 0,02 kg A / kg H2O, e um solvente B puro a uma

vazão : kg B / h a ser determinada. A corrente rafinada sai com uma vazão ) = 104 kgH2O / h e uma concentração [ kg A / kg H2O e ainda um pouco de solvente B dissolvido

em água. No extrato, a vazão é de : kg B / h e a concentração \ kg A / kg B. Calcular a

vazão ótima : de B.

dados: preço do soluto no extrato: 0,4 $ / kg A

preço do solvente B: 0,01 $ / kg B

solubilidade de B em água: 0,0007 kg B / kg H2O

relação de equilíbrio: \ = N [ (N = 4)

o despejo não tem valor comercial.

critério de desempenho: Lucro = $ soluto extraído - $ solvente utilizado.

Calcular as vazões ótimas de solvente para o exercício anterior quando dois extratores

em série são utilizados no lugar de apenas um extrator, conforme figura abaixo. Considere a

mesma relação de equilíbrio e a mesma solubilidade de B em água para os dois extratores.

A figura abaixo representa um trocador de calor em contra-corrente, onde uma correntede processo com vazão W1 = 1000 kg / h e temperatura T1 = 200 °C é resfriada a T2 =

100 °C por uma corrente fria a t2 = 60 °C. Calcular a vazão ótima W2 do refrigerante (kg /


163

h) bem como a área de troca térmica ótima A (m2). Considerar cp = 1 kcal / kg °C para as

duas correntes e U = 500 kcal / h m2 °C.

dados: investimento do trocador de calor: 3200 (A / 50)0,48 $

custo do refrigerante: 5 x 10-6 $ / kg

custo de manutenção: 2 % do investimento / ano

tempo de operação: 8640 h / ano

critério de desempenho: custo anual = 50 % custo

operacional + 10 % ao ano sobre o investimento

A figura abaixo representa um sistema de dois trocadores de calor em série, onde umacorrente de processo com vazão )o = 1000 kg / h e temperatura Wo = 20 °C deve ser

aquecida a W2 = 100 °C por correntes de vapor saturado a 71 = 100 °C e 72 = 120 °C,

respectivamente. Calcular as vazões ótimas :1 e :2 das correntes de vapor (kg / h) bem

como as áreas de troca térmica ótimas $1 e $2 (m2). Considerar FS = 1 kcal / kg °C, 81 =

300 kcal / h m2 °C, 82 = 400 kcal / h m2 °C, λ1 = 500 kcal / kg e λ2 = 600 kcal / kg.

dados: investimento dos trocadores de calor: 160 (A1)0,5 $ e 320 (A2)0,5 $

custo do vapor: (a 100 °C) 5 x 10-6 $ / kg e (a 120 °C) 1 x 10-5 $ / kg

custo de manutenção: 2 % do investimento / ano

tempo de operação: 8640 h / ano

critério de desempenho:

custo anual = 50 % custo operacional + 10 % ao ano sobre o investimento

$1, 81W1)o, Wo

:1, 71

$2, 82W2

:2, 72


164

Um reator CSTR converte um reagente A em um produto B através de uma reação

catalítica endotérmica. O catalisador pode ser continuamente injetado no reator e a

temperatura do reator pode ser controlada pela injeção de vapor através de uma serpentina.

Alguma conversão pode ser obtida somente com o aquecimento, sem a adição de

catalisador. Por outro lado, pode-se também obter alguma conversão somente com a adição

de catalisador, sem o aquecimento. O produto B pode ser vendido por R$ 50 / mol de B. O

custo do catalisador (R$ / mol da alimentação) é dado pela expressão:

& ; ;F F F= + +2 10 20 2

onde ; m é a fração molar de catalisador. O custo do vapor (R$ / mol da alimentação) é dado

pela expressão:

& 6 6V = + + × −1 0 003 2 10 6 2,

onde 6 é a relação de kg de vapor / mol de alimentação. A conversão em termos das

quantidades de catalisador e vapor é dada por:

; ; 6 ; 6% F F= + + −− −0 1 0 3 10 104 4, ,

onde ;n é a relação de mol de B / mol de alimentação. Deseja-se saber qual o lucro

máximo deste processo produtivo por mol de alimentação.

Encontre o mínimo global da função

I [ [ [ [ [( ) = + − +12

22

1 23 15

sujeito a: ( ) ( )[ [ [ [1 22

1 24 0+ − − =


165

%%LLEEOOLLRRJJUUDDIILLDD%%iiVVLLFFDD

• Optimization of Chemical Processes – T. F. Edgar & D. M. Himmelblau –McGraw-Hill, 1988.

• Optimization: Theory and Practice – G. S. G. Beveridge & R. S. Schechter –McGraw-Hill, 1970.

• Applied Nonlinear Programming – D. M. Himmelblau – McGraw-Hill, 1972.

• Nonlinear and Mixed-Integer Optimization: Fundamentals and Applications –C.A. Floudas – Oxford Press, 1995.

• Systematic Methods of Chemical Process Design – L.T. Biegler, I.E.Grossmann, A.W. Westerberg – Prentice Hall, Inc., 1997.

• The Variational Method in Engineering – R. S. Schechter – McGraw-Hill, 1967.

• Optimierung – M. Papageorgiou – Oldenbourg Ed., 1996.

• Mathematical Programming. Theory and Algorithms – M. Minoux – John Wiley& Sons, 1986.

• Programação Não-Linear. Introdução à Teoria e aos Métodos – P. Mahey –Editora Campus, 1987.

55HHIIHHUUrrQQFFLLDDVVFFLLWWDDGGDDVV

• Secchi, A.R., Perlingeiro, C.A. (1989), “Busca Aleatória Adaptativa”, LQ3URFRI;,,&RQJUHVVR1DFLRQDOGH0DWHPiWLFD$SOLFDGDH&RPSXWDFLRQDO, São Josédo Rio Preto, SP, pp. 49-52.

• Aarts, E., Korts, J., Van Laarhoven, P. (1988), “A quantitative analysis of thesimulated annealing algorithm: a case study for the travelling salesmanproblem”, -6WDW3K\V, , 187-206.

• Hasan, M., Alkhamis, T., Ali, J. (2000), “A comparison between simulatedannealing, genetic algorithm and tabu search methods for the unconstrainedquadratic Pseudo-Boolean function”, &RPS,QG(QJ, , 323-340.

2 2wwllpl]]ddomr gh 33urfhvvrv - ftp.feq.ufu.brftp.feq.ufu.br/luis_claudio/books/otimiza.pdf ·...

Documents