universidade federal do parana - mat.ufpr.br · ao meu orientador, professor jinyun yuan, pelos...

UNIVERSIDADE FEDERAL DO PARANA

Geovani Nunes Grapiglia

TRES CONTRIBUICOES EM OTIMIZACAO NAO-LINEAR E

NAO-CONVEXA

Curitiba

2014

UNIVERSIDADE FEDERAL DO PARANA

Geovani Nunes Grapiglia

TRES CONTRIBUICOES EM OTIMIZACAO NAO-LINEAR E

NAO-CONVEXA

Tese de Doutorado apresentada ao Programa de

Pos-Graduacao em Matematica da Universidade

Federal do Parana, como requisito parcial a ob-

tencao do Tıtulo de Doutor em Matematica.

Orientador: Prof. Dr. Jinyun Yuan.

Coorientador: Prof. Dr. Ya-xiang Yuan.

Curitiba

2014

G766t

Grapiglia, Geovani Nunes Três contribuições em otimização não-linear e não-convexa / Geovani Nunes Grapiglia. – Curitiba, 2014. 124f. : il. color. ; 30 cm. Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-graduação em Matemática, 2014. Orientador: Jinyun Yuan -- Coorientador: Ya-xiang Yuan. Bibliografia: p. 117-124. 1. Otimização matemática. 2. Algorítmos. I. Universidade Federal do Paraná. II. Yuan, Jinyun III. Yuan, Ya-xiang. IV. Título.

CDD: 519.6

Dedico esta tese a memoria da minha mae Bela,

ao meu pai Alencar e ao meu irmao Eugenio.

Agradecimentos

Ao meu pai, Alencar A. Grapiglia, e ao meu irmao, Eugenio O. N. Grapiglia, pelo amor,

carinho e incentivo.

Aos meus familiares, pelo apoio incondicional.

Ao meu orientador, Professor Jinyun Yuan, pelos conselhos, pela motivacao e, princi-

palmente, pela oportunidade de estudar na China.

Ao meu coorientador, Professor Ya-xiang Yuan, sobretudo pela hospitalidade com que

me acolheu durante o meu estagio de doutorado sanduıche em Beijing.

Aos amigos e colegas de estudo, em especial a Camila Isoton, Stela A. Leite, Diego

D. Zontini, Fernando de Avila, Maycow G. Carneiro, Patrıcia A. Manholi, Chunfeng Cui,

Zhenzhong Kou, Jiang Bo, Li Lu, Shuxiong Wang, Xiaomin Chen, Wenhui Liu e Zhenli

Sheng, pelo prazer da companhia e pela ajuda nos momentos de dificuldade.

Aos professores Rogerio L. Rizzi, Andre Vicente, Leila D. Franzini, Naresh K. Sharma,

Marcos Valle e Robinson Hoto, por me incentivarem a prosseguir com meus estudos.

Aos professores Raimundo J. B. de Sampaio, Wenyu Sun, Luiz C. Matioli e Elizabeth

W. Karas, por participarem da banca de pre-defesa e contribuirem com valiosas sugestoes.

Aos professores Alfredo N. Iusem, Nelson Maculan Filho, Jose M. Martınez e Elizabeth

W. Karas, por aceitarem participar da banca examinadora e pelos comentarios e sugestoes

que ajudaram muito a melhorar a versao final desta tese.

Aos professores do PPGM, por ampliarem minha formacao academica.

A Coordenacao de Aperfeicoamento de Pessoal de Nıvel Superior - CAPES, pelo apoio

financeiro.

viii

“No problem is too small or too trivial

if we can really do something about it.”

Richard Feynman

Resumo

Esta tese apresenta tres trabalhos sobre otimizacao nao-linear e nao-convexa. No primeiro

trabalho, propoe-se uma versao subespacial do metodo de regiao de confianca Powell-Yuan

para problemas de otimizacao suave com restricoes de igualdade. A principal caracterıstica

do metodo apresentado e que, a cada iteracao, o subproblema Celis-Dennis-Tapia (CDT)

e resolvido em um determinado subespaco, o que reduz o esforco computacional necessario

para o calculo do passo. Testes numericos preliminares indicam que a versao subespacial

do metodo e mais rapida que a sua versao original em problemas onde o numero de

restricoes e muito menor que o numero de variaveis. No segundo trabalho, investiga-se a

convergencia e a complexidade de pior-caso do metodo de controle nao-linear do tamanho

do passo, recentemente proposto por Toint (Optim. Methods Softw. 28: 82-95, 2013)

para problemas de otimizacao suave sem restricoes. A convergencia global do metodo e

provada sob a hipotese de que a norma das Hessianas dos modelos pode crescer por uma

quantidade constante a cada iteracao. Alem disso, limitantes para a complexidade de

pior-caso sao estimados. Os resultados obtidos sao entao estendidos para alguns metodos

destinados a problemas de otimizacao composta nao-suave e problemas de otimizacao

multiobjetivo sem restricoes. Por fim, no terceiro trabalho, um metodo de regiao de

confianca sem derivadas e proposto para problemas de otimizacao composta nao-suave.

A convergencia global do metodo e estabelecida e um limitante para a complexidade de

pior-caso e obtido. A analise de complexidade e entao especializada para o caso em que

a funcao composta e uma funcao de penalidade exata, fornecendo assim um limitante

de complexidade para problemas de otimizacao com restricoes de igualdade quando a

solucao e obtida por um metodo de penalidade exata sem derivadas. Resultados numericos

preliminares com problemas minimax e com problemas de otimizacao com restricoes de

igualdade sugerem que o algoritmo proposto e promissor.

Palavras-chave: Metodos de Regiao de Confianca, Metodos de Regularizacao, Metodos

Subespaciais, Analise de Complexidade, Otimizacao sem Derivadas.

x

Abstract

This thesis presents three works on nonlinear and nonconvex optimization. In the first

work, a subspace version of the Powell-Yuan trust-region algorithm is proposed for equality-

constrained optimization problems. The main feature of the method presented is that, at

each iteration, the Celis-Dennis-Tapia (CDT) subproblem is solved in a certain subspace,

which reduces the computational effort necessary to compute the step. Preliminary nu-

merical tests indicate that the subspace version of the method is faster than its original

version on problems where the number of constraints is much lower than the number of

variables. In the second work, it is investigated the convergence and the worst-case com-

plexity of the nonlinear stepsize control algorithm recently proposed by Toint (Optim.

Methods Softw. 28: 82-95, 2013) for smooth unconstrained optimization problems. The

global convergence of the method is proved under the assumption that the Hessians of

the models can grow by a constant amount at each iteration. Moreover, worst-case com-

plexity bounds are estimated. The results obtained are extended to some algorithms for

composite nonsmooth optimization problems and unconstrained multiobjective problems

as well. Finally, in the third work, a derivative-free trust-region algorithm is proposed for

composite nonsmooth optimization problems. The global convergence of the method is es-

tablished and a worst-case complexity bound is obtained. The complexity analysis is then

especialized to the case where the composite function is an exact penalty function, provi-

ding a worst-case complexity bound for equality-constrained optimization problems when

the solution is computed using a derivative-free exact penalty algorithm. Preliminary

numerical results with finite minimax problems and with equality-constrained problems

suggest that the proposed algorithm is promising.

Keywords: Trust-region Methods, Regularization Methods, Subspace Methods, Comple-

xity Analysis, Derivative-Free Optimization.

xi

Sumario

Introducao 1

1 Preliminares 3

1.1 Definicoes e nomenclatura . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Existencia de solucoes globais . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Condicoes de otimalidade para problemas sem restricoes . . . . . . . . . . 6

1.3.1 Caso suave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.2 Caso nao-suave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Condicoes de otimalidade para problemas com restricoes . . . . . . . . . . 7

1.5 Otimizacao multiobjetivo sem restricoes . . . . . . . . . . . . . . . . . . . 9

2 Uma versao subespacial do algoritmo Powell-Yuan para otimizacao com

restricoes de igualdade 11

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Propriedades subespaciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.4 Analise da convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5 Experimentos Numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.6 Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Sobre a convergencia e complexidade de alguns metodos para otimizacao

sem restricoes 39

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


3.3 Analise da complexidade de pior-caso . . . . . . . . . . . . . . . . . . . . . 48

3.3.1 Caso geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.3.2 Caso particular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.4 Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5 Extensoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.5.1 Otimizacao composta nao-suave . . . . . . . . . . . . . . . . . . . . 61

3.5.2 Otimizacao multiobjetivo sem restricoes . . . . . . . . . . . . . . . 69

xii

3.6 Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4 Um algoritmo de regiao de confianca sem derivadas para otimizacao

composta nao-suave 75

4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81


4.5 Analise da complexidade de pior-caso . . . . . . . . . . . . . . . . . . . . . 93

4.6 Um algoritmo de penalidade exata sem derivadas . . . . . . . . . . . . . . 100

4.7 Experimentos Numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.7.1 Problemas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4.7.2 Problemas com restricoes de igualdade . . . . . . . . . . . . . . . . 109

4.8 Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5 Conclusoes e Perspectivas 112

A Problemas com funcoes convexas poliedrais 115

Lista de Figuras

2.1 Perfis de Desempenho para problemas com n < 10. . . . . . . . . . . . . . 37

2.2 Perfis de Desempenho para problemas com n ≥ 10. . . . . . . . . . . . . . 37

3.1 Perfil de Desempenho para problemas da colecao More-Garbow-Hillstrom. . 61

4.1 Perfis de dados ds(κ) para problemas minimax. . . . . . . . . . . . . . . . 108

4.2 Perfis de desempenho ρs(α) para problemas minimax. . . . . . . . . . . . . 109

Lista de Tabelas

2.1 Resultados numericos para uma selecao de problemas CUTEr. . . . . . . . 35

3.1 Limitantes para a complexidade de pior-caso. . . . . . . . . . . . . . . . . 52

3.2 Resultados numericos para problemas da colecao More-Garbow-Hillstrom. . 60

4.1 Resultados numericos para problemas minimax. . . . . . . . . . . . . . . . 105

4.2 Resultados numericos para problemas com restricoes de igualdade. . . . . . 110

Lista de Notacoes

Os principais sımbolos utilizados nesta tese sao os seguintes:

R Conjunto dos numeros reaisRn Espaco euclidiano n-dimensionalRn+ Conjunto dos vetores em Rn com coordenadas nao-negativasRn++ Conjunto dos vetores em Rn com coordenadas positivasRm×n Conjunto das matrizes reais com m linhas e n colunasGL(n,R) Conjunto das matrizes em Rn×n invertıveis| . | Valor absolutod . e Numero inteiro imediatamente superior ao numero real no argumento‖ . ‖ Norma vetorial ou matricial〈. , .〉 Produto interno euclidianoS⊥ Complemento ortogonal do conjunto S com respeito ao produto interno euclidiano|S| Cardinalidade do conjunto Sspan(S) Subespaco vetorial gerado pelo conjunto de vetores S ou pelas colunas da matriz SA+ Pseudo-inversa da matriz AO(n) Numero multiplo de n∇f(x) Gradiente da funcao f no ponto xJf (x) Matrix Jacobiana de f no ponto xB(x; ∆) Bola aberta com centro em x e raio ∆, isto e, B(x; ∆) = y ∈ Rn | ‖y − x‖ < ∆B[x; ∆] Bola fechada com centro em x e raio ∆, isto e, B[x; ∆] = y ∈ Rn | ‖y − x‖ ≤ ∆xk k-esima iterada∆k Raio da regiao de confianca na iteracao k∆ Maior valor admissıvel para o raio da regiao de confiancagk Gradiente da funcao objetivo no ponto xkBk Matriz em Rn×nIn Matriz identidade em Rn×nmk(.) Modelo na iteracao k

Outras notacoes serao introduzidas ao longo do texto quando se fizerem necessarias.

xvi

Introducao

Esta tese abrange o desenvolvimento e analise de alguns metodos de regiao de confianca

e de regularizacao para problemas de otimizacao suave (com e sem restricoes), problemas

de otimizacao composta nao-suave, bem como problemas de otimizacao multiobjetivo sem

restricoes. Especificamente, a tese e composta por tres trabalhos, os quais sao apresenta-

dos nos Capıtulos 2, 3 e 4.

No primeiro trabalho, apresentado no Capıtulo 2, faz-se um estudo sobre propriedades

subespaciais do subproblema Celis-Dennis-Tapia (CDT), o qual aparece em alguns algorit-

mos de regiao de confianca para problemas de otimizacao com restricoes de igualdade (por

exemplo, [17, 77]). A analise realizada e uma extensao daquela apresentada por Wang

e Yuan [91] para o subproblema de regiao de confianca padrao. Sob certas condicoes,

mostra-se que o passo obtido a partir do subproblema CDT esta no subespaco gerado por

todos os vetores gradiente da funcao objetivo e das funcoes de restricao, calculados da

iteracao inicial ate a iteracao corrente. Com base nesta observacao, uma versao subespa-

cial do algoritmo de regiao de confianca Powell-Yuan [77] e proposta para problemas de

otimizacao com restricoes de igualdade onde o numero de restricoes e muito menor que o

numero de variaveis. A analise da convergencia global deste algoritmo e descrita e alguns

resultados numericos tambem sao reportados.

No segundo trabalho, apresentado no Capıtulo 3, investiga-se o metodo de controle

nao-linear do tamanho do passo, o qual foi recentemente proposto por Toint [89] no

contexto de otimizacao sem restricoes. Este metodo generaliza varios metodos de regiao

de confianca e de regularizacao existentes, possibilitando assim uma forma unificada de se

provar a convergencia global. No entanto, a analise de convergencia original apresentada

por Toint [89] pressupoe que as Hessianas dos modelos sao uniformemente limitadas.

Neste trabalho, a convergencia global e provada sob a hipotese mais fraca de que a norma

das Hessianas pode crescer por uma quantidade constante a cada iteracao. Alem disso, a

complexidade de pior-caso do algoritmo tambem e investigada. Os resultados inicialmente

obtidos para otimizacao suave sem restricoes sao entao estendidos para alguns algoritmos

para otimizacao composta nao-suave e otimizacao multiobjetivo sem restricoes.

No terceiro e ultimo trabalho, apresentado no Capıtulo 4, um algoritmo de regiao

de confianca sem derivadas e proposto para otimizacao composta nao-suave. Sob algu-

mas condicoes, a convergencia global e provada e um limitante para a complexidade de

2

pior-caso e obtido. O resultado de complexidade e entao especializado para o caso em

que a funcao composta e uma funcao de penalidade exata, fornecendo assim um limi-

tante de complexidade para problemas de otimizacao com restricoes de igualdade quando

a solucao e obtida por um algoritmo de penalidade exata sem derivadas. Resultados

numericos preliminares sugerem que o algoritmo proposto e competitivo em relacao ao

metodo Nelder-Mead [69] e ao metodo de regiao de confianca sem derivadas Wedge [63]

quando aplicado a problemas minimax. Alem disso, o algoritmo tambem se mostra viavel

para a solucao de problemas de otimizacao com restricoes de igualdade quando usado em

uma estrategia de penalidade exata.

Por fim, vale a pena mencionar que o primeiro trabalho desta tese deu origem ao artigo

[46]. Alem disso, o segundo trabalho deu origem ao manuscrito [47], enquanto o terceiro

trabalho deu origem ao manuscrito [48], ambos ja submetidos para publicacao.

Capıtulo 1

Preliminares

Com o proposito de contextualizar os problemas e metodos que serao abordados na tese,

neste capıtulo faz-se uma breve revisao de algumas definicoes e resultados sobre oti-

mizacao. As principais referencias consideradas sao Izmailov e Solodov [54], Ribeiro e

Karas [81] e Sun e Yuan [87].

1.1 Definicoes e nomenclatura

Considere uma funcao f : X → R e um subconjunto Ω ⊂ X.

Definicao 1.1. Dado um ponto x ∈ Ω,

(a) diz-se que x e um minimizador global de f em Ω quando

f(x) ≤ f(x) ∀x ∈ Ω, (1.1)

(b) diz-se que x e um minimizador local de f em Ω se existe uma vizinhanca N(x) de

x tal que

f(x) ≤ f(x) ∀x ∈ Ω ∩N(x). (1.2)

Se para todo x 6= x a desigualdade (1.1) ou (1.2) e estrita, diz-se que x e um minimizador

estrito (global ou local, respectivamente).

O problema de minimizacao consiste em achar um minimizador da funcao f no con-

junto Ω, e costuma ser escrito como

minimize f(x), (1.3)

sujeito a x ∈ Ω, (1.4)

3

4

ou ainda, na forma reduzida

min f(x),

s. a. x ∈ Ω.

O conjunto Ω e denominado conjunto viavel do problema, os pontos de Ω sao chamados

pontos viaveis e a funcao f e chamada funcao objetivo.

Observacao 1.1. Todo problema de maximizacao

max f(x), (1.5)

s. a. x ∈ Ω, (1.6)

pode ser transformado em um problema de minimizacao equivalente

min −f(x),

s. a. x ∈ Ω.

Assim, problemas da forma (1.3)-(1.4) e (1.5)-(1.6) serao referidos genericamente como

problemas de otimizacao.

Definicao 1.2. Diz-se que v ∈ [−∞,∞) definido por

v = infx∈Ω

f(x),

e o valor otimo do problema (1.3)-(1.4).

Quando Ω = Rn, diz-se que que (1.3)-(1.4) e um problema de otimizacao irrestrito ou

sem restricoes, e quando Ω 6= Rn diz-se que (1.3)-(1.4) e um problema de otimizacao com

restricoes. Neste ultimo caso, e comum o conjunto Ω ser definido como

Ω =

x ∈ X

∣∣∣∣∣ ci(x) = 0, i = 1, . . . ,me

ci(x) ≤ 0, i = me + 1, . . . ,m

,

onde X ⊂ Rn, me e m sao inteiros nao-negativos e ci : X → R para cada i = 1, . . . ,m.

Quando X = Rn e me = m 6= 0, diz-se que (1.3)-(1.4) e um problema com restricoes

de igualdade. Se cada uma das funcoes ci (i = 1, . . . ,m) e linear, diz-se que (1.3)-(1.4) e

um problema com restricoes lineares. Um problema de programacao linear e um problema

de otimizacao com restricoes lineares no qual a funcao objetivo f tambem e linear. Por

sua vez, um problema de programacao quadratica e um problema de otimizacao com

restricoes lineares no qual a funcao objetivo f e quadratica. Caso a funcao objetivo f ou

alguma das funcoes ci for nao linear (ou nao-convexa), tem-se um problema de otimizacao

nao-linear (ou respectivamente, um problema de otimizacao nao-convexa).

5

Observacao 1.2. Restricoes de igualdade sempre podem ser reescritas como desigualda-

des, visto que

ci(x) = 0⇐⇒ ci(x) ≤ 0 e − ci(x) ≤ 0.

Por sua vez, as restricoes de desigualdade tambem podem ser transformadas em igualdades

pela introducao de variaveis “de folga”:

ci(x) ≤ 0⇐⇒ ci(x) + z2i = 0, zi ∈ R.

Finalizando a classificacao utilizada nesta tese para os problemas de otimizacao, diz-se

que (1.3)-(1.4) e um problema suave quando a funcao objetivo f e as funcoes de restricao

ci definindo o conjunto viavel Ω sao diferenciaveis. Caso f ou pelo menos uma das funcoes

de restricao ci nao for diferenciavel, diz-se que (1.3)-(1.4) e um problema nao-suave.

1.2 Existencia de solucoes globais

No que segue, faz-se uma revisao de algumas condicoes que garantem a existencia de

minimizadores globais.

Teorema 1.3. (Teorema de Weierstrass) Sejam f : Rn → R contınua e Ω ⊂ Rn compacto

nao-vazio. Entao existe pelo menos um minimizador global de f em Ω.

Demonstracao. Ver Teorema 1.2.1 em Izmailov e Solodov [54].

Corolario 1.4. Seja f : Rn → R contınua no conjunto Ω e suponha que existe c ∈ R tal

que o conjunto Lf,Ω = x ∈ Ω | f(x) ≤ c e compacto nao-vazio. Entao, existe pelo menos

um minimizador global de f em Ω.

Demonstracao. Ver Corolario 1.2.1 em Izmailov e Solodov [54].

Definicao 1.5. Diz-se que uma sequencia xk ⊂ Rn e crıtica em relacao ao conjunto Ω,

se xk ⊂ Ω e ou ‖xk‖ → +∞ ou xk → x ∈ Ω/Ω, onde Ω denota o fecho de Ω.

Diz-se que a funcao f : Rn → R e coerciva no conjunto Ω, quando para toda sequencia

xk crıtica em relacao a Ω, tem-se lim supk→+∞ f(xk) = +∞.

Teorema 1.6. Seja f : Rn → R uma funcao contınua e coerciva no conjunto Ω 6= ∅.Entao, existe pelo menos um minimizador global de f em Ω.

Demonstracao. Ver Teorema 2.6 em Ribeiro e Karas [81].

6

1.3 Condicoes de otimalidade para problemas sem

restricoes

Considere o problema de minimizacao sem restricoes

min f(x), x ∈ Rn, (1.7)

onde f : Rn → R. A seguir faz-se uma revisao de algumas condicoes que devem ser

satisfeitas para que um ponto x ∈ Rn seja um minimizador local de f , as quais sao

denominadas condicoes necessarias de otimalidade.

1.3.1 Caso suave

Teorema 1.7. (Condicao necessaria de primeira ordem) Seja f : Rn → R uma funcao

diferenciavel no ponto x ∈ Rn. Se x e um minimizador local de f , entao

∇f(x) = 0. (1.8)


Definicao 1.8. Diz-se que um ponto x ∈ Rn e estacionario (ou crıtico) para o problema

(1.7) quando x satisfaz a condicao (1.8).

Teorema 1.9. Seja f : Rn → R duas vezes diferenciavel no ponto x ∈ Rn. Se x e um

minimizador local de f , entao a matriz Hessiana de f no ponto x e semi-definida positiva,

isto e,

dT∇2f(x)d ≥ 0 ∀d ∈ Rn.


1.3.2 Caso nao-suave

Definicao 1.10. Dado X ⊂ Rn, diz-se que uma funcao f : X → R e Lipschitz quando

existe K > 0 (constante de Lipschitz de f) tal que

|f(y)− f(z)| ≤ K‖y − z‖ (1.9)

para quaisquer y, z ∈ X. Em particular, diz-se que f e localmente Lipschitz em relacao

ao ponto x ∈ X quando existe ε > 0 tal que f satisfaz (1.9) para quaisquer y, z ∈ B(x; ε).

Definicao 1.11. (Clarke [20], pagina 25) Seja f : Rn → R uma funcao localmente

Lipschitz em relacao ao ponto x ∈ Rn, e seja d ∈ Rn. A derivada direcional generalizada

7

de f em x, denotada por f o(x; d), e definida como segue:

f o(x; d) = limy→x, t↓0

f(y + td)− f(y)

t,

onde y ∈ Rn, t e um numero real positivo e t ↓ 0 indica que t tende para zero pela direita

e monotonicamente.

Definicao 1.12. (Clarke [20], pagina 27) Seja f : Rn → R localmente Lipschitz em

relacao ao ponto x ∈ Rn. O gradiente generalizado de f em x, denotado por ∂f(x), e o

subconjunto de Rn definido por

∂f(x) =ξ ∈ Rn | f o(x; d) ≥ ξTd ∀d ∈ Rn

.

Cada vetor ξ ∈ ∂f(x) e chamado de subgradiente de f em x.

Teorema 1.13. (Condicao necessaria de primeira ordem) Seja f : Rn → R localmente

Lipschitz em relacao ao ponto x ∈ Rn. Se x e um minimizador local de f , entao

0 ∈ ∂f(x). (1.10)

Demonstracao. Ver Teorema 14.1.5 em Sun e Yuan [87]

Definicao 1.14. (Sun e Yuan [87], pagina 604) Diz-se que um ponto x ∈ Rn e esta-

cionario (ou Clarke estacionario) para o problema (1.7) quando x satisfaz a condicao

(1.10).

1.4 Condicoes de otimalidade para problemas com

restricoes

Considere o problema de minimizacao com restricoes

min f(x)

s. a. ci(x) = 0, i = 1, . . . ,me

ci(x) ≤ 0, i = 1, . . . ,m,

(1.11)

onde f : Rn → R e ci : Rn → R (i = 1, . . . ,m) sao funcoes diferenciaveis. Alem disso,

sejam

E = 1, . . . ,me , I = me + 1, . . . ,m

e denote o conjunto viavel de (1.11) por

Ω = x ∈ Rn | ci(x) = 0, se i ∈ E, e ci(x) ≤ 0, se i ∈ I .

8

Definicao 1.15. Dado x ∈ Ω, diz-se que uma restricao de desigualdade ci (i ∈ I) e ativa

em x quando ci(x) = 0. Caso ci(x) < 0, diz-se que ci e inativa em x. O conjunto dos

ındices das restricoes de desigualdade ativas e denotado por I(x), ou seja,

I(x) = i ∈ I | ci(x) = 0 .

Definicao 1.16. Dado x ∈ Ω, o cone viavel linearizado de Ω em torno de x e definido

como

D(x) =d ∈ Rn | ∇ci(x)Td = 0, se i ∈ E, e ∇ci(x)Td ≤ 0, se i ∈ I(x)

.

Definicao 1.17. Diz-se que uma direcao d ∈ Rn e tangente a Ω ⊂ Rn no ponto x ∈ Ω

quando e nula ou existe uma sequencia de pontos viaveis xk ⊂ Ω tal que xk → x e

xk − x‖xk − x‖

→ d

‖d‖.

O conjunto formado pelos vetores tangentes a Ω em x e chamado de cone tangente a Ω

no ponto x e denotado por T (x).

Definicao 1.18. Dado um conjunto S ⊂ Rn, o polar de S e definido por

P (S) =p ∈ Rn | pTx ≤ 0, ∀x ∈ S

.

Teorema 1.19. (Condicoes de Karush-Kuhn-Tucker) Sejam f : Rn → R e ci : Rn → R(i = me + 1, . . . ,m) funcoes diferenciaveis no ponto x ∈ Rn, e sejam ci : Rn → R (i =

1, . . . ,me) funcoes diferenciaveis numa vizinhanca do ponto x, com derivadas contınuas

neste ponto. Se x ∈ Ω e um minimizador local de f em Ω e

P (T (x)) = P (D(x)) , (1.12)

entao existe λ ∈ Rm tal que

∇f(x) +m∑i=1

λi∇ci(x) = 0, (1.13)

ci(x) = 0, ∀i ∈ E, (1.14)

ci(x) ≤ 0, ∀i ∈ I, (1.15)

λi ≥ 0, ∀i ∈ I, (1.16)

λici(x) = 0, ∀i ∈ I. (1.17)

Demonstracao. Ver Teorema 7.25 em Ribeiro e Karas [81] e Teorema 4.2.1 em Izmailov e

Solodov [54].

9

Definicao 1.20. Diz-se que um ponto x e um ponto estacionario (ou ponto KKT) para

o problema (1.11) quando x satisfaz as condicoes (1.13)-(1.17).

Observacao 1.3. Em se tratando de um problema com restricoes de igualdade, as condicoes

de KKT (1.13)-(1.17) se reduzem as equacoes

∇f(x) +me∑i=1

λi∇ci(x) = 0, (1.18)

ci(x) = 0, ∀i ∈ E, (1.19)

onde (1.18) tambem pode ser substituıda pela condicao

∇f(x)−me∑i=1

λi∇ci(x) = 0. (1.20)

1.5 Otimizacao multiobjetivo sem restricoes

O problema de otimizacao multiobjetivo sem restricoes pode ser formulado como

min f(x) ≡ (f1(x), . . . , fm(x))T , x ∈ Rn, (1.21)

onde fi : Rn → R para i = 1, . . . ,m. A fim de definir diferentes conceitos de solucao

para o problema (1.21), considere os conjuntos Rm+ = z ∈ Rm | zi ≥ 0, i = 1, . . . ,m,

Rm++ = z ∈ Rm | zi > 0, i = 1, . . . ,m, e defina as relacoes e w, respectivamente, por

y x⇐⇒ y − x ∈ Rm+ − 0 ,

e

y w x⇐⇒ y − x ∈ Rm++.

Definicao 1.21. (Guerraggio e Luc [50], pagina 619) Dado um ponto x ∈ Rn,

(a) x e dito ser uma solucao eficiente de (1.21) quando nao existe y ∈ Rn tal que

f(x) f(y);

(b) x e dito ser uma solucao fracamente eficiente de (1.21) quando nao existe y ∈ Rn

tal que f(x) w f(y); e

(c) x e dito ser uma solucao local eficiente (ou solucao local fracamente eficiente) de

(1.21) quando existe uma vizinhanca N(x) de x para a qual nao existe y ∈ N(x) tal

que f(x) f(y) (ou, respectivamente, f(x) w f(y)).

O teorema abaixo fornece uma condicao necessaria para um ponto x ∈ Rn ser uma

solucao local fracamente eficiente de (1.21).

10

Teorema 1.22. Seja f : Rn → Rm uma funcao continuamente diferenciavel. Se x e uma

solucao local fracamente eficiente de (1.21), entao

span(Jf (x)) ∩ (−Rm++) = ∅. (1.22)

Demonstracao. Ver Teorema 5.1 (item (ii)-(a)) em Guerraggio e Luc [50].

Definicao 1.23. (Fliege e Svaiter [39], pagina 481) Diz-se que um ponto x ∈ Rn e um

ponto Pareto crıtico para o problema (1.21) quando x satisfaz a condicao (1.22).

Observacao 1.4. Note que quando m = 1, o problema (1.21) reduz-se ao problema

(1.7), solucoes locais fracamente eficientes correspondem a minimizadores locais de f , e a

condicao de criticalidade de Pareto (1.22) implica a condicao de estacionariedade (1.8).

Capıtulo 2

Uma versao subespacial do algoritmo

Powell-Yuan para otimizacao com

restricoes de igualdade

2.1 Introducao

Considere o problema de otimizacao com restricoes de igualdade

minimize f(x), (2.1)

sujeito a c(x) = 0, (2.2)

onde f : Rn → R e c : Rn → Rm sao funcoes continuamente diferenciaveis. Por con-

veniencia, ao longo deste capıtulo, a seguinte notacao sera utilizada:

c(x) = (c1(x), ..., cm(x))T , (2.3)

A(x) = Jc(x)T = (∇c1(x), ...,∇cm(x)) , (2.4)

g(x) = ∇f(x). (2.5)

Alem disso, usar-se-a ck para c(xk), Ak para A(xk), gk para g(xk), etc.

O algoritmo de regiao de confianca Powell-Yuan [77] e um procedimento iterativo para

resolver (2.1)-(2.2), o qual gera uma sequencia de pontos xk da seguinte maneira. No

inıcio da k-esima iteracao, xk ∈ Rn, ∆k > 0 e uma matriz simetrica Bk ∈ Rn×n estao

disponıveis. Se xk nao satisfaz as condicoes de KKT (1.19)-(1.20) dentro de uma precisao

εs > 0 dada, um passo sk e calculado resolvendo-se o subproblema CDT (ver Celis, Dennis

11

12

e Tapia [17]):

mins∈Rn

φk(s) ≡ gTk s+ 12sTBks, (2.6)

s. a. ‖ck + ATk s‖2 ≤ ξk, (2.7)

‖s‖2 ≤ ∆k, (2.8)

onde ξk e um numero que satisfaz as desigualdades

min‖d‖2≤b1∆k

‖ck + ATk d‖2 ≤ ξk ≤ min‖d‖2≤b2∆k

‖ck + ATk d‖2, (2.9)

sendo b1 e b2 duas constantes com 0 < b2 ≤ b1 < 1. A funcao merito e a funcao

diferenciavel de Fletcher:

ψk(x) = f(x)− λ(x)T c(x) + µk‖c(x)‖22, (2.10)

onde µk > 0 e um parametro de penalidade e λ(x) e a solucao de norma mınima do

problema

minλ∈Rm

‖g(x)− A(x)λ‖2. (2.11)

A mudanca prevista em ψk(x), denotada por Dk, e definida por

Dk = (gk − Akλk)T sk +1

2sTkBksk − [λ(xk + sk)− λk]T (ck +

1

2ATk sk)

+µk(‖ck + ATk sk‖2

2 − ‖ck‖22

), (2.12)

onde µk e escolhido de modo que Dk < 0, enquanto sk e a projecao ortogonal de sk sobre

o espaco nulo de ATk , a saber

sk = Pksk, com Pk = In − AkA+k , (2.13)

onde A+k = (ATkAk)

−1ATk , e assume-se que Ak possui posto coluna completo. A partir da

razao

ρk =ψk(xk + sk)− ψk(xk)

Dk

, (2.14)

a proxima iterada xk+1 e definida pela formula

xk+1 =

xk + sk, se ρk > 0

xk, caso contrario.(2.15)

13

Alem disso, o raio ∆k+1 da regiao de confianca para a proxima iteracao e dado pela regra

∆k+1 =

max ∆k, 4‖sk‖2 , se ρk > 0.9,

∆k, se 0.1 ≤ ρk ≤ 0.9,

min

∆k

4,‖sk‖2

2

, se ρk < 0.1.

(2.16)

Por fim, uma matriz simetrica Bk+1 e obtida e o processo e repetido com k := k + 1.

Pode-se resumir o algoritmo de regiao de confianca acima da seguinte maneira:

Algoritmo 2.1. Algoritmo de Regiao de Confianca Powell-Yuan [77]

Passo 0 Dados x1 ∈ Rn, ∆1 > 0, B1 ∈ Rn×n simetrica, εs > 0, µ1 > 0 e 0 < b2 ≤ b1 < 1,

defina k := 1.

Passo 1 Calcule λk = A+k gk. Se ‖ck‖2 + ‖gk −Akλk‖2 ≤ εs, entao pare. Caso contrario,

calcule ξk satisfazendo (2.9) e resolva o subproblema CDT (2.6)-(2.8) para

obter um passo sk.

Passo 2 Calcule Dk por (2.12). Se a desigualdade

Dk ≤1

2µk(‖ck + ATk sk‖2

2 − ‖ck‖22

)(2.17)

falhar, defina D := Dk, µ := µk e calcule

µk = 2µ+ max

0,

2D

‖ck‖22 − ‖ck + ATk sk‖2

2

(2.18)

permitindo que o novo valor Dk da expressao (2.12) satisfaca a desigualdade

(2.17).

Passo 3 Calcule ρk por (2.14).

Obtenha xk+1 por (2.15).

Defina ∆k+1 por (2.16).

Passo 4 Gere Bk+1 simetrica, defina µk+1 := µk, k := k + 1 e volte para o Passo 1.

A parte principal do Algoritmo 2.1 e a solucao do subproblema CDT (2.6)-(2.8).

Este subproblema apareceu pela primeira vez no algoritmo de regiao de confianca para

otimizacao com restricoes de igualdade apresentado por Celis, Dennis e Tapia [17], e desde

entao tem sido objeto de intensa pesquisa. Como exemplo, pode-se citar os trabalhos de

Yuan [97], Peng e Yuan [72], Chen e Yuan [19], Ai e Zhang [1], Yang e Burer [94] e Bomze

e Overton [7].

Para resolver o subproblema CDT, alguns metodos iterativos foram propostos. Por

exemplo, para o caso em que Bk e definida positiva, dois algoritmos diferentes foram

14

propostos por Yuan [98] e Zhang [100], respectivamente, enquanto que para o caso de

uma matriz simetrica geral Bk, um algoritmo foi proposto por Li e Yuan [58]. Entretanto,

como esses algoritmos exigem repetidas fatoracoes matriciais a cada iteracao, a solucao do

subproblema CDT pode se tornar excessivamente cara do ponto de vista computacional,

principalmente para problemas com um grande numero de variaveis e restricoes.

Uma alternativa, apresentada por El-Alem e Tapia [34], consiste em substituir a norma

‖ . ‖2 na restricao (2.8) pela norma ‖ . ‖∞, e tambem substituir a norma euclidiana ‖ . ‖2 na

restricao (2.7) por uma combinacao convexa das normas ‖ . ‖1 e ‖ . ‖∞. Esta abordagem

reduz o subproblema CDT a um problema de programacao quadratica, o qual pode entao

ser resolvido por metodos usuais. Outra estrategia, proposta por Williamson [92], consiste

em restringir o subproblema CDT a um certo subespaco bi-dimensional, isto e, obter sk

como solucao do subproblema

mins∈Rn

φk(s) ≡ gTk s+ 12sTBks,

s. a. ‖ck + ATk s‖2 ≤ ξk,

‖s‖2 ≤ ∆k,

s ∈ span (v1, v2) .

No contexto da tecnica de subespaco acima, o presente trabalho dedica-se ao estudo de

propriedades subespaciais do subproblema CDT quando as matrizes Bk sao atualizadas

por formulas quase-Newton. Com uma analise totalmente analoga aquela apresentada

por Wang e Yuan [91] para o subproblema de regiao de confianca padrao, conclui-se que

o passo sk obtido a partir do subproblema CDT (2.6)-(2.8) pertence ao subespaco

Gk = span(∪ki=1 ∇c1(xi), . . . ,∇cm(xi), gi

). (2.19)

Portanto, e equivalente resolver o subproblema dentro deste subespaco. Com base nesta

propriedade, pode-se resolver um subproblema CDT de menor escala nas primeiras iteracoes

do algoritmo, reduzindo assim o custo computacional para problemas onde a dimensao

do subespaco Gk permanece muito menor que o numero de variaveis n.

Este capıtulo esta organizado da seguinte maneira. A equivalencia entre o subproblema

CDT e o problema correspondente no subespaco Gk e provada na proxima secao. Na

Secao 2.3, uma versao subespacial do algoritmo Powell-Yuan e proposta. A analise de

convergencia e dada na Secao 2.4. Finalmente, resultados numericos preliminares com

problemas da colecao CUTEr [45] sao reportados na Secao 2.5.

15

2.2 Propriedades subespaciais

Nesta secao, apresenta-se um estudo das propriedades subespaciais do passo sk na k-esima

iteracao, o qual assume-se ser uma solucao do subproblema CDT (2.6)-(2.8). Todos os

resultados aqui sao desenvolvidos em correspondencia com aqueles apresentados na Secao

2 de Wang e Yuan [91].

Lema 2.1. Seja sk ∈ Rn uma solucao de (2.6)-(2.8), e suponha que

ξk > min‖d‖2≤∆k

‖ck + ATk d‖2.

Entao, existem constantes nao-negativas αk e βk tais que

(Bk + αkIn + βkAkA

Tk

)sk = − (gk + βkAkck) , (2.20)

onde αk e βk satisfazem as condicoes de complementariedade

αk [∆k − ‖sk‖2] = 0, (2.21)

βk[ξk − ‖ATk sk + ck‖2

]= 0. (2.22)

Demonstracao. Ver Teorema 2.1 em Yuan [97].

Lema 2.2. Seja Sk um subespaco r-dimensional (1 ≤ r ≤ n) de Rn, e Zk ∈ Rn×r uma

matriz cujas colunas formam uma base ortonormal de Sk, isto e,

Sk = span (Zk) , e ZTk Zk = Ir. (2.23)

Suponha que

∇c1(xk), ...,∇cm(xk), gk ⊂ Sk, (2.24)

e que Bk ∈ Rn×n e uma matriz simetrica satisfazendo

Bku = σu, ∀u ∈ S⊥k , (2.25)

onde σ > 0. Entao, o subproblema (2.6)-(2.8) e equivalente ao seguinte problema:

mins∈Rr

φk(s) ≡ gTk s+ 12sT Bks, (2.26)

s. a. ‖ck + ATk s‖2 ≤ ξk, (2.27)

‖s‖2 ≤ ∆k, (2.28)

onde gk = ZTk gk, Bk = ZT

k BkZk e Ak = ZTk Ak. Ou seja, se sk e uma solucao de (2.6)-

(2.8), entao sk = Zksk ∈ Sk, onde sk e uma solucao de (2.26)-(2.28). Por outro lado, se

sk e uma solucao de (2.26)-(2.28), entao sk = Zksk e uma solucao de (2.6)-(2.8).

16

Demonstracao. Seja Uk ∈ Rn×(n−r) uma matriz tal que [Zk Uk] ∈ Rn×n e uma matriz

ortogonal. Entao, para cada s ∈ Rn, existe um unico par de vetores (s, u) ∈ Rr × Rn−r

tal que s = Zks+ Uku. Sendo Bk simetrica,

φk(s) = gTk s+1

2sTBks

= gTk [Zks+ Uku] +1

2[Zks+ Uku]T Bk [Zks+ Uku]

= gTk Zks+ gTk Uku+1

2sTZT

k BkZks+1

2sTZT

k BkUku

+1

2uTUT

k BkZks+1

2uTUT

k BkUku

= gTk Zks+ gTk Uku+1

2sTZT

k BkZks+ sTZTk BkUku

+1

2uTUT

k BkUku

= gTk s+ gTk Uku+1

2sT Bks+ sTZT

k BkUku

+1

2uTUT

k BkUku, (2.29)

onde gk = ZTk gk e Bk = ZT

k BkZk. Por outro lado, como gk ∈ Sk e as colunas de Uk sao

vetores em S⊥k , obtem-se

gTk Uk = 0, (2.30)

ZTk BkUk = σZT

k Uk = 0 e UTk BkUk = σIn−r, (2.31)

onde a ultima linha deve-se a hipotese (2.25). Assim, (2.29)-(2.31) implicam que

φk(s) = φk(s, u) =

(gTk s+

1

2sT Bks

)+

1

2σuTu. (2.32)

Pelo fato de que as linhas de ATk sao os vetores ∇ci(xk) ∈ Sk e as colunas de Uk pertencem

a S⊥k , segue-se que ATkUk = 0. Consequentemente,

‖ck + ATk s‖2 = ‖ck + ATkZks‖2 = ‖ck + ATk s‖2, (2.33)

onde Ak = ZTk Ak. Alem disso, como ZT

k Uk = 0,

‖s‖22 = ‖s‖2

2 + ‖u‖22. (2.34)

17

Logo, (2.32)-(2.34) implicam que o subproblema (2.6)-(2.8) e equivalente a

min(s,u)∈Rr×Rn−r

(gTk s+

1

2sT Bks

)+ 1

2σuTu, (2.35)

s. a. ‖ck + ATk s‖2 ≤ ξk, (2.36)

‖s‖22 + ‖u‖2

2 ≤ ∆2k, (2.37)

com a relacao s = Zks+ Uku.

Como σ > 0, se sk e uma solucao de (2.26)-(2.28) entao (sk, 0) ∈ Rr × Rn−r e uma

solucao de (2.35)-(2.37) e, portanto, sk = Zksk e uma solucao de (2.6)-(2.8). Para provar a

recıproca, suponha por contradicao que existe uma solucao sk = Zksk+Ukuk de (2.6)-(2.8)

tal que uk 6= 0. Neste caso,

φk(sk) ≤ φk(s),

para todo s ∈ Rn satisfazendo (2.7)-(2.8). Em particular,

φk(sk) ≤ φk(s∗k), (2.38)

onde s∗k = Zksk. Entretanto, como uk 6= 0 e σ > 0, de (2.32) segue-se que

φk(sk) > gTk sk +1

2sTk Bksk = φk(s

∗k),

contradizendo (2.38). Isto mostra que se sk e uma solucao de (2.6)-(2.8) entao sk = Zksk.

O fato de que sk e uma solucao de (2.26)-(2.28) segue da equivalencia entre (2.6)-(2.8) e

(2.35)-(2.37) com u = 0.

Observacao 2.1. Pelo Lema 2.2, se as hipoteses (2.23)-(2.25) sao satisfeitas, entao

pode-se resolver o subproblema (2.26)-(2.28) em Rr em vez de se resolver o subproblema

(2.6)-(2.8) em Rn, possibilitando assim uma reducao significativa do custo computacional

quando r << n.

Observacao 2.2. Para a analise futura, e interessante notar que

Bku = σu, ∀u ∈ S⊥k =⇒ Bkz ∈ Sk, ∀z ∈ Sk.

De fato, dados z ∈ Sk e u ∈ S⊥k , como Bk e uma matriz simetrica, segue-se que

〈Bkz, u〉2 =⟨z,BT

k u⟩

2= 〈z,Bku〉2

= 〈z, σu〉2 = σ 〈z, u〉2 = 0.

Assim, Bkz ∈(S⊥k)⊥

= Sk para todo z ∈ Sk.

Lema 2.3. Suponha que ξ1 > min‖d‖2≤∆1 ‖c1 +AT1 d‖2, B1 = σIn (σ > 0) e Bk e a k-esima

matriz dada por uma formula quase-Newton escolhida entre a formula PSB e a famılia de

18

Broyden. Sejam gk = ∇f(xk), sk uma solucao de (2.6)-(2.8) e Gk o subespaco dado em

(2.19). Entao, para todo k, tem-se sk ∈ Gk e Bku = σu para todo u ∈ G⊥k .

Demonstracao. A formula PSB e as formulas da famılia de Broyden (ver, por exemplo,

Sun e Yuan [87]) podem ser representadas respectivamente por

B(PSB)k+1 = B

(PSB)k +

δksTk + skδ

Tk

sTk sk− (δTk sk)sks

Tk

(sTk sk)2, (2.39)

B(B)k+1 = B

(B)k − B

(B)k sks

TkB

(B)k

sTkBksk+yky

Tk

sTk yk+ θk(s

TkB

(B)k sk)wkw

Tk , (2.40)

onde sk = xk+1 − xk, yk = (gk+1 − gk) − (Ak+1λk+1 − Akλk) ou yk = (gk+1 − gk) −(Ak+1 − Ak)λk, δk = yk −B(PSB)

k sk e

wk =yksTk yk

− B(B)k sk

sTkB(B)k sk

.

Prova-se o resultado enunciado por inducao sobre k. Pelo Lema 2.1 e σ > 0,(B1 + α1In + β1A1A

T1

)s1 = − (g1 + β1A1c1)

=⇒(σIn + α1In + β1A1A

T1

)s1 = − (g1 + β1A1c1)

=⇒ (σ + α1) s1 = −(g1 + β1A1c1 + β1A1A

T1 s1

)=⇒ s1 = − (σ + α1)−1 (g1 + β1A1c1 + β1A1A

T1 s1

)=⇒ s1 ∈ G1,

onde a ultima linha justifica-se pelo fato de que g1, A1c1 e A1AT1 s1 ∈ G1. Alem disso,

B(PSB)1 u = B

(B)1 u = (σIn)u = σu, ∀u ∈ G⊥1 .

Assim, o lema e verdadeiro para k = 1. Assuma que o lema vale para k = i, isto e

si ∈ Gi, (2.41)

e

B(PSB)i u = B

(B)i u = σu, ∀u ∈ G⊥i . (2.42)

Considere u ∈ G⊥i+1. Em particular, segue-se que u ∈ G⊥i (pois Gi ⊂ Gi+1 =⇒ G⊥i+1 ⊂G⊥i ). Entao, como yi ∈ Gi+1 e as matrizes B

(PSB)i e B

(B)i sao simetricas, de (2.41) e (2.42)

19

obtem-se

B(PSB)i+1 u = B

(PSB)i u+

(δis

Ti + siδ

Ti

)u

sTi si− (δTi si)sis

Ti u

(sTi si)2

= σu+δis

Ti u+ si

(yTi u− sTi B

(PSB)i u

)sTi si

= σu− σsisTi u

sTi si= σu,

e

B(B)i+1u = B

(B)i u− B

(B)i sis

Ti B

(B)i u

sTi Bisi+yiy

Ti u

sTi yi+ θi(s

Ti B

(B)i si)wiw

Ti u

= σu− σB(B)i sis

Ti u

sTi B(B)i si

+ θi(sTi B

(B)i si)wi

(yTisTi yi

− sTi B(B)i

sTi B(B)i si

)u

= σu+ θi(sTi B

(B)i si)wi

(yTi u

sTi yi− sTi B

(B)i u

sTi B(B)i si

)= σu− σθi(sTi B

(B)i si)wi

sTi u

sTi B(B)i si

= σu.

Sendo u ∈ G⊥i+1 arbitrario, isto prova que

B(PSB)i+1 u = B

(B)i+1u = σu, ∀u ∈ G⊥i+1. (2.43)

Agora, seja si+1 uma solucao do subproblema (2.6)-(2.8) para k = i+1. Entao, a inclusao

∇c1(xi+1), ...,∇cm(xi+1), gi+1 ⊂ Gi+1,

a equacao (2.43) e o Lema 2.2 (onde k = i+1) implicam que si+1 = Zi+1si+1 ∈ Gi+1 (onde

si+1 e uma solucao do subproblema (2.26)-(2.28) para k = i + 1, e Zi+1 e uma matriz

cujas colunas formam uma base ortonormal de Gi+1). Isto conclui a demonstracao.

Observacao 2.3. O resultado do Lema 2.3 tambem e verdadeiro quando as matrizes Bk

sao atualizadas pela famılia de formulas

Bk+1 = Bk −Bksks

TkBk

sTkBksk+ηkη

Tk

sTk ηk, (2.44)

onde ηk = θkyk + (1 − θk)Bksk com θk ∈ [0, 1], a qual inclui a formula BFGS relaxada

de Powell [74]. De fato, se B1 = σIn (σ > 0) e ξ1 > min‖d‖2≤∆1 ‖c1 + AT1 d‖2, entao pelo

mesmo argumento usado na prova do Lema 2.3 conclui-se que s1 ∈ G1 e B1u = σu para

todo u ∈ G⊥1 . Assim, o resultado vale para k = 1. Assuma que ele e verdadeiro para

k = i, isto e

si ∈ Gi, (2.45)

20

e

Biu = σu, ∀u ∈ G⊥i . (2.46)

Entao, pela Observacao 2.2 segue-se que Bisi ∈ Gi ⊂ Gi+1. Como yi ∈ Gi+1, tem-se

tambem que ηi = θiyi + (1 − θi)Bisi ∈ Gi+1. Logo, dado u ∈ G⊥i+1 ⊂ G⊥i , as relacoes

(2.45) e (2.46) implicam a igualdade

Bi+1u = Biu−Bisis

Ti Biu

sTi Bisi+ηiη

Ti u

sTi ηi

= σu− σBisisTi u

sTi Bisi= σu.

Como u ∈ G⊥i+1 e arbitrario, isto prova que Bi+1u = σu, ∀u ∈ G⊥i+1. Portanto, a

conclusao segue por inducao da mesma forma como na prova do Lema 2.3.

Combinando o Lema 2.2, o Lema 2.3 e a Observacao 2.3, obtem-se o seguinte teorema.

Teorema 2.4. Seja Zk uma matriz cujas colunas formam uma base ortonormal do su-

bespaco Gk dado em (2.19). Suponha ξ1 > min‖d‖2≤∆1 ‖c1 + AT1 d‖2, B1 = σIn (σ > 0) e

que Bk e a k-esima matriz atualizada por uma formula quase-Newton escolhida entre a

formula BFGS relaxada, a formula PSB e a famılia de Broyden. Seja sk uma solucao do

subproblema (2.6)-(2.8). Entao, existe uma solucao sk de (2.26)-(2.28) tal que sk = Zksk

e, portanto, sk ∈ Gk. Reciprocamente, se sk e uma solucao de (2.26)-(2.28), entao

sk = Zksk e uma solucao de (2.6)-(2.8).

Pelo teorema acima, o passo sk esta sempre no subespaco Gk. Assim, e possıvel

atualizar Bk no subespaco Gk pela formula BFGS relaxada, pela formula PSB ou qualquer

formula pertencente a famılia de Broyden. O seguinte resultado foi dado por Siegel [83] e

Gill e Leonard [41] para a famılia de Broyden, e por Wang e Yuan [91] incluindo a formula

PSB.

Lema 2.5. Seja Z ∈ Rn×r uma matriz cujas colunas sao ortogonais. Suponha que

sk ∈ span (Z), e que a matriz Bk+1 = Atualize (Bk, sk, yk) e obtida pela formula BFGS

relaxada, pela formula PSB ou por qualquer formula da famılia de Broyden. Entao,

denotando Bk+1 = ZTBk+1Z, Bk = ZTBkZ, sk = ZT sk e yk = ZTyk, tem-se que

Bk+1 = Atualize(Bk, sk, yk

).

Demonstracao. Primeiro, note que sk ∈ span (Z) =⇒ sk = ZZT sk. Entao,

sTk yk = (ZZT sk)Tyk =

(ZT sk

)TZTyk = sTk yk

sTkBksk = (ZZT sk)TBk(ZZ

T sk) =(ZT sk

)TZTBkZ

(ZT sk

)= sTk Bksk

ZTBksk = ZTBkZ(ZT sk

)= Bksk.

21

Assim, multiplicando-se (2.39), (2.40) e (2.44) por ZT pela esquerda e por Z pela direita,

obtem-se o resultado enunciado.

Observacao 2.4. Pelo Teorema 2.4, pode-se resolver o subproblema CDT (2.6)-(2.8)

resolvendo-se (2.26)-(2.28) no subespaco Gk, desde que ξ1 e B1 sejam apropriadamente

escolhidos e uma formula quase-Newton conveniente seja usada para atualizar Bk. Alem

disso, segue-se do Lema 2.5 que a versao reduzida Bk = ZTk BkZk de Bk no subespaco Gk

pode ser obtida atualizando-se a matriz Bk−1 = ZTk Bk−1Zk, onde Zk e uma matriz cujas

colunas formam uma base ortonormal do subespaco Gk. Essas propriedades subespaciais

podem ser exploradas para reduzir a quantidade de calculos necessarios para a obtencao

do passo sk quando n >> m e a dimensao do subespaco Gk permanece muito menor que

n.

2.3 Algoritmo

Esta secao dedica-se ao desenvolvimento de uma versao subespacial do Algoritmo 2.1,

tendo como base as propriedades subespaciais do subproblema CDT estudadas na secao

anterior. Suponha que na k-esima iteracao, uma matriz Zk ∈ Rn×rk esteja disponıvel, e

que as colunas dessa matriz formem uma base ortonormal de Gk. Alem disso, suponha

que sk e obtido resolvendo-se (2.26)-(2.28) e que sk = Zksk, xk+1 = xk + sk e gk+1 =

∇f(xk+1). Entao, para a proxima iteracao, e necessario calcular Zk+1, gk+1 = ZTk+1gk+1,

Ak+1 = ZTk+1Ak+1 e Bk+1 = ZT

k+1Bk+1Zk+1.

Levando-se em conta aspectos referentes a estabilidade numerica, assim como em Wang

e Yuan [91], pode-se usar o procedimento de Gram-Schmidt com reortogonalizacao (ver

Secao 2 em Daniel et al. [27]) para obter Zk+1. Para isto, considere a notacao:

p(k+1)j =

∇cj(xk+1), se j = 1, ...,m,

gk+1, se j = m+ 1.(2.47)

Sejam W1 = Zk e q1 = rk, onde rk denota o numero de colunas da matriz Zk. Para

j = 1, . . . ,m + 1, usando o referido procedimento de reortogonalizacao, calcula-se a de-

composicao

p(k+1)j = Wju

(k)j + τ

(k+1)j z

(k+1)j , (2.48)

onde

u(k)j = W T

j p(k+1)j , z

(k+1)j ⊥ span Wj , ‖z(k+1)

j ‖2 = 1, (2.49)

e

τ(k+1)j = ‖

(I −WjW

Tj

)p

(k+1)j ‖2 ≥ 0. (2.50)

Se τ(k+1)j > 0, segue-se que p

(k+1)j /∈ span Wj, e definem-se Wj+1 =

[Wj z

(k+1)j

]e

qj+1 = qj + 1. Caso contrario, segue-se que p(k+1)j ∈ span Wj, e definem-se Wj+1 = Wj

22

e qj+1 = qj. Ao final do ciclo, sao obtidos Zk+1 = Wm+2 e rk+1 = qm+2.

Agora, usando a informacao obtida no calculo de Zk+1, pode-se obter gk+1, Ak+1 e

Bk+1 de uma maneira direta. De fato, combinando (2.48), (2.49) e o fato de que sk,

gk ∈ span Wj, seguem as igualdades(z

(k+1)j

)Tp

(k+1)j = τ

(k+1)j ,

(z

(k+1)j

)Tsk = 0,

(z

(k+1)j

)Tgk = 0. (2.51)

Se Zk+1 6= Zk, isto e, Zk+1 =[Zk Zk+1

], entao o Lema 2.3 e a Observacao 2.2 implicam

que BkZk+1 = σZk+1 e as colunas de BkZk pertencem a Gk. Assim, denotando q =

rk+1 − rk, obtem-se

sk = ZTk+1sk =

[ZTk sk

ZTk+1sk

]=

[sk

0

](2.52)

Bk = ZTk+1BkZk+1 =

[ZTk

ZTk+1

]Bk

[Zk Zk+1

]=

[ZTk

ZTk+1

] [BkZk BkZk+1

]=

[ZTk

ZTk+1

] [BkZk σZk+1

]=

[ZTk BkZk σZT

k Zk+1

ZTk+1BkZk σZT

k+1Zk+1

]=

[Bk 0

0 σIq

]. (2.53)

Para calcular gk+1, a partir de (2.49) e (2.47), note que

W Tm+1p

(k+1)m+1 = u

(k)m+1 =⇒ W T

m+1gk+1 = u(k)m+1

=⇒[Zk Zk+1

]Tgk+1 = u

(k)m+1

=⇒ ZTk gk+1 =

[(u

(k)m+1

)1. . .(u

(k)m+1

)rk

]T, (2.54)

onde as colunas de Zk+1 sao vetores distintos do conjuntoz

(k+1)1 , . . . , z

(k+1)m+1

. Alem

disso,

ZTk+1Wm+1 = ZT

k+1

[Zk Zk+1

]=[0 ZT

k+1Zk+1

]

=

[0 Iq−1

0 . . . 0 0 . . . 0

], se τ

(k+1)m+1 > 0,

[0 Iq

], caso contrario.

(2.55)

23

Entao, multiplicando (2.48) pela esquerda por ZTk+1 (com j = m+ 1), tem-se que

ZTk+1gk+1 = ZT

k+1Wm+1u(k)m+1 + τ

(k+1)m+1 Z

Tk+1z

(k+1)m+1

=

[(u

(k)m+1

)rk+1

. . .(u

(k)m+1

)rk+1−1

τ(k+1)m+1

]T, se τ

(k+1)m+1 > 0,[(

u(k)m+1

)rk+1

. . .(u

(k)m+1

)rk+1

]T, caso contrario.

(2.56)

Assim, (2.54) e (2.56) implicam que

gk+1 = ZTk+1gk+1 =

[ZTk gk+1

ZTk+1gk+1

]

=

[(u

(k)m+1

)1. . .(u

(k)m+1

)rk+1−1

τ(k+1)m+1

]T, se τ

(k+1)m+1 > 0,[(

u(k)m+1

)1. . .(u

(k)m+1

)rk+1

]T, caso contrario.

(2.57)

Por (2.47),

Ak+1 = ZTk+1Ak+1 =

[ZTk Ak+1

ZTk+1Ak+1

]

=

[ZTk p

(k+1)1 . . . ZT

k p(k+1)m

][ZTk+1p

(k+1)1 . . . ZT

k+1p(k+1)m

] . (2.58)

Logo, com as notacoes

Uk+1 =[ZTk p

(k+1)1 . . . ZT

k p(k+1)m

](2.59)

e

Uk+1 =[ZTk+1p

(k+1)1 . . . ZT

k+1p(k+1)m

], (2.60)

segue-se que

Ak+1 =

[Uk+1

Uk+1

]. (2.61)

Novamente, por (2.49), para cada j = 1, . . . ,m,

W Tj p

(k+1)j = u

(k)j =⇒

[Zk Zj

k+1

]Tp

(k+1)j = u

(k)j

=⇒ ZTk p

(k+1)j =

[(u

(k)j

)1. . .(u

(k)j

)rk

]T, (2.62)

onde as colunas de Zjk+1 sao vetores distintos do conjunto

z

(k+1)1 , . . . , z

(k+1)j

. Alem

24

disso, multiplicando a equacao (2.48) pela esquerda por ZTk+1, obtem-se

ZTk+1p

(k+1)j =

[(u

(k)j

)rk+1

. . .(u

(k)j

)qjτ

(k+1)j 0 . . . 0

]T, se τ

(k+1)j > 0,[(

u(k)j

)rk+1

. . .(u

(k)j

)qj

0 . . . 0

]T, caso contrario,

(2.63)

para cada j = 1, . . . ,m, o que completa o calculo de Ak+1.

Finalmente, se yk = (gk+1 − gk)− (Ak+1λk+1 − Akλk) entao1

yk = ZTk+1yk =

[ZTk yk

ZTk+1yk

]

=

[ZTk [gk+1 − gk − Ak+1λk+1 + Akλk]

ZTk+1 [gk+1 − gk − Ak+1λk+1 + Akλk]

]

=

[ZTk gk+1 − gk − Uk+1λk+1 + Akλk

ZTk+1gk+1 − Uk+1λk+1

], (2.64)

Para o caso em que Zk+1 = Zk, segue-se que

sk = ZTk sk = sk, (2.65)

Bk = ZTk BkZk = Bk, (2.66)

gk+1 = ZTk gk+1 =

[(u

(k)m+1

)1. . .(u

(k)m+1

)rk

]T, (2.67)

Ak+1 = ZTk Ak+1 = Uk+1, (2.68)

yk = ZTk yk = gk+1 − gk − Uk+1λk+1 + Akλk. (2.69)

De acordo com o Lema 2.5, a matriz reduzida

Bk+1 = ZTk+1Bk+1Zk+1

no subspaco span (Zk+1) pode ser obtida por qualquer formula quase-Newton escolhida

entre a BFGS relaxada, a PSB e a famılia de Broyden, usando-se sk, Bk e yk calculados

por (2.52), (2.53) e (2.64), ou por (2.65), (2.66) e (2.69). Entao, pelo Teorema 2.4, pode-se

resolver o subproblema (2.26)-(2.28) (com as matrizes reduzidas Bk+1 e Ak+1 e o gradiente

reduzido gk+1) para obter sk+1 e o passo sk+1 = Zk+1sk+1.

As observacoes acima sao resumidas no seguinte algoritmo.

1Similarmente, se yk = (gk+1 − gk)− (Ak+1 −Ak)λk entao

yk =

[ZTk gk+1 − gk − Uk+1λk + Akλk

ZTk+1gk+1 − Uk+1λk

].

25

Algoritmo 2.2. Versao Subespacial do Algoritmo Powell-Yuan

Passo 0 Dados x1 ∈ Rn, ∆1 > 0, εs > 0, γ ∈ [0, 1), µ1 > 0, e 0 < b2 ≤ b1 < 1, escolha

uma formula quase-Newton entre a formula BFGS relaxada, a formula PSB e

a famılia de Broyden. Calcule ∇c1(x1), . . . ,∇cm(x1) e g1 = ∇f(x1). Aplique

o procedimento de Gram-Schmidt com reortogonalizacao ao conjunto

∇c1(x1), . . . ,∇cm(x1), g1

a fim de obter uma matriz com colunas ortonormais Z1 ∈ Rn×r1 tal que

span (Z1) = span (∇c1(x1), . . . ,∇cm(x1), g1) . (2.70)

Defina B1 = σIr1 , g1 = ZT1 g1, A1 = ZT

1 A1 e k := 1.

Passo 1 Calcule λk = A+k gk. Se ‖ck‖2 + ‖gk − Akλk‖2 ≤ εs, entao pare. Caso contrario,

calcule ξk satisfazendo (2.9), com Ak em lugar de Ak, e resolva o subproblema

CDT (2.26)-(2.28) para obter sk.

Passo 2 Calcule sk = Zksk e Dk por (2.12). Se a desigualdade

Dk ≤1

2µk(‖ck + ATk sk‖2

2 − ‖ck‖22

)(2.71)

falhar, defina D := Dk, µ := µk e calcule

µk = 2µ+ max

0,

2D

‖ck‖22 − ‖ck + ATk sk‖2

2

(2.72)

permitindo que o novo valor Dk da expressao (2.12) satisfaca a desigualdade

(2.71).

Passo 3 Calcule ρk por (2.14).

Defina xk+1 por (2.15).

Escolha ∆k+1 por (2.16).

Passo 4 Se rk = n, defina Ak+1 = Ak+1, gk+1 = gk+1, sk = sk, Bk = Bk, yk =

(gk+1 − gk)− (Ak+1λk+1 − Akλk), Zk+1 = In, rk+1 = n e va para o Passo 6.

Passo 5 Defina W1 = Zk, q1 = rk, e considere a notacao (2.47).

Para j = 1 : m+ 1

(a) Obtenha a equacao (2.48) pelo procedimento de ortogonalizacao;

(b) Se τ(k+1)j > γ‖p(k+1)

j ‖2, defina Wj+1 =[Wj z

(k+1)j

]e qj+1 = qj + 1.

Caso contrario, defina Wj+1 = Wj e qj+1 = qj.

Fim(Para)

Defina Zk+1 = Wm+2 e rk+1 = qm+2;

26

Se Zk+1 6= Zk calcule sk, Bk, gk+1, Ak+1, yk de acordo com (2.52), (2.53), (2.57),

(2.61) e (2.64), respectivamente. Caso contrario, calcule sk, Bk, gk+1, Ak+1, yk

por (2.65)-(2.69), respectivamente.

Passo 6 Obtenha Bk+1 = Atualize(Bk, sk, yk

)pela formula quase-Newton escolhida.

Defina µk+1 := µk, k := k + 1 e volte para o Passo 1.

Observacao 2.5. Pelo Passo 4, quando a dimensao rk do subespaco span (Zk) atinge

n, o Algoritmo 2.2 reduz-se ao Algoritmo 2.1. A funcao deste passo e evitar o esforco

computacional exigido pelo Passo 5 quando este nao e mais necessario.

Observacao 2.6. As propriedades subespaciais do subproblema CDT descritas na Secao

2.2 podem ser usadas da mesma maneira no desenvolvimento de versoes subespaciais de

qualquer algoritmo baseado no subproblema CDT, como por exemplo o algoritmo de regiao

de confianca CDT proposto por Celis, Dennis e Tapia [17].

A fim de comparar os Algoritmos 2.1 e 2.2 com respeito ao numero de operacoes em

ponto flutuante (flops) por iteracao, lembre-se que n denota o numero de variaveis, m

denota o numero de restricoes e rk denota o numero de colunas da matriz Zk. Primeiro,

considere o Algoritmo 2.2. O calculo de λk no Passo 1 pelo Algoritmo 5.3.2 em Golub

e Van Loan [42] exige O(m2rk) flops. Conforme sera descrito na Secao 2.5, o numero ξk

pode ser obtido como uma solucao de um problema LSQI (do ingles “Least Squares with

Quadratic Inequality Constraint”). Neste caso, o calculo de ξk no Passo 1 pelo Algoritmo

12.1.1 em Golub e Van Loan [42] exige aproximadamente O(mr2k)+O(rk) flops (ver Bjorck

[6], pagina 208). Ainda no Passo 1, a solucao do subproblema CDT (2.26)-(2.28) pelo

algoritmo dual de Yuan [98] exige cerca de O(r3k) + O(r2

k) + O(rk) flops2. O calculo de

sk = Zksk no Passo 2 exige O(nrk) flops. O procedimento de reortogonalizacao no Passo 5

exige cerca de O((m+1)nrk)+O(mn)+O(n) flops. Finalmente, o calculo da atualizacao

Bk+1 de Bk no Passo 6 exige cerca de O(r2k) + O(rk) flops. Portanto, o Algoritmo 2.2

exige aproximadamente

O(r3k) +O(mr2

k) +O(r2k) +O(m2rk) +O(rk) +O(nrk) +O((m+ 1)nrk) +O(mn) +O(n)

flops a cada iteracao (depois da primeira). Por sua vez, o Algoritmo 2.1 exige aproxima-

damente

O(n3) +O(mn2) +O(n2) +O(m2n) +O(n)

flops a cada iteracao, com a mesma formula de atualizacao para Bk. Assim, quando n e

grande, m e pequeno e rk << n, o custo computacional associado ao Algoritmo 2.2 pode

ser significativamente mais baixo que o custo associado ao Algoritmo 2.1.

2Esta estimativa e obtida assumindo-se um numero maximo de iteracoes para este algoritmo e queos numeros I(k) em seu Passo 7 formam uma sequencia limitada superiormente (ver Algoritmo 3.1 emYuan [98]).

27

2.4 Analise da convergencia global

Supondo-se que Gk = span (Zk) e que ξ1 > min‖s‖2≤∆1 ‖c1 + AT1 s‖2 entao, pelo Teorema

2.4 e o Lema 2.5, o Algoritmo 2.2 reduz-se ao Algoritmo 2.1. Conforme pontuado na

Observacao 2.5, o mesmo e verdade a partir do momento em que rk atinge n. Em ambos

os casos a convergencia global do Algoritmo 2.2 segue do fato de que o Algoritmo 2.1

e globalmente convergente (ver Teorema 3.9 em Powell e Yuan [77]). Nesta secao, a

convergencia do Algoritmo 2.2 e estabelecida em circunstancias mais gerais, permitindo

uma maior liberdade para a escolha da matriz Zk no Passo 5. Especificamente, sao

consideradas as seguintes condicoes:

A1 As funcoes f : Rn → R e ci : Rn → R (i = 1, ...,m) sao continuamente diferenciaveis;

A2 Existe um conjunto compacto e convexo Ω ∈ Rn tal que xk e xk + sk pertencem a

Ω para todo k;

A3 Ak possui posto coluna completo para todo k;

A4 Para cada k, ZTk Zk = Irk , ∇c1(xk), . . . ,∇cm(xk), gk ⊂ span (Zk) eBkz ∈ span (Zk)

para todo z ∈ span (Zk).

A5 A sequencia‖Bk‖2

e limitada.

E util considerar a seguinte observacao, a qual sera extensivamente usada nas demons-

tracoes a seguir.

Observacao 2.7. Como ZTk Zk = Irk , segue-se que

v ∈ span (Zk) =⇒ v = ZkZTk v. (2.73)

Lema 2.6. Suponha que A1-A4 sao satisfeitas. Entao, a sequencia‖A+

k ‖2

e limitada.

Demonstracao. Por A1 e A2, existe κ1 > 0 tal que

‖Ak‖2 ≤ κ1, para todo k.

Por outro lado, dado x ∈ Rm, A4 implica que Akx ∈ span (Zk) e, pela Observacao 2.7

segue-se que

‖Akx‖22 = ‖ZT

k Akx‖22

=(ZTk Akx

)T (ZTk Akx

)= (Akx)T ZkZ

Tk Akx

= (Akx)T Akx

= ‖Akx‖22.

28

Assim,

‖Ak‖2 = max‖x‖2=1

‖Akx‖2 = max‖x‖2=1

‖Akx‖2 = ‖Ak‖2 ≤ κ1 para todo k, (2.74)

e, consequentemente, existe κ2 > 0 tal que

‖ATk Ak‖2 ≤ κ2 para todo k. (2.75)

Agora, como ∇h1(xk), . . . ,∇hm(xk) ⊂ span (Zk), pela Observacao 2.7 tem-se

Ak = ZkZTk Ak. (2.76)

Logo,

ATk Ak = (ZTk Ak)

T (ZTk Ak) = ATkZkZ

Tk Ak = ATkAk, (2.77)

e, por A3, a matriz ATk Ak e invertıvel. Isto implica que Ak possui posto coluna completo

e, portanto,

A+k = (ATk Ak)

−1ATk . (2.78)

Seja GL(n,R) o conjunto de matrizes em Rn×n invertıveis. Sabe-se que a inversao ma-

tricial ϕ : GL(n,R) → GL(n,R) definida por ϕ(M) = M−1 e uma funcao contınua (ver,

por exemplo, Teorema 2.3.4 em Golub e Van Loan [42]). Assim, por (2.75), existe κ3 > 0

tal que

‖(ATk Ak)−1‖ ≤ κ3, para todo k. (2.79)

Finalmente, por (2.78), (2.79) e (2.74), conclui-se que existe κ4 > 0 tal que

‖A+k ‖ ≤ κ4, para todo k,

e a prova esta completa.

Lema 2.7. A desigualdade

‖ck‖2 − ‖ck + ATk sk‖2 ≥ min

‖ck‖2,

b2∆k

‖A+k ‖2

(2.80)

e satisfeita para todo k, onde b2 e introduzido em (2.9).

Demonstracao. Seguindo o mesmo argumento usado na prova do Lema 3.3 em Powell e

Yuan [77], conclui-se que a desigualdade

‖ck‖2 − ‖ck + ATk sk‖2 ≥ min

‖ck‖2,

b2∆k

‖A+k ‖2

(2.81)

e satisfeita para todo k. Como sk = Zksk ∈ span Zk, pela Observacao 2.7 tem-se que

29

sk = ZkZTk sk, e entao

ATk sk =(ZTk Ak

)TZTk sk = ATkZkZ

Tk sk = ATk sk. (2.82)

Agora, substituindo (2.82) em (2.81) obtem-se (2.80).

Lema 2.8. Existe uma constante positiva m1 tal que a desigualdade

Dk +1

2µk(‖ck‖2

2 − ‖ck + ATk sk‖22

)≤ −1

4‖Pkg∗k‖2

2 min

1

2‖Bk‖2

,∆∗k

‖Pkg∗k‖2

+m1‖sk‖2‖ck‖2

−1

2µk‖ck‖2 min

‖ck‖2,

b2∆k

‖A+k ‖2

, (2.83)

e satisfeita para todo k, onde Dk e dado por (2.12) e emprega-se a notacao

g∗k = gk +Bks∗k (2.84)

∆∗k =(∆2k − ‖s∗k‖2

2

) 12 , (2.85)

s∗k = (In − Pk) sk, (2.86)

Pk = In − AkA+k . (2.87)

Demonstracao. Seguindo o mesmo argumento usado na prova do Lema 3.4 em Powell e

Yuan [77], conclui-se que existe uma constante positiva m1 para a qual a desigualdade

Dk +1

2µk(‖ck‖2

2 − ‖ck + ATk sk‖22

)≤ −1

4‖Pkgk‖2

2 min

1

2‖Bk‖2

,∆k

‖Pkgk‖2

+m1‖sk‖2‖ck‖2

−1

2µk‖ck‖2 min

‖ck‖2,

b2∆k

‖A+k ‖2

(2.88)

30

e satisfeita para todo k, onde

Dk =(gk − Akλk

)Tsk +

1

2sTk Bksk −

[λk+1 − λk

]T(ck +

1

2ATk sk)

+µk(‖ck + ATk sk‖2

2 − ‖ck‖22

), (2.89)

λk = A+k gk, (2.90)

sk = Pksk, (2.91)

Pk = Irk − AkA+k , (2.92)

gk = gk + Bksk, (2.93)

∆k =(∆2k − ‖sk‖2

2

) 12 , (2.94)

sk =(Irk − Pk

)sk. (2.95)

A partir de (2.82) tem-se

‖ck + ATk sk‖ = ‖ck + ATk sk‖. (2.96)

No que segue, sera provado que

Dk = Dk, ∆k = ∆k, ‖Pkgk‖2 = ‖Pkg∗k‖2, e ‖sk‖2 = ‖sk‖2. (2.97)

Desta forma, (2.83) seguira diretamente de (2.88). Como sk = Zksk e gk pertencem a

span (Zk), pela Observacao 2.7 segue-se que

sk = ZkZTk sk, (2.98)

gk = ZkZTk gk. (2.99)

Alem disso, recordando as definicoes de g∗k, s∗k, sk e Pk (em (2.84), (2.86), (2.13) e (2.87),

respectivamente) e a hipotese A4, ve-se que g∗k, s∗k, sk, Pkg∗k ⊂ span (Zk). Consequente-

mente, pela Observacao 2.7,

g∗k = ZkZTk g∗k, (2.100)

s∗k = ZkZTk s∗k, (2.101)

sk = ZkZTk sk, (2.102)

Pkg∗k = ZkZ

Tk Pkg

∗k. (2.103)

31

Combinando (2.90), (2.78), (2.77) e (2.99), segue-se que

λk = A+k gk

=(ATk Ak

)−1ATk gk

=(ATkAk

)−1ATkZkZ

Tk gk

=(ATkAk

)−1ATk gk

= A+k gk

= λk, (2.104)

Por (2.104) e (2.98) obtem-se

(gk − Akλk

)Tsk =

(ZTk gk − ZT

k Akλk)TZTk sk

= (gk − Akλk)T ZkZTk sk

= (gk − Akλk)T sk. (2.105)

Alem disso, por (2.91), (2.92), (2.78), (2.77), (2.98) e (2.13),

sk = Pksk

=(I − AkA+

k

)sk

= sk − Ak(ATk Ak

)−1ATk sk

= ZTk sk − ZT

k Ak(ATkAk

)−1ATkZksk

= ZTk

(sk − Ak

(ATkAk

)−1ATk sk

)= ZT

k

[(In − AkA+

k

)sk]

= ZTk Pksk

= ZTk sk, (2.106)

Note que, as igualdades (2.106), (2.98) e (2.102) implicam que

sTk Bksk = skBkZTk sk

=(ZTk sk)T (

ZTk BkZk

)ZTk sk

=(sTkZkZ

Tk

)Bk

(ZkZ

Tk sk)

=(ZkZ

Tk sk)TBk

(ZkZ

Tk sk)

= sTkBksk. (2.107)

Agora, por (2.105), (2.107), (2.104), (2.82) e (2.96), tem-se a igualdade

Dk = Dk. (2.108)

32

A partir de (2.95), (2.92), (2.78), (2.77), (2.98), (2.87) e (2.86) obtem-se

sk = AkA+k sk

= Ak(ATk Ak

)−1ATk sk

= ZTk Ak

(ATkAk

)−1ATkZkZ

Tk sk

= ZTk Ak

(ATkAk

)−1ATk sk

= ZTk AkA

+k sk

= ZTk [(In − Pk) sk]

= ZTk s∗k. (2.109)

Entao, por (2.101),

‖sk‖22 = ‖ZT

k s∗k‖2

2 = (s∗k)T ZkZ

Tk s∗k = (s∗k)

T s∗k = ‖s∗k‖22, (2.110)

o que implica que

∆k =(∆2k − ‖sk‖2

2

) 12 =

(∆2k − ‖s∗k‖2

2

) 12 = ∆∗k. (2.111)

Por outro lado, de (2.93), (2.109), (2.101) e (2.84) segue-se que

gk = gk + Bksk

= ZTk gk + ZT

k BkZkZTk s∗k

= ZTk (gk +Bks

∗k)

= ZTk g∗k. (2.112)

Assim, por (2.92), (2.78), (2.77), (2.100) e (2.87),

Pkgk =(Irk − AkA+

k

)gk

=(Irk − ZT

k Ak(ATkAk

)−1ATkZk

)ZTk g∗k

= ZTk

[g∗k − AkA+

k g∗k

]= ZT

k Pkg∗k. (2.113)

Agora, as igualdades (2.113) e (2.103) implicam que

‖Pkgk‖22 = ‖ZT

k Pkg∗k‖2

2

= (Pkg∗k)T ZkZ

Tk Pkg

∗k

= (Pkg∗k)T (Pkg

∗k)

= ‖Pkg∗k‖22.

33

=⇒ ‖Pkgk‖2 = ‖Pkg∗k‖2. (2.114)

Finalmente, por (2.98),

‖sk‖22 = ‖ZT

k sk‖22 = sTkZkZ

Tk sk = sTk sk = ‖sk‖2

2

=⇒ ‖sk‖2 = ‖sk‖2. (2.115)

Assim, pelas relacoes (2.108), (2.96), (2.114), (2.111) e (2.115), a desigualdade (2.88)

reduz-se a desigualdade (2.83) e a demonstracao esta completa.

Teorema 2.9. Suponha que A1-A5 sao satisfeitas. Entao, o Algoritmo 2.2 ira terminar

apos uma quantidade finita de iteracoes. Em outras palavras, se o teste de convergencia

no Passo 1 for removido, entao sk = 0 para algum k ou o limite

lim infk→+∞

[‖ck‖2 + ‖gk − Akλk‖2] = 0 (2.116)

e obtido, o que significa que ao menos um ponto de acumulacao da sequencia xk e um

ponto KKT para o problema (2.1)-(2.2).

Demonstracao. Este resultado segue dos Lemas 2.6, 2.7 e 2.8 pelo mesmo argumento

usado em Powell e Yuan [77].

Observacao 2.8. Pelo Teorema 2.9, o Algoritmo 2.2 e globalmente convergente para

qualquer subespaco Sk = span (Zk) tal que Zk satisfaz A4.

2.5 Experimentos Numericos

A fim de investigar as limitacoes e potencialidades computacionais do algoritmo proposto,

implementacoes em MATLAB dos Algoritmos 2.1 e 2.2 foram testadas em um conjunto

de 50 problemas da colecao CUTEr [45]. A dimensao dos problemas considerados varia

entre 3 e 1498, enquanto o numero de restricoes esta entre 1 e 96. No que segue, as

implementacoes dos Algoritmos 2.1 e 2.2 serao referidas como “PYtr” e “SPYtr”, respec-

tivamente.

Em ambas as implementacoes, o subproblema CDT e resolvido pelo algoritmo dual

proposto por Yuan [98], com os parametros s0 = 1, υ = 0.001 e ε = 10−12. Neste

algoritmo, em vez de atualizar Mk pela regra

Mk = maxMk−1, d

TH−1d+ yTH−1y,

utiliza-se

Mk = dTH−1d+ yTH−1y,

34

visto que esta ultima regra permitiu uma convergencia mais rapida nos testes numericos

preliminares (ver Algoritmo 3.1 em Yuan [98]). Alem disso, o numero maximo de iteracoes

deste algoritmo foi fixado em 200 iteracoes.

Para encontrar um valor ξk no intervalo (2.9), o problema LSQI

min ‖ck + ATk d‖2,

s. a. ‖d‖2 ≤ b1∆k,

e resolvido pelo Algoritmo 12.1.1 descrito em Golub e Van Loan [42], o qual fornece uma

solucao dk. Entao, ξk e tomado como sendo

ξk = ‖ck + ATk dk‖2.

Para ambas as implementacoes, os parametros no Passo 0 sao ∆1 = 1, εs = 10−4,

µ1 = 1, γ = 10−8 e b1 = b2 = 0.9. Portanto, cada implementacao foi executada ate

que ‖ck‖ + ‖gk − Akλk‖2 < 10−4. A matriz inicial B1 foi escolhida como sendo a matriz

identidade, enquanto Bk foi atualizada usando-se a formula BFGS relaxada de Powell

[74], a saber

Bk+1 = Bk −Bksks

TkBk

sTkBksk+ηkη

Tk

sTk ηk,

onde

sk = xk+1 − xk, ηk = θkyk + (1− θk)Bksk,

e

θk =

1, se sTk yk ≥ 0.2sTkBksk

0.8sTkBksk/[sTkBksk − sTk yk

], caso contrario.

Conforme mencionado acima, os algoritmos foram implementados em linguagem MA-

TLAB, sendo que os testes foram realizados com MATLAB 7.8.0 (R2009a), em um PC

com microprocessador 2.52 GHz Intel(R) i3, e usando uma maquina virtual Ubuntu com

memoria limitada a 896 MB.

Problemas e resultados sao dados na Tabela 2.1, onde “n” representa o numero de

variaveis, “m” representa o numero de restricoes,“Iter” representa o numero de iteracoes,

“Tempo” representa o tempo gasto (em segundos), e uma entrada “F” indica que o codigo

parou devido a algum erro durante a solucao do subproblema CDT. O asterisco indica

que o problema CUTEr original foi modificado para o caso de interesse, por exemplo,

restricoes de desigualdades podem ter sido consideradas como restricoes de igualdade, ou

limitacoes sobre as variaveis podem ter sido ignoradas. Por fim, vale a pena mencionar

que, para cada problema onde ambos os codigos foram bem sucedidos, os valores otimos

da funcao objetivo coincidiram com uma precisao de pelo menos 10−3.

35

Dim PYtr SPYtrPROBLEMA n m Itr Tempo Iter Tempo01. ALLINITC∗ 4 1 10 0.7 F F02. BT3 5 3 9 0.7 11 0.803. BT6 5 2 14 0.9 10 0.704. BT8 5 2 94 8.8 111 9.805. BT9 4 2 30 1.9 35 1.906. BT11 5 3 9 0.6 18 1.307. BT12 5 3 19 1.6 63 3.808. HS21MOD 7 1 4 0.3 4 0.409. HS26 3 1 16 0.9 17 0.910. HS27 3 1 32 1.9 34 1.711. HS28 3 1 8 0.6 10 0.812. HS29∗ 3 1 10 0.7 9 0.713. HS30∗ 3 1 3 0.4 3 0.514. HS31∗ 3 1 17 1.3 9 0.915. HS35∗ 3 1 6 0.5 6 0.616. HS36 3 1 F F 8 0.417. HS39 4 2 30 1.7 35 1.818. HS42 4 2 7 0.8 5 0.619. HS46 5 2 12 0.8 10 0.720. HS47 5 3 22 1.1 17 0.921. HS48 5 2 9 0.7 10 0.822. HS49 5 2 19 1.1 24 1.323. HS50 5 3 15 1.1 14 1.024. HS51 5 3 7 0.6 6 0.725. HS52 5 3 9 0.7 13 1.026. HS53∗ 5 3 8 0.7 9 0.827. HS54∗ 6 1 2 0.3 2 0.328. HS56 7 4 15 1.6 16 1.529. HS60∗ 3 1 11 0.7 16 1.430. HS65∗ 3 1 25 2.4 25 2.431. HS77 5 2 15 0.9 9 0.732. HS78 5 3 9 0.7 6 0.633. HS79 5 3 10 0.5 9 0.534. HS80∗ 5 3 5 0.4 5 0.535. HS100LNP 7 4 18 1.9 20 2.336. DECONVC∗ 61 1 129 28.0 129 21.237. DUAL1∗ 85 1 244 94.0 293 103.438. DUAL2∗ 96 1 104 43.8 104 21.439. DUAL3∗ 111 1 120 64.3 113 23.440. DUAL4∗ 75 1 52 16.7 52 7.141. FCCU∗ 19 8 35 3.3 20 1.842. GENHS28 10 8 6 0.6 7 0.743. HIMMELBI∗ 100 12 38 6.4 38 2.144. HS111LNP 10 3 48 2.7 F F45. ORTHREGB 27 6 7 0.4 9 0.646. PORTFL1∗ 12 1 59 1.8 65 2.247. PRIMAL4∗ 1498 75 3 605.2 3 1.148. STEENBRA∗ 432 96 F F 84 34.349. ZAMB2-8∗ 138 48 784 388.9 775 265.350. ZAMB2-9∗ 138 48 914 530.5 733 227.2

Tabela 2.1: Resultados numericos para uma selecao de problemas CUTEr.

36

Para facilitar a comparacao entre os dois algoritmos, utiliza-se o Perfil de Desem-

penho proposto por Dolan e More [33]. Esta ferramenta para comparacao de codigos

de otimizacao pode ser descrita da seguinte maneira. Seja tp,s o tempo (ou numero de

iteracoes) que o codigo s exige para resolver o problema p. A razao de desempenho rp,s e

definida como

rp,s =tp,st∗p,

onde t∗p e o menor tempo (ou numero de iteracoes) exigido para resolver o problema p entre

os codigos considerados. Portanto, rp,s ≥ 1 para todos p e s. Se um codigo nao resolver

um certo problema, a razao rp,s e associada a um numero rM , o qual satisfaz rp,s < rM

para todos p, s tais que o codigo s resolve o problema p. O perfil de desempenho ρs de

um codigo s e entao definido como

ρs(τ) =No. de problemas tais que rp,s ≤ τ

No. total de problemas.

Quando τ = 1, ρs(1) representa o percentual de problemas para os quais o codigo s requer

o menor tempo (ou o menor numero de iteracoes), enquanto que para τ suficientemente

grande, ρs(τ) representa a fracao de problemas que o codigo s e capaz de resolver. Note-se

que o perfil de desempenho tambem pode ser usado para analisar o numero de avaliacoes

de funcao ou gradiente exigido para satisfazer o criterio de parada.

Tendo por base os resultados numericos apresentados na Tabela 2.1, foram obtidos os

perfis de desempenho dos codigos PYtr e SPYtr considerando dois subconjuntos distintos

de problemas. O primeiro subconjunto consiste nos 35 primeiros problemas na Tabela 2.1

(para os quais n < 10), enquanto o segundo subconjunto corresponde aos 15 problemas

restantes (para os quais n ≥ 10). Os perfis de desempenho na Figura 2.1 para o primeiro

subconjunto de problemas mostram que PYtr e ligeiramente mais eficiente que SPYtr

com respeito ao numero de iteracoes e ao tempo computacional necessario para reduzir

a medida de estacionariedade abaixo de εs. Com respeito ao tempo computacional, este

resultado nao e surpreendente, visto que nos problemas considerados a diferenca entre n

e m e muito pequena. Neste caso, o passo e calculado nos subespacos apenas em algumas

poucas iteracoes, e o tempo economizado nestes calculos nao e suficiente para compensar

o tempo gasto no processo de reortogonalizacao.

Por outro lado, os perfis de desempenho na Figura 2.2 mostram um quadro diferente

para o segundo subconjunto de problemas, o qual inclui problemas de medio porte onde

n >> m. Para esses problemas, ambos os codigos requerem quase o mesmo numero

de iteracoes, mas SPYtr e significativamente mais rapido que PYtr, conforme previsto

teoricamente na Secao 2.2.

37

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

τ

ρ(τ

)

NÚMERO DE ITERAÇÕES

PYtrSPYtr

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

τ

ρ(τ)

TEMPO

Figura 2.1: Perfis de Desempenho para problemas com n < 10.

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

τ

ρ(τ

)


PYtrSPYtr

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

τ

ρ(τ

)

TEMPO

Figura 2.2: Perfis de Desempenho para problemas com n ≥ 10.

38

2.6 Conclusao

Neste trabalho, propriedades subespaciais do subproblema CDT foram obtidas. Espe-

cificamente, provou-se que quando as matrizes Bk sao atualizadas por certas formulas

quase-Newton, o passo calculado a partir do subproblema CDT pertence ao subespaco

Gk = span(∪ki=1 ∇c1(xi), . . . ,∇cm(xi), gi

),

onde as funcoes ci definem as restricoes de igualdade, e gi e o gradiente da funcao objetivo

avaliado na iterada xi. Com base nesta propriedade, uma versao subespacial do algoritmo

de regiao de confianca Powell-Yuan foi proposta para problemas de otimizacao com res-

tricoes de igualdade. Sob certas condicoes, provou-se que o novo algoritmo e globalmente

convergente. Alem disso, experimentos numericos preliminares indicam que o algoritmo

subespacial e superior a versao original em problemas onde o numero de restricoes e muito

menor que o numero de variaveis.

Capıtulo 3

Sobre a convergencia e complexidade

de alguns metodos para otimizacao

sem restricoes

3.1 Introducao

Considere o problema de otimizacao sem restricoes

min f(x), x ∈ Rn, (3.1)

onde f : Rn → R e continuamente diferenciavel e limitada inferiormente. Metodos ite-

rativos tradicionais para resolver (3.1) sao algoritmos de busca linear [30] e de regiao

de confianca [23]. Conforme observado independentemente por Shultz, Schnabel e Byrd

[85] e por Toint [88], metodos de busca linear tambem podem ser reinterpretados como

metodos de regiao de confianca, o que possibilita uma teoria de convergencia unificada

para ambas as classes de metodos (ver Secao 10.3 em Conn, Gould e Toint [23]).

Recentemente, uma abordagem de regularizacao adaptativa com cubicas (ARC, do

ingles “Adaptive Regularization with Cubics”) foi proposta por Cartis, Gould e Toint

[11] como uma nova tecnica de globalizacao para otimizacao sem restricoes. Entretanto,

com o desenvolvimento dos metodos ARC, bem como algoritmos de regiao de confianca

modificados [35] e outros esquemas de regularizacao [4, 36, 70, 99], a base para uma

analise de convergencia comum foi perdida, visto que para cada um destes metodos a

convergencia global e provada de uma forma diferente.

Com o objetivo de obter uma forma unificada de se provar a convergencia global de

algoritmos de regiao de confianca e metodos de regularizacao, Toint [89] propos recen-

temente a classe dos algoritmos de controle nao-linear do tamanho do passo, a qual por

conveniencia sera referida aqui como algoritmo NSC (do ingles, “Nonlinear Stepsize Con-

trol”). A fim de descrever esta classe, e util considerar antecipadamente as seguintes

39

40

condicoes:

A1 Existe uma funcao contınua, limitada e nao-negativa ω : Rn → R tal que

ω(x) = 0 =⇒ ‖∇f(x)‖ = 0.

A2 Existem tres funcoes contınuas nao-negativas φ, ψ, χ : Rn → R, possivelmente inde-

finidas nas raızes de ω(x), tais que

ω(x) > 0 e min φ(x), ψ(x), χ(x) = 0 =⇒ ‖∇f(x)‖ = 0.

A3 Existe κχ > 0 tal que

χ(x) ≤ κχ para todo x.

Por conveniencia, a partir daqui, usa-se a notacao

φk = φ(xk), ψk = ψ(xk), χk = χ(xk) e ωk = ω(xk).

A4 A funcao ∆ : [0,+∞)× [0,+∞)→ R que define o raio da regiao de confianca e da

forma

∆(δ, χ) = δαχβ,

para potencias α ∈ (0, 1] e β ∈ [0, 1].

A5 Para todo k ≥ 1, o modelo mk(xk + s) : Rn → R satisfaz

mk(xk) = f(xk) e f(xk + s)−mk(xk + s) ≤ κm‖s‖2 ∀s ∈ Rn,

para alguma constante κm > 0.

A6 O passo sk satisfaz a limitacao

‖sk‖ ≤ κs∆(δk, χk) sempre que δk ≤ κδχk,

para constantes κs ≥ 1 e κδ > 0.

A7 O passo sk produz um decrescimo no modelo, o qual e suficiente no sentido de que

mk(xk)−mk(xk + sk) ≥ κcψk min

φk

1 + ‖Bk‖,∆(δk, χk)

,

para alguma constante κc ∈ (0, 1), e onde Bk e uma matriz real n× n.

Agora, o algoritmo proposto por Toint [89] pode ser resumido da seguinte maneira.

41

Algoritmo 3.1. Algoritmo NSC

Passo 0 Dados x1 ∈ Rn, B1 ∈ Rn×n, δ1 > 0, 0 < γ1 < γ2 < 1 e 0 < η1 ≤ η2 < 1, defina

k := 1.

Passo 1 Escolha um modelo mk(xk + s) satisfazendo A5 e encontre um passo sk que

suficientemente reduz o modelo no sentido de A7, para o qual ‖sk‖ satisfaz A6.

Passo 2 Calcule a razao

ρk =f(xk)− f(xk + sk)

mk(xk)−mk(xk + sk), (3.2)

defina a proxima iterada como

xk+1 =

xk + sk, se ρk ≥ η1,

xk, caso contrario,(3.3)

e escolha o parametro δk+1 pela regra de atualizacao

δk+1 ∈

[γ1δk, γ2δk] , se ρk < η1,

[γ2δk, δk] , se ρk ∈ [η1, η2),

[δk,+∞] , se ρk ≥ η2.

(3.4)

Passo 3 Gere Bk+1, defina k := k + 1 e volte para o Passo 1.

Foi mostrado por Toint [89] que o Algoritmo 3.1 engloba os seguintes algoritmos:

• o algoritmo de regiao de confianca classico [23, 73], no qual:

mk(xk + s) ≡ f(xk) +∇f(xk)T s+

1

2sTBks,

ω(x) = 1, φ(x) = ψ(x) = χ(x) = ‖∇f(x)‖,

δ = ∆, α = 1, β = 0,

• o algoritmo ARC de Cartis, Gould e Toint [11], no qual:


1

2sTBks+

1

3σk‖s‖3,

ω(x) = 1, φ(x) = ψ(x) = χ(x) = ‖∇f(x)‖,

δ =1

σ, α =

1

2, β =

1

2,

onde σk e o parametro de regularizacao cubica,

• o algoritmo de regularizacao quadratica para f(x) = ‖F (x)‖ proposto por Nesterov

42

[70] (conforme estendido em [4]), no qual:

mk(xk + s) ≡ ‖F (xk) + JF (xk)s‖+ σk‖s‖2,

ω(x) = ‖F (x)‖, ψ(x) = χ(x) =‖JF (x)TF (x)‖‖F (x)‖

,

φ(x) = ‖JF (x)TF (x)‖, δ =1

σ, α = 1, β = 1,

onde σk e o parametro de regularizacao quadratica,

• o algoritmo de Fan e Yuan [35], no qual:


1

2sTBks,

ω(x) = 1, φ(x) = ψ(x) = χ(x) = ‖∇f(x)‖,

δ = µ, α = 1, β = 1,

• e os algoritmos de regularizacao quadratica para f(x) = (1/2)‖F (x)‖2 propostos

por Zhang e Wang [99] e Fan [36], nos quais:

mk(xk + s) ≡ 1

2‖F (xk) + JF (xk)s‖2,

ω(x) = 1, φ(x) = ψ(x) = ‖JF (x)TF (x)‖,

χ(x) = ‖F (x)‖γ, δ = νj, α = 1, β = 1.

Toint [89] tambem forneceu uma analise de convergencia global para o Algoritmo

3.1, mostrando convergencias fraca e forte sob as condicoes A1-A7 e a hipotese de que

a sequencia ‖Bk‖ e limitada superiormente. Entretanto, para certas formulas quase-

Newton, pode-se provar que

‖Bk‖ ≤ c1 + c2k (3.5)

(ver Secao 8.4 em Conn, Gould e Toint [23]), mesmo que a limitacao de ‖Bk‖ nao seja

explıcita. Por outro lado, com respeito a complexidade de pior-caso do Algoritmo 3.1,

Toint [89] argumenta que a estrutura do algoritmo e as hipoteses A1-A7 sugerem um

limitante superior de O(ε−3) iteracoes para que o algoritmo reduza abaixo de ε o tamanho

de uma certa medida de estacionariedade de primeira ordem. No entanto, nenhuma prova

foi dada para esta limitacao superior.

Tendo como motivacao as observacoes acima, neste trabalho mostra-se a convergencia

global de uma versao ligeiramente modificada do Algoritmo 3.1, assumindo-se que (3.5) e

satisfeita para todo k. Alem disso, se as matrizes Bk sao uniformemente limitadas, prova-

se que este algoritmo requer no maximo O(ε−(2+β)) iteracoes para reduzir abaixo de ε uma

43

certa medida de estacionariedade de primeira ordem, o que e uma complexidade menos

pessimista que aquela discutida por Toint [89]. Para o caso particular em que α+ β ≤ 1,

2α+β ≥ 1 e φk, ψk ≥ χk (o qual inclui o algoritmo ARC), esta estimativa ainda e reduzida

para O(ε−2) iteracoes. Estes resultados sao entao estendidos para alguns algoritmos para

otimizacao composta nao-suave e otimizacao multiobjetivo sem restricoes.

Este capıtulo esta organizado da seguinte maneira. Na Secao 3.2, os resultados de

convergencia global sao apresentados. A complexidade de pior-caso e investigada na

Secao 3.3. Na Secao 3.4, um estudo de caso e apresentado ilustrando a aplicabilidade dos

resultados de complexidade no desenvolvimento de algoritmos mais eficientes. Finalmente,

na Secao 3.5, os resultados das Secoes 3.2 e 3.3 para otimizacao suave sem restricoes

sao estendidos para otimizacao composta nao-suave e para otimizacao multiobjetivo sem

restricoes.


Nesta secao, prova-se a convergencia global de uma leve modificacao do Algoritmo 3.1

quando Bk satisfaz (3.5). Especificamente, substitui-se (3.4) pela regra ligeiramente mais

restritiva:

δk+1 ∈


[γ2δk, γ3δk] , se ρk ∈ [η1, η2),

[δk, γ4δk] , se ρk ≥ η2,

(3.6)

onde 0 < γ1 < γ2 < γ3 < 1 < γ4. Alem disso, a escolha de η1 e relaxada para valores

η1 ≥ 0 com η2 6= 0, e as condicoes A3, A5 e A6 sao substituidas pelas condicoes (mais

fracas) abaixo:

A3” Existe κχ > 0 tal que

χk ≤ κχ, para todo k.

A5” Para todo k ≥ 1, o modelo mk(xk + s) : Rn → R satisfaz

mk(xk) = f(xk) e f(xk + sk)−mk(xk + sk) ≤ κm‖sk‖2,

para alguma constante κm > 0.

A6” O passo sk satisfaz a limitacao

‖sk‖ ≤ κs∆(δk, χk), sempre que δkM1αk ≤ κδχk,

para constantes κs ≥ 1 e κδ > 0, onde

Mk = 1 + max1≤i≤k

‖Bi‖.

44

Observacao 3.1. Daqui por diante, quando as condicoes A3, A5 e A6 forem menciona-

das, entenda-se A3”, A5” e A6”, respectivamente.

Observacao 3.2. Com excecao do algoritmo ARC, para todos os outros algoritmos des-

critos na Secao 3.1, existe κs ≥ 1 tal que ‖sk‖ ≤ κs∆(δk, χk) para todo k e, portanto,

A6 e naturalmente satisfeita. No caso do algoritmo ARC, lembre-se que δk = 1/σk,

χk = ‖∇f(xk)‖ e α = β = 1/2. Assim, pelo Lema 2.2 em Cartis, Gould e Toint [11],

‖sk‖ ≤ 3 max δk‖Bk‖,∆(δk, χk) .

Note que, neste caso,

δkM1αk ≤ χk =⇒ δk‖Bk‖2 ≤ χk =⇒ δ

12k ‖Bk‖ ≤ χ

12k

=⇒ δk‖Bk‖ = δ12k δ

12k ‖Bk‖ ≤ δ

12k χ

12k = ∆(δk, χk),

e por isso, ‖sk‖ ≤ 3∆(δk, χk). Logo, o algoritmo ARC satisfaz A6 com κs = 3 e κδ = 1.

O lema abaixo fornece um limitante inferior para δαk . A prova esta baseada na de-

monstracao do lema na pagina 299 de Powell [76].

Lema 3.1. Suponha que A1-A7 sao satisfeitas. Se existe ε > 0 tal que

min φk, ψk, χk ≥ ε para todo k, (3.7)

entao, existe uma constante τ > 0 tal que

δαk ≥τ

Mk

para todo k, (3.8)

onde Mk e definido por


‖Bi‖. (3.9)

Demonstracao. Prova-se por inducao sobre k que (3.8) e satisfeita com

τ = minδα1M1, (γ1κδε)

α , γα1 ε/κβχ, γ

α1 κcε(1− η2)/κβχκmκ

2s

. (3.10)

Pela definicao de τ , claramente (3.8) vale para k = 1. Assumindo-se que (3.8) e verdadeira

para k, no que segue sera provado que (3.8) tambem vale para k+ 1. De fato, se δkM1αk >

κδχk, a partir de (3.7), (3.9), (3.6) e (3.10) tem-se que

δk >κδε

M1αk

≥ κδε

M1αk+1

, (3.11)

=⇒ δαk+1 ≥ γα1 δαk >

(γ1κδε)α

Mk+1

≥ τ

Mk+1

, (3.12)

45

isto e, (3.8) e satisfeita para k + 1. Portanto, no restante desta prova assume-se que

δkM1αk ≤ κδχk, o que por A6 nos fornece a limitacao

‖sk‖ ≤ κs∆(δk, χk). (3.13)

De A7 e (3.7) obtem-se

mk(xk)−mk(xk + sk) ≥ κcεmin

ε

1 + ‖Bk‖,∆(δk, χk)

. (3.14)

Entao, por (3.2), A7, (3.14) e (3.13),

1− ρk =(mk(xk)−mk(xk + sk))− (f(xk)− f(xk + sk))

mk(xk)−mk(xk + sk)

=f(xk + sk)−mk(xk + sk)

mk(xk)−mk(xk + sk)

≤ κm‖sk‖2

κcεmin

ε

1 + ‖Bk‖,∆(δk, χk)

≤ κmκ

2s∆(δk, χk)

2

κcεmin

ε

1 + ‖Bk‖,∆(δk, χk)

. (3.15)

Agora, suponha que

δαkκβχ < min

ε

1 + ‖Bk‖,κcε(1− η2)

κmκ2s

. (3.16)

Neste caso, por A4 e A3 tem-se

∆(δk, χk) = δαkχβk ≤ δαkκ

βχ < min

ε

1 + ‖Bk‖,κcε(1− η2)

κmκ2s

, (3.17)

o que em (3.15) implica que

1− ρk ≤κmκ

2s∆(δk, χk)

2

κcε∆(δk, χk)=κmκ

2s∆(δk, χk)

κcε< 1− η2

=⇒ ρk > η2. (3.18)

Logo, pela regra (3.6), a hipotese de inducao e a desigualdade Mk+1 ≥Mk, segue-se que

δk+1 ≥ δk =⇒ δαk+1 ≥ δαk ≥τ

Mk

≥ τ

Mk+1

, (3.19)

e portanto (3.8) vale para k + 1.

Finalmente, suponha que (3.16) nao e verdadeira. Entao, a partir de (3.6), (3.9) e

46

(3.10), obtem-se

δαkκβχ ≥ min

ε

1 + ‖Bk‖,κcε(1− η2)

κmκ2s

=⇒ δαk ≥ min

ε

κβχ(1 + ‖Bk‖),κcε(1− η2)

κβχκmκ2s

=⇒ δαk+1 ≥ γα1 δαk ≥ min

γα1 ε

κβχ(1 + ‖Bk‖),γα1 κcε(1− η2)

κβχκmκ2s

≥

minγα1 ε/κ

βχ, γ

α1 κcε(1− η2)/κβχκmκ

2s

Mk+1

≥ τ

Mk+1

. (3.20)

Isto mostra que (3.8) vale para k + 1 e completa a demonstracao.

No que segue, considera-se o lema abaixo dado por Yuan [95], cuja prova e devida a

Powell [76].

Lema 3.2. Sejam µk e Mk duas sequencias de numeros reais e τ uma constante

positiva qualquer tais que µk ≥τ

Mk

> 0 para todo k. Alem disso, seja J um subconjunto

de 1, 2, 3, . . . e assuma que

µk+1 ≤ c3µk, k ∈ J, (3.21)

µk+1 ≤ c4µk, k /∈ J, (3.22)

Mk+1 ≥Mk, k ≥ 1, (3.23)∑k∈J

1

Mk

< +∞, (3.24)

onde c3 > 1 e c4 < 1 sao constantes positivas. Entao

∞∑k=1

1

Mk

< +∞. (3.25)

Demonstracao. Ver Lema 3.4 em Yuan [95].

A prova do proximo lema e baseada na demonstracao do Lema 3.3 em Dai e Xu [28].

Lema 3.3. As condicoes do Lema 3.1, incluindo a limitacao (3.7), implicam que (3.25)

e satisfeita para Mk definida por (3.9).

Demonstracao. Considere o conjunto J2 = k | ρk ≥ η2. Pela regra (3.6) e pela definicao

(3.9) de Mk, segue-se que

δαk+1 ≤ γα4 δαk , k ∈ J2, (3.26)

δαk+1 ≤ γα3 δαk , k /∈ J2, (3.27)

47

Mk+1 ≥Mk, k ≥ 1, (3.28)

onde γα4 > 1 e γα3 < 1 sao constantes positivas. Alem disso, como f(xk) e nao-crescente

e limitada inferiormente, a definicao de J2, as Condicoes A7 e A4, a limitacao (3.7), a

equacao (3.9) e o Lema 3.1 implicam que

+∞ >∞∑k=1

(f(xk)− f(xk+1)) ≥∑k∈J2

(f(xk)− f(xk+1))

≥ η2

∑k∈J2

[mk(xk)−mk(xk + sk)]

≥ η2

∑k∈J2

κcεmin

ε

1 + ‖Bk‖, δαk ε

β

≥ η2κcε

∑k∈J2

min

ε

Mk

,τ

Mk

εβ

= η2κcεminε, τεβ

∑k∈J2

1

Mk

. (3.29)

Portanto,∑

k∈J2 1/Mk < +∞ e, pelo Lema 3.2 (com µk = δαk , J = J2, c3 = γα4 e c4 = γα3 ),

conclui-se que o presente lema e verdadeiro.

Agora, e possıvel estabelecer os resultados de convergencia global. A prova do proximo

teorema baseia-se nas demonstracoes do Teorema 3.4 em Toint [89] e do Teorema 3.5 em

Yuan [95].

Teorema 3.4. Suponha que A1-A7 sao satisfeitas. Alem disso, assuma que

∞∑k=1

1/Mk = +∞, (3.30)

com Mk definido por (3.9). Entao,

lim infk→+∞

ωk = 0, (3.31)

ou

lim infk→+∞

min φk, ψk, χk = 0. (3.32)

Portanto, ao menos um ponto de acumulacao da sequencia xk (se algum existe) e um

ponto estacionario para o problema (3.1) (no sentido da Definicao 1.8).

Demonstracao. Se o limite (3.31) e verdadeiro, entao a conclusao segue por A1. Caso

contrario, existe εω > 0 tal que

ωk ≥ εω para todo k. (3.33)

48

Neste caso, se o limite (3.32) e verdadeiro, a conclusao segue por A2. Assim, suponha

por contradicao que a limitacao (3.7) e verdadeira para algum ε > 0. Entao, pelo Lema

3.3, tem-se que (3.25) vale para Mk definido por (3.9), o que contradiz a hipotese (3.30).

Esta contradicao mostra que o presente teorema e verdadeiro.

Corolario 3.5. Suponha que A1-A7 sao satisfeitas. Se todas as matrizes Bk satisfazem

(3.5), entao ao menos um ponto de acumulacao da sequencia xk (se algum existe) e um

ponto estacionario para o problema (3.1).

Demonstracao. De fato, segue de (3.9) e (3.5) que


‖Bi‖

≤ 1 + max1≤i≤k

c1 + c2i

= 1 + c1 + c2k

≤ (1 + c1 + c2) k

=⇒ 1

(1 + c1 + c2)

1

k≤ 1

Mk

. (3.34)

Como a serie harmonica∑∞

k=1 1/k e divergente, conclui-se pelo teste da comparacao que∑∞k=1 1/Mk = +∞. Logo, a conclusao deste corolario segue pelo Teorema 3.4.

3.3 Analise da complexidade de pior-caso

Esta secao esta dividida em duas partes. Na primeira subsecao, um limitante de com-

plexidade e obtido para o Algoritmo 3.1 com a regra de atualizacao (3.6). Entao, sob

condicoes adicionais, um limitante de complexidade melhorado e fornecido na segunda

subsecao. Embora a convergencia do Algoritmo 3.1 tenha sido provada sob a limitacao

(3.5), para obter os resultados de complexidade considera-se a condicao mais forte:

A8 Existe uma constante κB > 0 tal que ‖Bk‖ ≤ κB para todo k.

Por conveniencia, uma iteracao k e dita ser bem sucedida quando ρk ≥ η1, muito bem

sucedida quando ρk ≥ η2 e mal sucedida quando ρk < η1. A partir desta nomenclatura,

considera-se a seguinte notacao:

S = k ≥ 1 | k muito bem sucedida , (3.35)

Sj = k ≤ j | k ∈ S , para cada j ≥ 1, (3.36)

Uj = k ≤ j | k /∈ S para cada j ≥ 1, (3.37)

Fk = min ωk, φk, ψk, χk , k ≥ 1, e (3.38)

SεF = k ∈ S |Fk > ε , ε > 0, (3.39)

49

onde Sj e Uj formam uma particao 1, . . . , j, e |Sj|, |Uj| e |SεF | denotam a cardinalidade

destes conjuntos. Alem disso, denota-se por S0 um conjunto generico de ındices tal que

S0 ⊆ SεF , (3.40)

e cuja cardinalidade e |S0|.

3.3.1 Caso geral

O lema abaixo fornece um limitante superior para |S0|.

Lema 3.6. Seja a sequencia f(xk) limitada inferiormente por flow. Dado ε > 0, sejam

SεF e S0 definidos em (3.39) e (3.40), respectivamente. Suponha que as iteradas muito

bem sucedidas xk geradas pelo Algoritmo 3.1 possuem a propriedade

mk(xk)−mk(xk + sk) ≥ αcεp, para todo k ∈ S0, (3.41)

onde p > 0, e αc e uma constante positiva independente de k. Entao,

|S0| ≤⌈κpε−p⌉ , (3.42)

onde κp ≡ (f(x1)− flow) / (η2αc).

Demonstracao. Ver Teorema 2.2 em Cartis, Gould e Toint [12].

Observacao 3.3. Conforme pontuado por Cartis, Gould e Toint [12], se (3.41) e satis-

feita com S0 = SεF , entao (3.42) implica que o Algoritmo 3.1 requer no maximo dκpε−peiteracoes muito bem sucedidas para gerar uma iterada k tal que Fk+1 ≤ ε.

O proximo resultado fornece um limitante inferior para δαk , sendo crucial para a analise

que segue.

Lema 3.7. Suponha que A1-A8 sao satisfeitas e que ε ∈ (0, 1]. Se

min φk, ψk, χk ≥ ε, para k = 1, . . . , j, (3.43)

entao existe uma constante τ > 0 independente de k e ε tal que

δαk ≥τ

1 + κBε, para k = 1, . . . , j + 1. (3.44)

Demonstracao. Pelo mesmo argumento usado na demonstracao do Lema 3.1, conclui-se

que

δαk ≥τ

Mk

, for k = 1, . . . , j + 1, (3.45)

50

onde Mk e τ sao dados por (3.9) e (3.10) respectivamente. Devido a condicao A8, tem-se a

desigualdade Mk ≤ 1 +κB para todo k. Por outro lado, as hipoteses ε ∈ (0, 1] e α ∈ (0, 1]

implicam que εα ≥ ε. Entao, por (3.10) obtem-se a desigualdade τ ≥ τ ε, onde

τ = minδα1M1, (γ1κδ)

α, γα1 /κβχ, γ

α1 κc(1− η2)/κβχκmκ

2s

e independente de k e ε. Assim, combinando essas duas observacoes com (3.45) segue-se

que

δαk ≥τ

1 + κBε, for k = 1, . . . , j + 1. (3.46)

O proximo teorema fornece um limitante de complexidade para o Algoritmo 3.1 com

a regra (3.6). A prova e baseada nas demonstracoes do Teorema 2.1 e do Corolario 3.4 em

Cartis, Gould e Toint [12], e na demonstracao do Teorema 2.4 em Cartis, Gould e Toint

[13].

Teorema 3.8. Suponha que A1-A8 sao satisfeitas e que a sequencia f(xk) e limitada

inferiormente por flow. Dado ε ∈ (0, 1], assuma que F1 > ε e seja j1 ≤ +∞ a primeira

iteracao tal que Fj1+1 ≤ ε. Entao, o Algoritmo 3.1 com a regra de atualizacao (3.6) requer

no maximo

Ls1 ≡⌈κscε−(2+β)

⌉(3.47)

iteracoes muito bem sucedidas para gerar Fj1+1 ≤ ε, onde

κsc ≡ (f(x1)− flow) / (η2αc) , αc ≡ (κc min 1, τ) /(1 + κB). (3.48)

Alem disso,

j1 ≤⌈κdε−(2+β)

⌉≡ L1, (3.49)

e, portanto, o Algoritmo 3.1 requer no maximo L1 iteracoes no total (incluindo iteracoes

bem sucedidas, muito bem sucedidas e mal sucedidas) para gerar Fj1+1 ≤ ε, onde

κd ≡(

1− log(γ−α4 )

log(γ−α3 )

)κsc +

(1 + κB)δα1τ log(γ−α3 )

.

Demonstracao. A definicao de j1 no enunciado deste teorema implica que

min φk, ψk, χk > ε, for k = 1, . . . , j1. (3.50)

51

Assim, por A7, A4, (3.50), A8, Lema 3.7 e a desigualdade εβ ≤ 1, tem-se


ε


β

≥ κcεmin

ε

1 + κB,

ετ

1 + κBεβ

=κc min

1, τ εβ

1 + κB

ε2

≥ κc min 1, τ1 + κB

ε2+β

= αcε2+β, for k = 1, . . . , j1, (3.51)

onde αc e definido por (3.48). Agora, com j = j1 em (3.36) e (3.37), Lema 3.6 com

S0 = Sj1 e p = 2 + β fornece a limitacao de complexidade

|Sj1| ≤ Ls1, (3.52)

onde Ls1 e definido por (3.47).

Por outro lado, pela regra (3.6) e o Lema 3.7, segue-se que

δαk+1 ≤ γα4 δαk , se k ∈ Sj1 ,

δαk+1 ≤ γα3 δαk , se k ∈ Uj1 ,

δαk ≥ τ

1 + κBε, para k = 1, . . . , j1 + 1.

Assim, considerando νk ≡ 1/δαk , obtem-se

α4νk ≤ νk+1, se k ∈ Sj1 , (3.53)

α3νk ≤ νk+1, se k ∈ Uj1 , (3.54)

νk ≤ νε−1, para k = 1, . . . , j1 + 1, (3.55)

onde α4 = γ−α4 ∈ (0, 1), α3 = γ−α3 > 1 e ν = (1 + κB)/τ . A partir de (3.53) e (3.54)

deduz-se indutivamente que

ν1α|Sj1 |4 α

|Uj1 |3 ≤ νj1+1.

52

Logo, por (3.55)

ν1α|Sj1 |4 α

|Uj1 |3 ≤ νε−1

=⇒ α|Sj1 |4 α

|Uj1 |3 ≤ νε−1

ν1

=⇒ log(α|Sj1 |4 α

|Uj1 |3

)≤ log

(νε−1

ν1

)≤ ν

ν1

ε−1

=⇒ |Sj1|log(α4) + |Uj1|log(α3) ≤ ν

ν1

ε−1

=⇒ |Uj1| ≤[− log(α4)

log(α3)|Sj1 |+

ν

ν1log(α3)ε−1

].

Finalmente, como j1 = |Sj1|+ |Uj1| e ε−(2+β) ≥ ε−1, obtem-se a limitacao de complexidade

j1 ≤ κscε−(2+β) +

[− log(α4)

log(α3)κscε−(2+β) +

νε−1

ν1log(α3)

]≤ κscε

−(2+β) +

[− log(α4)

log(α3)κscε−(2+β) +

ν

ν1log(α3)ε−(2+β)

]=

[(1− log(α4)

log(α3)

)κsc +

ν

ν1log(α3)

]ε−(2+β)

= κdε−(2+β).

Isto conclui a demonstracao.

Observacao 3.4. Em outras palavras, o Teorema 3.8 afirma que o Algoritmo 3.1 (com a

regra (3.6)) exige no maximo O(ε−(2+β)) iteracoes para reduzir a medida de estacionarie-

dade Fk abaixo de uma precisao ε desejada. A Tabela 3.1 abaixo resume os limitantes de

complexidade obtidos a partir deste resultado para os algoritmos mencionados na Secao

3.1.

Algoritmo β ComplexidadeAlgoritmo de regiao de confianca classico [23, 73] 0 O(ε−2)

Algoritmo ARC [11, 12] 1/2 O(ε−5/2)Regularizacao quadratica [4, 70] 1 O(ε−3)Algoritmo de regiao de confianca de Fan e Yuan [35] 1 O(ε−3)Regularizacao quadratica [99, 36] 1 O(ε−3)

Tabela 3.1: Limitantes para a complexidade de pior-caso.

3.3.2 Caso particular

Para o algoritmo ARC, o limitante de complexidade de O(ε−5/2) iteracoes derivado a

partir do Teorema 3.8 e pior do que aquele obtido por Cartis, Gould e Toint [12], o qual

e de O(ε−2) iteracoes. Nesta subsecao, refinando-se a analise, demonstra-se um limitante

53

de complexidade de O(ε−2) iteracoes para uma subclasse de metodos representada pelo

Algoritmo 3.1, a qual inclui o algoritmo ARC. Para isto, sao consideradas as condicoes

adicionais:

A9 As potencias α > 0 e β ≥ 0 satisfazem a desigualdade α + β ≤ 1.

A10 Para todo k, φk ≥ χk e ψk ≥ χk.

A11 As potencias α > 0 e β ≥ 0 satisfazem a desigualdade 2α + β ≥ 1.

A prova do proximo lema e baseada na demonstracao do Lema 3.2 em Cartis, Gould

e Toint [12].

Lema 3.9. Suponha que as condicoes A1-A8 sao satisfeitas. Alem disso, assuma que(1

δk

)αmin

χαk , χ

−βk φk, χ

−βk ψk

> max

κmκ

2s

(1− η2)κc,1 + κBκαδ

, 1 + κB

≡ κHB. (3.56)

Entao, a iteracao k e muito bem sucedida e, consequentemente,

δk+1 ≥ δk. (3.57)

Demonstracao. A desigualdade (3.56) implica que min φk, ψk, χk > 0, e entao pela

condicao A7, tem-se mk(xk)−mk(xk + sk) > 0. Assim, segue-se de (3.2) que

ρk > η2 ⇐⇒ rk ≡ f(xk + sk)− f(xk)− η2 [mk(xk + sk)−mk(xk)] < 0. (3.58)

A desigualdade (3.57) sera provada derivando-se um limitante superior negativo para rk.

Primeiro, a partir da igualdade mk(xk) = f(xk), note que

rk = [f(xk + sk)−mk(xk + sk)] + (1− η2) [mk(xk + sk)− f(xk)] . (3.59)

Um limitante para o primeiro termo em (3.59) e dado pela condicao A7:

f(xk + sk)−mk(xk + sk) ≤ κm‖sk‖2. (3.60)

Por outro lado, combinando (3.56), a condicao A8 e (3.9), tem-se(1

δk

)αχαk >

1 + κBκαδ

=⇒ καδχαk > δαk (1 + κB) ≥ δαkMk

=⇒ δkM1αk < κδχk.

Assim, a condicao A6 implica que ‖sk‖ ≤ κs∆(δk, χk), o que junto com (3.60) e a condicao

54

A4 resulta em

f(xk + sk)−mk(xk + sk) ≤ κmκ2sδ

2αk χ

2βk . (3.61)

Com respeito a segunda diferenca em (3.59), por (3.56) e A8 obtem-se(1

δk

)αχ−βk φk > 1 + κB ≥ 1 + ‖Bk‖,

e, portanto,

∆(δk, χk) = δαkχβk =

φk(1

δk

)αχ−βk φk

<φk

1 + ‖Bk‖.

Logo, pelas condicoes A5 e A7, segue-se que

f(xk)−mk(xk + sk) ≥ κcψk∆(δk, χk) = κcψkδαkχ

βk

=⇒ mk(xk + sk)− f(xk) ≤ −κcδαkχβkψk. (3.62)

Agora, (3.59), (3.61) e (3.62) fornecem o seguinte limitante superior para rk, a saber,

rk ≤ κmκ2sδ

2αk χ

2βk − (1− η2)κcδ

αkχ

βkψk

= δ2αk χ

2βk

[κmκ

2s − (1− η2)κc

(1

δk

)αχ−βk ψk

].

Mas, por (3.56), (1

δk

)αχ−βk ψk >

κmκ2s

(1− η2)κc

=⇒ (1− η2)κc

(1

δk

)αχ−βk ψk > κmκ

2s

=⇒ κmκ2s − (1− η2)κc

(1

δk

)αχ−βk ψk < 0.

Assim, rk < 0, o que significa que k e uma iteracao bem sucedida. Logo, (3.57) segue

diretamente de (3.6).

O lema abaixo fornece um limitante inferior para δk quando a sequencia de numeros

Fk = min ωk, φk, ψk, χk e limitada longe de zero. Sua prova e baseada na demonstracao

do Lema 3.3 em Cartis, Gould e Toint [12].

Lema 3.10. Suponha que as condicoes A1-A10 sao satisfeitas. Alem disso, seja ε ∈ (0, 1]

tal que Fk > ε para todo k = 1, . . . , j, onde j ≤ +∞. Entao, existe τ > 0 independente

de k e ε tal que

δk ≥ τ ε(1−β)/α for k = 1, . . . , j + 1. (3.63)

55

Demonstracao. Primeiro, prova-se por inducao sobre k que

δk ≥ min

δ1,

γ1

κ1/αHB

ε(1−β)/α

, (3.64)

para k = 1, . . . , j + 1, onde κHB e definida como sendo a constante no lado direito de

(3.56). Claramente, (3.64) vale para k = 1. Assume-se entao que (3.64) e verdadeira

para k ∈ 1, . . . , j e prova-se que ela tambem e verdadeira para k + 1. De fato, pelas

desigualdades φk, ψk ≥ χk (devido a A10), Fk > ε ∈ (0, 1] e 0 < α ≤ (1 − β) (devido a

A9), segue-se que

minχαk , χ

−βk φk, χ

−βk ψk

≥ min

χαk , χ

(1−β)k

> min

εα, ε(1−β)

= ε(1−β). (3.65)

Portanto, por (3.56), Lema 3.9 e a hipotese de inducao, se(1

δk

)αε(1−β) > κHB, (3.66)

entao

δk+1 ≥ δk ≥ min

δ1,

γ1

κ1/αHB

ε(1−β)/α

, (3.67)

e assim, (3.64) vale para k + 1.

Agora, suponha que (3.66) nao e verdadeira. Entao(1

δk

)αε(1−β) ≤ κHB

=⇒ 1

δkε(1−β)/α ≤ κ

1/αHB

=⇒ δk ≥1

κ1/αHB

ε(1−β)/α

e pela regra (3.6) ve-se que (3.64) vale para k + 1:

δk+1 ≥ γ1δk ≥γ1

κ1/αHB

ε(1−β)/α ≥ min

δ1,

γ1

κ1/αHB

ε(1−β)/α

.

Finalmente, como ε(1−β)/α ≤ 1, por (3.64) conclui-se que, para k = 1, . . . , j + 1,

δk ≥ min

δ1,

γ1

κ1/αHB

ε(1−β)/α = τ ε(1−β)/α, (3.68)

56

onde τ e independente de k e ε.

Agora e possıvel estabelecer um limitante de complexidade para o caso particular em

consideracao. A prova e uma adaptacao direta da demonstracao do Teorema 3.8.

Teorema 3.11. Suponha que A1-A10 sao satisfeitas e que a sequencia f(xk) e limitada

inferiormente por flow. Dado ε ∈ (0, 1], assuma que F1 > ε e seja j1 ≤ +∞ a primeira

iteracao tal que Fj1+1 ≤ ε. Entao, o Algoritmo 3.1 com a regra de atualizacao (3.6) requer

no maximo

Ls1 ≡⌈κscε−2⌉

(3.69)

iteracoes muito bem sucedidas para gerar Fj1+1 ≤ ε, onde

κsc ≡ (f(x1)− flow) /(η2αc), αc = κc min 1/(1 + κB), τα . (3.70)

Adicionalmente, suponha que a condicao A11 e satisfeita. Entao,

j1 ≤⌈κdε−2⌉≡ L1, (3.71)

e, portanto, o Algoritmo 3.1 requer no maximo L1 iteracoes (bem sucedidas, muito bem

sucedidas e mal sucedidas) para gerar Fj1+1 ≤ ε, onde

κd ≡(

1− log(γ−14 )

log(γ−13 )

)κsc +

δ1

τ log(γ−13 )

.

Demonstracao. A definicao de j1 no enunciado deste teorema implica que

min φk, ψk, χk > ε, for k = 1, . . . , j1. (3.72)

Assim, por A7, A4, (3.72), A8 e o Lema 3.10,


ε


β

≥ κcεmin

ε

1 + κB,(τ ε(1−β)/α

)αεβ

= κcεmin

ε

1 + κB, ταε

= κc min

1

1 + κB, ταε2

= αcε2, for k = 1, . . . , j1, (3.73)

onde αc e definido por (3.70). Agora, com j = j1 em (3.36) e (3.37), o Lema 3.6 com

S0 = Sj1 e p = 2 fornece o limitante de complexidade

|Sj1| ≤ Ls1, (3.74)

57

onde Ls1 e definido por (3.69).

Por outro lado, a partir da regra (3.6) e do Lema 3.10 segue-se que

δk+1 ≤ γ4δk, se k ∈ Sj1 ,

δk+1 ≤ γ3δk, se k ∈ Uj1 ,

δk ≥ τ ε(1−β)/α, para k = 1, . . . , j1 + 1.

Assim, considerando νk ≡ 1/δk, tem-se

α4νk ≤ νk+1, se k ∈ Sj1 , (3.75)

α3νk ≤ νk+1, se k ∈ Uj1 , (3.76)

νk ≤ νε−(1−β)/α, para k = 1, . . . , j1 + 1, (3.77)

onde α4 = γ−14 ∈ (0, 1), α3 = γ−1

3 > 1 e ν = τ−1. Combinando (3.75) e (3.76), deduz-se

indutivamente que

ν1α|Sj1 |4 α

|Uj1 |2 ≤ νj1+1.

Logo, por (3.77)

ν1α|Sj1 |4 α

|Uj1 |3 ≤ νε−(1−β)/α

=⇒ α|Sj1 |4 α

|Uj1 |3 ≤ νε−(1−β)/α

ν1

=⇒ log(α|Sj1 |4 α

|Uj1 |3

)≤ log

(νε−(1−β)/α

ν1

)≤ ν

ν1

ε−(1−β)/α

=⇒ |Sj1|log(α4) + |Uj1|log(α3) ≤ ν

ν1

ε−(1−β)/α

=⇒ |Uj1 | ≤[− log(α4)

log(α3)|Sj1|+

ν

ν1log(α3)ε−(1−β)/α

].

Finalmente, como j1 = |Sj1|+|Uj1 | e ε−2 ≥ ε−(1−β)/α (devido a condicao A11), obtem-se

a limitacao

j1 ≤ κscε−2 +

[− log(α4)

log(α3)κscε−2 +

ν

ν1log(α3)ε−(1−β)/α

]≤ κscε

−2 +

[− log(α4)

log(α3)κscε−2 +

ν

ν1log(α3)ε−2

]=

[(1− log(α4)

log(α3)

)κsc +

ν

ν1log(α3)

]ε−2

= κdε−2.

58

Isto conclui a demonstracao.

Observacao 3.5. Note que as condicoes A9-A11 sao satisfeitas para o algoritmo ARC

[11, 12], no qual α = β = 1/2 e φ = ψ = χ. Assim, o Teorema 3.11 fornece o limitante

de complexidade de O(ε−2) iteracoes ja conhecido para este algoritmo.

3.4 Estudo de Caso

Considere o algoritmo de regiao de confianca proposto por Fan e Yuan [35].

Algoritmo 3.2. Algoritmo Fan-Yuan

Passo 0 Dados x1 ∈ Rn, B1 ∈ Rn×n, µ1 > 0, 0 < γ2 < 1 < γ4, 0 ≤ η1 ≤ η2 < 1 e

∆1 = µ1‖∇f(x1)‖, defina k := 1.

Passo 1 Obtenha um passo sk resolvendo o subproblema de regiao de confianca

mins∈Rn

mk(xk + sk) ≡ f(xk) +∇f(xk)T s+

1

2sTBks,

s. a. ‖s‖ ≤ ∆k.


ρk =f(xk)− f(xk + sk)

mk(xk)−mk(xk + sk),

defina a proxima iterada como

xk+1 =


xk, caso contrario,

escolha o parametro µk+1 pela regra de atualizacao

µk+1 =

γ2µk, se ρk < η2,

γ4µk, se ρk ≥ η2 e ‖sk‖ > ∆k/2,

µk, caso contrario,

(3.78)

e calcule

∆k+1 = µk+1‖∇f(xk+1)‖. (3.79)


Conforme visto na Secao 3.1, o Algoritmo 3.2 e um caso particular do Algoritmo 3.1

onde


1

2sTBks,

ω(x) = 1, φ(x) = ψ(x) = χ(x) = ‖∇f(x)‖,

59

δ = µ, α = 1, β = 1.

Alem disso, note que (3.78) se enquadra na regra de atualizacao modificada (3.6). Assim,

como ja foi constatado na Observacao 3.4, segue do Teorema 3.8 que o Algoritmo 3.2 exige

no maximo O(ε−3) iteracoes para reduzir ‖∇f(xk)‖ abaixo de uma precisao ε desejada.

Por outro lado, se no Algoritmo 3.2 o raio de regiao de confianca e calculado como

∆k = µαk‖∇f(xk)‖β,

onde α + β ≤ 1 e 2α + β ≥ 1, entao pelo Teorema 3.11 o algoritmo resultante exigira no

maximo O(ε−2) iteracoes para reduzir ‖∇f(xk)‖ abaixo de uma precisao ε desejada.

Esta observacao sugere que uma versao modificada do Algoritmo 3.2, com o raio de

regiao de confianca ∆k = µ1/2k ‖∇f(xk)‖1/2 em lugar de (3.79), por exemplo, pode ser

mais eficiente que a versao original em relacao ao numero de iteracoes. A fim de testar

essa hipotese, experimentos numericos foram realizados considerando 34 problemas de oti-

mizacao irrestrita reportados em More, Garbow e Hillstrom [66], com dimensao variando

de 2 a 20 variaveis1. Os algoritmos foram implementados em MATLAB, sendo que os

testes foram realizados com MATLAB 7.12.0 (R2011a), em um PC com microprocessa-

dor 2.52 GHz Intel(R) Core(TM) i3 e 1.87 GB de RAM. No que segue, a implementacao

do Algoritmo 3.2 sera referida como “FYtr”, enquanto a implementacao da sua versao

modificada sera referida como “MFYtr”.

Em ambos os codigos, FYtr e MFYtr, os parametros no Passo 0 sao µ1 = 1, γ2 = 1/6,

γ4 = 6, η1 = 0.0001, η2 = 0.25 e ∆1 = ‖∇f(x1)‖2. A matriz B1 e a matriz identidade,

enquanto que Bk e atualizada pela formula BFGS

Bk+1 = Bk −Bksks

TkBk

sTkBksk+yky

Tk

sTk yk,

onde sk = xk+1 − xk e yk = ∇f(xk+1)−∇f(xk). Alem disso, o subproblema de regiao de

confianca e resolvido pelo metodo More-Sorensen [67]. Especificamente, a unica diferenca

entre os codigos FYtr e MFYtr e que neste ultimo o raio de regiao de confianca e dado

por

∆k = µ1/2k ‖∇f(xk)‖1/2

2 .

Como criterio de parada, a execucao dos codigos foi interrompida quando um numero

maximo de 1000 iteracoes foi atingido ou quando

‖∇f(xk)‖2 ≤ 10−8. (3.80)

1Os problemas teste, implementados em MATLAB, foram obtidos a partir do websitehttp://www.mat.univie.ac.at/˜neum/glopt/moretest/. O unico problema da colecao More-Garbow-Hillstrom que nao foi considerado foi o problema “Chebyquad”.

60

No caso em que o criterio (3.80) foi satisfeito, declara-se que o problema foi resolvido.

Problemas e resultados sao dados na Tabela 3.2, onde “n” representa o numero de

variaveis, “m” representa o numero de funcoes coordenadas da funcao que forma a funcao

objetivo (ver [66]), “Iter” representa o numero de iteracoes, f(x) fornece o valor otimo da

funcao objetivo retornado pelo codigo, e uma entrada “F” indica que o numero maximo

de iteracoes foi atingido sem que o criterio (3.80) fosse satisfeito.

Dim FYtr MFYtrProblema n m Itr f(x) Iter f(x)01. Rosenbrock 2 2 51 1.3104E-20 46 5.3064E-2302. Freudenstein-Roth 2 2 16 5.9218E-24 18 2.6130E-2403. Powell badly scaled 2 2 272 1.0161E-28 228 0.0000E+0004. Brown badly scaled 2 3 F 5.9934E-11 71 1.3552E-2005. Beale 2 3 16 1.1987E-19 18 2.2455E-1806. Jennrich-Sampson 2 10 5 2.0200E+03 2 2.0200E+0307. Helical valley 3 3 38 1.6091E-23 33 3.4444E-2008. Bard 3 15 23 8.2149E-03 27 8.2149E-0309. Gaussian 3 15 6 1.1279E-08 11 1.1279E-0810. Meyer 3 16 F 8.7946E+01 F 8.7946E+0111. Gulf 3 100 41 1.1302E-18 48 4.0706E-2012. Box 3 3 39 5.1589E-19 39 7.4004E-1813. Powell singular 4 4 45 6.7548E-13 56 5.3757E-1414. Wood 4 6 95 7.0887E-23 58 1.8222E-2315. Kowalik-Osborne 4 11 32 3.0750E-04 40 3.0750E-0416. Brown-Dennis 4 4 75 1.0505E-05 61 1.0505E-0517. Osborne 1 5 33 97 5.4649E-05 92 5.4649E-0518. Biggs EXP6 6 6 48 3.5505E-05 42 3.5505E-0519. Osborne 2 11 65 75 4.0138E-02 73 4.0138E-0220. Watson 9 31 80 1.3998E-06 79 1.3998E-0621. Extended Rosenbrock 20 20 218 1.9713E-20 180 5.9733E-2022. Extended Powell singular 12 12 87 3.9091E-13 95 2.3486E-1223. Penalty I 10 11 218 7.0876E-05 193 7.0876E-0524. Penalty II 10 20 F 2.9366E-04 437 2.9366E-0425. Variably dimensioned 10 12 30 5.4808E-21 25 1.5636E-2326. Trigonometric 10 10 F 5.1769E-05 F 5.0633E-0527. Brown almost-linear 10 10 56 9.5452E-29 40 1.4251E-1928. Discrete boundary value 8 8 31 2.6406E-19 28 8.9721E-1929. Discrete integral equation 8 8 15 9.4087E-18 15 1.1022E-1730. Broyden tridiagonal 12 12 86 4.1640E-19 68 3.1484E-1931. Broyden banded 15 15 F 3.0765E+00 F 3.0765E+0032. Linear 10 10 3 1.1685E-29 4 9.0423E-2933. Linear-1 10 10 9 2.1428E+00 9 2.1428E+0034. Linear-0 10 10 9 3.6470E+00 8 3.6470E+00

Tabela 3.2: Resultados numericos para problemas da colecao More-Garbow-Hillstrom.

Tendo por base os resultados numericos apresentados na Tabela 3.2, a Figura 3.1

mostra o perfil de desempenho dos codigos FYtr e MFYtr. Observa-se que o codigo

MFYtr exigiu menos iteracoes que FYtr em cerca de 65% dos problemas, enquanto FYtr

exigiu menos iteracoes que MFYtr em apenas 35% dos problemas. Alem disso, dentro

do limite de 1000 iteracoes, MFYtr foi capaz de resolver 91% dos problemas, enquanto

FYtr resolveu cerca de 85% dos problemas testados. Em resumo, o codigo MFYtr, o qual

61

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

τ

ρ(τ)


FYtrMFYtr

Figura 3.1: Perfil de Desempenho para problemas da colecao More-Garbow-Hillstrom.

foi sugerido a partir da analise de complexidade, mostrou-se relativamente mais rapido e

mais robusto que o codigo FYtr no conjunto de problemas considerado.

Este exemplo ilustra o fato de que, embora a analise de complexidade de pior-caso seja

um topico de interesse principalmente teorico, os resultados aqui apresentados tambem

podem sugerir e motivar o desenvolvimento de algoritmos mais eficientes.

3.5 Extensoes

Conforme pontuado por Toint [89], a abordagem de controle nao linear do tamanho do

passo nao esta limitada a problemas de otimizacao sem restricoes. Ela pode ser esten-

dida, por exemplo, para algoritmos de regiao de confianca baseados em projecoes para

a otimizacao de uma funcao f (possivelmente nao-convexa) sobre um conjunto convexo

C. Nesta secao, a abordagem de controle nao-linear do tamanho do passo e os resultados

das secoes anteriores sao estendidos para algoritmos destinados a otimizacao composta

nao-suave e a otimizacao multiobjetivo sem restricoes.

3.5.1 Otimizacao composta nao-suave

Considere o problema de otimizacao composta nao-suave

minx∈Rn

Φ(x) ≡ f(x) + h(c(x)), (3.81)

onde f : Rn → R e c : Rn → Rr sao continuamente diferenciaveis e h : Rr → R e convexa

mas pode ser nao-suave.

Teorema 3.12. Suponha que a funcao Φ dada em (3.81) seja localmente Lipschitz em

relacao ao ponto x∗ ∈ Rn. Entao, x∗ e um ponto Clarke estacionario2 para o problema

2Ver Definicao 1.14.

62

(3.81) se, e somente se

f(x∗) + h(c(x∗)) ≤ f(x∗) +∇f(x∗)T s+ h(c(x∗) + Jc(x∗)s), ∀s ∈ Rn, (3.82)

Demonstracao. Ver Fletcher [37] e Yuan [95, 96].

Para cada x ∈ Rn, defina

l(x, s) ≡ f(x) +∇f(x)T s+ h(c(x) + Jc(x)s), ∀s ∈ Rn. (3.83)

Entao, para todo r > 0, seja

ξr(x) ≡ l(x, 0)− min‖s‖≤r

l(x, s). (3.84)

Seguindo Cartis, Gould e Toint [13], como medida de estacionariedade para o problema

(3.81), sera utilizada a seguinte quantidade

ξ1(x) ≡ l(x, 0)− min‖s‖≤1

l(x, s). (3.85)

Esta escolha e justificada pelo lema abaixo, o qual foi parcialmente considerado por Cartis,

Gould e Toint [13].

Lema 3.13. Seja ξ1 : Rn → R definida por (3.85), e seja Ω um subconjunto limitado

de Rn. Suponha que h : Rr → R e convexa e que f : Rn → R e c : Rn → Rr sao

continuamente diferenciaveis. Entao:

(a) ξ1 e contınua sobre Ω;

(b) ξ1(x) ≥ 0 para todo x ∈ Rn;

(c) x∗ e um ponto Clarke estacionario para (3.81)⇐⇒ ξ1(x∗) = 0.

Demonstracao. (a): Fixados x ∈ Ω e ε > 0, seja y ∈ Ω e assuma (sem perda de generali-

dade) que ξ1(x) ≥ ξ1(y). Alem disso, seja s ∈ B[0; 1] ⊂ Rn tal que o mınimo na expressao

(3.85) e obtido. Como Ω e limitado e as funcoes c e Jc sao contınuas, segue-se que existe

um conjunto compacto Ωc tal que

c(x), c(y), c(x) + Jc(x)s, c(y) + Jc(y)s ⊂ Ωc.

Alem disso, como h : Rr → R e convexa e Ωc ⊂ Rr e compacto, segue do Teorema 24.7 em

Rockafellar [82] que h e Lipschitz sobre Ωc, com constante Lipschitz, digamos, Lh. Por

63

(3.85) e (3.83), tem-se

|ξ1(x)− ξ1(y)| = ξ1(x)− ξ1(y)

= l(x, 0)− l(y, 0) + min‖s‖≤1

l(y, s)− min‖s‖≤1

l(x, s)

= l(x, 0)− l(y, 0) + min‖s‖≤1

l(y, s)− l(x, s)

≤ l(x, 0)− l(y, 0) + l(y, s)− l(x, s)

= f(x) + h(c(x))− [f(y) + h(c(y))] + f(y) +∇f(y)T s

+h(c(y) + Jc(y)s)−[f(x) +∇f(x)T s+ h(c(x) + Jc(x)s)

]= [h(c(x))− h(c(y))] + (∇f(y)−∇f(x))T s

+ [h(c(y) + Jc(y)s)− h(c(x) + Jc(x)s)]

Entao, usando a propriedade Lipschitz de h e a desigualdade triangular, segue-se que

|ξ1(x)− ξ1(y)| ≤ Lh‖c(x)− c(y)‖+ ‖∇f(y)−∇f(x)‖

+Lh‖(c(y)− c(x)) + (Jc(y)− Jc(x))s‖

≤ 2Lh‖c(x)− c(y)‖+ ‖∇f(y)−∇f(x)‖

+Lh‖Jc(y)− Jc(x)‖. (3.86)

Por outro lado, pela continuidade de c, ∇f e Jc, existem numeros u1, u2, u3 > 0 tais que

‖c(x)− c(y)‖ < ε

6Lh, se y ∈ B(x;u1),

‖∇f(y)−∇f(x)‖ < ε

3, se y ∈ B(x;u2),

e

‖Jc(y)− Jc(x)‖ < ε

3Lh, se y ∈ B(x;u3).

Assim, para u = min u1, u2, u3, segue-se de (3.86) que

|ξ1(x)− ξ1(y)| < ε, se y ∈ B(x;u). (3.87)

Como x ∈ S e ε > 0 sao arbitrarios, isto prova que ξ1 e contınua sobre Ω.

Demonstracao (b): Para todo x ∈ Rn, tem-se l(x, 0) ≥ min‖s‖≤1 l(x, s), e portanto

ξ1(x) = l(x, 0)− min‖s‖≤1

l(x, s) ≥ 0, para todo x. (3.88)

Demonstracao (c) (=⇒): Seja x∗ um ponto Clarke estacionario para (3.81). Entao, pelo

64

Teorema 3.12 e por (3.83) segue-se que

f(x∗) + h(c(x∗)) ≤ f(x∗) +∇f(x∗)T s+ h(c(x∗) + Jc(x∗)s), ∀s ∈ Rn

=⇒ l(x∗, 0) ≤ l(x∗, s), ∀s ∈ Rn

=⇒ l(x∗, 0) ≤ min‖s‖≤1

l(x∗, s)

=⇒ ξ1(x∗) = l(x∗, 0)− min‖s‖≤1

l(x∗, s) ≤ 0

=⇒ ξ1(x∗) = 0,

onde a ultima linha segue da linha anterior devido ao item (b).

Demonstracao (c) (⇐=): Reciprocamente, suponha que ξ1(x∗) = 0. Entao,

l(x∗, 0) = min‖s‖≤1

l(x∗, s)

=⇒ f(x∗) + h(c(x∗)) ≤ f(x∗) +∇f(x∗)T s+ h(c(x∗) + Jc(x∗)s), ∀s ∈ B[0; 1]. (3.89)

Para s ∈ Rn com ‖s‖ > 1, considere θ = 1/‖s‖ ∈ (0, 1). Entao, usando (3.89) e a

convexidade de h, obtem-se

l(x∗, 0) ≤ l(x∗, θs)

= f(x∗) + θ∇f(x∗)T s+ h(c(x∗) + θJc(x∗)s)

= f(x∗) + θ∇f(x∗)T s+ h ((1− θ)c(x∗) + θ(c(x∗) + Jc(x∗)s))

≤ f(x∗) + θ∇f(x∗)T s+ (1− θ)h(c(x∗)) + θh(c(x∗) + Jc(x∗)s)

=⇒ f(x∗) + h(c(x∗)) ≤ f(x∗) + θ∇f(x∗)T s+ (1− θ)h(c(x∗)) + θh(c(x∗) + Jc(x∗)s)

=⇒ 0 ≤ θ∇f(x∗)T s− θh(c(x∗)) + θh(c(x∗) + Jc(x∗)s)

=⇒ θh(c(x∗)) ≤ θ∇f(x∗)T s+ θh(c(x∗) + Jc(x∗)s)

=⇒ θ [f(x∗) + h(c(x∗))] ≤ θ[f(x∗) +∇f(x∗)T s+ h(c(x∗) + Jc(x

∗)s)]

=⇒ f(x∗) + h(c(x∗)) ≤ f(x∗) +∇f(x∗)T s+ h(c(x∗) + Jc(x∗)s). (3.90)

Como s ∈ Rn com ‖s‖ > 1 e arbitrario, combinando (3.89) e (3.90), conclui-se que x∗

satisfaz (3.82) e, portanto, x∗ e um ponto Clarke estacionario para o problema (3.81).

Observacao 3.6. A prova do item (a) acima e baseada na demonstracao do Lema 2 em

Powell [75].

Agora, considere o seguinte algoritmo de regiao de confianca, o qual e uma modificacao

do algoritmo proposto por Fletcher [37].

65

Algoritmo 3.3. Algoritmo de regiao de confianca para otimizacao composta nao-suave

Passo 0 Dados x1 ∈ Rn, B1 ∈ Rn×n, ∆ > 0, ∆1 ∈(0, ∆

], 0 < γ1 < γ2 < γ3 < 1 < γ4 e

0 ≤ η1 ≤ η2 < 1 (η2 6= 0), defina k := 1.

Passo 1 Seja D∗k o conjunto solucao do subproblema

mins∈Rn

mk(xk + s) ≡ f(xk) +∇f(xk)T s+ h(c(xk) + Jc(xk)s) +

1

2sTBks, (3.91)

s. a. ‖s‖ ≤ ∆k. (3.92)

Calcule um passo sk para o qual ‖sk‖ ≤ ∆k e

mk(xk)−mk(xk + sk) ≥ γ0 [mk(xk)−mk(xk + s∗k)] , (3.93)

onde s∗k ∈ D∗k e γ0 ∈ (0, 1) e uma constante independente de k.


ρk =Φ(xk)− Φ(xk + sk)

mk(xk)−mk(xk + sk), (3.94)

defina a proxima iterada por

xk+1 =



e escolha o raio da regiao de confianca ∆k+1 pela regra de atualizacao

∆k+1 ∈

[γ1∆k, γ2∆k] , se ρk < η1,

[γ2∆k, γ3∆k] , se ρk ∈ [η1, η2),[∆k,min

γ4∆k, ∆

], se ρk ≥ η2.

(3.96)


Observacao 3.7. Se Bk = 0 para todo k, e o passo sk e uma solucao do subproblema

(3.91)-(3.92), entao o Algorimo 3.3 reduz-se a um caso do algoritmo proposto por Cartis,

Gould e Toint [13]. Por outro lado, quando f = 0, o Algoritmo 3.3 reduz-se a um caso

dos algoritmos propostos por Powell [75] e Yuan [95] para o problema minx∈Rn h(c(x)).

Sob certas condicoes (e substituindo f por Φ e a medida de estacionariedade ‖∇f(x)‖por ξ1(x) em A1 e A2), o Algoritmo 3.3 e um caso particular do Algoritmo 3.1 com as

escolhas:

mk(xk + s) ≡ f(xk) +∇f(xk)T s+ h(c(xk) + Jc(xk)s) +

1

2sTBks,

ω(x) = 1, φ(x) = ψ(x) = χ(x) = ξ1(x),

δ = ∆, α = 1, β = 0.

(3.97)

Especificamente, considere as condicoes abaixo:

66

C1 A funcao h : Rm → R e convexa e contınua;

C2 As funcoes f : Rn → R e c : Rn → Rm sao continuamente diferenciaveis;

C3 A funcao gradiente de f , ∇f : Rn → Rn, e a funcao Jacobiano de c, Jc : Rn → Rm×n,

sao Lipschitz contınuas sobre [xk, xk + sk] para todo k, com constantes Lf ≥ 1 e LJ ,

respectivamente;

C4 Existe uma constante κB > 0 tal que ‖Bk‖ ≤ κB para todo k;

C5 Existe um conjunto limitado Ω ⊂ Rn tal que xk e xk + sk pertence a Ω para todo k.

Observacao 3.8. Pelas condicoes C2 e C5, segue-se que existe um conjunto compacto

Ωc tal que, para todo k,

c(xk), c(xk + sk), c(xk) + Jc(xk)sk ⊂ Ωc.

Alem disso, por C1 e pelo Teorema 24.7 em Rockafellar [82], h e Lipschitz sobre Ωc com

constante Lipschitz Lh > 0.

Note que as condicoes A1 e A2 seguem do Lema 3.13, enquanto a condicao A3 e

satisfeita devido a C5 e a continuidade de ξ1 (Lema 3.13(a)). Por outro lado, pelo Passo

1 no Algoritmo 3.3, tem-se ‖sk‖ ≤ ∆k para todo k. Assim, A4 e A6 sao naturalmente

satisfeitas. Com respeito a A5, de (3.91) segue-se que mk(xk) = Φ(xk). A segunda parte

de A5 e fornecida pelo seguinte resultado.

Lema 3.14. Suponha que C1-C5 sao satisfeitas. Entao, existe uma constante κm > 0 tal

que para todo k,

Φ(xk + sk)−mk(xk + sk) ≤ κm‖sk‖2. (3.98)

Demonstracao. Pela Observacao 3.8 e pela condicao C4, segue-se que

Φ(xk + sk)−mk(xk + sk)

= f(xk + sk) + h(c(xk + sk))− f(xk)−∇f(xk)T sk − h(c(xk) + Jc(xk)sk)

− 1

2sTkBksk

≤ |f(xk + sk)− f(xk)−∇f(xk)T sk|+ |h(c(xk + sk))− h(c(xk) + Jc(xk)sk)|

+1

2‖Bk‖‖sk‖2

≤ |f(xk + sk)− f(xk)−∇f(xk)T sk|+ Lh‖c(xk + sk)− c(xk)− Jc(xk)sk‖

+κB2‖sk‖2. (3.99)

67

Por outro lado, de C2 e C3 obtem-se3

|f(xk + sk)− f(xk)−∇f(xk)T sk| ≤

Lf2‖sk‖2 (3.100)

e

‖c(xk + sk)− c(xk)− Jc(xk)sk‖ ≤LJ2‖sk‖2. (3.101)

Agora, combinando (3.99)-(3.101), segue-se a desigualdade

Φ(xk + sk)−mk(xk + sk) ≤1

2(Lf + LhLJ + κB) ‖sk‖2, (3.102)

donde obtem-se (3.98) com κm = (Lf + LhLJ + κB) /2.

Resta ainda provar que A7 e satisfeita. Para tanto, considere o seguinte lema.

Lema 3.15. Suponha que C1 e satisfeita e seja r > 0. Entao, para todo x

ξr(x) ≥ min 1, r ξ1(x). (3.103)

Demonstracao. Ver Lema 2.1 em Cartis, Gould e Toint [13].

Agora, a condicao A7 segue a partir do lema abaixo, cuja prova e baseada na demons-

tracao do Lema 2.2 em Yuan [95].

Lema 3.16. Suponha que C1 e satisfeita. Entao, existe uma constante κc ∈ (0, 1) tal

que, para todo k,

mk(xk)−mk(xk + sk) ≥ κcξ1(xk) min

ξ1(xk)

1 + ‖Bk‖,∆k

. (3.104)

Demonstracao. Seja s∗k uma solucao do subproblema (3.91)-(3.92). Entao, para todo

s ∈ B[0,∆k],

mk(xk + s∗k) ≤ mk(xk + s),

=⇒ −mk(xk + s∗k) ≥ −mk(xk + s),

=⇒ mk(xk)−mk(xk + s∗k) ≥ mk(xk)−mk(xk + s). (3.105)

Como h e contınua (por C1), l(x, .) tambem e contınua. Entao, pelo Teorema de

Weierstrass, existe sk ∈ B[0,∆k] tal que

min‖s‖≤∆k

l(xk, s) = l(xk, sk). (3.106)

Agora, usando (3.105), (3.106), a convexidade de h e a desigualdade de Cauchy-Schwarz,

3Ver Teorema 1.2.22 em Sun e Yuan [87].

68

para todo θ ∈ [0, 1] obtem-se:

mk(xk)−mk(xk + s∗k) ≥ mk(xk)−mk(xk + θsk)

= f(xk) + h(c(xk))− f(xk)− θ∇f(xk)T sk

−h(c(xk) + θJc(xk)sk)−θ2

2sTkBksk

= h(c(xk))− θ∇f(xk)T sk − h ((1− θ)c(xk) + θ (c(xk) + Jc(xk)sk))

−θ2

2〈sk, Bksk〉

≥ h(c(xk))− θ∇f(xk)T sk − (1− θ)h(c(xk))

−θh (c(xk) + Jc(xk)sk)−θ2

2‖Bk‖‖sk‖2

≥ θ[h(c(xk))−∇f(xk)

T sk − h(c(xk) + Jc(xk)sk)]− θ2

2‖Bk‖∆2

k

= θ [l(xk, 0)− l(xk, sk)]−1

2‖Bk‖∆2

kθ2

≥ θξ∆k(xk)−

1

2(1 + ‖Bk‖)∆2

kθ2. (3.107)

Como a desigualdade (3.107) e satisfeita para todo θ ∈ [0, 1], conclui-se que

mk(xk)−mk(xk + s∗k) ≥ sup0≤θ≤1

θξ∆k

(xk)−1

2(1 + ‖Bk‖)∆2

kθ2

≥ 1

2min

ξ∆k

(xk),[ξ∆k

(xk)]2

(1 + ‖Bk‖)∆2k

. (3.108)

Por (3.93), (3.108) e o Lema 3.15, obtem-se

mk(xk)−mk(xk + sk) ≥γ0

2min 1,∆k ξ1(xk) min

1,

min 1,∆k ξ1(xk)

(1 + ‖Bk‖)∆2k

. (3.109)

Se ∆ ≤ 1, entao ∆k ≤ 1, e (3.109) reduz-se a (3.104) com κc = γ0/2. Assim, pode-se

supor que ∆ > 1. Neste caso, se ∆k ≥ 1, segue-se de (3.109) e ∆k ≤ ∆ ≤ ∆2 que


2ξ1(xk) min

1,

ξ1(xk)

(1 + ‖Bk‖)∆2k

≥ γ0

2ξ1(xk) min

1,

ξ1(xk)

(1 + ‖Bk‖)∆2

≥ γ0

2ξ1(xk) min

∆k

∆2,

ξ1(xk)

(1 + ‖Bk‖)∆2

=

γ0

2∆2ξ1(xk) min

∆k,

ξ1(xk)

1 + ‖Bk‖

. (3.110)

69

Por outro lado, se ∆k < 1, entao as desigualdades (3.109) e ∆2 > 1 implicam que


2∆kξ1(xk) min

1,

∆kξ1(xk)

(1 + ‖Bk‖)∆2k

=

γ0

2ξ1(xk) min

∆k,

ξ1(xk)

1 + ‖Bk‖

≥ γ0

2∆2ξ1(xk) min

∆k,

ξ1(xk)

1 + ‖Bk‖

, (3.111)

o que combinado com (3.110) fornece (3.104) com κc = γ0/2∆2. Portanto, conclui-se que

(3.104) vale com κc = minγ0, γ0/∆

2/2.

Assim, o Algoritmo 3.3 e um caso particular do Algoritmo 3.1 (com a regra de atua-

lizacao (3.6)). Pela teoria apresentada na Secao 3.3, obtem-se entao o seguinte resultado

de complexidade de pior-caso para otimizacao composta nao-suave.

Teorema 3.17. Suponha que C1-C5 sao satisfeitas e que a sequencia Φ(xk) e limitada

inferiormente. Entao, para reduzir a medida de estacionariedade ξ1(x) abaixo de ε ∈ (0, 1],

o Algoritmo 3.3 requer no maximo O(ε−2) iteracoes.

Observacao 3.9. A ordem do limitante de complexidade dado acima e a mesma que foi

provada por Cartis, Gould e Toint [13] para um algoritmo de regiao de confianca e para

um metodo de regularizacao quadratica de primeira ordem, os quais exigem uma solucao

exata dos respectivos subproblemas a cada iteracao. Entretanto, o resultado apresentado

aqui e mais geral, no sentido de que o Algoritmo 3.3 pode empregar informacao de segunda

ordem nos modelos mk(xk + s) e requer apenas uma solucao aproximada do subproblema

a cada iteracao.

Conforme discutido por Toint [89], a abordagem de controle nao-linear do tamanho

do passo tambem pode ser usada no desenvolvimento de novos algoritmos. No caso do

problema de otimizacao composta nao-suave, uma generalizacao do Algoritmo 3.3 e obtida

com as relaxacoes α ∈ (0, 1] e β ∈ [0, 1] em (3.97). Pelos Teoremas 3.8 e 3.11, tal algoritmo

de regiao de confianca exige O(ε−(2+β)) iteracoes para reduzir ξ1(x) abaixo de ε ∈ (0, 1], e

este limitante e ainda reduzido para O(ε−2) quando α + β ≤ 1 e 2α + β ≥ 1.

3.5.2 Otimizacao multiobjetivo sem restricoes

Nesta subsecao, a abordagem de controle nao-linear do tamanho do passo sera estendida

para o problema de otimizacao multiobjetivo sem restricoes

minx∈Rn

f(x) ≡ (f1(x), . . . , fm(x))T . (3.112)

A fim de estender o Algoritmo 3.1 para resolver problemas de otimizacao multiobjetivo

sem restricoes, considere as condicoes abaixo:

70

A1’ Existe uma funcao contınua, limitada e nao-negativa ω : Rn → R tal que, se ω(x) =

0 entao x e um ponto Pareto crıtico para (3.112) (ver Definicao 1.23).

A2’ Existem tres funcoes contınuas nao-negativas φ, ψ, χ : Rn → R, possivelmente inde-

finidas nas raızes de ω(x), tais que, se ω(x) > 0 e min φ(x), ψ(x), χ(x) = 0 entao

x e um ponto Pareto crıtico de f .

A3’ Existe κχ > 0 tal que

χk ≤ κχ para todo k. (3.113)

A4’ A funcao ∆ : [0,+∞) × [0,+∞) → R definindo o raio de regiao de confianca e da

forma

∆(δ, χ) = δαχβ, (3.114)

para potencias α ∈ (0, 1] e β ∈ [0, 1];

A5’ Para todo k ≥ 1, o modelo mk(xk + s) : Rn → R e a funcao merito Λ : Rn → Rsatisfazem

mk(xk) = Λ(xk) e Λ(xk + sk)−mk(xk + sk) ≤ κm‖sk‖2, (3.115)

onde κm > 0 e uma constante.

A6’ O passo sk satisfaz a limitacao

‖sk‖ ≤ κs∆(δk, χk), sempre que δkM1αk ≤ κδχk, (3.116)

para constantes κs ≥ 1 e κδ > 0, onde Mk e definida por (3.9).

A7’ O passo sk produz um decrescimo no modelo, o qual e suficiente no sentido de que

mk(xk)−mk(xk + sk) ≥ κcψk min

φk

1 + ‖Bk‖,∆(δk, χk)

, (3.117)

para alguma constante κc ∈ (0, 1), e onde Bk e uma matriz real n× n.

Claramente, quando m = 1, condicoes A1’-A7’ se reduzem as condicoes A1-A7 com

Λ(x) = f(x) (onde a correspondencia entre A1’-A2’ e A1-A2 segue da Observacao 1.3).

Assim, o Algoritmo 3.1 pode ser generalizado para problemas de otimizacao multiobjetivo

da seguinte maneira.

Algoritmo 3.4. Algoritmo NSC para otimizacao multiobjetivo sem restricoes

Passo 0 Dados x1 ∈ Rn, B1 ∈ Rn×n, δ1 > 0, 0 < γ1 < γ2 < 1 e 0 ≤ η1 ≤ η2 < 1

(η2 6= 0), defina k := 1.

71

Passo 1 Escolha um modelo mk(xk + s) e uma funcao Λ satisfazendo A5’ e encontre

um passo sk o qual reduz suficientemente o modelo no sentido de A7’, para o

qual ‖sk‖ satisfaz A6’.


ρk =Λ(xk)− Λ(xk + sk)

mk(xk)−mk(xk + sk), (3.118)


xk+1 =



e escolha o parametro δk+1 pela regra de atualizacao

δk+1 ∈


[γ2δk, δk] , se ρk ∈ [η1, η2),

[δk,+∞] , se ρk ≥ η2.

(3.120)


Observacao 3.10. Note que o Algoritmo 3.4 nada mais e que o Algoritmo 3.1 aplicado

a minimizacao da funcao merito Λ. Esta funcao e usada como uma representacao escalar

da funcao vetorial f , e a relacao entre Λ e f e dada implicitamente pelas condicoes A2’,

A5’ e A7’.

Procedendo como nas Secoes 3.2 e 3.3 (com Λ no lugar de f), obtem-se os seguintes

resultados, os quais generalizam o Corolario 3.5 e os Teoremas 3.8 e 3.11.

Teorema 3.18. Suponha que A1’-A7’ sao satisfeitas e que xk e uma sequencia gerada

pelo Algoritmo 3.4 com a regra de atualizacao (3.6). Se a sequencia Λ(xk) e limitada

inferiormente e todas as matrizes Bk satisfazem (3.5), entao pelo menos um ponto de

acumulacao de xk (se algum existe) e um ponto Pareto crıtico de f .

Teorema 3.19. Suponha que A1’-A7’ e A8 sao satisfeitas, e que a sequencia Λ(xk)limitada inferiormente. Entao, para reduzir a medida de estacionariedade de Pareto Fk =

min ωk, φk, ψk, χk abaixo de ε ∈ (0, 1], o Algoritmo 3.4 com a regra de atualizacao (3.6)

requer no maximo O(ε−(2+β)) iteracoes. Se, adicionalmente, A9-A11 sao satisfeitas, entao

este limitante de complexidade de pior caso e reduzido para O(ε−2) iteracoes.

Para justificar esta generalizacao do algoritmo NSC, e necessario exibir ao menos um

caso particular nao-trivial do Algoritmo 3.4. Para este proposito, considera-se o algo-

ritmo de regiao de confianca para otimizacao multiobjetivo sem restricoes recentemente

proposto por Villacorta, Oliveira e Soubeyran [90], o qual e referido como algoritmo

72

TRMP. Primeiro, seja I = 1, . . . ,m e defina a funcao µ : Rn → R por

µ(x) ≡ − min‖d‖≤1

(maxi∈I

∇fi(x)Td

). (3.121)

O proximo resultado, fornece algumas propriedades uteis da funcao µ e estabelece a sua

relacao com o conceito de pontos Pareto crıticos.

Lema 3.20 (Lema 3 em Fliege e Svaiter [39]). Sejam f : Rn → Rm continuamente

diferenciavel e µ : Rn → R definida por (3.121). Entao,

(a) µ e contınua;

(b) µ(x) ≥ 0 para todo x ∈ Rn;

(c) x∗ e um ponto Pareto crıtico para (3.112)⇐⇒ µ(x∗) = 0.

Agora, o Algoritmo TRMP pode ser resumido da seguinte maneira.

Algoritmo 3.5. Algoritmo TRMP para otimizacao multiobjetivo sem restricoes

Passo 0 Dados x1 ∈ Rn, B1 ∈ Rn×n simetrica, ∆1 > 0, 0 < γ1 < γ2 < 1 e 0 < η1 ≤η2 < 1, defina k := 1.

Passo 1 Seja o modelo mk(xk + s) : Rn → R definido por

mk(xk + s) ≡ maxi∈I

fi(xk) +∇fi(xk)T s

+

1

2sTBks. (3.122)

Calcule um passo sk para o qual ‖sk‖ ≤ ∆k e

mk(xk)−mk(xk + sk) ≥ κcµ(xk) min

µ(xk)

1 + ‖Bk‖,∆k

, (3.123)

onde κc ∈ (0, 1) e uma constante independente de k e onde µ(x) e definida por

(3.121).


ρk =maxi∈I fi(xk) −maxi∈I fi(xk + sk)

mk(xk)−mk(xk + sk), (3.124)


xk+1 =



73

e escolha o raio ∆k+1 pela regra de atualizacao

∆k+1 ∈

[γ1∆k, γ2∆k] , se ρk < η1,

[γ2∆k,∆k] , se ρk ∈ [η1, η2),

[∆k,+∞] , se ρk ≥ η2.

(3.126)


Sob condicoes convenientes, o algoritmo TRMP e um caso particular do Algoritmo 3.4

com as escolhas

mk(xk + s) = maxi∈Ifi(xk) +∇fi(xk)T s

+

1

2sTBks,

Λ(x) = maxi∈I fi(x) , ω(x) = 1, φ(x) = ψ(x) = χ(x) = µ(x),

δ = ∆, α = 1 e β = 0.

(3.127)

De fato, as condicoes A1’, A2’, A4’, A6’ e A7’ sao naturalmente satisfeitas. A possibilidade

de se obter sk satisfazendo A7’ e garantida pelo Lema 4.1, pelo Corolario 4.1 e pelo

Lema 4.2 em Villacorta, Oliveira e Soubeyran [90]. Por outro lado, assumindo-se que

xk ∈ S ⊂ Rn para todo k, com S limitado, entao a condicao A3’ e satisfeita devido a

continuidade de χ(=µ). Finalmente, e imediato que mk(xk) = maxi∈I fi(xk) = Λ(xk),

enquanto a segunda parte de A5’ e dada pelo teorema abaixo (referente ao Algoritmo

3.5).

Teorema 3.21. Seja f : Rn → Rm duas vezes continuamente diferenciavel. Suponha que

existem constantes κf > 0 e κB ≥ 1 tais que

‖∇2fi(x)‖ ≤ κf , para todo i ∈ I e x ∈ Rn, (3.128)

e

‖Bk‖ ≤ κB − 1, para todo k. (3.129)

Entao,

Φ(xk + sk)−mk(xk + sk) ≤ κm‖sk‖2, (3.130)

onde κm = max κf , κB.

Demonstracao. Ver Proposicao 5.1 em Villacorta, Oliveira e Soubeyran [90].

Portanto, o algoritmo TRMP e um caso particular do Algoritmo 3.4. Como uma

consequencia do Teorema 3.19, tem-se o seguinte resultado de complexidade de pior-caso.

Corolario 3.22. Assuma que as condicoes do Teorema 3.21 sao satisfeitas. Alem disso,

suponha que xk ∈ S ⊂ Rn para todo k, com S limitado, e que a sequencia Λ(xk) seja

limitada inferiormente. Entao, para reduzir a medida de estacionariedade de Pareto µ(x)

74

abaixo de ε ∈ (0, 1], o algoritmo TRMP [90] com a regra de atualizacao (3.6) (na qual

δk = ∆k) requer no maximo O(ε−2) iteracoes.

Observacao 3.11. Pelo conhecimento do autor, o resultado acima e o primeiro resultado

de complexidade deste tipo no contexto de problemas de otimizacao multiobjetivo sem

restricoes onde as funcoes coordenadas fi podem ser nao-lineares e nao-convexas.

Para finalizar esta secao, note que, assim como no caso da otimizacao composta nao-

suave, a abordagem de controle nao-linear do tamanho do passo tambem pode ser usada

no desenvolvimento de novos algoritmos para otimizacao multiobjetivo. Por exemplo,

uma generalizacao do algoritmo TRMP e obtida pelas relaxacoes α ∈ (0, 1] e β ∈ [0, 1]

em (3.127). Pelo Teorema 3.19, tal algoritmo de regiao de confianca exige no maximo

O(ε−(2+β)) iteracoes para reduzir a medida de estacionariedade de Pareto µ(x) abaixo de

ε ∈ (0, 1], e este limitante fica reduzido para O(ε−2) quando α + β ≤ 1 e 2α + β ≥ 1.

3.6 Conclusao

Neste trabalho, investigou-se a convergencia global e a complexidade de pior-caso do al-

goritmo NSC recentemente proposto por Toint [89] para otimizacao suave sem restricoes.

Usando uma regra de atualizacao ligeiramente mais restritiva para o parametro que con-

trola o tamanho do passo, provou-se que o algoritmo de Toint [89] ainda permanece glo-

balmente convergente quando a norma das matrizes Bk pode crescer por uma quantidade

constante a cada iteracao. Neste sentido, os resultados aqui obtidos sao uma generalizacao

dos resultados de Powell [73, 76] para algoritmos de regiao de confianca. Em particular,

eles fornecem uma garantia de convergencia quando as matrizes Bk sao atualizadas por

certas formulas quase-Newton. Alem disso, assumindo-se que as matrizes Bk sao unifor-

memente limitadas, provou-se um limitante de complexidade de pior-caso de O(ε−(2+β))

iteracoes para o algoritmo atingir a estacionariedade de primeira ordem dentro de uma

tolerancia ε, o qual e menos pessimista que o limitante O(ε−3) discutido por Toint [89].

Para o caso particular em que α+β ≤ 1, 2α+β ≥ 1 e φk, ψk ≥ χk (incluindo o algoritmo

ARC), esta estimativa ainda foi melhorada para O(ε−2) iteracoes. Por fim, a abordagem

de controle nao-linear do tamanho do passo foi estendida para alguns algoritmos destina-

dos a otimizacao composta nao-suave e a otimizacao multiobjetivo sem restricoes, o que

permitiu a obtencao de novos resultados de complexidade.

Capıtulo 4

Um algoritmo de regiao de confianca

sem derivadas para otimizacao

composta nao-suave

4.1 Introducao

Considere novamente o problema de otimizacao composta nao-suave

minx∈Rn

Φ(x) ≡ f(x) + h(c(x)), (4.1)

onde f : Rn → R e c : Rn → Rr sao continuamente diferenciaveis e h : Rr → R e

convexa mas pode ser nao-suave. A formulacao (4.1) com f = 0 inclui varios problemas

interessantes, como o problema de se encontrar pontos viaveis de um sistema de inequacoes

nao-lineares (onde h(c) ≡ ‖c+‖p, com c+i = max ci, 0 e 1 ≤ p ≤ +∞), o problema

minimax finito (onde h(c) ≡ max1≤i≤r ci), e o problema de melhor aproximacao L1, L2 ou

L∞ (onde h(c) ≡ ‖c‖p, p = 1, 2,+∞). Outro exemplo do problema (4.1) e a minimizacao

da funcao de penalidade exata

Φ(x, ρ) = f(x) + ρ‖c(x)‖, (4.2)

associada ao problema de otimizacao com restricoes de igualdade

min f(x),

s. a. c(x) = 0.(4.3)

Atualmente, existem varios algoritmos baseados em derivadas1 para resolver o pro-

blema (4.1), os quais podem ser classificados em dois grupos principais. O primeiro grupo

1Por algoritmo baseado em derivadas entende-se um algoritmo no qual gradientes ou subgradientesprecisam ser calculados.

75

76

consiste de metodos para otimizacao nao-suave geral, tais como o metodo do sub-gradiente

[84, 62], o metodo de feixes [56, 57, 61], e o metodo do plano de corte [18, 55]. Se a funcao

Φ satisfaz condicoes convenientes, pode-se provar a convergencia destes metodos em al-

gum sentido, porem eles nao exploram a estrutura do problema, a convexidade de h e

tampouco a diferenciabilidade de f e c. Em contraste, o segundo grupo de metodos

e composto por metodos nos quais a subestrutura suave do problema e a convexidade

de h sao explorados. Alguns algoritmos notaveis neste grupo sao aqueles propostos por

Fletcher [37, 38], Powell [75], Yuan [95], Bannert [3].

Uma caracterıstica essencial dos algoritmos mencionados acima e que eles requerem

um subgradiente de Φ ou um gradiente de f e uma matriz Jacobiana de c a cada iteracao.

Entretanto, existem muitos problemas praticos nos quais as derivadas das funcoes envol-

vidas nao estao disponıveis ou nao sao confiaveis (ver, por exemplo, Conn, Scheinberg e

Vicente [26]). Nestes casos, algoritmos sem derivadas tornam-se extremamente atraentes,

visto que eles nao exigem o calculo explıcito de (sub)gradientes.

Por sua vez, algoritmos de otimizacao sem derivadas podem ser classificados em tres

grupos. O primeiro e composto por metodos de busca direta, tais como o metodo Nelder-

Mead [69], o metodo Hooke-Jeeves [53] e o metodo de busca direta de malha adaptativa

(MADS, do ingles “Mesh Adaptive Direct Search”) [2]. Tais metodos baseiam-se na ex-

ploracao do espaco das variaveis usando amostras de pontos, e frequentemente nao assu-

mem a suavidade da funcao objetivo. O segundo grupo consiste de metodos baseados em

diferencas finitas, formulas quase-Newton e algoritmos de direcoes conjugadas, e exemplos

podem ser encontrados em Mifflin [65], Stewart [86], Greenstadt [49] e Brent [8]. Final-

mente, o terceiro grupo e composto por metodos baseados em modelos de interpolacao

da funcao objetivo, usualmente em combinacao com tecnicas de regiao de confianca, tais

como os metodos propostos por Winfield [93], Powell [78, 79], Conn, Scheinberg e Vicente

[25] e Conejo et al. [21].

No presente trabalho, propoe-se um algoritmo de regiao de confianca sem derivadas e

globalmente convergente para resolver o problema (4.1) quando a funcao h e conhecida mas

os vetores gradiente de f e as matrizes Jacobianas de c nao estao disponıveis. A estrutura

do algoritmo apresentado e fortemente baseada no algoritmo de regiao de confianca sem

derivadas proposto Conn, Scheinberg e Vicente [25] para otimizacao suave sem restricoes,

e nos algoritmos propostos por Fletcher [37], Powell [75] e Yuan [95] para otimizacao

composta nao-suave. Pelo conhecimento do autor, este trabalho e o primeiro a apresentar

um algoritmo de regiao de confianca sem derivadas com resultados de convergencia global

para o problema de otimizacao composta nao-suave, no qual a estrutura do problema e

explorada2. A complexidade de pior-caso do algoritmo proposto tambem e investigada.

2Para o problema minimax finito (o qual e um caso particular de (4.1)), um algoritmo sem derivadasfoi proposto por Madsen [60], onde alguns resultados de convergencia foram provados sob a hipotese deque a sequencia xk gerada pelo algoritmo e convergente. Por outro lado, se a funcao Φ e localmenteLipschitz, o problema (4.1) pode ser resolvido pelo algoritmo de regiao de confianca de Qi e Sun [80], o

77

Especializando os resultados de complexidade para a funcao de penalidade exata (4.2),

obtem-se um limitante de complexidade de pior-caso para resolver o problema (4.3) por um

algoritmo de penalidade exata sem derivadas. Ao final, resultados numericos preliminares

sao apresentados para problemas minimax e problemas de otimizacao com restricoes de

igualdade.

Este capıtulo esta organizado da seguinte maneira. Na Secao 4.2, alguns resultados

basicos sao fornecidos e revisados. O algoritmo proposto e apresentado na Secao 4.3. A

convergencia global e tratada na Secao 4.4, enquanto os limitantes de complexidade sao

dados nas Secoes 4.5 e 4.6. Por fim, os resultados numericos sao apresentados na Secao

4.7.

4.2 Preliminares

Recordando a Subsecao 3.5.1, dado r > 0, para cada x ∈ Rn defina

ξr(x) ≡ l(x, 0)− min‖s‖≤r

l(x, s),

onde

l(x, s) ≡ f(x) +∇f(x)T s+ h(c(x) + Jc(x)s), ∀s ∈ Rn,

Com base no Lema 3.13(c), ao longo deste capıtulo a quantidade ξ1(x) sera utilizada como

medida de estacionariedade para o problema (4.1).

O algoritmo de regiao de confianca sem derivadas aqui apresentado baseia-se em uma

classe de modelos de interpolacao para f e c, a qual generaliza os chamados modelos de

interpolacao plenamente lineares propostos por Conn, Scheinberg e Vicente [25]. A fim

de definir tal classe de modelos, seja x0 a iterada inicial e suponha que as novas iteradas

nao aumentam a funcao objetivo Φ. Entao, tem-se que

xk ∈ L(x0) ≡ x ∈ Rn : Φ(x) ≤ Φ(x0) , para todo k. (4.4)

Neste caso, se a amostragem para formar os modelos de interpolacao e restrita as bolas

fechadas B[xk; ∆k], com ∆k limitado superiormente por ∆ > 0, entao Φ (ou equivalente-

mente, f e c) sera avaliada apenas no conjunto

Lenl(x0) =⋃

x∈L(x0)

B[x; ∆]. (4.5)

Agora, considerando os conjuntos L(x0) e Lenl(x0), pode-se estender a definicao de mo-

delos plenamente lineares da seguinte maneira.

qual, em teoria, pode nao depender explicitamente de subgradientes ou derivadas direcionais. Entretanto,este algoritmo nao explora a estrutura do problema.

78

Definicao 4.1. Assuma que u : Rn → Rt e continuamente diferenciavel e que sua funcao

Jacobiana Ju : Rn → Rt×n e Lipschitz contınua sobre Lenl(x0). Um conjunto de funcoes

M = v : Rn → Rt , v ∈ C1 e dito ser uma classe de modelos quase plenamente li-

neares se:

1. Existem constantes positivas κju e κlu tais que para quaisquer x ∈ L(x0) e ∆ ∈(0, ∆] existe um modelo v ∈ M , com funcao Jacobiana Jv Lipschitz contınua e

correspondente constante Lipschitz limitada superiormente por κlu, e tal que o erro

entre a Jacobiana do modelo e a Jacobiana da funcao satisfaz a desigualdade

‖Jv(y)− Ju(y)‖ ≤ κju∆, ∀y ∈ B[x; ∆], (4.6)

Tal modelo v e dito ser quase plenamente linear sobre B[x; ∆].

2. Para esta classe M existe um algoritmo chamado de “Algoritmo de Melhoramento

do Modelo”, o qual em um numero de passos finito e uniformemente limitado (com

respeito a x e ∆) pode

• estebelecer se um dado modelo v ∈M e quase plenamente linear sobre B[x; ∆],

ou

• encontrar um modelo v ∈M que e quase plenamente linear sobre B[x; ∆].

Observacao 4.1. Todo modelo plenamente linear, no sentido de Conn, Scheinberg e

Vicente [25], e quase plenamente linear.

Observacao 4.2. Se vi : Rn → R e um modelo plenamente linear de ui : Rn → R sobre

B[x; ∆] para cada i = 1, . . . , t, entao v = (v1, . . . , vt) : Rn → Rt e um modelo plenamente

linear de u = (u1, . . . , ut) : Rn → Rt sobre B[x; ∆].

O proximo lema estabelece que se um modelo e quase plenamente linear sobre B[x; ∆∗]

com respeito as constantes κju e κlu, entao ele tambem e quase plenamente linear sobre

B[x; ∆] para qualquer ∆ ∈ [∆∗, ∆] com respeito as mesmas constantes. A prova deste

resultado segue pelo mesmo argumento usado na prova do Lema 3.4 em [25].

Lema 4.2. Considere uma funcao u : Rn → Rt satisfazendo as hipoteses na Definicao

4.1. Dados x ∈ L(x0) e ∆∗ ≤ ∆, suponha que v : Rn → Rt e um modelo quase plenamente

linear sobre B[x; ∆∗] com respeito as constantes κju e κlu. Assuma tambem (sem perda de

generalidade) que κju e maior ou igual a soma de κlu e a constante Lipschitz da Jacobiana

de u. Entao v e quase plenamente linear sobre B[x; ∆], para qualquer ∆ ∈ [∆∗, ∆], com

respeito as mesmas constantes κju, κlu.

Demonstracao. Dado ∆ ∈ [∆∗, ∆], considere s ∈ Rn tal que ∆∗ ≤ ‖s‖ ≤ ∆, e seja

θ = ∆∗/‖s‖. Assim, x+ θs ∈ B[x; ∆∗] e como v e um modelo quase plenamente linear de

79

u sobre B[x; ∆∗], segue-se que

‖Ju(x+ θs)− Jv(x+ θs)‖ ≤ κju∆∗. (4.7)

Por outro lado, como Ju e Jv sao Lipschitz contınuas, e κju e suposto ser maior ou igual

a soma das correspondentes constantes Lipschitz, tem-se a desigualdade

‖Ju(x+ s)− Ju(x+ θs) + Jv(x+ θs)− Jv(x+ s)‖ ≤ κju(‖s‖ −∆∗). (4.8)

Assim, usando (4.7), (4.8) e a desigualdade triangular, conclui-se que

‖Ju(x+ s)− Jv(x+ s)‖ ≤ κju‖s‖ ≤ κju∆. (4.9)

No que segue, sao consideradas as seguintes condicoes:

A1 As funcoes f : Rn → R e c : Rn → Rr sao continuamente diferenciaveis.

A2 O gradiente de f , ∇f : Rn → Rn, e a funcao Jacobiana de c, Jc : Rn → Rr×n, sao

Lipschitz sobre Lenl(x0), com constantes Lipschitz Lf e Lc respectivamente.

A3 A funcao h : Rr → R e convexa e Lipschitz contınua, com constante Lipschitz Lh.

Dadas funcoes p : Rn → R e q : Rn → Rr continuamente diferenciaveis, para cada x ∈ Rn

defina

l(x, s) = f(x) +∇p(x)T s+ h(c(x) + Jq(x)s), ∀s ∈ Rn, (4.10)

e para todo r > 0, seja

ηr(x) ≡ l(x, 0)− min‖s‖≤r

l(x, s). (4.11)

O teorema abaixo estabelece a relacao entre ξ1(x) e η1(x) quando p e q sao modelos quase

plenamente lineares de f e c em torno de x.

Teorema 4.3. Suponha que A1-A3 sao satisfeitas. Assuma que p : Rn → R e um modelo

quase plenamente linear de f com respeito as constantes κjf e κlf , e que q : Rn → Rr e

um modelo quase plenamente linear de c com respeito as constantes κjc e κlc, ambos sobre

a bola B[x; ∆]. Entao,

|ξ1(x)− η1(x)| ≤ κs∆, (4.12)

com κs = κjf + Lhκjc.

Demonstracao. Como p e q sao modelos quase plenamente lineares de f e c, respectiva-

mente, sobre a bola B[x; ∆], existem constantes positivas κjf e κjc tais que

‖∇f(x)−∇p(x)‖ ≤ κjf∆ e ‖Jc(x)− Jq(x)‖ ≤ κjc∆. (4.13)

80

Seja s ∈ B[x; 1] tal que

min‖s‖≤1

l(x, s) = l(x, s). (4.14)

Entao, por A3, (4.13) e (4.14) obtem-se

ξ1(x)− η1(x) =

(l(x, 0)− min

‖s‖≤1l(x, s)

)−(l(x, 0)− min

‖s‖≤1l(x, s)

)= min

‖s‖≤1l(x, s)− min

‖s‖≤1l(x, s)

= min‖s‖≤1

l(x, s)− l(x, s)

≤ l(x, s)− l(x, s)

=[∇p(x)T s+ h(c(x) + Jq(x)s)

]−[∇f(x)T s+ h(c(x) + Jc(x)s)

]= (∇p(x)−∇f(x))T s+ [h(c(x) + Jq(x)s)− h(c(x) + Jc(x)s)]

≤ ‖∇p(x)−∇f(x)‖+ Lh‖(c(x) + Jq(x)s)− (c(x) + Jc(x)s)‖

≤ ‖∇p(x)−∇f(x)‖+ Lh‖Jq(x)− Jc(x)‖

≤ κjf∆ + Lhκjc∆

= (κjf + Lhκjc) ∆. (4.15)

Similarmente, considerando s ∈ B[0; 1] tal que

min‖s‖≤1

l(x, s) = l(x, s), (4.16)

tem-se

η1(x)− ξ1(x) =

(l(x, 0)− min

‖s‖≤1l(x, s)

)−(l(x, 0)− min

‖s‖≤1l(x, s)

)= min

‖s‖≤1l(x, s)− min

‖s‖≤1l(x, s)

= min‖s‖≤1

l(x, s)− l(x, s)

≤ l(x, s)− l(x, s)

=[∇f(x)T s+ h(c(x) + Jc(x)s)

]−[∇p(x)T s+ h(c(x) + Jq(x)s)

]= (∇f(x)−∇p(x))T s+ [h(c(x) + Jc(x)s)− h(c(x) + Jq(x)s)]

≤ ‖∇f(x)−∇p(x)‖+ Lh‖(c(x) + Jc(x)s)− (c(x) + Jq(x)s)‖

≤ ‖∇f(x)−∇p(x)‖+ Lh‖Jc(x)− Jq(x)‖

≤ κjf∆ + Lhκjc∆

= (κjf + Lhκjc) ∆. (4.17)

Assim, combinando (4.15) e (4.17) conclui-se que a desigualdade (4.12) e verdadeira.

81

4.3 Algoritmo

Considerando a teoria discutida acima, neste secao apresenta-se um algoritmo para resol-

ver (4.1) sem o uso de derivadas. Este algoritmo e uma adaptacao direta do Algoritmo

4.1 em Conn, Scheinberg e Vicente [25] para otimizacao suave sem restricoes, com ele-

mentos dos algoritmos de regiao de confianca de Fletcher [37], Powell [75] e Yuan [95]

para otimizacao composta nao-suave.

Algoritmo 4.1. Algoritmo de regiao de confianca sem derivadas para otimizacao com-

posta nao-suave

Passo 0 Escolha uma classe M de modelos quase plenamente lineares e um algoritmo

de melhoramento correspondente (ver, por exemplo, [24]). Escolha x0 ∈ Rn,

∆ > 0, ∆icb0 ∈ (0, ∆], B0 ∈ Rn×n simetrica, 0 ≤ α0 ≤ α1 < 1 (com α1 6= 0),

0 < γ1 < 1 < γinc, εc > 0, µ > β > 0 e ω ∈ (0, 1). Considere um modelo

picb0 (x0 + d) para f (com gradiente em d = 0 denotado por gicb0 ) e um modelo

qicb0 (x0 +d) para c (com matriz Jacobiana em d = 0 denotada por Aicb0 ). Defina

k := 0.

Passo 1 Calcule

ηicbk = licb(xk, 0)− licb(xk, sk), (4.18)

onde

sk = arg min‖s‖≤1

licb(xk, s), (4.19)

e

licb(xk, s) = f(xk) + (gicbk )T s+ h(c(xk) + Aicbk s). (4.20)

Se ηicbk > εc, defina ηk = ηicbk , pk = picbk (gk = gicbk ), qk = qicbk (Ak = Aicbk ),

∆k = ∆icbk e va direto para o Passo 3.

Passo 2 Chame o algoritmo de melhoramento do modelo para tentar certificar se os

modelos picbk e qicbk sao quase plenamente lineares sobre B[xk; ∆icb

k

]. Se ∆icb

k ≤µηicbk e os modelos picbk e qicbk sao quase plenamente lineares sobre B[xk; ∆icb

k ],

defina ηk = ηicbk , pk = picbk (gk = gicbk ), qk = qicbk (Ak = Aicbk ) e ∆k = ∆icbk .

Caso contrario, aplique o Algoritmo 4.2 (descrito abaixo) para construir um

modelo pk(xk + d) (com gradiente em d = 0 denotado por gk) e um modelo

qk(xk + d) (com matriz Jacobiana em d = 0 denotada por Ak), ambos quase

plenamente lineares (com respeito as constantes que permanecem as mesmas

para todas as iteracoes do Algoritmo 4.1) sobre a bola B[xk; ∆k], para algum

∆k ∈ (0, µηk), onde ∆k e ηk sao dados pelo Algoritmo 4.2. Neste caso, defina

pk = pk (gk = gk), qk = qk (Ak = Ak) e

∆k = min

max

∆k, βηk

,∆icb

k

. (4.21)

82

Passo 3 Seja D∗k o conjunto das solucoes do subproblema

mind∈Rn

mk(xk + d) ≡ f(x) + gTk d+ h (c(xk) + Akd) + 12dTBkd (4.22)

s. t. ‖d‖ ≤ ∆k (4.23)

Calcule um passo dk para o qual ‖dk‖ ≤ ∆k e

mk(xk)−mk(xk + dk) ≥ α2 [mk(xk)−mk(xk + d∗k)] , (4.24)

onde d∗k ∈ D∗k e α2 ∈ (0, 1) e uma constante independente de k.

Passo 4 Calcule Φ(xk + dk) e defina

rk =Φ(xk)− Φ(xk + dk)

mk(xk)−mk(xk + dk). (4.25)

Se rk ≥ α1 ou se rk ≥ α0 e os modelos pk e qk sao quase plenamente lineares

sobre B[xk; ∆k], entao defina xk+1 = xk + dk e atualize os modelos de modo

a incluir a nova iterada na amostra de pontos considerada, resultando em

novos modelos picbk+1(xk+1 + d) (com gradiente em d = 0 denotado por gicbk+1) e

qicbk+1(xk+1 + d) (com matriz Jacobiana em d = 0 denotada por Aicbk+1). Caso

contrario, defina xk+1 = xk, picbk+1 = pk (gicbk+1 = gk) e qicbk+1 = qk (Aicbk+1 = Ak).

Passo 5 Se rk < α1, use o algoritmo de melhoramento do modelo para tentar certificar se

pk e qk sao modelos quase plenamente lineares sobreB[xk; ∆k]. Se tal certificado

nao for obtido, diz-se que pk ou qk nao e certificadamente quase plenamente

linear (CAFL, do ingles “Certifiably Almost Fully Linear”). Neste caso, aplique

um ou mais passos do algoritmo de molhoramento do modelo.

Passo 6 Defina

∆icbk+1 ∈

[∆k,min

γinc∆k, ∆

]se rk ≥ α1,

γ1∆k se rk < α1 e pk

e qk sao plenamente lineares,

∆k se rk < α1 e pk

ou qk nao e CFL.

(4.26)


No algoritmo acima, as iteracoes em que rk ≥ α1 sao ditas iteracoes bem sucedidas,

e o conjunto dos ındices de todas as iteracoes bem sucedidas e denotado por S. Alem

disso, as iteracoes em que rk ∈ [α0, α1) e pk e qk sao quase plenamente lineares sao ditas

iteracoes aceitaveis ; as iteracoes em que rk < α1 e pk ou qk nao e certificadamente quase

83

plenamemte linear sao ditas iteracoes de melhora do modelo e; as iteracoes em que rk < α0

e pk e qk sao quase plenamente lineares sao ditas iteracoes mal sucedidas.

Segue abaixo o Algoritmo 4.2 usado no Passo 2, o qual e uma adaptacao do Algoritmo

4.2 em [25].

Algoritmo 4.2. Este algoritmo e aplicado apenas quando ηicbk ≤ εc e ao menos um dos

seguintes fatos acontece: picbk ou qicbk nao e certificadamente quase plenamente linear sobre

B[xk; ∆icb

k

]ou ∆icb

k > µηicbk . A constante ω ∈ (0, 1) e escolhida no Passo 0 do Algoritmo

4.1.

Inıcio: Sejam p(0)k = picbk , q

(0)k = qicbk e i = 0.

Repita Defina i := i+ 1.

Use o algoritmo de melhoramento do modelo para melhorar os modelos an-

teriores p(i−1)k e q

(i−1)k ate que eles se tornem quase plenamente lineares sobre

B[xk;ω

i−1∆icbk

](pela Definicao 4.1, isto pode ser feito em um numero finito e

uniformemente limitado de passos do algoritmo de melhoramento do modelo).

Denote os novos modelos por p(i)k e q

(i)k . Defina ∆k = ωi−1∆icb

k , pk = p(i)k ,

gk = ∇pk(xk), qk = q(i)k e Ak = Jqk(xk). Calcule

η(i)k = l(xk, 0)− l(xk, sk), (4.27)

onde

sk = arg min‖s‖≤1

l(xk, s), (4.28)

e

l(xk, s) ≡ f(xk) + (gk)T s+ h(c(xk) + Aks). (4.29)

Defina ηk = η(i)k .

Ate ∆k ≤ µη(i)k .

Observacao 4.3. Quando h ≡ 0 e uma classe de modelos plenamente lineares e conside-

rada, os Algoritmos 4.1 e 4.2 se reduzem aos algoritmos correspondentes em [25] para a

minimizacao de f sem derivadas.

Observacao 4.4. Se o Passo 2 do Algoritmo 4.1 e executado, entao os modelos pk e qk

sao quase plenamente lineares sobre B[xk; ∆k] com ∆k ≤ ∆k. Assim, pelo Lema 4.2, pk e

qk tambem sao quase plenamente lineares sobre B[xk; ∆k] (bem como sobre B[xk;µ ηk]).


Nesta secao, resultados de convergencia global serao provados para o Algoritmo 4.1.

Gracas ao Teorema 4.3, a analise consiste em uma adaptacao direta dos argumentos

84

apresentados por Conn, Scheinberg e Vicente [25]. O primeiro lema garante que o laco

no Algoritmo 4.2 nao ira se repetir infinitamente quando a iterada atual nao e um ponto

estacionario. A prova deste resultado segue a prova do Lema 5.1 em [25].

Lema 4.4. Suponha que A1-A3 sao satisfeitas. Se ξk 6= 0 (onde ξk denota ξ1(xk)), entao

o Algoritmo 4.2 ira terminar em um numero finito de repeticoes.

Demonstracao. Por contradicao, suponha que o laco no Algoritmo 4.2 seja repetido infi-

nitamente. Entao, tem-se que

µη(i)k < ωi−1∆icb

k (4.30)

para todo i ≥ 1, onde η(i)k e definido por (4.27). Como os modelos p

(i)k e q

(i)k sao quase

plenamente lineares sobre B[xk;ωi−1∆icb

k ], o Teorema 4.3 com x = xk implica que

|ξk − η(i)k | ≤ κsω

i−1∆icbk , (4.31)

para cada i ≥ 1. Assim, para todo i ≥ 1 obtem-se a desigualdade3

|ξk| ≤ |ξk − η(i)k |+ |η

(i)k | ≤

(κs + µ−1

)ωi−1∆icb

k . (4.32)

Como ω ∈ (0, 1), isto implica que ξk = 0, contradizendo a hipotese ξk 6= 0.

Lema 4.5. Suponha que A3 e satisfeita e que r > 0. Entao, para todo x ∈ Rn

ηr(x) ≥ min 1, r η1(x). (4.33)

Demonstracao. Segue pelo mesmo argumento usado na demonstracao do Lema 2.1 em

Cartis, Gould e Toint [13].

A prova do proximo lema e baseada na demonstracao do Lema 2.2 em Yuan [95].

Lema 4.6. Suponha que A3 e satisfeita. Entao, existe uma constante κd > 0 tal que a

desigualdade

mk(xk)−mk(xk + dk) ≥ κdηk min

∆k,

ηk1 + ‖Bk‖

. (4.34)

e satisfeita para todo k.

Demonstracao. Seja d∗k uma solucao do subproblema (4.22)-(4.23). Entao, para todo

s ∈ B[0,∆k],

mk(xk + d∗k) ≤ mk(xk + s),

=⇒ −mk(xk + d∗k) ≥ −mk(xk + s),

=⇒ mk(xk)−mk(xk + d∗k) ≥ mk(xk)−mk(xk + s). (4.35)

3Neste ponto, usa-se o fato de que η(i)k ≥ 0.

85

Como h is contınua (por A3), segue-se que l(x, .) tambem e contınua. Entao, pelo

Teorema de Weierstrass, existe sk ∈ B[0,∆k] tal que

min‖s‖≤∆k

l(xk, s) = l(xk, sk). (4.36)

Agora, usando (4.35), (4.36), a convexidade de h e a desigualdade de Cauchy-Schwarz,

para todo θ ∈ [0, 1] obtem-se:

mk(xk)−mk(xk + d∗k) ≥ mk(xk)−mk(xk + θsk)

= f(xk) + h(c(xk))− f(xk)− θ∇pk(xk)T sk

−h(c(xk) + θJqk(xk)sk)−θ2

2sTkBksk

= h(c(xk))− θ∇pk(xk)T sk − h ((1− θ)c(xk) + θ (c(xk) + Jqk(xk)sk))

−θ2

2〈sk, Bksk〉

≥ h(c(xk))− θ∇pk(xk)T sk − (1− θ)h(c(xk))

−θh (c(xk) + Jqk(xk)sk)−θ2

2‖Bk‖‖sk‖2

≥ θ[h(c(xk))−∇pk(xk)T sk − h(c(xk) + Jqk(xk)sk)

]− θ2

2‖Bk‖∆2

k

= θ[l(xk, 0)− l(xk, sk)

]− 1

2‖Bk‖∆2

kθ2

≥ θη∆k(xk)−

1

2(1 + ‖Bk‖)∆2

kθ2. (4.37)

Como a desigualdade (4.37) vale para todo θ ∈ [0, 1], tem-se

mk(xk)−mk(xk + d∗k) ≥ sup0≤θ≤1

θη∆k

(xk)−1

2(1 + ‖Bk‖)∆2

kθ2

≥ 1

2min

η∆k

(xk),[η∆k

(xk)]2

(1 + ‖Bk‖)∆2k

. (4.38)

A partir de (4.24), (4.38) e do Lema 4.5, segue-se que

mk(xk)−mk(xk + dk) ≥α2

2min 1,∆k η1(xk) min

1,

min 1,∆k η1(xk)

(1 + ‖Bk‖)∆2k

. (4.39)

Se ∆ ≤ 1, entao ∆k ≤ 1 e (4.39) reduz-se a (4.34) com κd = α2/2. Assim, pode-se supor

que ∆ > 1. Neste caso, se ∆k ≥ 1, segue-se de (4.39) e ∆k ≤ ∆ ≤ ∆2 que

86

mk(xk)−mk(xk + dk) ≥α2

2η1(xk) min

1,

η1(xk)

(1 + ‖Bk‖)∆2k

≥ α2

2η1(xk) min

1,

η1(xk)

(1 + ‖Bk‖)∆2

≥ α2

2η1(xk) min

∆k

∆2,

η1(xk)

(1 + ‖Bk‖)∆2

=

α2

2∆2η1(xk) min

∆k,

η1(xk)

1 + ‖Bk‖

. (4.40)

Por outro lado, se ∆k < 1, entao (4.39) se reduz a (4.34) com κd = α/2. Assim, em

qualquer caso, a desigualdade (4.34) e verdadeira com κd = minα2, α2/∆

2/2.

Para o restante deste capıtulo, considere as condicoes adicionais:

A4 Existe uma constante κB > 0 tal que ‖Bk‖ ≤ κB para todo k.

A5 A sequencia Φ(xk) e limitada inferiormente por Φlow.

Lema 4.7. Suponha que A1-A4 sao satisfeitas. Se pk e qk sao modelos quase plenamente

lineares de f e c, respectivamente, sobre a bola B[xk; ∆k], entao

Φ(xk + dk)−mk(xk + dk) ≤ κm∆2, (4.41)

onde κm = Lf + 2κjf + LhLc + 2Lhκjc + κB.

Demonstracao. De fato, pelas hipoteses A1-A4 tem-se que

Φ(xk + dk)−mk(xk + dk) = f(xk + dk) + h(c(xk + dk))− f(xk)−∇pk(xk)Tdk

−h(c(xk) + Jqk(xk)dk)−1

2dTkBkdk

≤ f(xk + dk)− f(xk)−∇f(xk)Tdk + (∇f(xk)−∇pk(xk))T dk

+h(c(xk + dk))− h(c(xk) + Jqk(xk)dk) +1

2κB‖dk‖2

≤ Lf2‖dk‖2 + κjf∆

2k + Lh‖c(xk + dk)− c(xk)− Jc(xk)dk‖

+Lh‖(Jc(xk)− Jqk(xk))dk‖+1

2κB‖dk‖2

≤ 1

2(Lf + 2κjf + LhLc + 2Lhκjc + κB) ∆2

k

= κm∆2k. (4.42)

A prova do proximo lema e baseada na demonstracao do Lema 5.2 em Conn, Scheinberg

e Vicente [25].

87

Lema 4.8. Suponha que A1-A4 sao satisfeitas. Se pk e qk sao modelos quase plenamente

lineares de f e c, respectivamente, sobre a bola B[xk; ∆k], e

∆k ≤ min

1

1 + κB,κd(1− α1)

κm

ηk, (4.43)

entao, a k-esima iteracao e bem sucedida.

Demonstracao. Como ‖Bk‖ ≤ κB e ∆k ≤ ηk/(1 + κB), segue do Lema 4.6 que

mk(xk)−mk(xk + dk) ≥ κdηk∆k. (4.44)

Entao, pelo Lema 4.7 e por (4.43) tem-se

1− rk =(mk(xk)−mk(xk + dk))− (Φ(xk)− Φ(xk + dk))

mk(xk)−mk(xk + dk)

=Φ(xk + dk)−mk(xk + dk)

mk(xk)−mk(xk + dk)

≤ κm∆2k

κdηk∆k

≤ κm∆k

κdηk≤ 1− α1. (4.45)

Assim, rk ≥ α1 e, por conseguinte, a iteracao k e bem sucedida.

O proximo lema fornece um limitante inferior para ∆k quando a sequencia ηk e

limitada longe de zero. Sua prova e baseada na demonstracao do Lema 5.3 em [25], e na

demonstracao do lema na pagina 299 de Powell [76].

Lema 4.9. Suponha que A1-A4 sao satisfeitas e seja ε > 0 tal que ηk ≥ ε para todo

k = 0, . . . , j, onde j ≤ +∞. Entao, existe τ > 0 independente de k tal que

∆k ≥ τ , para todo k = 0, . . . , j. (4.46)

Demonstracao. A prova segue por inducao sobre k para

τ = min

βε,∆icb

0 ,γ1ε

1 + κB,γ1κd(1− α1)ε

κm

. (4.47)

Da igualdade (4.21) no Passo 2 do Algoritmo 4.1, segue-se que

∆k ≥ minβηk,∆

icbk

, para todo k. (4.48)

88

Assim, como ηk ≥ ε para k = 0, . . . , j, tem-se

∆k ≥ minβε,∆icb

k

, para todo k = 0, . . . , j. (4.49)

Em particular, (4.49) implica que a desigualdade

∆k ≥ τ , (4.50)

vale para k = 0. Agora, assumindo-se que (4.50) vale para k ∈ 0, . . . , j − 1, prova-se

que essa desigualdade tambem e verdadeira para k+1. Para tanto, primeiro suponha que

∆k ≤ min

ε

1 + κB,κd(1− α1)ε

κm

. (4.51)

Entao, pelo Lema 4.8 e o Passo 6, a k-esima iteracao e uma iteracao bem sucedida ou

uma iteracao de melhora do modelo e, portanto, ∆icbk+1 ≥ ∆k. Assim, (4.49), a hipotese

de inducao e (4.47) implicam que

∆k+1 ≥ minβε,∆icb

k+1

≥ min βε,∆k ≥ min βε, τ = τ , (4.52)

e por conseguinte (4.50) vale para k + 1. Por outro lado, suponha que (4.51) nao e

verdadeira. Entao, a partir de (4.26), (4.49) e (4.47), segue-se que

∆icbk+1 ≥ γ1∆k > min

γ1ε

1 + κB,γ1κd(1− α1)ε

κm

≥ τ

=⇒ ∆k+1 ≥ minβε,∆icb

k+1

≥ min βε, τ = τ .

Logo, (4.50) vale para k = 0, . . . , j.

A prova do lema abaixo e baseada nas demonstracoes dos Lemas 5.4 e 5.5 em Conn,

Scheinberg e Vicente [25].

Lema 4.10. Suponha que A1-A5 sao satisfeitas. Entao,

limk→+∞

∆k = 0. (4.53)

Demonstracao. Primeiramente, suponha que o conjunto S das iteracoes bem sucedidas e

finito, e considere as iteracoes que vem depois da ultima iteracao bem sucedida. Sabe-

se que se pode ter apenas uma quantidade finita (e uniformemente limitada, digamos

por N) de iteracoes do algoritmo de melhoramento do modelo antes que os modelos se

tornem plenamente lineares, e assim existem infinitas iteracoes que sao ou aceitaveis ou

mal sucedidas. Em ambos os casos, o raio de regiao de confianca e reduzido. Como nao

existem mais iteracoes bem sucedidas, ∆k nao sera mais aumentado a partir de um k

suficientemente grande. Alem disso, ∆k decresce ao menos a cada N iteracoes por um

89

fator nao maior que γ2 < 1. Portanto, ∆k → 0.

Agora, assuma que S e infinito. Entao, para qualquer k ∈ S, a definicao de rk em

(4.25), o Lema 4.6 e a hipotese A4 implicam que

Φ(xk)− Φ(xk+1) ≥ α1 [mk(xk)−mk(xk + dk)]

≥ α1κdηk min

∆k,

ηk1 + ‖Bk‖

≥ α1κdηk min

∆k,

ηk1 + κB

. (4.54)

Mas, devido ao Passo 1 do Algorithm 4.1, tem-se que ηk ≥ min εc, µ−1∆k. Logo,

Φ(xk)− Φ(xk+1) ≥ α1κd minεc, µ

−1∆k

min

∆k,

min εc, µ−1∆k1 + κB

. (4.55)

Como S e suposto ser infinito e Φ(xk) e limitado inferiormente por hlow, o lado esquerdo

da expressao acima converge para zero. Assim, tem-se que

limk∈S

∆k = 0. (4.56)

Para concluir, lembre-se que o raio de regiao de confianca ∆k pode ser aumentado (via

∆icbk ) apenas durante uma iteracao bem sucedida, e esse aumento so pode ser por um

fator de no maximo γinc. Seja k /∈ S o ındice de uma iteracao (apos a primeira iteracao

bem sucedida). Entao ∆k ≤ ∆icbk ≤ γinc∆ik , onde ik e o ındice da ultima iteracao bem

sucedida antes da iteracao k. Como ∆ik → 0, segue-se que ∆k → 0 para k /∈ S. Isto

completa a demonstracao.

A prova do proximo resultado e baseada na demonstracao do Lema 5.6 em [25].

Lema 4.11. Suponha que A1-A5 sao satisfeitas. Entao,

lim infk→+∞

η1(xk) = 0. (4.57)

Demonstracao. Suponha que (4.57) nao e verdadeiro. Entao, existe uma constante ε > 0

tal que

η1(xk) ≥ ε, para todo k. (4.58)

Neste caso, pelo Lema 4.9, existe τ > 0 tal que ∆k ≥ τ para todo k, contradizendo o

Lema 4.10.

O lema abaixo diz que se uma subsequencia de ηk converge para zero, entao o

mesmo acontece com a subsequencia correspondente de ξk. Este resultado sera funda-

mental para estabelecer a convergencia global do Algoritmo 4.1. Sua prova e baseada na

demonstracao do Lema 5.7 em [25].

90

Lema 4.12. Suponha que A1-A3 sao satisfeitas. Entao, para qualquer sequencia ki tal

que

limi→∞

η1(xki) = 0, (4.59)

tem-se que

limi→∞

ξ1(xki) = 0. (4.60)

Demonstracao. Por (4.59), η1(xki) ≤ εc para i suficientemente grande. Assim, devido

ao mecanismo do Algoritmo 4.2, segue-se que os modelos pki e qki sao quase plenamente

lineares sobre B[xki ; ∆ki ] com ∆ki ≤ µη1(xki) para todo i suficientemente grande. Entao,

pelo Teorema 4.3 tem-se

|ξ1(xki)− η1(xki)| ≤ κs∆ki ≤ κsµη1(xki), (4.61)

para todo i suficientemente grande. Consequentemente,

|ξ1(xki)| ≤ |ξ1(xki)− η1(xki)|+ |η1(xki)|

≤ (κsµ+ 1)η1(xki), (4.62)

para todo i suficientemente grande. Como η1(xki)→ 0, isto implica que ξ1(xki)→ 0.

Teorema 4.13. Suponha que A1-A5 sao satisfeitas. Entao,

lim infk→+∞

ξ1(xk) = 0. (4.63)

Demonstracao. Segue diretamente pelos Lemas 4.11 e 4.12.

Pelo teorema acima e o Lema 3.13, ao menos um ponto de acumulacao da sequencia

xk gerada pelo Algoritmo 4.1 e um ponto estacionario para (4.1) (ver Definicao 1.14).

A seguir, mostra-se que todos os pontos de acumulacao de xk sao pontos estacionarios.

A prova do proximo lema e baseada na demonstracao do Lema 5.4 em Conn, Scheinberg

e Vicente [25].

Lema 4.14. Suponha que A1-A5 sao satisfeitas. Se o conjunto S de iteracoes bem suce-

didas e finito, entao

limk→+∞

ξ1(xk) = 0. (4.64)

Demonstracao. Como S e finito, existe κ0 > 0 tal que k /∈ S sempre que k > κ0. Por

outro lado, pelo Passo 5 do Algoritmo 4.1 e pela Definicao 4.3, apenas um numero finito (e

uniformemente limitado, digamos por N) de iteracoes de melhora do modelo sao realizadas

antes que os modelos se tornem quase plenamente lineares. Assim, para cada j > κ0, seja

ij a primeira iteracao apos a j-esima iteracao para a qual os modelos pij e qij sao quase

plenamente lineares. Entao, pelo Lema 4.10,

‖xj − xij‖ ≤ N∆j → 0 quando j → +∞. (4.65)

91

Agora, observe que

|ξ1(xj)| ≤ |ξ1(xj)− ξ1(xij)|+ |ξ1(xij)− η1(xij)|+ |η1(xij)|. (4.66)

Assim, a conclusao segue provando-se que todos os tres termos do lado direito de (4.66)

convergem para zero. O primeiro termo converge para zero devido a continuidade de

ξ1 (ver Lema 3.13(a)) e o limite (4.65). Por sua vez, o segundo termo converge para

zero por conta do Teorema 4.3, Lema 4.10 e o fato de que pij e qij sao quase plenamente

linerares. Finalmente, o terceiro termo converge para zero devido ao Lema 4.8. De fato, se

η1(xij) fosse limitada longe de zero para uma subsequencia, entao para ∆ij suficientemente

pequeno (lembre-se que ∆ij → 0 quando j → +∞), ij > κ0 seria uma iteracao bem

sucedida, contradizendo a definicao de κ0.

O teorema abaixo estabelece a convergencia global forte do Algoritmo 4.1. Sua prova

e baseada na demonstracao do Teorema 5.8 em Conn, Scheinberg e Vicente [25], e na

demonstracao do Teorema 6.1.10 em Sun e Yuan [87].

Teorema 4.15. Suponha que A1-A5 sao satisfeitas. Entao

limk→∞

ξ1(xk) = 0. (4.67)

Demonstracao. Quando o conjunto S de iteracoes bem sucedidas e finito, (4.67) segue

pelo Lema 4.14. Assim, assuma que S e infinito. Por contradicao, suponha que existe

uma subsequencia ki de iteracoes bem sucedidas ou aceitaveis tal que

ξ1(xki) ≥ ε0, (4.68)

para algum ε0 > 0 e para todo i (as iteracoes de melhora do modelo e mal sucedidas

podem ser ignoradas pois em tais iteracoes tem-se xk+1 = xk). Entao, pelo Lema 4.12,

existe um ındice i0 tal que

η1(xki) ≥ 2ε, (4.69)

para algum ε > 0 e para todo i ≥ i0. Sem perda de generalidade, considere

ε ≤ min

ε0

2(2 + κsµ), εc

. (4.70)

Segue do Lema 4.11 que, para cada ki na subsequencia existe uma primeira iteracao

l(ki) > ki tal que η1(xl(ki)) < ε. Denote li ≡ l(ki). Assim, tem-se uma outra subsequencia

li tal que, para i ≥ i0,

η1(xk) ≥ ε for ki ≤ k < li e η1(xli) < ε. (4.71)

92

Seja

K = ∪i≥i0 k ∈ N | ki ≤ k < li . (4.72)

Como η1(xk) ≥ ε para todo k ∈ K e ∆k → 0 (pelo Lema 4.10), segue do Lema 4.8

que, para k ∈ K grande o suficiente, a k-esima sera bem sucedida se pk e qk forem quase

plenamente lineares, ou ela sera uma iteracao de melhora do modelo, caso contrario. Alem

disso, para cada k ∈ K ∩S, o Lema 4.6, as desigualdades (4.71) e a hipotese A4 implicam

que

Φ(xk)− Φ(xk+1) ≥ α1 [mk(xk)−mk(xk + dk)] ≥ α1κdεmin

∆k,

ε

1 + κB

. (4.73)

Como ∆k → 0, a partir de (4.73) segue-se que

∆k ≤1

α1κdε[Φ(xk)− Φ(xk+1)] (4.74)

para todo k ∈ K ∩ S suficientemente grande. No entanto, lembre-se que para todo

k ∈ K grande o suficiente, a iteracao k ou e bem sucedida ou e uma iteracao de melhora

do modelo. Como para iteracoes de melhora do modelo tem-se xk+1 = xk, por (4.74)

segue-se que, para i suficientemente grande,

‖xki − xli‖ ≤li−1∑

j=ki, j∈K∩S

‖xj − xj+1‖ ≤li−1∑

j=ki, j∈K∩S

∆j ≤1

α1κdε[Φ(xki)− Φ(xli)] .

Uma vez que o lado direito da expressao acima converge para zero, tem-se o limite

limi→+∞

‖xki − xli‖ = 0. (4.75)

Agora, note que

ξ1(xki) ≤ |ξ1(xki)− ξ1(xli)|+ |ξ1(xli)− η1(xli)|+ η1(xli). (4.76)

Como ξ1 e contınua, segue-se de (4.75) que

|ξ1(xki)− ξ1(xli)| < ε (4.77)

para i suficientemente grande. Por outro lado, por (4.71) tem-se que η1(xli) < ε. Entao,

a partir de (4.70) observa-se que o Passo 2 do Algoritmo 4.1 e executado na iteracao li e,

consequentemente, os modelos pli e qli sao quase plenamente lineares sobre B[xli ;µη1(xli)].

Assim, pelo Teorema 4.3,

|ξ1(xli)− η1(xli)| ≤ κsµη1(xli) < κsµε. (4.78)

93

Logo, por (4.76)-(4.78), (4.71) e (4.70) tem-se que

ξ1(xki) ≤ (2 + κsµ)ε ≤ 1

2ε0

para todo i grande o suficiente, o que contradiz (4.68). Isto completa a demonstracao.

4.5 Analise da complexidade de pior-caso

Nesta secao estuda-se a complexidade de pior-caso de uma ligeira modificacao do Algo-

ritmo 4.1, seguindo-se de perto os argumentos de Cartis, Gould e Toint [12, 13]. Para

tanto, (4.26) e substituıda pela regra

∆icbk+1 ∈

[∆k,min

γinc∆k, ∆

]se rk ≥ α1,


e qk sao quase plenamente lineares,


ou qk nao e CAFL,

(4.79)

onde 0 < γ1 < γ2 < 1 < γinc. Alem disso, considera-se εc = +∞ no Passo 0. Assim, o

Passo 2 e chamado em todas as iteracoes do Algoritmo 4.1 e, consequentemente, pk e qk

sao quase plenamente lineares para todo k.

Definicao 4.16. Dado ε ∈ (0, 1], um ponto x∗ ∈ Rn e dito ser um ponto ε-estacionario

para (4.1) se ξ1(x∗) ≤ ε.

Seja xk uma sequencia gerada pelo Algoritmo 4.1. Como o calculo de ξ1(xk) exige

o vetor gradiente ∇f(xk) e a matriz Jacobiana Jc(xk) (ver (3.83)-(3.85)), no contexto da

otimizacao sem derivadas nao e possıvel testar diretamente se uma iterada xk e ou nao

um ponto ε-estacionario. Uma maneira de se detectar a ε-estacionariedade consiste em

testar η1(xk) com base no seguinte lema.

Lema 4.17. Suponha que A1-A3 sao satisfeitas e seja ε ∈ (0, 1]. Se

η1(xk) ≤ε

(κsµ+ 1)≡ εs, (4.80)

entao xk e um ponto ε-estacionario para (4.1).

Demonstracao. Como os modelos pk e qk sao quase plenamente lineares sobre a bola

B[xk; ∆k] com ∆k ≤ µη1(xk), pelo Teorema 4.3 tem-se que

|ξ1(xk)− η1(xk)| ≤ κs∆k ≤ κsµη1(xk). (4.81)

94

Consequentemente, por (4.80) e (4.81), conclui-se que

|ξ1(xk)| ≤ |ξ1(xk)− η1(xk)|+ |η1(xk)| ≤ (κsµ+ 1)η1(xk) ≤ ε, (4.82)

isto e, xk e um ponto ε-estacionario para (4.1).

Outra maneira de se determinar ε-estacionariedade e fornecida pelo Algoritmo 4.2. O

teste e baseado no lema abaixo.

Lema 4.18. Suponha que A1-A3 sao satisfeitas e seja ε ∈ (0, 1]. Denote por i1 + 1 o

numero de vezes que o laco no Algoritmo 4.2 e repetido. Se

i1 ≥ 1 + log

(ε

(κs + µ−1)∆

)/log(ω), (4.83)

entao a iterada atual xk e um ponto ε-estacionario para (4.1).

Demonstracao. Seja I = i ∈ R | i ≤ i1. Entao, tem-se que

µη(i)k < ωi−1∆icb

k , (4.84)

para todo i ∈ I. Como os modelos p(i)k e q

(i)k sao quase plenamente lineares sobre

B[xk;ωi−1∆icb

k ], segue pelo Teorema 4.3 que

|ξk − η(i)k | ≤ κsω

i−1∆icbk , (4.85)

para cada i ∈ I. Logo,

|ξk| ≤ |ξk − η(i)k |+ |η

(i)k | ≤ (κs + µ−1)ωi−1∆icb

k ≤ (κs + µ−1)ωi−1∆, (4.86)

para cada i ∈ I. Por outro lado, como ω ∈ (0, 1), por (4.83) tem-se que

i1 ≥ 1 + log

(ε

(κs + µ−1)∆

)/log(ω)

=⇒ i1 − 1 ≥ log

(ε

(κs + µ−1)∆

)/log(ω)

=⇒ (i1 − 1)log(ω) ≤ log

(ε

(κs + µ−1)∆

)=⇒ log(ωi1−1) ≤ log

(ε

(κs + µ−1)∆

)=⇒ ωi1−1 ≤ ε

(κs + µ−1)∆

=⇒ (κs + µ−1)ωi1−1∆ ≤ ε. (4.87)

Assim, a partir de (4.86) e (4.87) conclui-se que ξ1(xk) ≤ ε.

95

Nesta secao, a complexidade de pior caso e definida como o numero maximo de ava-

liacoes de funcao necessarias para que o teste (4.80) seja satisfeito. Por conveniencia,

considera-se a seguinte notacao:

S = k ≥ 1 | k bem sucedida , (4.88)

Sj = k ≤ j | k ∈ S , para cada j ≥ 1, (4.89)

Uj = k ≤ j | k /∈ S para cada j ≥ 1, (4.90)

S ′ = k ∈ S | η1(xk) > εs , ε > 0, (4.91)

onde Sj e Uj formam uma particao de 1, . . . , j, |Sj|, |Uj| e |S ′| denotam a cardinalidade

destes conjuntos, e εs = εs(ε) e definido em (4.80). Alem disso, seja S0 um conjunto

generico de ındices tal que

S0 ⊆ S ′, (4.92)

e cuja cardinalidade e denotada por |S0|.O proximo lema fornece um limitante superior para a cardinalidade |S0| de um con-

junto S0 satisfazendo (4.92).

Lema 4.19. Suponha que A3 e A5 sao satisfeitas. Dado ε > 0, sejam S ′ e S0 definidos

em (4.91) e (4.92), respectivamente. Suponha que as iteradas bem sucedidas xk geradas

pelo Algoritmo 4.1 possuem a propriedade

mk(xk)−mk(xk + dk) ≥ θcεp, para todo k ∈ S0, (4.93)

onde θc e uma constante positiva independente de k e ε, e p > 0. Entao,

|S0| ≤⌈κpε−p⌉ , (4.94)

onde κp ≡ (Φ(x0)− Φlow) / (α1θc).

Demonstracao. Segue pelo mesmo argumento usado na prova do Teorema 2.2 em Cartis,

Gould e Toint [12].

O lema a seguir fornece um limitante inferior para ∆k quando ηk e limitada longe

de zero. Sua prova e uma adaptacao da prova do Lema 4.9.

Lema 4.20. Suponha que A1-A4 sao satisfeitas e seja ε > 0 tal que ηk ≥ ε para todo

k = 0, . . . , j, onde j ≤ +∞. Entao, existe τ > 0 independente de k e ε tal que

∆k ≥ τε, para todo k = 0, . . . , j. (4.95)

Demonstracao. Primeiro, por inducao, sera provado que

∆k ≥ τ , (4.96)

96

para todo k = 0, . . . , j com

τ = min

βε,∆icb

0 ,γ1ε

1 + κB,γ1κd(1− α1)ε

κm

. (4.97)

A partir da igualdade (4.21) no Passo 2 do Algoritmo 4.1, segue-se que

∆k ≥ minβηk,∆

icbk

, para todo k. (4.98)

Assim, como ηk ≥ ε para k = 0, . . . , j, tem-se

∆k ≥ minβε,∆icb

k

, para todo k = 0, . . . , j. (4.99)

Em particular, (4.99) implica que (4.96) vale para k = 0.

Agora, assumindo que (4.96) vale para k ∈ 0, . . . , j − 1 prova-se que essa desigual-

dade tambem vale para k + 1. Para tando, primeiro suponha que

∆k ≤ min

ε

1 + κB,κd(1− α1)ε

κm

. (4.100)

Como pk e qk sao quase plenamente lineares para k, pelo Lema 4.8, tem-se que a k-esima

iteracao e bem sucedida. Entao, por (4.79), ∆icbk+1 ≥ ∆k. Logo, (4.99), a hipotese de

inducao e (4.97) implicam que

∆k+1 ≥ minβε,∆icb

k+1

≥ min βε,∆k ≥ min βε, τ = τ . (4.101)

Portanto, (4.96) e verdadeira para k + 1. Por outro lado, suponha que (4.100) nao e

verdadeira. Entao, a partir de (4.79), (4.99) e (4.97), segue-se que

∆icbk+1 ≥ γ1∆k > min

γ1ε

1 + κB,γ1κd(1− α1)ε

κm

≥ τ

=⇒ ∆k+1 ≥ minβε,∆icb

k+1

≥ min βε, τ = τ .

Logo, (4.96) e verdadeira para k = 0, . . . , j. Por fim, como ε ∈ (0, 1], tem-se que

τ ≥ min

β,∆icb

0 ,γ1

1 + κB,γ1κd(1− α1)

κm

ε ≡ τε. (4.102)

Por conseguinte, (4.96) e (4.102) implicam que

∆k ≥ τε, para todo k = 0, . . . , j, (4.103)

onde τ e independente de k e ε.

Agora pode-se obter um limitande para a complexidade de pior-caso do Algoritmo 4.1.

97

A prova deste resultado baseia-se nas provas do Teorema 2.1 e do Corolario 3.4 Cartis,

Gould e Toint [12], bem como na prova do Teorema 2.4 em Cartis, Gould e Toint [13].

Teorema 4.21. Suponha que A1-A5 sao satisfeitas. Dado ε ∈ (0, 1], assuma que η1(x0) >

εs e seja j1 ≤ +∞ a primeira iteracao tal que η1(xj1+1) ≤ εs, onde εs = εs(ε) e definido

em (4.80). Entao, o Algoritmo 4.1 com a regra (4.79) e εc = +∞ exige no maximo

Ls1 ≡⌈κscε−2⌉

(4.104)

iteracoes bem sucedidas para gerar η1(xj1+1) ≤ εs e consequentemente (pelo Lema 4.17)

ξ1(xj1+1) ≤ ε, onde

κsc ≡ (Φ(x0)− Φlow) /(α1θc), θc = κd min τ, 1/(1 + κB) /(κsµ+ 1)2. (4.105)

Alem disso,

j1 ≤⌈κwε

−2⌉≡ L1, (4.106)

e o Algoritmo 4.1 exige no maximo L1 iteracoes para gerar ξ1(xj1+1) ≤ ε, onde

κw ≡(

1− log(γ−1inc)

log(γ−12 )

)κsc +

(κsµ+ 1)∆icb0

τ log(γ−12 )

. (4.107)

Demonstracao. A definicao de j1 no enunciado do teorema implica que

η1(xk) > εs, for k = 0, . . . , j1. (4.108)

Logo, pelo Lema 4.6, a hipotese A4, o Lema 4.20 e a definicao de εs em (4.80), obtem-se

mk(xk)−mk(xk + dk) ≥ κdεs min

∆k,

εs1 + κB

≥ κd

(κsµ+ 1)2εmin

τε,

ε

1 + κB

=

κd(κsµ+ 1)2

min τ, 1/(1 + κB) ε2

= θcε2, para k = 1, . . . , j1, (4.109)

onde θc e definido por (4.105). Por conseguinte, com j = j1 em (4.89) e (4.90), o Lema

4.19 com S0 = Sj1 e p = 2 fornece o limitante de complexidade

|Sj1| ≤ Ls1, (4.110)

98

onde Ls1 e definido por (4.104). Por outro lado, segue da regra (4.79) e do Lema 4.20 que

∆icbk+1 ≤ γinc∆k ≤ γinc∆

icbk , se k ∈ Sj1 ,

∆icbk+1 ≤ γ2∆k ≤ γ2∆icb

k , se k ∈ Uj1 ,

∆icbk ≥ ∆k ≥

τ

κsµ+ 1ε, para k = 0, . . . , j1.

Assim, considerando ωk ≡ 1/∆icbk , tem-se

c1ωk ≤ ωk+1, se k ∈ Sj1 , (4.111)

c2ωk ≤ ωk+1, se k ∈ Uj1 , (4.112)

ωk ≤ ωε−1, para k = 0, . . . , j1, (4.113)

onde c1 = γ−1inc ∈ (0, 1], c2 = γ−1

2 > 1 e ω = (κsµ+ 1)/τ . Ora, a partir de (4.111) e (4.112)

obtem-se indutivamente a desigualdade

ω0c|Sj1 |1 c

|Uj1 |2 ≤ ωj1 .

Logo, de (4.113) segue-se que

ω0c|Sj1 |1 c

|Uj1 |2 ≤ ωε−1

=⇒ c|Sj1 |1 c

|Uj1 |2 ≤ ωε−1

ω0

=⇒ log(c|Sj1 |1 c

|Uj1 |2

)≤ log

(ωε−1

ω0

)≤ ω

ω0

ε−1

=⇒ |Sj1|log(c1) + |Uj1 |log(c2) ≤ ω

ω0

ε−1

=⇒ |Uj1| ≤[− log(c1)

log(c2)|Sj1|+

ω

ω0log(c2)ε−1

].

Por fim, como j1 = |Sj1|+ |Uj1| e ε−2 ≥ ε−1, obtem-se o limitante superior

j1 ≤ κscε−2 +

[− log(c1)

log(c2)κscε−2 +

ω

ω0log(c2)ε−1

]≤ κscε

−2 +

[− log(c1)

log(c2)κscε−2 +

ω

ω0log(c2)ε−2

]=

[(1− log(c1)

log(c2)

)κsc +

ω

ω0log(c2)

]ε−2

= κwε−2.

Isto completa a demonstracao.

99

Corolario 4.22. Suponha que A1-A5 sao satisfeitas e seja ε ∈ (0, 1]. Alem disso, assuma

que o algoritmo de melhoramento do modelo exige no maximo m avaliacoes de f e c para

construir modelos quase plenamente lineares. Entao, o Algoritmo 4.1 com a regra (4.79)

e εc = +∞ atinge um ponto ε-estacionario para (4.1) apos no maximo

O(m [|log(ω)|+ |log(ε)|+ |log(κu)|] ε−2

)avaliacoes de funcao (isto e, avaliacoes de f e c), onde κu = (κs + µ−1)∆.

Demonstracao. No pior caso, o Algoritmo 4.2 sera executado em todas as iteracoes do

Algoritmo 4.1, e em cada uma dessas execucoes o numero i1 de repeticoes no Algoritmo

4.2 sera menor que

1 +

log(ε

κu

)log(ω)

,

de modo que o teste de ε-criticalidade (4.83) no Lema 4.18 nao seja satisfeito. Como em

cada uma dessas repeticoes o algoritmo de melhoramento do modelo exige no maximo m

avaliacoes de f e c para construir modelos quase plenamente lineares, segue-se que cada

iteracao do Algoritmo 4.1 exige no maximo

m

1 +

∣∣∣∣∣∣∣∣log

(ε

κu

)log(ω)

∣∣∣∣∣∣∣∣

avaliacoes de funcao. Logo, pelo Teorema 4.21, o Algoritmo 4.1 requer no maximo

m

1 +

∣∣∣∣∣∣∣∣log

(ε

κu

)log(ω)

∣∣∣∣∣∣∣∣⌈κwε−2

⌉

avaliacoes de funcao para reduzir a medida de estacionariedade ξ1(x) abaixo de ε.

Corolario 4.23. Suponha que A1-A5 sao satisfeitas e seja ε ∈ (0, 1]. Alem disso, assuma

que a classe de modelos plenamente lineares seja usada para aproximar as funcoes f e c,

e que o Algoritmo 6.3 em Conn, Scheinberg e Vicente [26] seja usado como o algoritmo

de melhoramento dos modelos. Entao, o Algoritmo 4.1 com a regra (4.79) e εc = +∞atinge um ponto ε-estacionario para (4.1) apos no maximo

O((n+ 1) [|log(ω)|+ |log(ε)|+ |log(κu)|] ε−2

)(4.114)

avaliacoes de funcao (isto e, avaliacoes de f e c).

100

Demonstracao. Segue pelo fato de que o Algoritmo 6.3 em Conn, Scheinberg e Vicente

[26] exige no maximo n+1 avaliacoes de f e c para construir modelos plenamente lineares.

A fim de contextualizar os resultados acima, vale a pena revisar alguns trabalhos

recentes sobre complexidade de pior-caso em otimizacao nao-linear e nao-convexa. Com

respeito aos algoritmos com derivadas, Cartis, Gould e Toint [13] propuseram um metodo

de regiao de confianca e um metodo de regularizacao destinado a minimizacao de (4.1),

para o quais eles provaram uma limitacao de O (ε−2) avaliacoes de funcao para se reduzir

ξ1(xk) abaixo de ε. Por outro lado, no contexto dos algoritmos sem derivadas, Cartis,

Gould e Toint [14] provaram um limitante de complexidade de pior-caso de

O(

(n2 + 5n) [1 + |log(ε)|] ε−32

)(4.115)

avaliacoes de funcao para uma versao do algoritmo ARC para otimizacao suave sem

restricoes, na qual as derivadas sao aproximadas por diferencas finitas. Alem disso, para

a minimizacao de uma funcao nao-convexa e nao-suave, Nesterov [70] propos um algoritmo

de suavizacao estocastico para o qual ele provou um limitante de complexidade de pior-

caso de

O(n(n+ 4)2ε−3

)(4.116)

avaliacoes de funcao para reduzir abaixo de ε o valor esperado do quadrado da norma

do gradiente da funcao de suavizacao. Por fim, ainda no caso nao-suave, Garmanjani

e Vicente [40] propuseram recentemente uma classe de metodos de busca direta com

suavizacao para o qual eles provaram um limitante de complexidade de pior-caso de

O(n

52 [|log(ε)|+ log(n)] ε−3

)(4.117)

avaliacoes de funcao para reduzir abaixo de ε a norma do gradiente da funcao de sua-

vizacao.

Comparando o limitante de complexidade de pior-caso (4.114) com os limitantes

(4.116) e (4.117), observa-se que (4.114) e o melhor em termos das potencias de n e

em termos das potencias de ε. No entanto, em tal comparacao, deve-se levar em conta

que esses limitantes de complexidade foram obtidos com respeito a diferentes medidas de

estacionariedade.

4.6 Um algoritmo de penalidade exata sem derivadas

Considere agora o problema de otimizacao com restricoes de igualdade (4.3), onde a

funcao objetivo f : Rn → R e a funcao das restricoes c : Rn → Rr sao continuamente

diferenciaveis. Uma forma de se resolver tal problema consiste em resolver o problema

101

sem restricoes associado

minx∈Rn

Φ(x, ρ), (4.118)

onde

Φ(x, ρ) ≡ f(x) + ρ‖c(x)‖ (4.119)

e uma funcao de penalidade exata [10, 71] e ‖ . ‖ e uma norma poliedral (ver Apendice

A). Mais especificamente, um algoritmo de penalidade exata para o problema (4.3) pode

ser estabelecido da seguinte maneira.

Algoritmo 4.3. Algoritmo de penalidade exata [87]

Passo 0 Dado x0 ∈ Rn, ρ0 > 0, λ > 0 e ε > 0, defina k := 0.

Passo 1 Encontre uma solucao xk+1 do problema (4.118) com ρ = ρk e comecando por

xk.

Passo 2 Se ‖c(xk+1)‖ ≤ ε, pare. Caso contrario, defina ρk+1 = ρk +λ, k := k+ 1 e volte

para o Passo 1.

Conforme mencionado na Secao 4.1, o problema (4.118) e um caso particular do pro-

blema (4.1). Neste caso, a medida de criticalidade ξ1(x) se torna

ξ1(x) = f(x) + ρ‖c(x)‖ − min‖s‖≤1

f(x) +∇f(x)T s+ ρ‖c(x) + Jc(x)s‖ ≡ Ψρ(x), (4.120)

e tem-se entao o seguinte resultado.

Teorema 4.24. Suponha que A1, A2 e A4 sao satisfeitas, e que a sequencia f(xk) e

limitada inferiormente. Entao, para todo ε ∈ (0, 1], o Algoritmo 4.1 aplicado ao problema

(4.118) ira gerar um ponto x(ρ) tal que

Ψρ(x(ρ)) ≤ ε. (4.121)

Demonstracao. Segue diretamente do Teorema 4.15 (ou do Teorema 4.21 quando (4.79)

e usada e εc = +∞).

Pelo teorema acima, pode-se resolver aproximadamente o subproblema (4.118) no

Passo 1 do Algoritmo 4.3 aplicando-se o Algoritmo 4.1. O resultado e o seguinte algoritmo

de penalidade exata sem derivadas.

Algoritmo 4.4. Algoritmo de penalidade exata sem derivadas

Passo 0 Dado x0 ∈ Rn, ρ0 > 0, λ > 0 e ε > 0, defina k := 0.

Passo 1 Aplique o Algoritmo 4.1 para resolver o subproblema (4.118) com ρ = ρk.

Comece por xk e pare em uma solucao aproximada xk+1 para a qual

Ψρk(xk+1) ≤ ε,

102

onde Ψρk(xk+1) e definido em (4.120) com ρ = ρk e x = xk+1.

Passo 2 Se ‖c(xk+1)‖ ≤ ε, pare. Caso contrario, defina ρk+1 = ρk +λ, k := k+ 1 e volte

para o Passo 1.

Definicao 4.25. Dado ε ∈ (0, 1], um ponto x ∈ Rn e dito ser um ponto ε-estacionario

para o problema (4.3) se existe y∗ tal que

‖∇f(x) + Jc(x)Ty∗‖ ≤ ε. (4.122)

Se, adicionalmente, ‖c(x)‖ ≤ ε, entao x e dito ser um ponto ε-KKT para o problema

(4.3).

O proximo resultado, devido a Cartis, Gould e Toint [13], estabelece a relacao entre

pontos ε-estacionarios para (4.1) e pontos ε-KKT para (4.3).

Teorema 4.26. Suponha que A1 e satisfeita e que ρ > 0. Considere a minimizacao de

Φ(., ρ) por algum algoritmo, o qual produz uma solucao aproximada x tal que

Ψρ(x) ≤ ε, (4.123)

para uma tolerancia ε > 0 dada (isto e, x e um ponto ε-estacionario para (4.118)). Entao,

existe y∗(ρ) tal que

‖∇f(x) + Jc(x)Ty∗(ρ)‖ ≤ ε. (4.124)

Adicionalmente, se ‖c(x)‖ ≤ ε, entao x e um ponto ε-KKT do problema (4.3).

Demonstracao. Ver Teorema 3.1 em Cartis, Gould e Toint [13].

O teorema abaixo fornece um limitante de complexidade de pior-caso para o Algoritmo

4.4. Sua prova baseia-se na demonstracao do Teorema 3.2 em Cartis, Gould e Toint [13].

Teorema 4.27. Suponha que A1, A2 e A4 sao satisfeitas, e assuma que a sequencia

f(xk) e limitada inferiormente. Alem disso, para o Algoritmo 4.1 no Passo 1, suponha

que εc = +∞ e que o algoritmo de melhoramento do modelo exige no maximo m avaliacoes

de funcao para construir modelos quase plenamente lineares. Se existe ρ > 0 tal que ρk ≤ ρ

para todo k, entao o Algoritmo 4.4 terminara ou com um ponto ε-KKT ou com um ponto

ε-estacionario para (4.3) inviavel, em no maximo

mρ

λ

1 +

∣∣∣∣∣∣∣∣log

(ε

κu

)log(ω)

∣∣∣∣∣∣∣∣⌈κwε−2

⌉(4.125)

avaliacoes de funcao, onde κu e κw sao constantes positivas que dependem de ρ, mas sao

independentes das dimensoes n e r do problema.

103

Demonstracao. Pelo Corolario 4.22, para resolver aproximadamente o subproblema (4.118),

o Algoritmo 4.1 exigira no maximo

m

1 +

∣∣∣∣∣∣∣∣log

(ε

κu

)log(ω)

∣∣∣∣∣∣∣∣⌈κwε−2

⌉(4.126)

avaliacoes de funcao. Como Φ(., ρk) satisfaz A3 com Lh = ρk, segue-se das definicoes de κu

e κw (ver Corolario 4.22 e Teorema 4.21, respectivamente) que κu = κu(ρk) e κw = κw(ρk)

sao crescente com respeito a ρk. Assim, κu(ρk) ≤ κu(ρ) ≡ κu e κw(ρk) ≤ κw(ρ) ≡ κw.

Por outro lado, como ρk crescera, no maximo, (ρ− ρ0)/λ vezes ate atingir o seu limitante

superior, serao resolvidos no maximo ρ/λ subproblemas (4.118). Portanto, o Algoritmo

4.4 ira terminar em no maximo (4.125) avaliacoes de funcao. Finalmente, seja xk a ultima

iterada calculada. Pelo Teorema 4.24, segue-se que xk e um ponto ε-estacionario para

(4.3). Se, adicionalmente, ‖c(xk)‖ ≤ ε, entao xk e um ponto ε-KKT para (4.3).

Para otimizacao nao-linear com restricoes, Cartis, Gould e Toint [13] propuseram um

algoritmo de penalidade exata para o qual eles provaram um limitante de complexidade de

pior-caso de O(ε−2) avaliacoes de funcao. Outro limitante de complexidade de mesma or-

dem foi obtido pelos mesmos autores em [15] sob condicoes mais fracas para um algoritmo

homotopico de passo curto. Mais recentemente, Cartis, Gould e Toint [16] propuseram um

algoritmo ARC de passo curto para o qual eles provaram um limitante de complexidade de

pior-caso de O(ε−3/2

)avaliacoes de funcao. No entanto, todos esses algoritmos requerem

gradientes da funcao objetivo e das funcoes de restricao envolvidas no problema. Em se

tratando de otimizacao sem derivadas, embora varios algoritmos tenham sido propostos

(ver por exemplo [9, 21, 22, 31, 64]), pelo conhecimento do autor, (4.125) e o primeiro

limitante de complexidade para otimizacao nao-linear com restricoes e sem derivadas.

4.7 Experimentos Numericos

A fim de ilustrar a performance do Algoritmo 4.1 e do Algoritmo 4.4, experimentos

numericos foram realizados com problemas minimax e problemas de programacao nao-

linear. Tais experimentos se deram em linguagem MATLAB 7.12.0 (R2011a) em um PC

com 2.53 GHz Intel(R) Core(TM) i3 e 1.87 GB de RAM. Modelos de interpolacao linear

foram utilizados para aproximar as funcoes f e c, e os Algoritmos 6.2 e 6.3 de Conn,

Scheinberg e Vicente [26] foram usados para completar os conjuntos de interpolacao e

melhorar os modelos, respectivamente. Alem disso, a regra (4.26) foi empregada nas

implementacoes.

104

4.7.1 Problemas minimax

O problema minimax e um caso particular do problema de otimizacao composta nao-suave

(4.1) onde f = 0 e h : Rr → R e dado por

h(c) = max1≤i≤r

ci. (4.127)

O conjunto de problemas teste considerado e composto por todos os 25 problemas minimax

reportados em Luksan e Vlcek [59], mais 12 problemas reportados em Di Pillo e Lucidi

[32], totalizando 37 problemas. Varios destes problemas estao originalmente na forma

minx∈Rn

max1≤i≤r

|ci(x)|. (4.128)

Nestes casos, os problemas foram reescritos como

minx∈Rn

max1≤i≤2r

gi(x), (4.129)

com

gi(x) =

ci(x), se i = 1, . . . , r,

−ci(x), se i = r + 1, . . . , 2r.(4.130)

Considerando esta reformulacao, a dimensao dos problemas testados varia entre 2 e 20,

enquanto o numero de funcoes coordenadas varia de 2 a 130.

Como h dada por (4.127) e uma funcao convexa poliedral, considera-se no Algoritmo

4.1 a norma ‖.‖ = ‖.‖∞ e tambem Bk = 0 para todo k. Desta forma, os subproblemas

(4.19), (4.22)-(4.23) e (4.28) se reduzem a problemas de programacao linear (ver Apendice

A), os quais sao resolvidos usando-se a funcao MATLAB linprog. A implementacao do

Algoritmo 4.1 resultante e referida como “DFMS”.

Com o proposito de se avaliar a abilidade do codigo DFMS de obter solucoes acuradas,

os parametros no Passo 0 foram escolhidos como ∆ = 50, ∆icb0 = 1, α0 = 0, α1 = 0.25,

γ1 = 0.5, γinc = 2, εc = 10−4, µ = 1, β = 0.75 e ω = 0.5. Alem disso, a execucao do

codigo foi interrompida quando algum dos criterios abaixo foi satisfeito:

∆k < 10−4 ou Φ(xk) > 0.98Φ(xk−10). (4.131)

Seguindo Birgin e Gentil [5], declara-se que um problema foi resolvido quando

Φ-Erro ≡ |Φ(x)− Φ∗|max 1, |Φ(x)|, |Φ∗|

≤ 10−2, (4.132)

onde x e a solucao retornada pelo codigo e Φ∗ e o valor mınimo da funcao fornecido em

[32] e [59].

Problemas e resultados sao reportados na Tabela 4.1, onde “n” representa o numero

105

de variaveis, “r” representa o numero de funcoes coordenadas, “nΦ” representa o numero

de avaliacoes de funcao e uma entrada “F” indica que o codigo foi interrompido devido

a algum erro durante a execucao do Algoritmo 4.2. O asterisco indica que o problema

original foi modificado de acordo com (4.129)-(4.130).

Problema n r Φ∗ nΦ Φ-Erro01. CB2 2 3 1.9522E+00 55 6.5961E-0402. WF 2 3 0.0000E+00 373 2.1934E-0803. Spiral 2 2 0.0000E+00 121 7.7601E-0204. EVD52 3 6 3.5997E+00 109 1.8400E-0405. Rosen-Suzuki 4 4 -4.4000E+01 281 3.8277E-0906. Polak 6 4 4 -4.4000E+01 431 1.4373E-0907. PBC 3* 3 42 4.2021E-03 88 3.4122E-0508. Bard* 3 30 5.0816E-02 104 5.0416E-0509. Kowalik-Osborne* 4 22 8.0844E-03 150 9.4040E-0510. Davidon 2* 4 40 1.1571E+02 261 4.2693E-0411. OET5* 4 42 2.6360E-03 316 8.2882E-0512. OET6* 4 42 2.0161E-03 150 7.6847E-0513. Gamma 4 61 1.2042E-07 F F14. EXP 5 21 1.2237E-04 F F15. PBC 1* 5 60 2.2340E-02 444 1.7848E-0516. EVD61* 6 102 3.4905E-02 280 4.8678E-0217. Transformer 6 11 1.9729E-01 381 1.1538E-0118. Filter* 9 82 6.1853E-03 344 3.5529E-0119. Wong 1 7 5 6.8063E+02 121 5.4263E-0320. Wong 2 10 9 2.4306E+01 375 2.5243E-0221. Wong 3 20 18 1.3373E+02 862 5.3498E-0322. Polak 2 10 2 5.4598E+01 199 1.2651E-0423. Polak 3 11 10 2.6108E+02 289 2.6148E-0324. Watson 20 31 1.4743E-08 F F25. Osborne 2* 11 130 4.8027E-02 600 9.7441E-0526. Crescent 2 2 0.0000E+00 132 5.9209E-0827. Polak 1 2 2 2.7183E+00 301 3.0213E-0628. LQ 2 2 -1.4142E+00 520 1.1270E-0829. Char.-Conn 1 2 3 1.9522E+00 52 5.3573E-0430. Char.-Conn 2 2 3 1.9522E+00 79 2.7993E-0331. Demy-Malo. 2 3 -3.0000E+00 366 9.2632E-0732. QL 2 3 7.2000E+00 49 4.4769E-0633. Hald-Madsen 1 2 4 0.0000E+00 54 8.4185E-0834. Hald-Madsen 2* 5 42 1.2200E=04 F F35. El Attar* 6 102 3.4900E-02 F F36. Maxq 20 20 0.0000E+00 1135 1.4524E-0837. Maxl 20 40 0.0000E+00 504 1.5809E-13

Tabela 4.1: Resultados numericos para problemas minimax.

Os resultados na Tabela 4.1 mostram que o codigo DFMS foi capaz de resolver a

maioria dos problemas teste (27 deles), utilizando um numero razoavel de avaliacoes de

funcao. As excecoes foram os problemas “Spiral”, “EVD61”, “Filter”, “Transformer” e

“Wong 2”, onde o criterio (4.132) nao foi satisfeito, e os problemas “Gamma”, “EXP”,

“Watson”, “Hald-Madsen 2” e “ El Attar”, nos quais um valor NaN foi encontrado durante

a execucao do Algoritmo 4.2.

106

Para investigar as potencialidades e limitacoes do Algoritmo 4.1, o codigo DFMS foi

comparado com os seguintes codigos:

• NMSMAX: uma implementacao MATLAB do metodo Nelder-Mead, disponıvel gra-

tuitamente dentro do pacote Matrix Computation Toolbox [51].

• WEDGE: uma implementacao MATLAB do metodo de regiao de confianca Wedge

proposto por Marazzi e Nocedal [63], disponıvel gratuitamente no website do se-

gundo autor4.

O codigo NMSMAX representa a classe de metodos de busca direta, enquanto o codigo

WEDGE representa a classe dos metodos de regiao de confianca sem derivadas baseados

em interpolacao. Vale a pena salientar que nenhum destes metodos explora a estrutura

do problema, sendo justamente esse o diferencial do Algoritmo 4.1.

A fim de comparar a performance dos codigos, utilizam-se os perfis de desempenho de

Dolan e More [33] e os perfis de dados de More e Wild [68]. Para definir essas medidas,

primeiro, suponha que P e um conjunto de problemas e S e um conjunto de metodos. O

teste de convergencia dos metodos e:

Φ(x0)− Φ(x) ≥ (1− τ) (Φ(x0)− ΦL) , (4.133)

onde τ > 0 e uma tolerancia, x0 e o ponto inicial para o problema, e ΦL e calculado para

cada problema p ∈ P como sendo o menor valor de Φ obtido entre todos os metodos

considerados dentre de um limite µΦ de avaliacoes de funcao. Para uma dada tolerancia

τ , seja tp,s o numero de avaliacoes de funcao exigidas pelo metodo s para satisfazer (4.133)

com respeito ao problema p. A razao de desempenho rp,s e definida como

rp,s =tp,st∗p, (4.134)

onde t∗p e o menor numero de avaliacoes de funcao exigidos por todos os metodos para se

resolver o problema p. Assim, rp,s ≥ 1 para quaisquer p e s. Se o metodo s nao resolve

um problema p, a razao rp,s e associada a um numero rM tal que rp,s < rM para quaisquer

p, s, onde s resolve o problema p. Por fim, o perfil de desempenho para cada metodo s e

definido como a razao

ρs(α) =No. de problemas tais que rp,s ≤ α

No. total de problemas. (4.135)

Note que ρs(1) e a fracao de problemas para os quais o metodo s e o melhor, enquanto

que para α suficientemente grande, ρs(α) e a fracao de problemas que o metodo s e capaz

4http://www.ece.northwestern.edu/˜nocedal/wedge.html

107

de resolver. Por sua vez, o perfil de dados para cada metodo s e definido como

ds(κ) =No. de problemas tais que tp,s/(np + 1) ≤ κ

No. total de problemas, (4.136)

onde np e o numero de variaveis no problema p. Assim, o perfil de dados ds(κ) pode ser

interpretado como o percentual de problemas que podem ser resolvidos utilizando-se uma

quantidade de avaliacoes de funcao equivalente a κ estimativas de gradiente simplex, visto

que np + 1 corresponde ao numero de avaliacoes de funcao necessarias para calcular uma

estimativa do vetor gradiente via diferencas finitas.

Como os problemas teste possuem no maximo 20 variaveis, considerou-se µΦ = 1050

de modo que todos os codigos pudessem utilizar pelo menos 50 gradientes simplex. Os

perfis de dados sao apresentados para τ = 10−k com k ∈ 1, 3, 5, 7, enquanto os perfis

de desempenho sao apresentados para τ = 10−k com k ∈ 1, 5.Os perfis de dados na Figura 4.1 atestam o bom desempenho do codigo DFMS. Eles

mostram que DFMS resolveu a maior porcentagem de problemas para todos os valores

κ ≥ 10 e todos os nıveis de precisao τ , exceto τ = 10−1, enquanto WEDGE apresentou

o pior desempenho entre os codigos. Por sua vez, os perfis de desempenho na Figura 4.2

tambem mostram que o codigo DFMS e competitivo em relacao aos codigos NMSMAX

e WEDGE. Especificamente, para τ = 10−1, DFMS apresenta um desempenho similar

ao codigo NMSMAX, enquanto ambos superam o codigo WEDGE. Porem, exigindo-se

uma precisao maior para a solucao, com τ = 10−5, DFMS e o codigo que exigiu menos

avaliacoes de funcao em cerca de 60% dos problemas, enquanto NMSMAX foi o melhor

em cerca de 45% dos problemas e WEDGE foi o melhor em cerca de 15% dos problemas.

A superioridade dos codigos DFMS e NMSMAX em relacao ao codigo WEDGE nao

e tao surpreendente, visto que os codigos DFMS e NMSMAX foram desenvolvidos para

tratar problemas nao-suaves, enquanto o WEDGE foi desenvolvido para problemas suaves.

Por outro lado, a superioridade do codigo DFMS em relacao ao NMSMAX neste conjunto

de problemas testes pode ser explicada pelo fato de que DFMS explora a estrutura do

problema minimax, a qual nao e considerada pelo codigo NMSMAX.

108

0 5 10 15 20 25 30 35 40 45 500

0,2

0,4

0,6

0,8

1

κ

d(κ

)

τ=10−1

DFMSNMSMAXWEDGE

0 5 10 15 20 25 30 35 40 45 500

0,2

0,4

0,6

0,8

1

κ

d(κ

)

τ=10−3

0 5 10 15 20 25 30 35 40 45 500

0,2

0,4

0,6

0,8

1

κ

d(κ

)

τ=10−5

0 5 10 15 20 25 30 35 40 45 500

0,2

0,4

0,6

0,8

1

κ

d(κ

)

τ=10−7

Figura 4.1: Perfis de dados ds(κ) para problemas minimax.

109

1 1,2 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

α

ρ(α

)

τ=10−1

DFMSNMSMAXWEDGE

1 1,5 2 2,5 3 3,5 4 4,5 50

0,2

0,4

0,6

0,8

1

α

ρ(α

)

τ=10−5

Figura 4.2: Perfis de desempenho ρs(α) para problemas minimax.

4.7.2 Problemas com restricoes de igualdade

Para ilustrar o desempenho do Algoritmo 4.4, experimentos numericos foram realizados

considerando todos os 22 problemas de otimizacao com restricoes de igualdade reportados

em Hock e Schittkowski [52]. A dimensao dos problemas varia 2 a 7, enquanto o numero

de restricoes varia de 1 a 4. O numero maximo de iteracoes do Algoritmo 4.4 foi fixado em

20, e os parametros no seu Passo 0 foram escolhidos como ρ0 = 1, λ = 10 e ε = 10−4. Alem

disso, para resolver o problema (4.118) com ‖.‖ = ‖.‖∞, utilizou-se uma implementacao

do Algoritmo 4.1, referida aqui como “DFCS”, a qual nao passa de uma extensao do

codigo DFMS para o caso f 6= 0. Para o codigo DFCS, fixou-se um numero maximo de

500 avaliacoes de funcao, os parametros sao os mesmos usados no codigo DFMS, e como

criterio de parada utilizou-se (4.131). Por fim, declara-se que um problema foi resolvido

quando

‖c(x)‖2 ≤ 10−4 e f-Erro ≡ |f(x)− f ∗|max 1, |f(x)|, |f ∗|

≤ 10−2, (4.137)

onde x e a solucao retornada pelo algoritmo e f ∗ e o valor otimo da funcao objetivo

fornecido por Hock e Schittkowski [52].

Problemas e resultados sao reportados na Tabela 4.2, onde “n” representa o numero de

110

variaveis, “r” representa o numero de restricoes, “Iter” representa o numero de iteracoes

do Algoritmo 4.4, “nf” representa o numero de avaliacoes de funcao e uma entrada “F”

indica que o codigo foi interrompido devido a algum erro.

Problema n r Iter nf ‖c(x)‖2 f-Erro01. HS06 2 1 1 136 2.3841E-06 5.2693E-0802. HS07 2 1 1 145 5.9607E-08 9.4010E-0903. HS08 2 2 1 141 7.0365E-05 1.0000E-1604. HS09 2 1 1 55 2.6331E-10 8.6168E-1205. HS26 3 1 1 500 2.7370E-06 9.0462E-0506. HS27 3 1 1 361 3.0524E-05 1.4410E-0507. HS28 3 1 1 500 1.8008E-09 3.4904E-0708. HS39 4 2 2 881 4.2166E-08 4.3859E-0809. HS40 4 3 2 739 4.6819E-08 1.8770E-0810. HS42 4 2 19 2289 2.7566E-05 2.4274E-0611. HS46 5 2 1 500 1.5340E-06 3.9788E-0412. HS47 5 3 1 500 4.3535E-06 1.1260E-0413. HS48 5 2 1 289 2.4837E-09 1.5148E-0814. HS49 5 2 1 500 2.9309E-11 3.0040E-0315. HS50 5 3 1 500 4.6556E-13 2.8093E-0716. HS51 5 3 1 109 6.3793E-10 4.0102E-1917. HS52 5 3 3 597 2.1603E-09 1.2546E-0518. HS56 7 4 2 1000 1.9774E-06 4.7543E-0219. HS61 3 2 2 434 2.0650E-09 1.2355E-1120. HS77 5 2 2 518 4.9069E-05 2.2275E-0221. HS78 5 3 2 676 7.7128E-08 5.8459E-0922. HS79 5 3 1 181 8.0090E-05 7.2111E-06

Tabela 4.2: Resultados numericos para problemas com restricoes de igualdade.

Os resultados dados na Tabela 4.2 mostram que a implementacao do Algoritmo 4.4

aqui considerada foi capaz de resolver quase todos os problemas, utilizando um numero

razoavel de avaliacoes de funcao. As excecoes foram os problemas “HS56” e “HS77”, para

os quais o criterio (4.137) nao foi satisfeito.

4.8 Conclusao

Neste trabalho, apresentou-se um algoritmo de regiao de confianca sem derivadas para

otimizacao composta nao-suave. O algoritmo proposto consiste em uma adaptacao do

algoritmo de regiao de confianca sem derivadas de Conn, Scheinberg e Vicente [25] para

otimizacao suave sem restricoes, e contem elementos dos algoritmos de regiao de confianca

de Fletcher [37], Powell [75] e Yuan [95] para otimizacao composta nao-suave. Ele baseia-se

no conceito de modelos de interpolacao quase plenamente lineares, os quais generalizam

os modelos plenamente lineares propostos por Conn, Scheinberg e Vicente [25]. Sob

condicoes convenientes, resultados de convergencia global fraca e forte foram provados.

Alem disso, considerando uma ligeira modificacao da regra de atualizacao do raio da regiao

de confianca e assumindo que os modelos de interpolacao sao quase plenamente lineares

111

em todas as iteracoes, obteve-se um limitante de complexidade de pior-caso para o numero

de avaliacoes de funcao necessarias para o algoritmo reduzir a medida de estacionariedade

abaixo de ε. Este resultado de complexidade foi entao especializado para o caso em que

a funcao composta e uma funcao de penalidade exata, fornecendo assim um limitante

de complexidade de pior-caso para problemas de otimizacao com restricoes de igualdade

quando a solucao e obtida por um algoritmo de penalidade exata sem derivadas. Por

fim, testes numericos sugerem que o algoritmo proposto e competitivo em relacao ao

metodo Nelder-Mead [69] e ao metodo de regiao de confianca Wedge [63] para problemas

minimax. Alem disso o algoritmo tambem se mostrou viavel para a solucao de problemas

de otimizacao com restricoes de igualdade quando usado em uma estrategia de penalidade

exata.

Capıtulo 5

Conclusoes e Perspectivas

Esta tese abordou tres topicos em otimizacao que tem sido objeto de intensa pesquisa

nos ultimos anos, a saber: metodos subespaciais, analise de complexidade de pior-caso e

metodos sem derivadas. Devido a diversidade dos temas considerados, a tese foi dividida

em tres trabalhos, os quais foram apresentados nos Capıtulos 2, 3 e 4, respectivamente.

Uma versao subespacial do algoritmo Powell-Yuan para otimizacao com res-

tricoes de igualdade

No Capıtulo 2, foram estudas propriedades subespaciais do subproblema CDT que

aparece em alguns algoritmos de regiao de confianca para otimizacao com restricoes de

igualdade. Com uma analise totalmente analoga aquela apresentada por Wang e Yuan

[91], provou-se que, quando as matrizes Bk sao atualizadas por formulas quase-Newton,

o passo obtido a partir do subproblema CDT pertence ao subespaco gerado por todos os

vetores gradiente da funcao objetivo e das restricoes calculados ate a iteracao corrente.

Com base nesta propriedade, uma versao subespacial do algoritmo Powell-Yuan foi pro-

posta para problemas de otimizacao com restricoes de igualdade. Sob certas condicoes,

provou-se que o algoritmo proposto e globalmente convergente. Alem disso, experimentos

numericos preliminares indicam que o algoritmo subespacial e promissor no que diz res-

peito a problemas onde o numero de restricoes e muito menor que o numero de variaveis.

Pesquisas futuras incluem a realizacao de testes numericos extensivos usando imple-

mentacoes mais sofisticadas, bem como o desenvolvimento de uma estrategia de controle

do tamanho dos subespacos, similar aquela proposta por Gong [43] para otimizacao sem

restricoes. Alem disso, vale a pena mencionar que as propriedades subespaciais do sub-

problema CDT derivadas neste trabalho podem ser usadas no desenvolvimento de versoes

subespaciais para qualquer algoritmo baseado no subproblema CDT, tal como o algo-

112

113

ritmo de Celis, Dennis and Tapia [17]. Por fim, outra direcao de pesquisa consiste em

tentar obter propriedades subespaciais similiares para outros subproblemas importantes

em otimizacao, tais como o subproblema cubico que aparece no algoritmo ARC [11] e o

subproblema quadratico que aparece em algoritmos de programacao quadratica sequencial

[87].

Sobre a convergencia e complexidade de alguns metodos para otimizacao sem

restricoes

No Capıtulo 3, estudou-se a convergencia global e a complexidade de pior-caso do

algoritmo de controle nao-linear do tamanho do passo, o qual foi recentemente proposto

por Toint [89] para problemas de otimizacao sem restricoes. A analise de convergencia

original deste algoritmo assume que as Hessianas dos modelos sao uniformemente limi-

tadas. Alem disso, Toint [89] argumenta que a estrutura do algoritmo e as hipoteses

subjacentes sugerem um limitante de complexidade de pior-caso de O(ε−3) iteracoes para

que o algoritmo reduza abaixo de ε o tamanho de uma medida de estacionariedade de

primeira ordem.

Considerando uma regra de atualizacao ligeiramente mais restritiva para o parametro

que controla o tamanho do passo, provou-se que o algoritmo de Toint [89] ainda permanece

globalmente convergente quando a norma das Hessianas Bk dos modelos pode crescer por

uma quantidade constante a cada iteracao. Alem disso, assumindo-se que as matrizes

Bk sao uniformemente limitadas, provou-se um limitante de complexidade de pior-caso de

O(ε−(2+β)) iteracoes para o algoritmo atingir a estacionariedade de primeira ordem dentro

de uma tolerancia ε, o qual e menos pessimista que o limitante O(ε−3) discutido por Toint

[89]. Para o caso particular em que α + β ≤ 1, 2α + β ≥ 1 e φk, ψk ≥ χk (incluindo o

algoritmo ARC [11, 12]), esta estimativa ainda foi melhorada para O(ε−2) iteracoes. Por

fim, a abordagem de controle nao-linear do tamanho do passo foi estendida para alguns

algoritmos destinados a otimizacao composta nao-suave e a otimizacao multiobjetivo sem

restricoes, o que permitiu a obtencao de novos resultados de complexidade.

Como um topico para pesquisas futuras, seria interessante investigar se os resultados

de complexidade aqui apresentados ainda podem ser obtidos sem assumir a limitacao

uniforme das matrizes Bk. Alem disso, outra direcao de pesquisa consiste em tentar

generalizar ainda mais a abordagem de controle nao-linear do tamanho do passo, de

modo a incluir algoritmos de regiao de confianca do tipo nao-monotono [29] e do tipo

filtro [44].

114

Um algoritmo de regiao de confianca sem derivadas para otimizacao composta

nao-suave

No Capıtulo 4, um algoritmo de regiao de confianca sem derivadas foi proposto para

otimizacao composta nao-suave. Sob algumas condicoes, a convergencia global foi provada

e um limitante para a complexidade de pior-caso foi obtido. O resultado de complexidade

foi entao especializado para o caso em que a funcao composta e uma funcao de penalidade

exata, fornecendo assim um limitante de complexidade para problemas de otimizacao com

restricoes de igualdade quando a solucao e obtida por um algoritmo de penalidade exata

sem derivadas. Pelo conhecimento do autor, este e o primeiro limitante de complexi-

dade para otimizacao nao-linear com restricoes e sem derivadas. Experimentos numericos

preliminares foram realizados com problemas minimax e com problemas de programacao

nao-linear. Os resultados sugerem que o algoritmo proposto merece estudos adicionais.

Pesquisas futuras incluem a realizacao de testes numericos extensivos usando imple-

mentacoes mais sofisticadas, a comparacao com outros metodos de otimizacao sem deriva-

das (tais como NEWUOA [79] e MADS [2]), bem como o desenvolvimento de mecanismos

para reduzir o numero de avaliacoes de funcao necessarias na construcao dos modelos.

Apendice A

Problemas com funcoes convexas

poliedrais

Conforme pontuado por Fletcher [38], casos particulares importantes do problema de oti-

mizacao composta nao-suave (4.1) sao obtidos quando h e uma funcao convexa poliedral,

isto e, quando h e dada por

h(c) = max1≤i≤t

cThi + bi, (A.1)

onde os vetores hi ∈ Rt e os escalares bi sao dados. De fato, com bi = 0 para todo i, e H

sendo a matrix cujas colunas sao os vetores hi, a expressao (A.1) fornece:

h(c) =

maxi ci, se H = Ir;

‖c+‖∞, se H = [ It 0r×1 ];

‖c‖∞, se H = [ Ir −Ir ];

‖c+‖1, se H = H;

‖c‖1, se H = H,

(A.2)

onde as colunas de H sao todas as combinacoes possıveis de 1 e 0 (r×2r), e as colunas de

H sao todas as combinacoes possıveis de 1 e −1 (r× 2r). Assim, o problema (4.1) com h

convexa poliedral inclui o problama minimax, o problema de se encontrar pontos viaveis

de sistemas de desigualdades, e problemas de aproximacao L∞ e L1.

A conveniencia de se considerar h como sendo uma funcao convexa poliedral deve-se

ao fato de que, neste caso, com a norma ‖.‖ = ‖.‖∞, o subproblema

mind∈Rn

f + gTd+ h (c+ Ad) +1

2dTBd

s. a. ‖d‖ ≤ ∆

115

116

se reduz a

mind∈Rn, ν∈R

ν +1

2dTBd

s. a. f + gTd+ hTi (c+ Ad) + bi ≤ ν, i = 1, . . . , t,

−∆ ≤ dj ≤ ∆, j = 1, . . . , n,

o qual, por sua vez, pode ser reescrito como o problema quadratico

minz∈Rn+1

cT z +1

2zTHz

s. a. Dz ≤ b,

lb ≤ z ≤ ub,

onde

z =

[d

ν

], c =

[0n×1

1

], H =

[B 0n×1

01×n 01×1

],

D =

(gT + hT1A) −1

......

(gT + hTt A) −1

, b =

−(f + hT1 c+ b1

)...

−(f + hTt c+ bt

) ,

lb =

−∆

...

−∆

−∞

e ub =

∆...

∆

+∞

.Portanto, quando o Algoritmo 4.1 com ‖.‖ = ‖.‖∞ e aplicado a problemas onde h e

convexa poliedral, os subproblemas (4.19) e (4.28) se tornam problemas de programacao

linear (visto que nestes problems Bk = 0), enquanto o subproblema (4.22)-(4.23) se torna

um problema de programacao linear ou quadratica (dependendo se Bk e zero ou nao),

e assim metodos usuais para programacao linear e quadratica podem ser usados para se

resolver tais subproblemas.

Referencias Bibliograficas

[1] W. Ai e S. Zhang. Strong duality for the CDT subproblem: a necessary and sufficient

condition. SIAM Journal on Optimization, 19: 1735-1756, 2009.

[2] C. Audet e J. E. Dennis Jr. Mesh Adaptive Direct Search Algorithms for Constrained

Optimization. SIAM Journal on Optimization, 17: 188-217, 2006.

[3] T. Bannert. A trust region algorithm for nonsmooth optimization. Mathematical

Programming, 67: 247-264, 1994.

[4] S. Bellavia, C. Cartis, N. I. M. Gould, B. Morini e Ph. L. Toint. Convergence of a

regularized euclidean residual algorithm for nonlinear least-squares. SIAM Journal

on Numerical Analysis, 48: 1-29, 2010.

[5] E. G. Birgin e J. M. Gentil. Evaluating bound-constrained minimization software.

Computational Optimization and Applications, 53: 347-373, 2012.

[6] A. Bjorck. Numerical Methods for least square problems. SIAM, 1996.

[7] I. Bomze e M. L. Overton. Narrowing the difficulty gap for the Celis-Dennis-Tapia

problem. Disponıvel em http://optimization-online.org (2013). Acessado em 10 de

Abril de 2014.

[8] R. P. Brent. Algorithms for Minimization Without Derivatives. Prentice-Hall, En-

glewood Cliffs, New Jersey, 1973.

[9] L. F. Bueno, A. Friedlander, J. M. Martınez e F. N. C. Sobral. Inexact restoration

method for derivative-free optimization with smooth constraints. SIAM Journal on

Optimization, 23: 1189-1213, 2013.

[10] R. H. Byrd, N. I. M. Gould, J. Nocedal e R. A. Waltz. On the convergence of suc-

cessive linear-quadratic programming algorithms. SIAM Journal on Optimization,

16: 471-489, 2005.

117

118

[11] C. Cartis, N. I. M. Gould e Ph. L. Toint. Adaptive cubic regularisation methods for

unconstrained optimization. Part I: motivation, convergence and numerical results.

Mathematical Programming, 127: 245-295, 2011.

[12] C. Cartis, N. I. M. Gould e Ph. L. Toint. Adaptive cubic regularisation methods for

unconstrained optimization. Part II: worst-case function - and derivative - evaluation

complexity. Mathematical Programming, 130: 295-319, 2011.

[13] C. Cartis, N. I. M. Gould e Ph. L. Toint. On the evaluation complexity of compo-

site function minimization with applications to nonconvex nonlinear programming.

SIAM Journal on Optimization, 21: 1721-1739, 2011.

[14] C. Cartis, N. I. M. Gould e Ph. L. Toint. On the oracle complexity of first-order

and derivative-free algorithms for smooth nonconvex minimization. SIAM Journal

on Optimization, 22: 66-86, 2012.

[15] C. Cartis, N. I. M. Gould e Ph. L. Toint. On the complexity of finding first-order

critical points in constrained nonlinear optimization. Mathematical Programming,

2012.

[16] C. Cartis, N. I. M. Gould e Ph. L. Toint. On the evaluation complexity of cubic

regularization methods for potentially rank-deficient nonlinear least-squares pro-

blems and its relevance to constrained nonlinear optimization. SIAM Journal on

Optimization, 23: 1553-1574, 2013.

[17] M. R. Celis, J. E. Dennis e R. A. Tapia. A trust region strategy for nonlinear equality

constrained optimization. Em P. T. Boggs, R. H. Byrd e R. B. Schnabel, editores,

Numerical Optimization, paginas 71-82. SIAM, Philadelfia, 1985.

[18] E. Cheney e A. Goldstein. Newton’s method for convex programming and Tcheby-

cheff approximations. Numerische Mathematik, 1: 253-268, 1959.

[19] X. D. Chen e Y. Yuan. On local solutions of the CDT subproblem. SIAM Journal


[20] F. H. Clarke. Optimization and Nonsmooth Analysis. SIAM, Philadelphia, 1990.

[21] P. D. Conejo, E. W. Karas, L. G. Pedroso, A. A. Ribeiro e M. Sachine. Global

convergence of trust-region algorithms for convex constrained minimization without

derivatives. Applied Mathematics and Computation, 20: 324-330, 2013.

[22] P. D. Conejo, E. W. Karas e L. G. Pedroso. A trust-region derivative-free algo-

rithm for constrained optimization. Technical Report. Department of Mathematics.

Federal University of Parana, 2014.

119

[23] A. Conn, N. I. M. Gould e Ph. L. Toint. Trust-region methods. SIAM, Philadelphia,

2000.

[24] A. R. Conn, K. Scheinberg e L. N. Vicente. Geometry of interpolation sets in deri-

vative free optimization. Mathematical Programming, 111: 141-172, 2008.

[25] A. R. Conn, K. Scheinberg e L. N. Vicente. Global convergence of general derivative-

free trust-region algorithms to first and second order critical points. SIAM Journal


[26] A. R. Conn, K. Scheinberg e L. N. Vicente, “Introduction to derivative-free optimi-

zation”, (SIAM, Philadelphia, 2009).

[27] J. W. Daniel, W. B. Gragg, L. Kaufman e G. W. Stewart. Reorthogonalization and

stable algorithms for updating the Gram-Schmidt QR factorization. Mathematics

of Computation, 30: 772-795, 1976.

[28] Y. H. Dai e D. C. Xu. A new family of trust region algorithms for unconstrained

optimization. Journal of Computational Mathematics, 21: 221-228, 2003.

[29] N. Y. Deng, Y. Xiao e F. J. Zhou. Nonmonotonic trust region algorithm. Journal

of Optimization Theory and Applications, 76: 259-285, 1993.

[30] J. E. Dennis e R. B. Schnabel. Numerical methods for unconstrained optimization

and nonlinear equations. Prentice-Hall, Englewood Cliffs, New Jersey, USA, 1983.

[31] M. A. Diniz-Ehrhardt, J. M. Martınez e L. G. Pedroso. Derivative-free methods

for nonlinear programming with general lower-level constraints. Computational and

Applied Mathematics, 30: 19-52, 2011.

[32] G. Di Pillo, L. Grippo e S. Lucidi. A smooth method for the finite minimax problem.


[33] E. D. Dolan e J. J. More. Benchmarking Optimization Software with Performance

Profiles. Mathematical Programming, 91: 201-213, 2002.

[34] M. M. El-Alem e R. A. Tapia. Numerical experience with a polyhedral-norm CDT

trust-region algorithm. Journal of Optimization Theory and Applications, 85: 575-

591, 1995.

[35] J. Fan e Y. Yuan. A new trust region algorithm with trust region radius conver-

ging to zero. Em D. Li, editor, Proceeding of the 5th International Conference on

Optimization: Techiniques and Applications, paginas 786-794. Hong Kong, 2001.

120

[36] J. Fan. Convergence rate of the trust region method for nonlinear equations under

local error bound condition. Computational Optimization and Applications, 34: 215-

227, 2006.

[37] R. Fletcher. A model algorithm for composite nondifferentiable optimization pro-

blems. Mathematical Programming, 17: 67-76, 1982.

[38] R. Fletcher. Second order correction for nondifferentiable optimization. Em G. A.

Watson, editor, Numerical Analysis, paginas 85-114. Springer-Verlag, Berlin, 1982.

[39] J. Fliege e B. F. Svaiter. Steepest descent methods for multicriteria optimization.

Mathematical Methods of Operations Research, 51: 479-494, 2000.

[40] R. Garmanjani e L. N. Vicente. Smoothing and worst-case complexity for direct-

search methodos in nonsmooth optimization. IMA Journal of Numerical Analysis,

33: 1008-1028, 2013.

[41] P. E. Gill e M. W. Leonard. Reduced-Hessian quasi-Newton methods for uncons-

trained optimization. SIAM Journal on Optimization, 12: 209-237, 2001.

[42] G. H. Golub e C. F. Van Loan. Matrix Computations, 3rd edition. The Johns Hop-

kins University Press, 1996.

[43] L. Gong. A trust region subspace method for large-scale unconstrained optimization.

Asia-Pacific Journal of Operational Research, 29: 1250021-1 - 1250021-16, 2012.

[44] N. I. M. Gould, C. Sainvitu e Ph. L. Toint. A filter-trust-region method for uncons-

trained optimization. SIAM Journal on Optimization, 16: 341-357, 2006.

[45] N. I. M. Gould, D. Orban e Ph. L. Toint. CUTEr and SifDec: a constrained and

unconstrained testing environment, revisited. ACM Transactions on Mathematical

Software, 29: 373-394, 2003.

[46] G. N. Grapiglia, J. Yuan e Y. Yuan. A subspace version of the Powell-Yuan algorithm

for equality-constrained optimization. Journal of the Operations Research Society

of China, 1: 425-451, 2013.

[47] G. N. Grapiglia, J. Yuan e Y. Yuan. On the convergence and worst-case complexity

of trust-region and regularization methods for unconstrained optimization. Subme-

tido.

[48] G. N. Grapiglia, J. Yuan e Y. Yuan. Global convergence and worst-case complexity

of a derivative-free trust-region algorithm for composite nonsmooth optimization.

Submetido.

121

[49] J. Greenstadt. A quasi-Newton method with no derivatives. Mathematics of Com-

putation, 26: 145-166, 1972.

[50] A. Guerraggio e D. T. Luc. Optimality conditions for C1,1 vector optimization pro-

blems. Journal of Optimization Theory and Applications, 109: 615-629, 2001.

[51] N. J. Higham. The matrix computation toolbox.

http://www.maths.manchester.ac.uk/˜higham/mctoolbox.

[52] W. Hock e K. Schittkowski. Test Examples for Nonlinear Programming Codes. Lec-

ture Notes in Economical and Mathematical Systems 187, (Springer-Verlag, Berlin,

1981).

[53] R. Hooke e T. A. Jeeves. Direct search solution of numerical and statistical problems.

Journal of the Association for Computing Machinery, 8: 212-229, 1961.

[54] A. Izmailov e M. Solodov. Otimizacao volume 1: Condicoes de otimalidade, ele-

mentos de analise convexa e de dualidade. IMPA, Rio de Janeiro, 2009.

[55] J. E. Kelly, “The cutting plane method for solving convex programs”, Journal of

the SIAM 8 (1960), pp. 703-712.

[56] C. Lemarechal. Bundle methods in nonsmooth optimization. Em C. Lemarechal e

R. Mifflin, editores, Nonsmooth Optimization, paginas 79-102. Pergamon, Oxford,

1978.

[57] C. Lemarechal, A. Nemiroviskii e Y. Nesterov. New variants of bundle methods.


[58] G. Li e Y. Yuan. Compute a Celis-Dennis-Tapia step. Journal of Computational

Mathematics, 23: 463-478, 2005.

[59] L. Luksan e J. Vlcek. Test problems for nonsmooth unconstrained and linearly

constrained optimization. Techinical Report 198, Academy of Sciences of the Czech

Republic, 2000.

[60] K. Madsen. Minimax Solution of Non-Linear Equations Without Calculating Deri-

vatives. Mathematical Programming Study, 3: 110-126, 1975.

[61] M. M. Makela. Survey of Bundle Methods for Nonsmooth Optimization. Optimiza-

tion Methods and Software, 17: 1-29, 2002.

[62] M. M. Makela, N. Karmitsa e A. Bagirov. Subgradient and Bundle Methods for

Nonsmooth Optimization. Em S. Repin, T. Tiihonen e T. Tuovinen, editores, Nume-

rial Methods for Differential Equations, Optimization and Technological Problems,

Computational Methods in Applied Sciences 27. Springer Netherlands, 2013.

122

[63] M. Marazzi e J. Nocedal. Wedge Trust Region Methods for Derivative Free Opti-

mization. Mathematical Programming, 91: 289-305, 2002.

[64] J. M. Martınez e F. N. C. Sobral. Derivative-free constrained optimization in thin

domains. Journal of Global Optimization, 56: 1217-1232, 2013.

[65] R. Mifflin. A superlinearly convergent algorithm for minization without evaluating

derivatives. Mathematical Programming, 9: 100-117, 1975.

[66] J. J. More, B. S. Garbow e K. E. Hillstrom. Testing Unconstrained Optimization

Software. ACM Transactions on Mathematical Software, 7: 17-41, 1981.

[67] J. J. More e D. C. Sorensen. Computing a trust region step. SIAM Journal on

Scientific and Statistical Computing, 4: 553-572, 1983.

[68] J. J. More e S. M. Wild. Benchmarking Derivative-Free Optimization Algorithms.

SIAM Journal on Optimization, 20: 172-191, 2009.

[69] J. A. Nelder e R. Mead. A simplex method for function minimization. Computer

Journal, 7: 308-313, 1965.

[70] Yu. Nesterov. Modified Gauss-Newton scheme with worst-case guarantees for global

performance. Optimization Methods and Software, 22: 469-483, 2007.

[71] J. Nocedal e S. J. Wright. Numerical Optimization, 2nd ed. Springer-Verlag, New

York, 2006.

[72] J. M. Peng e Y. Yuan. Optimality conditions for the minimization of a quadratic

with two quadratic constraints. SIAM Journal on Optimization, 7: 579-594, 1997.

[73] M. J. D. Powell. Convergence properties of a class of minimization algorithms. Em

O. L. Mangasarian, R. R. Meyer e S. M. Robinson, editores, Nonlinear Programming

2. Academic Press, New York, 1975.

[74] M. J. D. Powell. A fast algorithm for nonlinearly constrained optimization calcu-

lations. Em G. A. Watson, editor. Numerical Analysis, paginas 144-157. Springer-

Verlag, Berlin, 1978.

[75] M. J. D. Powell. General algorithms for discrete nonlinear approximation calcula-

tions. Report DAMTP 1983/NA2, Department of Applied Mathematics and Theo-

retical Physics, University of Cambridge, Cambridge, England, 1983.

[76] M. J. D. Powell. On the global convergence of trust region algorithms for uncons-

trained minimization. Mathematical Programming, 29: 297-303, 1984.

123

[77] M. J. D. Powell e Y. Yuan. A trust region algorithm for equality constrained opti-


[78] M. J. D. Powell. UOBYQA: unconstrained optimization by quadratic approxima-

tion. Mathematical Programming, 92: 555-582, 2002.

[79] M. J. D. Powell. The NEWUOA software for unconstrained optimization without

derivatives. Em G. Di Pillo e M. Roma, editores, Large Nonlinear Optimization,

paginas 255-297. Springer, New York, 2006.

[80] L. Qi e J. Sun. A trust region algorithm for minimization of locally Lipschitzian

functions. Mathematical Programming, 66: 25-43, 1994.

[81] A. Ribeiro. e E. Karas. Otimizacao Contınua: aspectos teoricos e computacionais.

Cengage Learning, 2013.

[82] R. T. Rockafellar. Convex Analysis. Princeton University Press, Princeton, New

Jersey, 1970.

[83] D. Siegel. Implementing and Modifying Broyden class updates for large scale op-

timization. Report DAMPT 1992/NA12, Department of Applied Mathematics and

Theoretical Physics, University of Cambridge, Cambridge, England, 1992.

[84] N. Z. Shor. Subgradient methods: a survey of the Soviet research. Em C. Lemarechal

e R. Mifflin, editores, Nonsmooth Optimization. Pergamon, Oxford, 1978.

[85] G. A. Shultz, R. B. Schnabel e R. H. Byrd. A family of trust-region-based algorithms

for unconstrained minimization with strong global convergence properties. SIAM

Journal on Numerical Analysis, 22: 47-67, 1985.

[86] G. W. Stewart. A modification of Davidon’s minimization method to accept dif-

ference approximations of derivatives. Journal of the Association for Computing

Machinery, 14: 72-83, 1967.

[87] W. Sun e Y. Yuan. Optimization Theory and Methods: Nonlinear Programming.

Springer, 2006.

[88] Ph. L. Toint. Global convergence of a class of trust region methods for nonconvex

minimization in Hilbert space. IMA Journal of Numerical Analysis, 8: 231-252,

1988.

[89] Ph. L. Toint. Nonlinear stepsize control, trust regions and regularizations for un-

constrained optimization. Optimization Methods and Software, 28: 82-95, 2013.

124

[90] K. D. V. Villacorta, P. R. Oliveira e A. Soubeyran. A trust-region method for

unconstrained multiobjective problems with applications in satisficing processes.

Disponıvel em http://optimization-online.org (2013). Acessado em 11 de Agosto de

2013.

[91] Z. H. Wang e Y. Yuan. A subspace implementation of quasi-Newton trust region

methods for unconstrained optimization. Numerische Mathematik, 104: 241-269,

2006.

[92] K. A. Williamson. A robust trust region algorithm for nonlinear programming. Ph.D.

Thesis, Rice University, 1991.

[93] D. Winfield. Function minimization by interpolation in a data table. Journal of the

Institute of Mathematics and its Applications, 12: 339-347, 1973.

[94] B. Yang e S. Burer. A two-variable analysis of the two-trust region subproblem.

Disponıvel em http://optimization-online.org (2013). Acessado em 10 de Abril de

2014.

[95] Y. Yuan. Conditions for convergence of trust region algorithm for nonsmooth opti-


[96] Y. Yuan. On the superlinear convergence of a trust region algorithm for nonsmooth

optimization. Mathematical Programming, 31: 269-285, 1985.

[97] Y. Yuan. On a subproblem of trust region algorithms for constrained optimization.


[98] Y. Yuan. A dual algorithm for minimizing a quadratic function with two quadratic

constraints. Journal of Computational Mathematics, 9: 348-359, 1991.

[99] J. Zhang e Y. Wang. A new trust region method for nonlinear equations. Mathema-

tical Methods of Operations Research, 58: 283-298, 2003.

[100] Y. Zhang, Computing a Celis-Dennis-Tapia trust region step for equality constrained

optimization. Mathematical Programming, 55: 109-124, 1992.

universidade federal do parana - mat.ufpr.br · ao meu orientador, professor jinyun yuan, pelos...

Documents