mario tanaka filhalgoritmos de direÇÕes viÁveis para otimizaÇÃo nÃo diferenciÁvel

7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL

1/146

ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO

DIFERENCIVEL

Mario Tanaka Filho

Tese de Doutorado apresentada ao Programa

de Ps-graduao em Engenharia Mecnica,

COPPE, da Universidade Federal do Rio

de Janeiro, como parte dos requisitos

necessrios obteno do ttulo de Doutorem Engenharia Mecnica.

Orientadores: Jos Herskovits Norman

Anatoli Leontiev

Rio de Janeiro

Maro de 2011


2/146

ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO

DIFERENCIVEL

Mario Tanaka Filho

TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ

COIMBRA DE PS-GRADUAO E PESQUISA DE ENGENHARIA (COPPE)

DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS

REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE DOUTOR

EM CINCIAS EM ENGENHARIA MECNICA.

Examinada por:

Prof. Jos Herskovits Norman, D.Ing.

Prof. Anatoli Leontiev, Ph.D.

Prof. Nestor Alberto Zouain Pereira, D.Sc.

Prof. Jean Rodolphe Roche , Ph.D.

Prof. Jos Mario Martnez, D.Sc.

RIO DE JANEIRO, RJ BRASIL

MARO DE 2011


3/146

Tanaka Filho, MarioAlgoritmos de Direes Viveis para Otimizao No

Diferencivel/Mario Tanaka Filho. Rio de Janeiro:

UFRJ/COPPE, 2011.

XII,134p.: il.;29, 7cm.Orientadores: Jos Herskovits Norman

Anatoli Leontiev

Tese (doutorado) UFRJ/COPPE/Programa de

Engenharia Mecnica, 2011.Referncias Bibliogrficas: p. 110116.

1. Otimizao no diferencivel. 2. Algoritmo de

direes viveis e ponto interior. 3. Mtodos de Plano de

corte. 4. Mtodos de Feixe. I. Norman , Jos Herskovits

et al. II. Universidade Federal do Rio de Janeiro, COPPE,

Programa de Engenharia Mecnica. III. Ttulo.

iii


4/146

A meu filho recm-nascido

LUCAS.

A meus pais, irmos

e a minha esposa Solange.

iv


5/146

Agradecimentos

A Deus, por permitir este momento to singular em minha vida.

Ao professor Jos Herskovits Norman pela orientao, amizade e conhecimentos

transmitidos ao longo da realizao deste trabalho, bem como, por seu exemplo

profissional e humano.

Ao Prof. Anatoli Leontiev pela orientao, por sua ateno ao me receberquando ainda no tinha certeza de onde fazer o doutoramento e por me indicar

ao Laboratrio.

Aos Profs. Jean R. Roche (Nancy Universit, Frana) e Napsu Karmitsa

(University of Turku, Finlndia) pelo suporte, amizade e simpatia.

Aos professores, o pessoal do administrativo e amigos do Programa de Engenharia

Mecnica PEM-COOPE/UFRJ, sempre dispostos a ajudar e por proporcionar um

excelente ambiente de convvio.

Agradeo a meus pais: Mrio Tanaka e Djelma Neves Tanaka, por todo esforo ededicao em manter as condies necessrias para meus estudos. E portanto, hoje

sem dvida nenhuma, considero que este momento tambm deles.

A minha esposa, Solange Tanaka, por seu apoio, pela preocupao de sempre

tentar proporcionar um ambiente favorvel a meus estudos e por estar ao meu lado

me dando fora.

A famlia Penha: Sogro, sogra e cunhadas pelo constante incentivo.

A todos os colegas e amigos do Laboratrio OptimizE: Arminda, Alfredo Canelas,

Henry Corts, Miguel Aroztegui, Jorge Zerpa, Elmer, Pavel e Helena, Sandro,

Evandro e aos outros que passaram pelo Laboratrio, pelo agradvel e sempredescontrado ambiente de estudo proporcionado.

Agradeo o auxlio financeiro concedido pelo Conselho Nacional de

Desenvolvimento Cientfico e Tecnolgico (CNPq), atravs das bolsas de doutorado

e Iniciao Cientfica; A Coordenao de Aperfeioamento de Pessoal de Nvel

Superior (Capes), pela bolsa de Mestrado, fundamentais para o suporte de meus

estudos nestes longos anos de formao.

v


6/146

Resumo da Tese apresentada COPPE/UFRJ como parte dos requisitos necessrios

para a obteno do grau de Doutor em Cincias (D.Sc.)

ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NODIFERENCIVEL

Mario Tanaka Filho

Maro/2011

Orientadores: Jos Herskovits Norman

Anatoli Leontiev

Programa: Engenharia Mecnica

Problemas de otimizao no diferencivel aparecem em muitas aplicaes

prticas, como por exemplo, em Mecnica, Economia e Controle timo. Contudo,

a aplicao direta de mtodos diferenciveis, ou seja, mtodos baseados em

informaes do gradiente, no recomendada devido a natureza no diferencivel

dos problemas. Com isso em vista, neste trabalho so apresentadas tcnicas para

a resoluo de trs problemas diferentes que envolvem funes no necessariamente

diferenciveis. Inicialmente, considera-se o caso convexo sem restries. Depois,

o mtodo estendido para abranger o caso no convexo, onde so consideradasfunes localmente Lipschitz contnuas. Em seguida, introduz-se o problema convexo

com restries convexas no diferenciveis. So tambm apresentados os resultados

numricos da experincia computacional preliminar e uma aplicao em Otimizao

Topolgica de estruturas reticuladas robustas.

vi


7/146

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Doctor of Science (D.Sc.)

FEASIBLE DIRECTIONS ALGORITHMS FOR NONSMOOTHOPTIMIZATION

Mario Tanaka Filho

March/2011

Advisors: Jos Herskovits Norman

Anatoli Leontiev

Department: Mechanical Engineering

Nonsmooth optimization problems appear in many practical applications, such

as in Mechanics, Economics, Optimal Control and Engineering. However, the direct

application of methods differentiable, i.e., methods based on gradient information,

is not recommended due to the nonsmooth nature of the problems. With this in

mind, this study presents techniques for solving three different problems involving

functions not necessarily differentiable. Initially, we consider the convex case

without restrictions. Then the method is extended to cover the case non-convex,

where they are considered locally Lipschitz continuous functions. Then introduces

the problem convex with convex constraints not differentiable. We also present

numerical results of preliminary computational experience and an application on

Robust Truss Topology Design.

vii


8/146

Sumrio

Lista de Figuras x

Lista de Tabelas xi

Lista de Smbolos xii

Introduo 1

1 Preliminares 4

1.1 Notaes e Definies Bsicas . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Anlise No Diferencivel . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Condies de Otimalidade . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 Otimizao Convexa No Diferencivel . . . . . . . . . . . . . . . . . 13

1.5 Otimizao No Convexa No Diferencivel . . . . . . . . . . . . . . 251.6 Otimizao Convexa No Diferencivel com Restries . . . . . . . . 27

1.7 Algorimo de Pontos Interiores e Direes Viveis. . . . . . . . . . . . 29

2 Algoritmo para Otimizao Convexa No Diferencivel 35

2.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2 Anlise da Convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.3 Resultados Numricos . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Algoritmo para Otimizao No Convexa e No Diferencivel 543.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2 Anlise da convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 61


4 Uma Tcnica para Otimizao Restrita No Diferencivel 74

4.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Anlise da Convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 82


viii


9/146

5 Otimizao Topolgica Robusta de Estruturas Reticuladas 93

5.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.2 Modelos em Otimizao Topolgica . . . . . . . . . . . . . . . . . . . 94

5.3 Modelo de Otimizao Topolgica Robusta . . . . . . . . . . . . . . . 97

6 Concluses 106

6.1 Contribuies deste trabalho . . . . . . . . . . . . . . . . . . . . . . . 106

6.2 Trabalhos Futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Referncias Bibliogrficas 110

A Problemas Irrestritos 117

A.1 Problemas Teste Convexos . . . . . . . . . . . . . . . . . . . . . . . . 118

A.2 Problemas Teste No Convexos . . . . . . . . . . . . . . . . . . . . . 122

B Problemas Com Restrio 126

B.1 Problemas com restries. . . . . . . . . . . . . . . . . . . . . . . . . 127

ix


10/146

Lista de Figuras

1.1 Semi-continuidade interior do-subdiferencil . . . . . . . . . . . . . 16

1.2 Direes de descida: caso diferencivel e no diferencivel . . . . . . . 17

1.3 Iteraes do mtodo de planos de corte . . . . . . . . . . . . . . . . . 19

1.4 Introduo de uma funo afim quase horizontal. . . . . . . . . . . 20

1.5 Direo de busca do FDIPA . . . . . . . . . . . . . . . . . . . . . . . 32

2.1 Performance Profiles: nmero de iteraes . . . . . . . . . . . . . . . 53

2.2 Performance Profiles: nmero de avaliaes da funo . . . . . . . . 53

3.1 Encontrando o prximo iterado do Algoritmo. . . . . . . . . . . . . . 57

3.2 Determinao de um plano vivel. . . . . . . . . . . . . . . . . . . . . 58

5.1 Trelia do Exemplo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.2 Estrutura tima obtida no Exemplo 1. . . . . . . . . . . . . . . . . . 1015.3 Exemplo 1 - Evoluo dos quatro maiores auto-valores. . . . . . . . . 101

5.4 Trelia do Exemplo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.5 Estrutura tima obtida no Exemplo 2. . . . . . . . . . . . . . . . . . 102

5.6 Evoluo dos quatro maiores auto-valores do sistema (QQT, K(x)). . 102

5.7 Estrutura tima obtida no Exemplo 3 . . . . . . . . . . . . . . . . . . 103

5.8 Evoluo dos seis maiores autovalores do sistema (QQT, K(x)). . . . 103

5.9 Estrutura tima obtida no Exemplo 4. . . . . . . . . . . . . . . . . . 104

5.10 Evoluo dos seis maiores auto-valores do sistema (QQT, K(x)). . . . 104

x


11/146

Lista de Tabelas

2.1 Tabela de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.2 Solvers utilizados na comparao . . . . . . . . . . . . . . . . . . . . 49

2.3 Resultados para o nmero de iteraes . . . . . . . . . . . . . . . . . 50

2.4 Resultados para o nmero de avaliaes da funo . . . . . . . . . . . 50

2.5 Resultados para o valor da funo objetivo . . . . . . . . . . . . . . . 51

3.1 Problemas teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.2 Solvers utilizados na comparao . . . . . . . . . . . . . . . . . . . . 72

3.3 Resultados da Experincia Numrica. . . . . . . . . . . . . . . . . . . 73

4.1 Problemas Teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.2 Resultados Preliminares do NFDCA. . . . . . . . . . . . . . . . . . . 92

4.3 Valores do RELACC . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.1 Resultados dos exemplos de otimizao.. . . . . . . . . . . . . . . . . 105

5.2 Volumes das barras de estrutura tima. . . . . . . . . . . . . . . . . . 105

A.1 Tabela de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

B.1 Problemas Teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

B.2 parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

xi


12/146

Lista de Smbolos

A,B,G matrizes, p. 7

B(x, r) Bola aberta de centro xe raior, p. 4

NC(x) cone normal, p. 5

TC(x) cone tangente, p. 5

Rn Espao Euclidiano n-dimensional, p. 4

conv S fecho convexo deS, p. 5

f(x) gradiente defem x, p. 6

2f(x) matriz Hessiana, p. 7

f(x) subdiferencial de fem x, p. 9

x, y vetores (coluna), p. 4

xT vetor transposto, p. 4

xTy produto interno, p. 4

{xk}, (xk) sequencia, p. 6

f(x; d) derivada direcional def: Rn

Rem xna direo d, p. 6

f(x; d) derivada direcional generalizada de f : Rn R em x nadireo d, p. 9

xi componenteido vetor x, p. 4

xii


13/146

Introduo

A teoria clssica de otimizao presume certa diferenciabilidade e fortes hipteses

de regularidade como pode ser visto em Fletcher[1]. Contudo, estas hipteses esto

longe de acontecer na prtica, onde em muitos casos a prpria fsica do problema

impe um modelo no diferencivel. Problemas de otimizao no diferenciveis

aparecem em muitos campos de aplicao, como por exemplo, em Mecnica [2],Economia [3], Controle timo [4]. A origem da no diferenciabilidade pode ser

dividida em quatro classes, [5]: inerente, tecnolgica, metodolgica e numrica.

No caso da no diferenciabilidadeinerente, considera-se que o fenmeno original

contm nele mesmo vrias descontinuidades e irregularidades. Um exemplo tpico,

so as mudanas de fase do material no processo de moldagem contnua do ao (veja

[6]) e modelos lineares por parte em economia (veja[7]).

A no diferenciabilidade tecnolgica num modelo usualmente causada por

algumas restries tecnolgicas extras. Estas restries podem causar umadependncia no diferencivel entre as varveis e as funes, ainda que, as funes

originais sejam continuamente diferenciveis. Estes tipos de exemplos so chamados

de problemas de obstculo em otimizao de formas (veja[8]).

Exemplos de no diferenciabilidademetodolgicaaparecem no mtodos de funo

penalidade exata, e mtodos de decomposio de Lagrange.

Finalmente, existem problemas que podem ser analiticamente diferenciveis mas

numericamenteno diferenciveis. Estes problemas so, em geral, chamados de stiff

problems os quais so numericamente instveis e se comportam como problemas no

diferenciveis.Para problemas onde no se tem a diferenciabilidade em todos os pontos do

domnio da funo, existe uma rea da Programao Matemtica denominada

Otimizao No Diferencivel (Nonsmooth Optimization), que utiliza tcnicas, que

substituem o Clculo Diferencial clssico, oriundas de uma rea da Matemtica

chamada de Anlise Convexa, [9].

Existem grandes dificuldades quando se lida com funes no diferenciveis e,

em muitos casos, essas funes tem mnimo onde o gradiente no est definido.

Ratificando tal ideia, no preciso ir muito longe para entender melhor asdificuldades causadas pela no diferenciabilidade. Para tanto, basta considerar a

1


14/146

funo valor absoluto f(x) =|x|, com x R, nota-se que fno diferencivel naorigem, justamente o ponto onde ocorre o mnimo. Ento, se para esta funo, for

aplicado qualquer mtodo de otimizao diferencivel, este nem sequer reconhecer

o ponto de mnimox= 0, pois nestes mtodos o mnimo precisa satisfazer o famoso

resultado de Fermatf(x) = 0,

que , na verdade, uma condio de otimalidade necessria.

Diante do exposto, vem sendo desenvolvidos uma srie de mtodos para lidar com

este tipo de problema como pode ser visto, por exemplo, nos trabalhos de Kelley

[10], Kiwiel [11], Lemarchal[12] e Mkel [13], entre outros.

Os mtodos considerados mais eficientes e confiveis quando a funo objetivo

convexa, so os mtodos de Feixes, (veja [11, 14] ou [15]), estes mtodos so

baseados na teoria de subdiferenciis desenvolvida por Rockafellar [9] e Clarke [16].O que estes mtodos tem em comum que, em cada iterao, requerem a utilizao

de um nico subgradiente alm do valor da funo, onde suas ideias bsicas se

concentram em aproximar o subdiferencial (que o conjunto dos subgradientes) da

funo objetivo, usando informaes dos subgradientes armazenados em iteraes

anteriores no chamado feixe. A histria destes mtodos comea com o mtodo

chamado -steepest descentapresentado por Lemarchal em 1976, [17]. Para ter

uma melhor compreenso da discusso do caso convexo, veja [11] ou [18].

Problemas envolvendo funes no convexas e no diferenciveis so mais difceis

de lidar. Contudo, durante as ltimas trs dcadas, considerveis progressos tem

sido realizados nessa rea, Um passo crucial foi a tese de doutorado de Clarke em

1973. Corroborando com tal progresso sabe-se que um clculo eficiente, bem como

condies de otimalidade aplicveis, em termos de construes convexas locais, pode

ser desenvolvido para a classe de funes localmente Lipschitz contnuas, veja [16],

[19] ou[20].

Problemas convexos com restries no diferenciveis so ainda mais complexos

e poucos mtodos so encontrados na literatura. Problemas convexos com restries

consideradas fceis, tais como restries lineares, podem ser resolvidos inserindo-se tais restries diretamente em cada problema quadrtico (veja [21,22]). Para o

problema convexo com restries mais gerais, uma forma bem popular, para mtodos

de feixe, encontrar um mnimo irrestrito para a chamada improvement function

[23], esta abordagem foi utilizada em [24] e nos captulos 5 e 6 de [11]. Outra

estrategia resolver um problema irrestrito equivalente com o uso de uma funo

objetivo de penalidade exata [25]. Em[26,27] uma estratgia de filtros [28] sugerida

como alternativa ao uso da funo de penalidade num mtodo de feixes.

Neste trabalho so apresentados trs alternativas de algoritmos para OtimizaoNo Diferencivel: O primeiro algoritmo, considera o caso convexo sem restries,

2


15/146

o qual foi inicialmente proposto por Freire [29] em sua tese de doutoramento em

2005. Em seguida, apresenta-se um algoritmo que lida com problemas no convexos

sem restries. O terceiro e ltimo algoritmo considera problemas convexos com

restries de desigualdade convexas.

Os mtodos so hbridos, neles so utilizadas algumas ideias do mtodo clssicode planos de corte de Kelley [10], para realizar aproximaes das funes no

diferenciveis. E em cada iterao, utiliza-se o mtodo de pontos interiores e direes

viveis FDIPA, desenvolvido por Herskovits em[30], para gerar direes de descida

viveis.

Este trabalho esta organizado da seguinte forma: No Captulo 1, reservado as

preliminares, so definidas a notao e alguns resultados bsicos da Anlise No

Diferencivel, generaliza-se as condies de otimalidade para o caso no diferencivel,

em seguida, faz-se uma reviso bibliogrfica para Otimizao No Diferencivel ondeesto includas algumas tcnicas mais recentes e por fim apresentado o Feasible

Direction Interior Point Algorithm(FDIPA).

No Captulo 2 apresenta-se o algoritmo para problemas no diferenciveis

convexos sem restries. No Captulo3propes-se um mtodo para a resoluo

do problema

minimize f(x)

sujeito a x Rn

onde f : R

n

R

uma funo localmente Lipschits contnua. Constam ainda,o estudo da convergncia global e os resultados da experincia computacional. No

Captulo4prope-se um mtodo para a resoluo do problema restrito

minimizexRn

f(x)

sujeito a c(x)0

onde f, c : Rn R so funes convexas em geral no diferenciveis. Estemtodo uma extenso direta do mtodo desenvolvido por Freire em [29], pois so

acrescentadas restries de desigualdade como acima e so resolvidas uma sequnciade problemas auxiliares que vo sendo definidos a medida em que as restries

funcionais vo sendo aproximadas por planos de corte.

No Captulo5 feita uma aplicao do mtodo apresentado no Captulo 2para

Otimizao Topolgica de estruturas reticuladas robustas.

Finalmente, so apresentadas as concluses do trabalho obtidas at o presente

momento e os possveis trabalhos futuros.

3


16/146

Captulo 1

Preliminares

Neste Captulo, so introduzidas algumas notaes, conceitos e resultados bsicos

necessrios ao estudo da anlise no diferencivel, cujas ideias esto baseadasprincipalmente nos trabalhos de Clarke [16], Makela [13] e Lemarechal [31]. Ento

generaliza-se os conceitos de diferencial para funes convexas e localmente Lipschitz

contnuas, respectivamente. Com isso, so generalizadas as condies clssicas

de otimalidade para o caso no diferencivel. Em seguida, faz-se uma pequena

descrio de alguns mtodos clssicos bem como alguns mtodos mais recentes, para

otimizao no diferencivel. E finalmente, apresenta-se oFeasible Direction Interior

Point Algorithm(FDIPA), um mtodo para otimizao no linear desenvolvido por

Herskovits em [30]. As demonstraes dos resultados apresentados neste captulopodem ser encontradas nos trabalhos citados acima.

1.1 Notaes e Definies Bsicas

Todos os vetores so considerados como vetores coluna. Denota-se o produto

interno usual por xTy e porx a normano espao Euclidiano n-dimensional,i.e.,

x= (xTx)1

2 = n

i=1x2i 12

,

onde x Rn e xi R a i-sima componente do vetor x.A bola unitria com centro em x Rn e raior >0 denotada por

B(x; r) ={yRn | y x< r}.

Um conjunto S Rn dito convexo se x+ (1 )yS, onde xe ySe

[0, 1]. Geometricamente, se esta dizendo que todo segmento de reta que une os

pontos xe yest inteiramente contido emSsempre que x, yS. Se S1 e S2 soconjuntos convexos em Rn e 1, 2 R, ento 1S1+2S2 tambm convexo. Se

4


17/146

Si Rn so conjuntos convexos para i= 1, 2,...,m, ento sua interseomi=1Si tambm um conjunto convexo.

Denota-se por conv(S) o fecho convexo de S Rn, i.e., a interseo de todosos conjuntos convexos que contmS, ou ainda,

conv(S) ={x Rn | x=k

i=1

ixi,k

i=1

i= 1, xiRn, i0}.

O fecho convexo de um conjuntoS o menor conjunto convexo contendoSe S

convexo se e somente se S= conv(S). Alm disso, o fecho convexo de um conjunto

compacto compacto.

Uma funof: Rn R dita convexase

f(x + (1 )y)f(x) + (1 )f(y), (1.1)onde xe yesto em Rn e[0, 1]. Se a desigualdade for estrita em (1.1) para todox, yRn tal que x=y e (0, 1), a funof dita estritamente convexa.

Um conjunto C denominado cone se contm todos os mltiplos positivos de

seus elementos, i.e., se x C e > 0, ento x C. Pela definio, se C umcone no vazio, necessariamente 0C.

O cone tangente (de direes tangentes) de um conjunto convexo Cpode ser

definido como

TC(x) :=

{tk} R+, {tk} 0+,d Rn | {dk} Rn, {dk} d, tal que

x +tkdk Cpara todok N

.

O cone normal (cone de direes normais) de um conjunto convexo C em

xC o conjunto

NC(x) := dR

n

| dT(x

x)

0

x

C .

Uma funof: Rn R ditalocalmente Lipschitz continuacom constanteL >0 em xRn se existe um nmero positivotal que

|f(y) f(z)| L y z ,

para todo y, z B(x, ). No que segue utiliza-se a denominao curta localmenteLipschitz.

Sef: Rn

R uma funo convexa em x

R

n, entof localmente Lipschitz

em x.

5


18/146

Uma funof: Rn R ditainferiormente semi-continua(resp. superior)num ponto x Rn se, para cada sequncia (xk) Rn com (xk)x, tem-se

f(x)

limk

inff(xk)resp. f(x) limk

inff(xk).Uma funo que semi-continua superior e inferior uma funo contnua.

Agora sero revistos alguns conceitos bsicos da teoria das funes diferenciveis:

Uma funo ditadiferencivelem x Rn se existe um vetorf(x) Rn e umafuno: Rn Rtal que para todo d Rn,

f(x + d) =f(x) + f(x)Td + d (d),

onde o vetor

f(x) o vetor gradientedefem xe(d)

0 sempre que

d

0.

O vetor gradiente tem a seguinte frmula

f(x) =

f(x)x1

, ...,f(x)

xn

T,

onde as componentes f(x)xn

, i= 1, 2,...,n so as chamadas derivadas parciais

da funo f. Se uma funo diferencivel e suas derivadas parciais so todas

continuas, ento a funo dita continuamente diferencivel.

O limite

f(x; d) = limt0

f(x +td) f(x)t

(se existe) chamado de derivada direcionalde fem x Rn na direodRn.Se uma funo f diferencivel em x, ento a derivada direcional existe em cada

direodRn ef(x; d) =f(x)Td.

Se, ainda,ffor convexa, ento para todo yRn

f(y)f(x) + f(x)T(y x).

Uma funo f : Rn R dita duas vezes diferencivel em x Rn seexiste um vetorf(x) Rn, uma matriz simtrica2f(x) Rnn e uma funo: Rn Rtal que para todo d Rn,

f(x + d) = f(x) + f(x)Td +12

dT2f(x)d + d (d),

6


19/146

onde(d)0 sempre qued 0. A matriz2f(x) chamada de Hessianadefem xe definida por

2

f(x) =

2f(x)x2

1

2f(x)x1xn

... . . . ...2f(x)

xnx1 2f(x)

x2n

.

onde as componentes 2f(x)

xixj,i, j= 1, 2,...,n so as chamadasderivadas parciais

de segunda ordemda funo f. Se uma funo duas vezes diferencivel e suas

derivadas parciais de segunda ordem so todas continuas, ento a funo ditaduas

vezes continuamente diferencivel.

Uma matriz A Rnn chamada definida positiva se A = AT, i.e., A

simtricae xTAx>0

para todo vetor x Rn.Considere um mapeamento Fque associa cada xX Rn a um conjunto do

Rn, ou seja, xF(x) Rn. Denomina-se tal mapeamento de multi-funo.

O domnio de F definido pordom F :={xX: F(x)=}.Diz-se que F fechadase seu grfico (i.e., a unio de{x} F(x)XRn)

um conjunto fechado. Dize-se ainda que ela localmente limitadaperto de

x se para alguma vizinhana V de x e algum conjunto limitado B Rn

, tem-seVdom F eF(V)B .

Seja Fuma multi-funo fechada e localmente limitada em x. Ento, F

semi-continua exterior(resp. semi-continua interior) se, para todo >0, existe

uma vizinhanaVx de xtal que xVx implica

F(x)F(x) +B(0; )

F(x)F(x) +B(0; )

.

Alm disso, se F semi-contnua exterior e interior, ento ela contnua.

7


20/146

1.2 Anlise No Diferencivel

A teoria da Anlise no diferencivel para funes convexas est baseada na

chamada Anlise Convexa, e por esta razo faz-se uma breve introduo baseada nos

conceitos de convexidade(veja Rockafellar[9]). Primeiramente define-se o conceitode subdiferencial de uma funo convexa e depois estende-se os resultados para

funes localmente Lipschitz no convexas.

Definio 1.1. O subdiferencialde uma funo convexaf : Rn R num pontox Rn o conjunto dos vetoress Rn tais que

cf(x) =

s Rn | f(y)f(x) + sT(y x) para todo y Rn

.

Teorema 1.2.

Sejaf :R

n

R

uma funo convexa. Ento a derivada direcionalexiste em qualquer direo d Rn e satisfaz

f(x; d) = inft>0

f(x +td) f(x)t

.

Apresenta-se algumas relaes existentes entre o subdiferencial e a derivada

direcional.

Teorema 1.3. Sejaf: Rn R uma funo convexa. Ento para todo x Rn

(i) f(x; d) = max

sTd| scf(x)

para todo d Rn,

(ii) cf(x) =

sRn | f(x; d)sTd para todo d Rn

,

(iii) cf(x) um conjunto no vazio, convexo e compacto tal quecf(x)B(0; L),ondeL >0 a constante de Lipschitz def emx.

O prximo teorema mostra que realmente o subdiferencial um generalizao

da derivada clssica.

Teorema 1.4.

Sef: Rn R uma funo convexa e diferencivel emx, ento

cf(x) ={f(x)} .

Teorema 1.5. Sef: Rn R uma funo convexa ento para todo y Rn

f(y) = max

f(x) + sT(y x)| xRn, scf(x)

. (1.2)

Em Otimizao no diferencivel, os chamados mtodos de feixe so baseados

na teoria do -subdiferencial, cuja definio uma adaptao do conceito desubdiferencial.

8


21/146

Definio 1.6. Sejaf : Rn R uma funo convexa. A -derivada direcionaldef emxRn na direo ded Rn definida por

f(x; d) = inft>0f(x +td) f(x) +

t .

Definio1.7. Seja >0, o -subdiferencial de uma funo convexaf : Rn Remx Rn o conjunto

f(x) =

s Rn | f(y)f(x) + sT(y x) para todo yRn

.

Cada elemento sf(x) chamado -subgradientede fem x.Para funes localmente Lipschitz no necessariamente existe a noo de

derivada direcional clssica, por isso, primeiramente define-se uma derivada

direcional generalizada (veja Clarke[16]). Dando sequncia estende-se o conceitode subdiferencial para funes localmente Lipschitz.

Definio 1.8 (Clarke). Seja f : Rn R uma funo localmente Lipschitz emx Rn. A derivada direcional generalizadadef em x na direo d Rn definida por

f(x; d) = limyxt0

supf(y +td) f(y)

t .

Definio 1.9 (Clarke). Seja f : Rn R uma funo localmente Lipschitz em

x Rn. O subdiferencialdef emx o conjunto de vetoress Rn tal que

f(x) =

s Rn | f(x; d)sTd para todo dRn

.

Cada vetor sf(x) chamado desubgradiente def emx.

Teorema 1.10. Sejaf : Rn R uma funo localmente Lipschitz em xRn comconstanteL. Ento

(i) f(x; d) = max

sTd| sf(x)

para todo d Rn,(ii) f(x) um conjunto no vazio, convexo e compacto tal quef(x)B(0; L).

O prximo teorema mostra que o subdiferencial para funes localmente

Lipschitz uma generalizao do subdiferencial de uma funo convexa.

Teorema 1.11. Sejaf: Rn R uma funo convexa. Ento

(i) f(x; d) =f(x; d) para todo d Rn e

(ii) cf(x) =f(x).

9


22/146

Os dois seguintes teoremas mostram que o subdiferencial realmente uma

generalizao da derivada clssica.

Teorema 1.12. Sejaf : Rn R uma funo localmente Lipschitz e diferencivel

emxR

n

. Ento f(x)f(x).

Teorema 1.13. Sef: Rn R continuamente diferencivel emxRn. Ento

f(x) ={f(x)} .

Teorema 1.14 (Rademacher). Seja U Rn um conjunto aberto. U ma funof : U R que localmente Lipschitz em U diferencivel em quase todos ospontos deU(i.e., diferencivel a menos de um conjunto de medida nula).

Devido ao Teorema de Rademacher sabe-se que para funes localmente Lipschitz

o gradiente existe em quase todos os pontos do domnio da funo. De posse desta

informao, pode-se reconstruir o subdiferencial como sendo o fecho convexo todos

os possveis limites de gradientes nos pontos{xk}que convergem a x.E usa-se a notao fpara representar o conjunto dos pontos onde fno

diferencivel.

Teorema 1.15. Seja f : Rn

R uma funo localmente Lipschitz em x

R

n.

Ento

f(x) = conv

s Rn | existe{xk} Rn \ f tal quexk x ef(xk)s

.

(1.3)

Agora define-se o Goldstein -subdiferencial de uma funo localmente

Lipschitz, de modo anlogo ao que fizemos para funes convexas.

Definio 1.16. Sejaf : Rn R uma funo localmente Lipschitz em x Rn eseja >0. Ento o Goldstein-subdiferencial def o conjunto

Gf(x) = conv {f(y)| yB(x; )} .

Cada elemento sGf(x) chamado -subgradientedef emx.

10


23/146

1.3 Condies de Otimalidade

Nesta seo generaliza-se as condies de otimalidade de primeira ordem clssicas

para os casos de otimizao restrita e irrestrita. E mostra-se as condies necessrias

para uma funo localmente Lipschitz atingir um mnimo local.Definio 1.17. Um ponto x Rn um mnimo localdef, se existir >0 talquef(x)< f(y) para todo yB(x, ).Definio1.18. Um ponto xRn um mnimo globaldef, se satisfazf(x)0, i.e., f(x)f(y) + para todo y Rn.Agora, mostra-se as condies necessrias correspondentes para o caso de

problemas com restries. Uma dificuldade existente em mtodos de otimizao

iterativos a de encontrar uma direo tal que os valores da funo objetivo vosempre decrescendo quando nos movimentamos naquela direo.

11


24/146

Definio 1.23. A direo d Rn uma direo de descida para uma funof: Rn R num ponto xRn, se existe t> 0 tal que para todo t(0, t],

f(x +td)< f(x).

Lema1.24. Sejaf: Rn Ruma funo localmente Lipschitz contnua emx Rn.A direo d Rn uma direo de descida para f em x se sTd < 0 para todosf(x).

Contudo, em otimizao com restries no suficiente encontrar qualquer

direo de descida, pois no se pode violar as restries. Logo, precisa-se definir

a noo de direo vivel. Considere o seguinte problema com restries de

desigualdade minimizexRn f(x)sujeito a c(x)0 (1.4)

onde f, c: Rn R.Definio1.25. A direo d Rn umadireo vivelpara um problema do tipo(1.4) se existe t> 0 tal que para todo t(0, t]

x +td

onde ={xRn |c(x)0} a regio vivel.Lema1.26. Sejac: Rn R, uma funo localmente Lipschitz contnua emx.A direo d Rn uma direo vivel emx para o problema (1.4) serTd


25/146

Corolrio 1.28. Seja c : Rn R uma funo tal que c(x) = max{ci(x)| i =1,...,m} onde cada ci : Rn R convexa e suponha que c(z) < 0 para algumzRn. Seja

C:={x Rn |c(x)0}.Suponha quef: Rn R convexa. Ento as seguintes condies so equivalentes:

(i) fatinge seu mnimo global sobreC emx,

(ii) Existei0 parai= 1,...,mtal queici(x) = 0 e

0f(x) +m

i=1

ici(x). (1.7)

Demonstrao. Veja [13], pgina 74.

Um pontox chamado umponto KKTassociado ao problema (1.4) se vivel

e satisfaz a condio de otimalidade KKT do Teorema1.28.

1.4 Otimizao Convexa No Diferencivel

Inicia-se com uma pequena introduo aos mtodos clssicos para otimizao

convexa no diferencivel. A no diferenciabilidade produz uma srie de dificuldadesadicionais: A primeira aparece na determinao da direo de busca, pois, nem

sempre, a direo obtida de descida e consequentemente, a busca linear no faz

sentido. Outra, a dificuldade de estabelecer critrios de parada implementveis.

Os mtodos abordados nesta seo se concentram na resoluo do seguinte

problema irrestrito

minimize f(x)

sujeito a x Rn (1.8)

onde f: Rn R uma funo convexa no necessariamente diferencivel.De modo geral, os algoritmos que sero vistos esto baseados na gerao de

iterados xk atravs da busca de possveis direes de descida dk, tamanhos de passo

tk e consequente atualizao xk+1 = xk +tkdk. Nota-se ainda que estes mtodos

diferem principalmente nas estratgias que conduzem a determinao das direes

de descida.

1.4.1 Mtodos de Descida

Os mtodos de descida se baseiam na gerao de uma sequncia{xk} com agarantia de decrscimo da funo objetivo fem cada iterao. As direes a serem

13


26/146

tomadas so, portanto, as de descida, caracterizadas na Seco1.3. O Algoritmo

descrito a seguir:

Algoritmo1.1. Mtodo de Descida

1. Tomex1

R

n

e sejak= 1.2.(critrio de parada formal) Se0f(xk), pare.3.(Descida) Encontre uma direo de descidadk def emxk.

4.(Busca linear) Encontre um tamanho de passo tk >0 tal que

f(xk +tkdk)< f(xk).

5.(Prximo iterado) Definaxk+1 =xk +tkdk.

6.(Loop) Tomek=k+ 1e v para o passo 2.

Observa-se que o critrio de parada oferecido pelo passo 2 puramente formal,

pois a obteno de todo o subdiferencial algo excessivo. Critrios de parada

implementveis sero vistos posteriormente com detalhes nos algoritmos de planos

de corte e mtodos de feixe. Por ora, nota-se apenas que num ponto xdado, a melhor

descidadk possvel (i.e., direo de mxima descida) a soluo do problema

mind=1

f(xk; d) ou mind=1

maxsf(x)

s; d .

Geometricamente, isso significa que a direo de mxima descida justamente aque est relacionada com ao hiperplanoHortogonal a projeo de {0} em f(xk).Mais precisamente, dk =k/

k, onde k =Pf(xk)(0).Contudo h um problema que norteia o mtodo de mxima descida, o fato

da sequncia de iterados{xk}poder oscilar e convergir para um ponto no timo.Referindo-se a[31](seo VII.2.2) para verificar, atravs de um exemplo numrico,

que o mtodo pode, de fato no convergir. Para uma melhor compreenso, lembra-se

que o algoritmo de descida converge se (f(xk)) decrescente e se{xk}possui um

ponto de acumulao x, que minimizador de f. Considera-se, ento, a seguintesequncia:

k:=

dist(0; f(xk))

.

O subdiferencial f(x) visto como uma multi-funo, fechado, i.e., possui o

grfico fechado: x

k xsk f(xk) s =s

f(x). (1.9)

Dessa forma, se k

0, ento 0

f(x) e x ponto de mnimo. Para

assegurar que k 0, a multi-funo x f(x) deveria ser contnua (i.e., semi-continua interior e exterior).

14


27/146

A semi-continuidade exterior est garantida pela propriedade (1.9). Contudo, o

subdiferencial no possui a propriedade da semi-continuidade interior, ou seja, no

verdade que

xk

xsf(x) =existe s

k s tal que sf(xk). (1.10)

para mais detalhes veja [15] seo 8.2.2.

Da a importncia do -subdiferencial, pois, alm de aproximar o subdiferencial

f(x), j quef(x)f(x), visto como uma multi-funo, semi-contnuo interiore exterior: A semi-continuidade exterior est garantida, pois seu grfico fechado:

xk x

ksk f(xk)s =

sf(x). (1.11)

Como f localmente Lipschitz continua, tem-se para >0 fixado que

r >0, >0 :xk x=f(x)f(xk) +B(0, r),

o que garante que (, x)f(x) semi-contnua interior em x.Portanto, uma possvel maneira de contornar a no convergncia do mtodo

de descida utilizar f(), com > 0, no lugar de f(x). Tais algoritmos sodenominados de -descida [18]. Desta forma, estes algoritmos geram sequncias

(xk) tais que (f(xk)) decrescente e

dist(0; kf(xk))0 comk0.

Veja o algoritmo:

Algoritmo1.2. Mtodo de-Descida

1. Tomex1 Rn, >0 e sejak= 1.2.(critrio de parada formal) Se0f(xk), pare.3.(Descida) Encontre uma direo de-descidadk def emxk.

4.(Busca linear) Encontre um tamanho de passo tk >0 tal que

f(xk +tkdk)< f(xk) .

5.(Prximo iterado) Definaxk+1 =xk +tkdk.

6.(Loop) Tomek=k+ 1e v para o passo 2.

Neste algoritmo,f(xk) ou o algoritmo termina numa iterao ktal quexk -timo. Esse o algoritmo de-descida mais simples, existem variantes do

mtodo que permitem escolhas de =ka cada iterao.

15


28/146

Nota-se que o-subdiferencial tambm no usualmente conhecido por inteiro e

portanto o algoritmo ainda no implementvel. Nas prximas sees, sero vistos

outros algoritmos que tentam contornar essa questo.

Conclu-se esta seo mostrando, atravs de um exemplo, que a propriedade de

semi-continuidade interior de f(x) vlida apenas para > 0. Considera-se afuno modulo dada por f(x) =|x|.

Na figura abaixo o grfico da esquerda ilustra a multi-funo f(x), enquanto

que a da direita representa f(x) para > 0 fixo. Nota-se por exemplo, que o

conjunto f(0) = [1, 1] muito maior do que f(x) ={1}, quando x> 0. Poroutro lado,f(x) no explode quando xse aproxima do ponto 0.

s

x

s

x

1

1

1

1

Figura 1.1: Semi-continuidade interior do -subdiferencil

1.4.2 Mtodo de Subgradientes

Como observado na seo anterior, a determinao de todo o subgradiente algoexcessivo ou impossvel computacionalmente falando, e uma forma de contornar esse

problema exigir menos, ou seja, pedir o clculo de apenas um nico subgradiente.

Tal exigncia est relacionada ao que chama-se decaixa preta, que utilizado como

base em diversos algoritmos para problemas no diferenciveis, onde dado xk Rn,a caixa preta responsvel por gerarf(xk) e um subgradiente sk f(xk).

A ideia do mtodo de subgradientes provm do mtodo de Cauchy, lembre-se

portanto deste mtodo diferencivel: De posse das devidas hipteses, o mtodo de

Cauchy encontra uma direo dk

tal quef(xk

+ dk

)< f(xk

). A inteno escrevero problema (1.8) na forma

minimize f(x

k + d) f(xk)sujeito a d Rn

que tem uma soluo dk = 0. Devido a expanso de primeira ordem de Taylor

f(xk + d) f(xk) =f(xk; d) + d (d),

16


29/146

onde (d)0 quandod 0 e a identidade f(xk; d) =f(xk)Td, obtm-se asseguintes verses equivalentes

minimize f(xk; d)

sujeito a d 1

minimizef(xk)Td

sujeito a d 1.onde a restrio adicional d 1 necessria, pois a funo f(xk; ) positivamente homognea. Da considera-se a direo dk =f(xk)/

f(xk).Com isso, no caso no diferencivel, a ideia do mtodo de subgradientes

considerar o vetor oposto ao subgradiene fornecido pela caixa preta, i.e.,

dk =sk/sk .

Porm, tal direo no necessariamente de descida, conforme pode ser visto naFigura1.2abaixo, que mostra curvas de nvel para funes minimizadas em zero,

direes de descida devem fazer produto escalar negativo com o subdiferencialf(x)

inteiro e no apenas com um nico subgradiente s.

( )f x

s

s

s ( )f x

Figura 1.2: Direes de descida: caso diferencivel e no diferencivel

A Figura da direita (caso no diferencivel), mostra um exemplo em que a direo

s, fornecida pela caixa preta, um vetor extremo do cone associado a f(x) e em

tal exemplo, a direo opostasclaramente no descida.Apesar deste algoritmo no assegurar necessariamente o decrscimo da funo

objetivo a cada iterao, escolhas adequadas dos tamanhos de passo podem garantir

a convergncia ao mtodo. Contudo, a fixao do comprimento de passo para uma

iterao k antes que o ponto xk seja calculado, dificilmente pode dar uma boa

escolha. Diante o exposto, esta maneira de remover a dificuldade associada ao

decrscimo da funo objetivo puramente formal visto que se trata de uma medida

paliativa, apenas para resolver a anlise de convergncia terica.

Veja o algoritmo:

17


30/146

Algoritmo1.3. Mtodo de Subgradientes

1. Tomex1 Rn e sejak= 1.2.(caixa preta) Calcule sk ef(xk).

3.(critrio de parada) Se0f(xk), pare.4.(Busca linear) Encontre um tamanho de passo tk >0 adequado.5.(Prximo iterado) Definaxk+1 =xk tk sksk .6.(Loop) Tomek=k+ 1e v para o passo 2.

Para compreender o Passo 4 do Algoritmo 1.3, define-se primeiro x como o

conjunto de solues timas. Da definio de subdiferencial, se sk f(xk) ento

f(x) f(xk)(sk)T(x xk)

o que implica em (sk)T(x xk)f(xk) f(x)0 xRn.Desta observao, conclui-se que o ngulo entre sk e xxk agudo e, portanto,

para tk >0 suficiente pequeno, tem-se xk+1 mais prximo de x do que xk. E isso

motiva a escolha de uma sequncia{tk}satisfazendo limk

tk = 0.

Mais precisamente vale o seguinte resultado:

Lema 1.29. Seja x uma soluo de minxRn

f(x). Entoxk+1 x < xk x

sempre que0 < tk 0 fixado, no podem ser utilizados em mtodos

no diferenciveis pois esta situao pode nunca acontecer. Para ver isto basta

considerar f : R Rdefinida por f(x) =|x|. Tem-sef(xk)= 1, xk = 0,

no importando o quanto xk esteja prximo da soluo x= 0.

18


31/146

A nica atrao de mtodos de subgradiente sua simplicidade (quando o clculo

de subgradientes fcil). Nem sequer requerem uma busca linear. Um estudo

profundo sobre os mtodos de subgradiente pode ser encontrado em [15], [14] ou

[18].

1.4.3 Mtodo de Planos de Corte

Ao contrrio do mtodo de subgradientes, a ideia do mtodo de planos de corte

aproveitar as informaes obtidas nas iteraes anteriores para definir um modelo da

funo objetivo. Esse modelo ser til para obter candidatos a direes de descida,

logo, a cada iterao k, tem-se um modelo linear por partes fk de fconstrudo da

seguinte forma:fk(x) = max

i=1,...,kf(xi) + (si)T(x

xi) . (1.12)Nota-se que a igualdade acima se deve ao teorema 1.5e que a cada iterao k,

adiciona-se ao modelo uma funo afim f(xk) + (sk)T(x xk).

1f

3 3 3( ) ,f x s x+

2 2 2( ) ,f x s x+

epif

1x4x 3x2

x

S

2 3

4

Figura 1.3: Iteraes do mtodo de planos de corte

O mximo de todas as funes que definem fk claramente uma funo convexae linear por partes. Alm disso,

fk fk+1 e fkf

para todok, ou seja, fkse aproxima de fpor baixo a cada iterao.

Feito isso, pode-se utilizar o modelo fk para encontrar o prximo iterado xk+1,

como soluo do seguinte problema

xk+1

argminxS fk(x), (1.13)

19


32/146

onde S um conjunto compacto, convexo que contm um ponto mnimo de f.

Ademais, o modelo ainda nos permite ter um critrio de parada implementvel

atravs do calculo do decrscimo nominal, definido por

k:= f(xk

) fk1(xk

). (1.14)

Observa-se que o algoritmo termina quando k pequeno.

Vejamos agora como fica o algoritmo.

Algoritmo1.4. Mtodo de Planos de Corte

1. Sejamtol0 uma tolerncia dada eS Rn.2. Tomex1 Se sejak= 1. Defina f0 .3. (caixa preta) Calculesk ef(xk).

4. (Decrscimo nominal) Calculek:= f(xk) fk1(xk).5. (Critrio de parada) Sektol, pare.6. (Prximo iterado) Definaxk+1 arg min

xSfk(x).

7. (Loop) Tomek= k+ 1e v para o passo 3.

Assim como no mtodo de subgradientes, o mtodo de planos de corte no

garante o decrscimo da funo objetivo a cada iterao. Tal fato pode ser observado

quando introduz-se uma funo afim quase horizontal ao modelo fk, por esse

motivo dize-se que o algoritmo no est livre de instabilidades. Veja a Figura1.4

abaixo.

1f

3 3 3( ) ,f x s x+

2 2 2( ) ,f x s x+ epif

1x

4x

3x2x

S

3

1f

3 3 3( ) ,f x s x+

2 2 2( ) ,f x s x+ epif

1x

4x

3x2x

S

3

Figura 1.4: Introduo de uma funo afim quase horizontal

Observe que a introduo da funo afim f(x3) + (s3)T( x3) gera um pontox4 tal quef(x4)> f(x3).

Verifica-se ainda que o modelo acumula um nmero crescente de funes afinsque definem o modelo, o que dificulta a resoluo dos problemas do passo 6, mesmo

20


33/146

se essas forem lineares. Alm disso, em alguns momentos vrias dessas restries

ficam quase idnticas umas as outras.

1.4.4 Mtodo de Feixe

O mtodo de Feixe reconcilia as caractersticas dos mtodos de descida e

planos de corte, garantindo ao mesmo tempo o decrscimo da funo objetivo e

a estabilizao. O modelo construdo de modo anlogo ao utilizado no mtodo

de planos de corte. Porm, tenta-se evitar o acmulo grande de funes afins que

causam mau condicionamento. E isso feito adotando-se duas sequncias de pontos

distintas:

Uma sequncia formada pelos chamados centros de estabilizao{xk} Rn quedecrescem de fato a funo objetivo. E supe-se que, em adio para um ponto de

iterao corrente xk, tem-se alguns pontos testes yj Rn (das ltimas iteraes)e subgradientes sj f(yj) para j Jk, onde o conjunto de ndices Jk umsubconjunto no-vazio de{1,...,k}. Assim como nos planos de corte, a funoobjetivo aproximada por um modelo de planos de corte

fk(x) = maxjJk

f(yj) + sTj(x yj)

. (1.15)

O prximo iterado candidato ento definido por

yk+1:=xk + dk,

onde a direo de busca dk calculada por

dk := arg mindRn

fk(xk + d) +

12

dTMkd

. (1.16)

O papel do termo de estabilizao 12

dTMkd para garantir a existncia da soluo

dk e manter a aproximao local suficiente. Como instabilidades ocorrem quando

o movimento a partir de xk muito grande, a matriz Mk simtrica regular n ndestina-se a acumular informao a respeito da curvatura de fnuma bola ao redor

de xk.

Definio 1.31. Um iterado (ponto candidato) yk+1 torna-se um centro de

estabilizao (i.e., xk+1 := yk+1) somente se uma condio do tipo Armijo

satisfeita, ou seja,

f(yk+1)f(xk) mkondek o decrscimo nominal calculado na iterao k em

(0, 1). Nesse caso, o

passo realizado chamado passo srio. Caso contrrio, tomado xk+1 := xk e o

passo denominado passo nulo.

21


34/146

O respectivo decrscimo nominal serk= fk(yk+1)f(xk). Em ambos os casos,na Definio1.31, um plano de corte acrescentado ao modelo fk+1, pois define-se

o conjuntoJk+1:=Jk{k+ 1}.

Com as definies acima possvel descrever o mtodo.

Algoritmo1.5. Mtodo de Feixe

1. Sejamtol0 uma tolerncia dada em(0, 1).2. Tomex1 e sejamk= 1 ek:=.3. (caixa preta) Calcules1 ef(x1).

4. (Construo do modelo) Construa o modelo f1.

5. (Critrio de parada) Sektol, pare.6. (Ponto candidato) Calculeyk+1:=xk + d.

7. (Decrscimo nominal) Definak:= fk(yk+1)

f(xk).

8. (Teste de Descida) Sef(yk+1)f(xk) mk:Faa xk+1 :=yk+1, (passo srio).

Caso contrrio faa xk+1 :=xk (passo nulo).

9. (Atualizao do modelo) Construa fk+1 adicionando sk+1 ao modelo.

10. (Loop) Tomek=k+ 1e v para o passo 5.

Nota-se que o problema estabilizado (1.16) de programao quadrtica convexa,

usualmente resolvido atravs do seu dual, que possui um conjunto vivel com uma

estrutura mais simples. Para mostrar esse problema dual, convm antes considerar

o modelo fkreferindo-o ao centro de estabilizao. Para isso, considere as seguintes

definies:

Definio 1.32. Dada uma iterao k do mtodo, o feixe o conjunto das

informaes obtidas, i.e.,

{(yj, f(yj), sj) : sjf(yj), jJk} .

Definio1.33.

Considere uma iterao k do mtodo. Para cada ndicej do feixe,

o erro de linearizao dado porekj :=f(xk) f(yj) sTj(xk yj).

Feito isso, pode-se substituir a caracterizao do modelo fkdado em (1.15) pelo

seguinte modelo:

fk(x) =f(xk) + maxiJk

ekj+ sTj(x xk)

. (1.17)

Apesar do problema (1.16) ser um problema de otimizao no diferencivel,

devido a sua natureza linear por partes, possvel reescreve-lo como um

22


35/146

(diferencivel) subproblema de programao quadrtica

minimize + 1

2dTMkd

sujeito a ekj+ sTjd para todo jJk

(PQ)

Dualizando este problema chega-se a um problema equivalente quando se

determina mltiploskj parajJk resolvendo o problema

minimize 12

jJk

kj sj

TM1k

jJk

kj sj

+jJk

jekj

sujeito a

jJkj= 1, j0

(PD)

Os problemas (PQ) e (PD) so equivalentes e tem solues nicas, para mais

detalhes veja [13]. Do ponto de vista computacional, a escolha do conjunto dendices um ponto crucial, pois se os mtodos armazenam todos os subgradientes

anteriores, ou seja, seJk={1,...,k}, isso poderia causar grandes dificuldades comopor exemplo um problema (PQ) muito grande.

No que segue, apresenta-se uma pequena descrio de alguns mtodos de feixe

onde possvel ver suas modificaes. Para evitar detalhes tcnicos, procura-se dar

foco as principais diferenas na escolha da aproximao por plano de cortes fk, o

erro de linearizaoekj ou a matriz de estabilizao Mk.

1.4.5 Mtodos de Feixe com Mtrica Varivel Diagonal

A ideia dos mtodos com mtrica varivel diagonal est baseada na introduo de

um parmetro de ponderao no termo quadrtico da funo objetivo do problema

quadrtico, para acumular alguma informao de segunda ordem sobre a curvatura

de fao redor de xk. Portanto a matriz de mtrica varivelMk considerada na

forma diagonal

Mk= ukI,

com o parmetro de ponderao uk>0.Baseado no algoritmo de ponto proximal de [33] e no trabalho de [23], omtodo

de feixe proximalfoi apresentado em [34], onde tambm uma tcnica de interpolao

quadrtica para atualizar ukfoi introduzida.

Um resultado similar foi concludo em [19], onde o mtodo defeixe com regies

de confianafoi desenvolvido combinando a ideia do feixe com o clssico mtodo de

regies de confiana de[35,36].

Alm disso, o mtodo quase-Newton diagonal poor mans de [37] e o mtodo

de feixe proximalde [38] baseados na Regularizao de Moreau-Yosida esto nestaclasse de mtodos de feixe.

23


36/146

Estes mtodos diferenciam-se basicamente nas estrategias para atualizar o

parmetro uk.

1.4.6 Mtodos de Feixe com Mtrica Varivel

O desenvolvimento de mtodos de segunda ordem para otimizao no

diferencivel tem chamado a ateno de alguns pesquisadores durante toda a sua

histria. Vrias tentativas de empregar

Mk como um matriz cheia

com algum tipo de atualizao tem sido propostos por alguns autores. J em

seu trabalho pioneiro [12], Lemarchal apresenta uma verso do mtodo de Feixe

com mtrica varivel, utilizando a formulao clssica do BFGS com atualizaosecante para otimizao diferencivel (veja[39], p.135). Devido ao desapontamento

com os resultados numricos obtidos em [40], esta ideia foi abandonada por

aproximadamente duas dcadas. Depois, baseado na regularizao de Moreau-

Yosida, atualizao BFGS e na tcnica de busca em curva, um mtodo quase-Newton

foi proposto em[37]. De acordo com as experincias numricas em [41], v-se que os

mtodos de Feixe com mtrica varivel trabalham razoavelmente bem. Um trabalho

mais recente baseado no mtodo de feixe com mtricas variveis usando atualizao

BFGS, foi proposto em [42], a ideia do mtodo usar somente trs subgradientes(dois calculados em xk e yk+1, e um agregado, contendo informaes das ltimas

iteraes). O proposito disso, segue do fato que a dimenso do problema quadrtico

trs e, com isso, o problema pode ento ser resolvido com clculos simples. Os

testes numricos em[42] mostram que a tcnica comparvel com os mtodos de

feixe com mtrica varivel diagonal em nmero de avaliaes da funo, contudo o

tempo computacional pode ser significativamente menor.

1.4.7 Mtodos de Feixe - NewtonUm avano na direo de mtodos de feixe com informaes de segunda ordem

foi dado em [43], onde ao invs de um modelo de planos de corte linear por partes

(1.15), os autores introduzem um modelo quadrtico da forma

fk(x) := maxjJk

f(yj) + sTj(x yj) +

12

j(x yj)TMj(x yj))

. (1.20)

24


37/146

onde j um parmetro de amortecimento. A direo de busca encontrada no

problema (1.16) foi ento trocada pelo problema

dk := arg mindRn

fk(xk + d). (1.21)

1.4.8 Mtodos de Feixe com Dados inexatos

Existe tambm variantes do mtodo de feixes para casos onde a funo objetivo

e o subgradiente possuem dados inexatos. Supe-se que para cada pontox Rn e >0 possvel calcular o valor aproximado da funo f(x) satisfazendo

f(x) f(x)f(x)

e um-subgradiente sdo-subdiferencial

f(x) ={s Rn |f(y)f(x) + sT(y x) , para todo yRn}.

Ento o modelo de planos de corte em (1.15) pode ser substitudo por um modelo

de planos de corte aproximado

fk(x) = maxjJk

fj(yj) + (sj)

T(x yj)

.

onde sj jf(yj) para todo jJke0.Em[44] o modelo de plano de corte generalizado de [11] foi estendido para dados

inexatos, em outras palavras

Mk= I .

Depois o mtodo de feixe proximal de [34] com

Mk= ukI

foi estendido em[45] onde tambm alguma experincia numrica foi reportada.

1.5 Otimizao No Convexa No Diferencivel

Nesta seo considera-se o seguinte problema de otimizao irrestrito

minimize f(x)

sujeito a x Rn (1.22)

25


38/146

onde a funo objetivo f : Rn R suposta localmente Lipschitz contnua. Notequefno precisa ser convexa. O subdiferencial de fagora definido por

f(x) = conv{ limi

f(xi)|xi x and f(xi) existe.} (1.23)

Lembrando que para as funes localmente Lipschitz contnuas tem-se a seguinte

condio necessria de otimalidade: Sef, localmente Lipschitz contnua, atinge um

mnimo local em x, ento

0f(x). (1.24)A no convexidade trs algumas dificuldades, como por exemplo: Os mtodos

no podem garantir a otimalidade local das solues, pois somente alguns

candidatos, chamados pontos estacionrios, satisfazem a condio (1.24). Outro

fato que deve ser levado em considerao, que no caso convexo, o modelo deplanos de corte era uma estimao da funo objetivo e o erro de linearizao no

negativo media o quo boa era a aproximao do problema original. No caso no

convexo, estas propriedades no so mais vlidas: ekj pode ser muito pequeno ou

negativo embora o ponto teste yj esteja longe do ponto de iterao corrente xk e

assim o subgradiente correspondente sj seria intil. Por estas razes, as principais

modificaes para os mtodos no convexos se concentram no erro de linearizao.

1.5.1 Regras de eliminao de subgradientesAlguns mtodos so propostos simplesmente ignorando o erro de linearizaoekj ,

Definio (1.33). Este procedimento j era feito nos mtodos de gradiente conjugado

[46], onde por exemplo, o seguinte tipo de regra de eliminao proposta

Jk:={1jk| xk yj k}

onde k tende para zero. Em[47] um mtodo de feixe transladado, proposto sem

qualquer tipo de regra de eliminao, pois o erro de linearizao sempre no-negativo, ou seja,

kj =f(yj) f(xk)0.

Um regra de eliminao mais complicada proposta em [11], Captulo 4, para

mtodos de planos de corte generalizados. O erro de linearizao substitudo por

seu valor absoluto

kj :=|ekj |=|f(xk) f(yj) sTj(xk yj)| para todo jJk,

26


39/146

e o algoritmo elimina a informao dos subgradientes anteriores sempre que

dk mS maxjJk

{skj },

onde mS>0 uma tolerncia para resetar, definida pelo usurio e

skj :=xj yj +k1i=j

xi+1 xi (1.25)

a medida da distncia estimada dexk yjsem a necessidade de armazenar ospontos testes yj.

1.5.2 Subgradiente com medida local

No que segue, introduz-se outra estratgia popular para evitar as dificuldades

causadas pela no convexidade. Para adicionar alguma informao local ao modelo,

o erro de linearizao substitudo pelosubgradiente com medida local

kj := max

ekj , xk yj2

(1.26)

em [48] para o mtodo-steepest descent. O parmetro de medida da distncia0pode ser definido como zero quando a funo f convexa. Os autores tambm

prope o uso de uma medida da distncia (1.25) evitando o armazenamento dospontos testes yj, ou seja, trocando (1.26) por

kj := max

ekj , (skj )

2

.

1.6 Otimizao Convexa No Diferencivel com

Restries

Considera-se o seguinte problema de otimizao

minimizexRn

f(x)

sujeito a ci(x)0, i= 1,...,m,(1.27)

onde a funo objetivo f : Rn R e as restries funcionais ci : Rn R sosupostas convexas. Para este problema, considera-se que ele satisfaz a Condio de

Qualificao de Slater, i.e., se

c(y)


40/146

para algum yRn, ondec: Rn R afuno restrio total, definida por

c(x) := maxi=1,...,m

ci(x). (1.28)

Teorema 1.34.

Se o problema (1.27) convexo e satisfaz a condio de qualificaode Slater, ento (1.27) atinge seu mnimo em x se e somente se existe o

multiplicador de Lagrange0 Rm tal queici(x) = 0 para todo i= 1,...,me

0f(x) +m

i=1

ici(x).

Demonstrao. Veja [13].

1.6.1 Mtodo de Linearizao de Restries

Nos mtodos de feixe, a forma mais popular de se lidar com as restries

encontrar um minimo irrestrito da chamada improvement function[23],

H(x; y) = max{f(x) f(y), c(x)}.

O modelo, a partir de planos de corte, da funo H(x; y) determinado

linearizando a funo objetivo e a restrio, considerando

Hk(x) = max{ f(x) f(xk), ck(x)}, (1.29)

onde

ck(x) = maxjJk

c(yj) + rTj(x yj)

. (1.30)

e rjc(yj). A direo de busca encontrada em (1.16) substituda por

dk:= arg mindRn

Hk(xk+ d) +

12

dTMkd

. (1.31)

Esta abordagem foi empregada no contexto do mtodo de plano de cortegeneralizado, ou seja, para

Mk= I ,

no trabalho de Mifflin [24]. Verses salvando e armazenando subgradientes com

estratgias de agregao foram introduzidas em [11], Captulos 5 e 6.

Em [13] a abordagem de linearizao da restrio foi usada com o mtodo de

feixe proximal, ou seja, com

Mk= ukI,

comuk >0.

28


41/146

1.6.2 Mtodo de Funo Penalidade Exata

Uma outra estratgia em otimizao no diferencivel com restries utilizar a

funo de penalidade exata[49],

e(x; ) :=f(x) +m

i=1

i max{ci(x), 0}.

O modelo de planos de corte da funo de penalidade exata ento definido por

ek(x; k) := fk(x) +m

i=1

ki max{cki (x), 0}.

onde

cki (x) = maxjJk ci(yj) + r

Ti,j(x

yj)

e ri,jci(yj). A direo de busca ento obtida por

dk:= arg mindRn

ek(xk+ d) +

12

dTMkd

. (1.32)

1.7 Algorimo de Pontos Interiores e Direes

Viveis

O algoritmo que apresentado nesta seo foi proposto por Jos Herkovits em [50,51], e denominado FDIPA (Feasible Direction Interior Point Algorithm). Proposto

para lidar com problemas de otimizao no linear diferencivel, o FDIPA converge

globalmente para pontos Karush-Kuhn-Tucker. um mtodo diferenciado, pois no

necessria a soluo de subproblemas quadrticos, e no se trata de um mtodo

de penalidades ou barreira, ou filtros.

Apesar de ser uma tcnica para problemas diferenciveis, neste trabalho, os

sistemas internos do FDIPA so amplamente utilizados na determinao de direes

viveis de descida para os mtodos que esto sendo apresentados nos captulosseguintes.

Considera-se o seguinte problema de otimizao no linear diferencivel com

restries de desigualdade:

minimizexRn

f(x)

sujeito a g(x)0(1.33)

e caracteriza-se suas solues, onde f : Rn

R e g : Rn

Rm

so funesdiferenciveis. Denota-se porg(x) Rnm a matriz das derivadas de g, =

29


42/146

{x Rn |g(x)0} o conjunto vivel e introduzindo a varivel auxiliar Rm,chamada varivel dual ou multiplicador de Lagrange, defini-se a funo Lagrangiana

associada ao problema (1.33)

L(x,) =f(x) +Tg(x),

cuja matriz Hessiana dada porH(x,) =2f(x) + m

i=1i2g(x).

Representa-se por I(x) ={i|gi(x) = 0} o conjunto de ndices cujas restriesso ativas e se diz quex umponto regularse os vetoresgi(x) paraiI(x) foremlinearmente independentes.

Dado um ponto interior inicial, o FDIPA gera uma sequncia{xk} de pontosinteriores tais que

f(xk+1

)< f(xk

) e gi(xk

)


43/146

qualquer elemento de d(x). Quandod(x) constitui um campo uniforme de direes

viveis, ele suporta um segmento vivel [x, x+(x)d(x)], tal que (x) limitado

inferiormente em por >0.

Se x um ponto regular e mnimo local para o problema (1.33), ento existe

Rm tal que

f(x) + g(x)= 0 (1.34)G(x)= 0 (1.35)

0 (1.36)g(x)0 (1.37)

onde G(x) = diag[g1(x),...,gm(x)] uma matriz m m.Considerando as equaes (1.35) e (1.36), e fazendo

y= (x,) e (y) = (f(x) + g(x), G(x))obtm-se

(y) = H(x,) g(x)

g(x)T G(x)

onde = diag[1,...,m] uma matriz m m.Uma iterao de Newton para resolver o sistema de equaes lineares ( y) = 0,

com o ponto yk = (xk,k) na iteraok , define um novo ponto yk+1 = (xk+1,k+1)

soluo do sistema linear (yk)(y yk)T =(yk)Tque pode ser reescrito como

Bk g(xk)

kg(xk)T G(xk)

x xk k

=

f(xk) + g(xk)k

G(xk)k

, (1.38)

onde substitui-seHk(xk,k) porBk.

De fato, a matriz simtrica Bk Rnn pode ser considerada como umaaproximao da matriz Hessiana obtida por alguma tcnica quase-Newton ou pelaprpria matriz identidade. Contudo, como requerimento para a convergncia global

do presente algoritmo,Bk deve ser definida positiva.

Introduzindo algumas modificaes na iterao (1.38) obtm-se, para um dado

par (xk, k), uma nova estimativa com valor da funo objetivo menor. Com isto,

defini-se uma direo dno espao primal por d= xk+1 xk.Ento obtm-se o sistema linear

Bkd+

g(xk)=

f(xk) (1.39)

kg(xk)Td+G(xk)= 0 (1.40)

31


44/146

A soluo (d,) deste sistema, fornece uma direod, e uma nova estimativa

para . Em [51], Herskovits provou que d uma direo de descida para f, ou

seja, que dTf(xk)0, d a nova direo e a nova estimativa de .

Neste caso, (1.42) equivalente a

ki gi(xk)Td +gi(xk)i=kki para i= 1,...,me, consequentemente

gi(xk)Td=k


45/146

A incluso do termo negativo do lado direito da equao (1.40) produz uma

deflexo em d, proporcional , na direo do interior da regio vivel. Para

garantir que dseja uma direo de descida, seve ser escolhido convenientemente,

veja[51].

Observa-se que direo de podem ser obtidos resolvendo-se os sistemas deequao lineares (1.39)-(1.40) e (1.41)-(1.42) de modo que so definidos

d=d+d e = +.

Agora se est em condies de apresentar o FDIPA.

1.7.1 Feasible Direction Interior Point Algorithm

ALGORITMO - FDIPA

Parmetros: , (0, 1), >0, (0, 1).Dados: (Inicializao)

x0 , 0< 0< Rn, B0 Rnn simtrica e definida positiva.

Passo 1: (Calculo da direo de busca)

i) Calcule (d,) resolvendo o sistema linear

Bd+ g(x)=f(x)

g(xk

)T

d+G(x)= 0

Se d= 0 pare.

ii) Calcule (d,) resolvendo o sistema linear

Bd+ g(x)= 0g(x)Td+G(x)=

iii) Se dT

f(x)>0 ento= min

d22; ( 1)

dTf(x)dT f(x)

Caso contrrio,

= d22iv) Calcule a direo de busca d= d+d e= +

Passo 2: (Busca Linear)

Calcule t, o primeiro elemento da seqncia{1, , 2

, 3

,...}que satisfaz

33


46/146

f(x +td)f(x) +tf(x)Td,e gi(x +td)0 eBsimtrica, definida positiva.

ii) V para o passo 1.

A seguinte atualizao para foi considerada em[51],

i:= max [i; d2], >0, parai= 1,...,m.

34


47/146

Captulo 2

Algoritmo para Otimizao

Convexa No Diferencivel

Introduz-se o algoritmo para otimizao convexa no diferencivel, que foi

apresentado inicialmente em 2005, na tese de doutorado de Freire [29]. Contudo,

neste trabalho, foram realizadas algumas modificaes em relao ao trabalho de

Freire, como por exemplo, a introduo do passo srio de descida mxima,

hipteses, e consequentemente partes da demonstrao da convergncia global do

algoritmo. Por fim, foram feitos novos testes numricos e uma anlise comparativa

do desempenho com outros algoritmos traando seu performance profiles, usando

como medida de performance o nmero de iteraes e avaliaes da funo.Ressalta-se que no sero citados os detalhes das modificaes entre o algoritmo

apresentado por Freire e o que por hora est sendo apresentado, uma vez que, o

objetivo deste trabalho dar continuidade na pesquisa e no aprimoramento das

tcnicas inicialmente apresentadas por Freire em sua tese de doutoramento.

2.1 Mtodo

Neste estudo considera-se o seguinte problema de otimizao: minimize f(x)sujeito a x Rn, (P.1)

onde f : Rn R uma funo convexa, no necessariamente diferencivel. Sejaf(x) o subdiferencial [16] defemx. No que segue, assumi-se que um subgradiente

arbitrriosf(x) pode ser calculado em qualquer ponto xRn.Uma caracterstica especial da otimizao no diferencivel o fato de que

o gradiente f(x) pode mudar descontinuamente, e ainda, no precisa sernecessariamente pequeno na vizinhana de um extremo local da funo objetivo,

35


48/146

como o leitor pode ver em [15,31]. Por esta razo, que os mtodos de otimizao

clssicos, baseados no gradiente, no podem ser utilizados de forma direta. Tendo

isso em vista, novos mtodos tem sido propostos para resolver o problema (P.1),

como pode ser visto no captulo 2 ou, por exemplo, nos trabalhos de Kiwiel [11],

Makla[13].Nesta nova proposta de algoritmo, so combinadas algumas ideias do clssico

mtodo de planos de corte de Kelley[10], os passos srio"e nulo"do mtodo de feixe

tradicional[11] com os sistemas internos do FDIPA - algoritmo de pontos interiores e

direes viveis desenvolvido por Herskovits [30,50], para criar um mtodo adequado

a resoluo de problemas convexos no diferenciveis. A escolha desta abordagem foi

feita com base na no utilizao de qualquer tipo de subproblema de programao

quadrtica, funes de penalidade, barreira, ou mesmo filtros.

A metodologia utilizada est baseada na substituio do problema (P.1) por umproblema equivalente restrito (PE.1) com uma funo objetivo linear e com restries

de desigualdade no diferenciveis,

minimize(x,z)Rn+1

F(x, z) =z

sujeito a f(x)z.(PE.1)

onde z R uma varivel auxiliar. Dessa forma pretende-se criar um algoritmoque gere uma sequncia decrescente de pontos viveis

{(xk, zk)

}kN

int(epi f) que

convirja para o mnimo de f(x). E para isso, o algoritmo gera uma sequencia quesatisfaz

zk+1 < zk, e f(xk)< zk para todok.

Utilizando as ideias do mtodo de planos de corte [10], o algoritmo gera uma

aproximao linear por partes das restries de (PE.1) da seguinte forma: Considere

o plano de corte

gi(x, z) = f(yi) + (si)T(x

yi)

z, i= 0, 1,...,

onde yi Rn so pontos auxiliares, sif(yi) so subgradientes nestes pontos e representa o nmero de planos corrente. Agora defina,

g(x, z)[g0(x, z),...,g(x, z)]T, g: Rn R R+1

e o problema auxiliar corrente

minimize

(x,z)F(x, z) =z

sujeito a g(x, z)0. (PA.1)

36


49/146

Ao invs de resolver este problema, o presente algoritmo utiliza os sistemas

internos do FDIPA para determinar uma direo de busca dk para (PA.1). Com

o FDIPA a direo de descida dk pode ser calculada ainda se o problema auxiliar

(PA.1) no tiver um mnimo finito. E portanto, no necessria a utilizao de um

termo quadrtico estabilizante como feito nos mtodos de feixe, como pode servisto em [15].

Quando usado para lidar com problemas de programao linear (como (PA.1)),

o FDIPA se comporta de forma similar aos mtodos de ponto interiores para

programao linear [30], desta forma, esta uma boa alternativa para resolver este

tipo de problema.

Em cada iterao, um programa auxiliar (PA.1) linear definido substituindo a

restriof(x)zpor planos de corte. Com isso, obtm-se uma direo de descida

vivel para (PA.1), e um tamanho de passo calculado.O maior passo vivel dado por tmax{t| gk ((xk, zk) +tdk )0}. Como t

no sempre finito, considera-se

tk := min{tmax, t}.

Ento, um novo iterado (xk+1, zk+1) definido de acordo com o seguinte

procedimento: O algoritmo produz pontos auxiliares (y, w) e quando um ponto

auxiliar est no interior do epgrafo de f, se diz que foi realizado um passo srio

e este ponto ser o novo iterado. Caso contrrio, continua-se com o mesmo iteradoe se diz que foi realizado um passo nulo. Em todos os casos, um novo plano de

corte adicionado e o procedimento se repete at que um passo srio seja obtido.

Com a direo de descida e um tamanho de passo calculados, um novo ponto

auxiliar com respeito a (PA.1) calculado. Para isso, considera-se os pontos da

forma:

(xk+1, zk+1) = (x

k, zk) +tk dk (2.1)

viveis com respeito ao problema auxiliar (PA.1). Depois calcula-se o prximo pontoauxiliar fazendo,

(yk+1, wk+1) = (x

k, zk) +tk dk , (2.2)

onde (0, 1). Se (y+1, w+1) vivel com respeito a (PE.1) e descente para f,atualiza-se a soluo (i.e. faz-se (x+1, z+1) = (y+1, w+1)) e diz-se que o passo

um passo srio de descida vivel.

Se o novo ponto auxiliar vivel com relao a (PE.1), mas no de descida

paraf, considera-se que o ponto de iterao corrente (xk, zk) est longe da fronteira

do epgrafo de f. E neste caso, ao invs de usar a direo calculada pelo FDIPA,

37


50/146

utiliza-se a direo de descida rpidaez (onde ez = [0, ..., 0, 1]T Rn+1) paraobter um ponto ainda estritamente vivel e suficientemente prximo da fronteira do

epgrafo. Assim, para a prxima iterao faz-sef(xk+1) = f(xk) e pode-se provar

que a nova direo de busca gerada pelo FDIPA tambm de descida para f. Este

passo chamado de passo srio de mxima descida.Se nenhum dos casos acima citados acontece, o algoritmo realiza um passo nulo.

Neste caso, a soluo no atualizada, mas um novo plano de corte calculado em

(y+1, w+1) e uma nova direo vivel com respeito a (PA.1) calculada usando o

FDIPA. Ento o procedimento se inicia novamente.

2.1.1 Nonsmooth Feasible Direction Algorithm

ALGORITMO - NFDA

Parmetros: Escolha uma tolerncia aproximada final > 0. Selecione os

parmetros de controle >0 e(0, 1) para o limite da deflexo. Selecioneos multiplicadores(1/2, 1) para o tamanho de passo e o tamanho mximode passotmax>0.

Dados: (Inicializao) Escolha um ponto estritamente vivel (x0, z0) int(epi f), um vetor positivo inicial 0 R e uma matriz simtrica definidapositiva B0 R(n+1)(n+1). Seja y00= x0,k= 0 e= 0. Calculef(x0).

Passo 1: (Plano de Corte inicial) Calcule sk0 f(xk) e um novo plano decorte

gk0 (xk, zk) =f(xk) zk.

Considere

gk0 (xk, zk) =

sk0

1

Rn+1,

defina

gk0(xk, zk) = [gk0 (x

k, zk)] R, egk0(xk, zk) = [gk0 (xk, zk)] Rn+1.

Passo 2: Calculo da Direo de Descida Vivel dk para (PA.1)

i) Calcule dk,e k,, resolvendo

Bk

dk,+ g

k (x

k

, zk

)k,=F(x, z) (2.3)

k [gk (xk, zk)]Tdk,+Gk (xk, zk)k,= 0. (2.4)

38


51/146

Calcule dk, e k,, resolvendo

Bkdk,+ gk (xk, zk)k,= 0 (2.5)k [gk (xk, zk)]Tdk,+Gk (xk, zk)k, =k , (2.6)

onde

k,:= (k,1,...,

k,),

k, := (

k,1,...,

k,),

k := (

k1,...,

k ),

k := diag[k1,...,

k ], G

k (x, z) := diag[g

k1 (x, z),...,g

k (x, z)].

ii) Se (dk,)TF(x, z)>0, faa =dk,2.

Caso contrrio, faa

= min

dk,2, ( 1)(dk,)

TF(x, z)(dk,)TF(x, z)

. (2.7)

iii) Calcule a direo de descida vivel

dk =dk,+d

k,. (2.8)

Passo 3: Calcule um tamanho de passo

tk = min

tmax, max{t|gk ((xk, zk) +tdk )0}

. (2.9)

Se dkento pare com (xk, zk) como sendo a soluo. Caso contrrio, faa

(yk+1, wk+1) = (x

k, zk) +tk dk ,

e calcule o valor correspondente f(yk ).

Se f(yk+1) wk+1, ento tem-se um passo nulo: v para o Passo 6). Casocontrrio, faa dk =dk , d

k= d

k, d

k= d

k,

k=

k,

k=

k e

k =.

Sef(xk)f(yk+1) v para o Passo 4, seno: v para o Passo 5.

Passo 4: (Passo srio de descida vivel) Faa (xk+1, zk+1) = (yk+1, wk+1) e

f(xk+1) = f(yk+1). Defina k+10 > 0, a matriz B

k+1 simtrica e definida

positiva, faak=k+ 1,= 0, yk0= xk e v para o Passo 1.

39


52/146

Passo 5: (Passo srio de mxima descida) Faa

(xk+1, zk+1) = (xk, zk) (zk f(xk))f(x, z) e f(xk+1) =f(xk). (2.10)

Definak+10 >0, a matriz Bk+1 simtrica e definida positiva, faa k= k+ 1,= 0, yk0= x

k e v para o Passo 1.

Passo 6: (Passo nulo) Faa (xk+1, zk+1) = (xk, zk), calcule sk+1 f(yk+1),um novo plano de corte e seu gradiente

gk+1(xk, zk) =f(yk+1) + (s

k+1)

T(xk yk+1) zk.

Considere

gk+1(xk, zk) =s

k

+1

1

,

determine

gk+1(xk, zk) = [gk0 (x

k, zk),...,gk (xk, zk), gk+1(x

k, zk)]T R+2, egk+1(xk, zk) = [gk0 (xk, zk), ...,gk (xk, zk), gk+1(xk, zk)] R(n+2)(+2).

Defina=+ 1 e v para o Passo 2.

Os valores dee Bdevem satisfazer as seguintes hipteses:

Hiptese 2.1. Existem nmeros positivos1 e2 tais que

1 d2 dTBd2 d2 , para d Rn+1.

Hiptese 2.2.

Existem nmeros positivos I, S, tais que I i S, parai= 0, 1, . . . , .

40


53/146

2.2 Anlise da Convergncia

Nesta seo, realiza-se a demonstrao da convergncia global do presente

algoritmo. Primeiramente, se mostra que a direo de busca dk uma direo

de descida vivel para a z. Ento, prova-se que o nmero de passo nulos em cadaiterao finito. Isto ; Como (xk, zk)int(epi f), depois de um nmero finito desub-iteraes, obtm-se (xk+1, zk+1) int(epi f). Consequentemente, a sequncia

(xk, zk)

kN limitada e est no interior do epgrafo de f. Ento, mostra-se

que qualquer ponto de acumulao da sequncia

(xk, zk)

kN uma soluo do

problema (P.1). Tem-se ainda quedk= 0 somente num ponto estacionrio e quedk0 quandok , fato este que justifica o critrio de parada no passo 3).

Finalmente, mostra-se que para pontos de acumulao (x, z) da sequncia

(x

k

, zk

)

kN, a condio de otimalidade 0f(x) satisfeita.Em alguns momentos, alguns ndices sero omitidos para simplificar a notao.

Hiptese 2.3. O conjunto{x Rn |f(x)f(x0)} compacto.

Hiptese 2.4. Para todo (x, z)int(epi f) e todo i tal quegi(x, z) = 0 os vetoresgi(x, z) so linearmente independentes.

Observa-se que as solues d, , d, e dos sistemas lineares (2.3), (2.4), e

(2.5), (2.6) so nicas. Este fato uma consequncia do lema provado em [52,53] e

enunciado como segue:

Lema2.1. Para qualquer vetor(x, z)int(epi f)e qualquer matriz positiva definidaB R(n+1)(n+1), a matriz

B g(x, z)

[g(x, z)]T G(x, z)

,

no singular.

E segue do resultado anterior que d, d,e so limitados no conjuntodefinido na Hiptese2.3. Como limitado superiormente, tem-se = + limitado.

Lema2.2. A direo d satisfaz dTF(x, z) dT Bd.

Demonstrao. Veja a demonstrao do Lema 4.2. em[30].

Como consequncia, tem-se que a direo de busca d de descida para a funo

objetivoF(x, z), (i.e., para (PA.1) e (PE.1)).

41


54/146

Lema 2.3. A direo d definida no Passo 2, item iii) do algoritmo uma direo

de descida para(PE.1) e(PA.1).

Demonstrao. Por definio d= d+d, logo se pode escrever

d

T

F(x, z) = dT

F(x, z) +dT

F(x, z).No caso em que dT F(x, z)>0, tem-se que(1)

dTF(x, z)dT F(x, z)

, veja o Passo 2

do algoritmo. E comod uma direo de descida para F, pelo Lema2.2, obtm-se

dTF(x, z)dTF(x, z) + ( 1)dTF(x, z)=dTF(x, z)0.

(note que dTF(x, z) = 0 somente se d= 0). Agora, supondo que dT F(x, z)

0, tem-se que a inequao dT

F(x, z) dT

F(x, z)


55/146

para [0, 1] e zk f(xk)>0. De onde, novamente tem-se zk+1 zk ef(xk+1) =f(xk)< zk+1.

Lema2.5. A sequencia{(xk, zk)}kN gerada pelo algoritmo limitada.

Demonstrao. A sequencia{(xk, zk)}kN limitada, pois zk+1 < zk para todo k epor ela estar contida no conjunto limitado dado por

epi(f) {(x, z) Rn+1 |z < z0}.

Lema2.6. Seja(xk, zk)int(epi f)um ponto suficientemente prximo da fronteirado epgrafo def (i.e. zkf(xk < tkdkz )). Se(xk, zk)no um ponto estacionrio,ento a direodk definida em (2.8) uma direo de descida para o problema(P.1).

Demonstrao. Como (xk, zk) int(epi f), segue que zk = f(xk) +1 para algum1 0. Tambm tem-se que dkz < 0 pelo Lema 2.3. O prximo iterado em z calculado pela frmula zk+1 = zk +tkdkz com, t

k >0. Logo, se pode escrever

zk+1 =zk2= (f(xk)+1)2, onde2=tkdkz >0. Quando1 suficientementepequeno (i.e. 1 < 2) obtm-se que zk+1 f(xk)0. (2.11)

Por outro lado, do Lema2.2e da Hiptese2.1, obtm-se que

dTf(x, z)1 d2 ,

e portanto, devido a (2.7),

min

, (1 )1dT f(x, z)

d2 ,

se dT f(x, z). Devido a (2.7) e como d limitada, existe um limite inferiorlow >0 tal que

low d2 .

43


56/146

Portanto, pela limitao de d, a deflexo dada por positiva limitada como

acima. De (2.8) e (2.11), tem-se

d=d+d d + d d + d2 d= (1 + d d) d .

Portanto, existe >1 tal qued d vlida. E devido a limitao de d,temos que d limitada como acima.

O Lema seguinte apenas um exerccio que ser repetido aqui.

Lema2.8.

SejaX Rn um conjunto convexo. Considerex0int X exX.Seja{xk}kN Rn \ X uma sequencia, tal quexk x. Seja{xk}kN Rn umasequencia definida por xk = x0+(xk x0) com(0, 1). Ento existek0 Ntal quexk int X, para todo k > k0.

Demonstrao. Observa-se que xk = x0+ (xk x0) x0+ (xx0) = xquando k . Como o segmento [x0,x] X e (0, 1) temos que x int Xe, como consequncia existe >0 tal que B(x, )int X. Como xk xexistek0

Ntal que xk

B(x, )

int X, para todo k > k0.

OBS 2.1: A sequencia{(xk , zk )}N definida em (2.1) para k fixo, est numconjunto limitado. De fato, pelo Lema2.5, existe r >0 tal que||(x, z)|| < r paratodo ponto no conjunto dado por int(epi f) {(x, z)Rn+1 |z < z0}. Ento paraqualquer passo srio tem-se||(xk, zk)|| < r. Para a sequencia de baixo, dada por(xk , z

k ) = (x

k, zk) +td com t limitado por tmax e||d|| limitado por um valor D,segue que, pela desigualdade triangular||(xk , zk )|| ||(xk, zk)||+Dtmax, ento asequencia

{(xk , z

k )

}

Nest numa bola centrada na origem e raio r+Dtmax.

Proposio 2.9. Considere a sequencia{(xki , zki)}iN definida em (2.1) para kfixado. Se(xk,zk) um ponto de acumulao desta sequencia, ento zk =f(xk).

Demonstrao. Pela construo da sequencia{(xki , zki)}iN, segue que, num pontode acumulao tem-se que f(xk)zk. Logo, suponha que zk < f(xk) e considereuma subsequencia convergente{(xki , zki)}iN(xk,zk) tal que{ski }iN sk, ondeN N. Estas sequencias existem porque, tanto{(xki , zki)}iN como{ski }iN esto

num conjunto compacto pela Hiptese 2.3. O plano de corte correspondente

representado porf(xki ) + sTi(x xki ) z= 0. Ento, z(xk) =f(xki ) + sTi(xk xki ) a projeo vertical de (xk,zk) no plano de corte. Tomando o limite quando i ,

44

7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO

mario tanaka filhalgoritmos de direÇÕes viÁveis para otimizaÇÃo nÃo diferenciÁvel

Documents