mario tanaka filhalgoritmos de direÇÕes viÁveis para otimizaÇÃo nÃo diferenciÁvel
TRANSCRIPT
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
1/146
ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO
DIFERENCIVEL
Mario Tanaka Filho
Tese de Doutorado apresentada ao Programa
de Ps-graduao em Engenharia Mecnica,
COPPE, da Universidade Federal do Rio
de Janeiro, como parte dos requisitos
necessrios obteno do ttulo de Doutorem Engenharia Mecnica.
Orientadores: Jos Herskovits Norman
Anatoli Leontiev
Rio de Janeiro
Maro de 2011
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
2/146
ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO
DIFERENCIVEL
Mario Tanaka Filho
TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ
COIMBRA DE PS-GRADUAO E PESQUISA DE ENGENHARIA (COPPE)
DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS
REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE DOUTOR
EM CINCIAS EM ENGENHARIA MECNICA.
Examinada por:
Prof. Jos Herskovits Norman, D.Ing.
Prof. Anatoli Leontiev, Ph.D.
Prof. Nestor Alberto Zouain Pereira, D.Sc.
Prof. Jean Rodolphe Roche , Ph.D.
Prof. Jos Mario Martnez, D.Sc.
RIO DE JANEIRO, RJ BRASIL
MARO DE 2011
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
3/146
Tanaka Filho, MarioAlgoritmos de Direes Viveis para Otimizao No
Diferencivel/Mario Tanaka Filho. Rio de Janeiro:
UFRJ/COPPE, 2011.
XII,134p.: il.;29, 7cm.Orientadores: Jos Herskovits Norman
Anatoli Leontiev
Tese (doutorado) UFRJ/COPPE/Programa de
Engenharia Mecnica, 2011.Referncias Bibliogrficas: p. 110116.
1. Otimizao no diferencivel. 2. Algoritmo de
direes viveis e ponto interior. 3. Mtodos de Plano de
corte. 4. Mtodos de Feixe. I. Norman , Jos Herskovits
et al. II. Universidade Federal do Rio de Janeiro, COPPE,
Programa de Engenharia Mecnica. III. Ttulo.
iii
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
4/146
A meu filho recm-nascido
LUCAS.
A meus pais, irmos
e a minha esposa Solange.
iv
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
5/146
Agradecimentos
A Deus, por permitir este momento to singular em minha vida.
Ao professor Jos Herskovits Norman pela orientao, amizade e conhecimentos
transmitidos ao longo da realizao deste trabalho, bem como, por seu exemplo
profissional e humano.
Ao Prof. Anatoli Leontiev pela orientao, por sua ateno ao me receberquando ainda no tinha certeza de onde fazer o doutoramento e por me indicar
ao Laboratrio.
Aos Profs. Jean R. Roche (Nancy Universit, Frana) e Napsu Karmitsa
(University of Turku, Finlndia) pelo suporte, amizade e simpatia.
Aos professores, o pessoal do administrativo e amigos do Programa de Engenharia
Mecnica PEM-COOPE/UFRJ, sempre dispostos a ajudar e por proporcionar um
excelente ambiente de convvio.
Agradeo a meus pais: Mrio Tanaka e Djelma Neves Tanaka, por todo esforo ededicao em manter as condies necessrias para meus estudos. E portanto, hoje
sem dvida nenhuma, considero que este momento tambm deles.
A minha esposa, Solange Tanaka, por seu apoio, pela preocupao de sempre
tentar proporcionar um ambiente favorvel a meus estudos e por estar ao meu lado
me dando fora.
A famlia Penha: Sogro, sogra e cunhadas pelo constante incentivo.
A todos os colegas e amigos do Laboratrio OptimizE: Arminda, Alfredo Canelas,
Henry Corts, Miguel Aroztegui, Jorge Zerpa, Elmer, Pavel e Helena, Sandro,
Evandro e aos outros que passaram pelo Laboratrio, pelo agradvel e sempredescontrado ambiente de estudo proporcionado.
Agradeo o auxlio financeiro concedido pelo Conselho Nacional de
Desenvolvimento Cientfico e Tecnolgico (CNPq), atravs das bolsas de doutorado
e Iniciao Cientfica; A Coordenao de Aperfeioamento de Pessoal de Nvel
Superior (Capes), pela bolsa de Mestrado, fundamentais para o suporte de meus
estudos nestes longos anos de formao.
v
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
6/146
Resumo da Tese apresentada COPPE/UFRJ como parte dos requisitos necessrios
para a obteno do grau de Doutor em Cincias (D.Sc.)
ALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NODIFERENCIVEL
Mario Tanaka Filho
Maro/2011
Orientadores: Jos Herskovits Norman
Anatoli Leontiev
Programa: Engenharia Mecnica
Problemas de otimizao no diferencivel aparecem em muitas aplicaes
prticas, como por exemplo, em Mecnica, Economia e Controle timo. Contudo,
a aplicao direta de mtodos diferenciveis, ou seja, mtodos baseados em
informaes do gradiente, no recomendada devido a natureza no diferencivel
dos problemas. Com isso em vista, neste trabalho so apresentadas tcnicas para
a resoluo de trs problemas diferentes que envolvem funes no necessariamente
diferenciveis. Inicialmente, considera-se o caso convexo sem restries. Depois,
o mtodo estendido para abranger o caso no convexo, onde so consideradasfunes localmente Lipschitz contnuas. Em seguida, introduz-se o problema convexo
com restries convexas no diferenciveis. So tambm apresentados os resultados
numricos da experincia computacional preliminar e uma aplicao em Otimizao
Topolgica de estruturas reticuladas robustas.
vi
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
7/146
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (D.Sc.)
FEASIBLE DIRECTIONS ALGORITHMS FOR NONSMOOTHOPTIMIZATION
Mario Tanaka Filho
March/2011
Advisors: Jos Herskovits Norman
Anatoli Leontiev
Department: Mechanical Engineering
Nonsmooth optimization problems appear in many practical applications, such
as in Mechanics, Economics, Optimal Control and Engineering. However, the direct
application of methods differentiable, i.e., methods based on gradient information,
is not recommended due to the nonsmooth nature of the problems. With this in
mind, this study presents techniques for solving three different problems involving
functions not necessarily differentiable. Initially, we consider the convex case
without restrictions. Then the method is extended to cover the case non-convex,
where they are considered locally Lipschitz continuous functions. Then introduces
the problem convex with convex constraints not differentiable. We also present
numerical results of preliminary computational experience and an application on
Robust Truss Topology Design.
vii
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
8/146
Sumrio
Lista de Figuras x
Lista de Tabelas xi
Lista de Smbolos xii
Introduo 1
1 Preliminares 4
1.1 Notaes e Definies Bsicas . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Anlise No Diferencivel . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Condies de Otimalidade . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Otimizao Convexa No Diferencivel . . . . . . . . . . . . . . . . . 13
1.5 Otimizao No Convexa No Diferencivel . . . . . . . . . . . . . . 251.6 Otimizao Convexa No Diferencivel com Restries . . . . . . . . 27
1.7 Algorimo de Pontos Interiores e Direes Viveis. . . . . . . . . . . . 29
2 Algoritmo para Otimizao Convexa No Diferencivel 35
2.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Anlise da Convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Resultados Numricos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Algoritmo para Otimizao No Convexa e No Diferencivel 543.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 Anlise da convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Resultados Numricos . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Uma Tcnica para Otimizao Restrita No Diferencivel 74
4.1 Mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Anlise da Convergncia . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3 Resultados Numricos . . . . . . . . . . . . . . . . . . . . . . . . . . 89
viii
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
9/146
5 Otimizao Topolgica Robusta de Estruturas Reticuladas 93
5.1 Introduo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2 Modelos em Otimizao Topolgica . . . . . . . . . . . . . . . . . . . 94
5.3 Modelo de Otimizao Topolgica Robusta . . . . . . . . . . . . . . . 97
6 Concluses 106
6.1 Contribuies deste trabalho . . . . . . . . . . . . . . . . . . . . . . . 106
6.2 Trabalhos Futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Referncias Bibliogrficas 110
A Problemas Irrestritos 117
A.1 Problemas Teste Convexos . . . . . . . . . . . . . . . . . . . . . . . . 118
A.2 Problemas Teste No Convexos . . . . . . . . . . . . . . . . . . . . . 122
B Problemas Com Restrio 126
B.1 Problemas com restries. . . . . . . . . . . . . . . . . . . . . . . . . 127
ix
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
10/146
Lista de Figuras
1.1 Semi-continuidade interior do-subdiferencil . . . . . . . . . . . . . 16
1.2 Direes de descida: caso diferencivel e no diferencivel . . . . . . . 17
1.3 Iteraes do mtodo de planos de corte . . . . . . . . . . . . . . . . . 19
1.4 Introduo de uma funo afim quase horizontal. . . . . . . . . . . 20
1.5 Direo de busca do FDIPA . . . . . . . . . . . . . . . . . . . . . . . 32
2.1 Performance Profiles: nmero de iteraes . . . . . . . . . . . . . . . 53
2.2 Performance Profiles: nmero de avaliaes da funo . . . . . . . . 53
3.1 Encontrando o prximo iterado do Algoritmo. . . . . . . . . . . . . . 57
3.2 Determinao de um plano vivel. . . . . . . . . . . . . . . . . . . . . 58
5.1 Trelia do Exemplo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2 Estrutura tima obtida no Exemplo 1. . . . . . . . . . . . . . . . . . 1015.3 Exemplo 1 - Evoluo dos quatro maiores auto-valores. . . . . . . . . 101
5.4 Trelia do Exemplo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.5 Estrutura tima obtida no Exemplo 2. . . . . . . . . . . . . . . . . . 102
5.6 Evoluo dos quatro maiores auto-valores do sistema (QQT, K(x)). . 102
5.7 Estrutura tima obtida no Exemplo 3 . . . . . . . . . . . . . . . . . . 103
5.8 Evoluo dos seis maiores autovalores do sistema (QQT, K(x)). . . . 103
5.9 Estrutura tima obtida no Exemplo 4. . . . . . . . . . . . . . . . . . 104
5.10 Evoluo dos seis maiores auto-valores do sistema (QQT, K(x)). . . . 104
x
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
11/146
Lista de Tabelas
2.1 Tabela de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2 Solvers utilizados na comparao . . . . . . . . . . . . . . . . . . . . 49
2.3 Resultados para o nmero de iteraes . . . . . . . . . . . . . . . . . 50
2.4 Resultados para o nmero de avaliaes da funo . . . . . . . . . . . 50
2.5 Resultados para o valor da funo objetivo . . . . . . . . . . . . . . . 51
3.1 Problemas teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Solvers utilizados na comparao . . . . . . . . . . . . . . . . . . . . 72
3.3 Resultados da Experincia Numrica. . . . . . . . . . . . . . . . . . . 73
4.1 Problemas Teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2 Resultados Preliminares do NFDCA. . . . . . . . . . . . . . . . . . . 92
4.3 Valores do RELACC . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.1 Resultados dos exemplos de otimizao.. . . . . . . . . . . . . . . . . 105
5.2 Volumes das barras de estrutura tima. . . . . . . . . . . . . . . . . . 105
A.1 Tabela de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B.1 Problemas Teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
B.2 parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
xi
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
12/146
Lista de Smbolos
A,B,G matrizes, p. 7
B(x, r) Bola aberta de centro xe raior, p. 4
NC(x) cone normal, p. 5
TC(x) cone tangente, p. 5
Rn Espao Euclidiano n-dimensional, p. 4
conv S fecho convexo deS, p. 5
f(x) gradiente defem x, p. 6
2f(x) matriz Hessiana, p. 7
f(x) subdiferencial de fem x, p. 9
x, y vetores (coluna), p. 4
xT vetor transposto, p. 4
xTy produto interno, p. 4
{xk}, (xk) sequencia, p. 6
f(x; d) derivada direcional def: Rn
Rem xna direo d, p. 6
f(x; d) derivada direcional generalizada de f : Rn R em x nadireo d, p. 9
xi componenteido vetor x, p. 4
xii
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
13/146
Introduo
A teoria clssica de otimizao presume certa diferenciabilidade e fortes hipteses
de regularidade como pode ser visto em Fletcher[1]. Contudo, estas hipteses esto
longe de acontecer na prtica, onde em muitos casos a prpria fsica do problema
impe um modelo no diferencivel. Problemas de otimizao no diferenciveis
aparecem em muitos campos de aplicao, como por exemplo, em Mecnica [2],Economia [3], Controle timo [4]. A origem da no diferenciabilidade pode ser
dividida em quatro classes, [5]: inerente, tecnolgica, metodolgica e numrica.
No caso da no diferenciabilidadeinerente, considera-se que o fenmeno original
contm nele mesmo vrias descontinuidades e irregularidades. Um exemplo tpico,
so as mudanas de fase do material no processo de moldagem contnua do ao (veja
[6]) e modelos lineares por parte em economia (veja[7]).
A no diferenciabilidade tecnolgica num modelo usualmente causada por
algumas restries tecnolgicas extras. Estas restries podem causar umadependncia no diferencivel entre as varveis e as funes, ainda que, as funes
originais sejam continuamente diferenciveis. Estes tipos de exemplos so chamados
de problemas de obstculo em otimizao de formas (veja[8]).
Exemplos de no diferenciabilidademetodolgicaaparecem no mtodos de funo
penalidade exata, e mtodos de decomposio de Lagrange.
Finalmente, existem problemas que podem ser analiticamente diferenciveis mas
numericamenteno diferenciveis. Estes problemas so, em geral, chamados de stiff
problems os quais so numericamente instveis e se comportam como problemas no
diferenciveis.Para problemas onde no se tem a diferenciabilidade em todos os pontos do
domnio da funo, existe uma rea da Programao Matemtica denominada
Otimizao No Diferencivel (Nonsmooth Optimization), que utiliza tcnicas, que
substituem o Clculo Diferencial clssico, oriundas de uma rea da Matemtica
chamada de Anlise Convexa, [9].
Existem grandes dificuldades quando se lida com funes no diferenciveis e,
em muitos casos, essas funes tem mnimo onde o gradiente no est definido.
Ratificando tal ideia, no preciso ir muito longe para entender melhor asdificuldades causadas pela no diferenciabilidade. Para tanto, basta considerar a
1
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
14/146
funo valor absoluto f(x) =|x|, com x R, nota-se que fno diferencivel naorigem, justamente o ponto onde ocorre o mnimo. Ento, se para esta funo, for
aplicado qualquer mtodo de otimizao diferencivel, este nem sequer reconhecer
o ponto de mnimox= 0, pois nestes mtodos o mnimo precisa satisfazer o famoso
resultado de Fermatf(x) = 0,
que , na verdade, uma condio de otimalidade necessria.
Diante do exposto, vem sendo desenvolvidos uma srie de mtodos para lidar com
este tipo de problema como pode ser visto, por exemplo, nos trabalhos de Kelley
[10], Kiwiel [11], Lemarchal[12] e Mkel [13], entre outros.
Os mtodos considerados mais eficientes e confiveis quando a funo objetivo
convexa, so os mtodos de Feixes, (veja [11, 14] ou [15]), estes mtodos so
baseados na teoria de subdiferenciis desenvolvida por Rockafellar [9] e Clarke [16].O que estes mtodos tem em comum que, em cada iterao, requerem a utilizao
de um nico subgradiente alm do valor da funo, onde suas ideias bsicas se
concentram em aproximar o subdiferencial (que o conjunto dos subgradientes) da
funo objetivo, usando informaes dos subgradientes armazenados em iteraes
anteriores no chamado feixe. A histria destes mtodos comea com o mtodo
chamado -steepest descentapresentado por Lemarchal em 1976, [17]. Para ter
uma melhor compreenso da discusso do caso convexo, veja [11] ou [18].
Problemas envolvendo funes no convexas e no diferenciveis so mais difceis
de lidar. Contudo, durante as ltimas trs dcadas, considerveis progressos tem
sido realizados nessa rea, Um passo crucial foi a tese de doutorado de Clarke em
1973. Corroborando com tal progresso sabe-se que um clculo eficiente, bem como
condies de otimalidade aplicveis, em termos de construes convexas locais, pode
ser desenvolvido para a classe de funes localmente Lipschitz contnuas, veja [16],
[19] ou[20].
Problemas convexos com restries no diferenciveis so ainda mais complexos
e poucos mtodos so encontrados na literatura. Problemas convexos com restries
consideradas fceis, tais como restries lineares, podem ser resolvidos inserindo-se tais restries diretamente em cada problema quadrtico (veja [21,22]). Para o
problema convexo com restries mais gerais, uma forma bem popular, para mtodos
de feixe, encontrar um mnimo irrestrito para a chamada improvement function
[23], esta abordagem foi utilizada em [24] e nos captulos 5 e 6 de [11]. Outra
estrategia resolver um problema irrestrito equivalente com o uso de uma funo
objetivo de penalidade exata [25]. Em[26,27] uma estratgia de filtros [28] sugerida
como alternativa ao uso da funo de penalidade num mtodo de feixes.
Neste trabalho so apresentados trs alternativas de algoritmos para OtimizaoNo Diferencivel: O primeiro algoritmo, considera o caso convexo sem restries,
2
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
15/146
o qual foi inicialmente proposto por Freire [29] em sua tese de doutoramento em
2005. Em seguida, apresenta-se um algoritmo que lida com problemas no convexos
sem restries. O terceiro e ltimo algoritmo considera problemas convexos com
restries de desigualdade convexas.
Os mtodos so hbridos, neles so utilizadas algumas ideias do mtodo clssicode planos de corte de Kelley [10], para realizar aproximaes das funes no
diferenciveis. E em cada iterao, utiliza-se o mtodo de pontos interiores e direes
viveis FDIPA, desenvolvido por Herskovits em[30], para gerar direes de descida
viveis.
Este trabalho esta organizado da seguinte forma: No Captulo 1, reservado as
preliminares, so definidas a notao e alguns resultados bsicos da Anlise No
Diferencivel, generaliza-se as condies de otimalidade para o caso no diferencivel,
em seguida, faz-se uma reviso bibliogrfica para Otimizao No Diferencivel ondeesto includas algumas tcnicas mais recentes e por fim apresentado o Feasible
Direction Interior Point Algorithm(FDIPA).
No Captulo 2 apresenta-se o algoritmo para problemas no diferenciveis
convexos sem restries. No Captulo3propes-se um mtodo para a resoluo
do problema
minimize f(x)
sujeito a x Rn
onde f : R
n
R
uma funo localmente Lipschits contnua. Constam ainda,o estudo da convergncia global e os resultados da experincia computacional. No
Captulo4prope-se um mtodo para a resoluo do problema restrito
minimizexRn
f(x)
sujeito a c(x)0
onde f, c : Rn R so funes convexas em geral no diferenciveis. Estemtodo uma extenso direta do mtodo desenvolvido por Freire em [29], pois so
acrescentadas restries de desigualdade como acima e so resolvidas uma sequnciade problemas auxiliares que vo sendo definidos a medida em que as restries
funcionais vo sendo aproximadas por planos de corte.
No Captulo5 feita uma aplicao do mtodo apresentado no Captulo 2para
Otimizao Topolgica de estruturas reticuladas robustas.
Finalmente, so apresentadas as concluses do trabalho obtidas at o presente
momento e os possveis trabalhos futuros.
3
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
16/146
Captulo 1
Preliminares
Neste Captulo, so introduzidas algumas notaes, conceitos e resultados bsicos
necessrios ao estudo da anlise no diferencivel, cujas ideias esto baseadasprincipalmente nos trabalhos de Clarke [16], Makela [13] e Lemarechal [31]. Ento
generaliza-se os conceitos de diferencial para funes convexas e localmente Lipschitz
contnuas, respectivamente. Com isso, so generalizadas as condies clssicas
de otimalidade para o caso no diferencivel. Em seguida, faz-se uma pequena
descrio de alguns mtodos clssicos bem como alguns mtodos mais recentes, para
otimizao no diferencivel. E finalmente, apresenta-se oFeasible Direction Interior
Point Algorithm(FDIPA), um mtodo para otimizao no linear desenvolvido por
Herskovits em [30]. As demonstraes dos resultados apresentados neste captulopodem ser encontradas nos trabalhos citados acima.
1.1 Notaes e Definies Bsicas
Todos os vetores so considerados como vetores coluna. Denota-se o produto
interno usual por xTy e porx a normano espao Euclidiano n-dimensional,i.e.,
x= (xTx)1
2 = n
i=1x2i 12
,
onde x Rn e xi R a i-sima componente do vetor x.A bola unitria com centro em x Rn e raior >0 denotada por
B(x; r) ={yRn | y x< r}.
Um conjunto S Rn dito convexo se x+ (1 )yS, onde xe ySe
[0, 1]. Geometricamente, se esta dizendo que todo segmento de reta que une os
pontos xe yest inteiramente contido emSsempre que x, yS. Se S1 e S2 soconjuntos convexos em Rn e 1, 2 R, ento 1S1+2S2 tambm convexo. Se
4
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
17/146
Si Rn so conjuntos convexos para i= 1, 2,...,m, ento sua interseomi=1Si tambm um conjunto convexo.
Denota-se por conv(S) o fecho convexo de S Rn, i.e., a interseo de todosos conjuntos convexos que contmS, ou ainda,
conv(S) ={x Rn | x=k
i=1
ixi,k
i=1
i= 1, xiRn, i0}.
O fecho convexo de um conjuntoS o menor conjunto convexo contendoSe S
convexo se e somente se S= conv(S). Alm disso, o fecho convexo de um conjunto
compacto compacto.
Uma funof: Rn R dita convexase
f(x + (1 )y)f(x) + (1 )f(y), (1.1)onde xe yesto em Rn e[0, 1]. Se a desigualdade for estrita em (1.1) para todox, yRn tal que x=y e (0, 1), a funof dita estritamente convexa.
Um conjunto C denominado cone se contm todos os mltiplos positivos de
seus elementos, i.e., se x C e > 0, ento x C. Pela definio, se C umcone no vazio, necessariamente 0C.
O cone tangente (de direes tangentes) de um conjunto convexo Cpode ser
definido como
TC(x) :=
{tk} R+, {tk} 0+,d Rn | {dk} Rn, {dk} d, tal que
x +tkdk Cpara todok N
.
O cone normal (cone de direes normais) de um conjunto convexo C em
xC o conjunto
NC(x) := dR
n
| dT(x
x)
0
x
C .
Uma funof: Rn R ditalocalmente Lipschitz continuacom constanteL >0 em xRn se existe um nmero positivotal que
|f(y) f(z)| L y z ,
para todo y, z B(x, ). No que segue utiliza-se a denominao curta localmenteLipschitz.
Sef: Rn
R uma funo convexa em x
R
n, entof localmente Lipschitz
em x.
5
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
18/146
Uma funof: Rn R ditainferiormente semi-continua(resp. superior)num ponto x Rn se, para cada sequncia (xk) Rn com (xk)x, tem-se
f(x)
limk
inff(xk)resp. f(x) limk
inff(xk).Uma funo que semi-continua superior e inferior uma funo contnua.
Agora sero revistos alguns conceitos bsicos da teoria das funes diferenciveis:
Uma funo ditadiferencivelem x Rn se existe um vetorf(x) Rn e umafuno: Rn Rtal que para todo d Rn,
f(x + d) =f(x) + f(x)Td + d (d),
onde o vetor
f(x) o vetor gradientedefem xe(d)
0 sempre que
d
0.
O vetor gradiente tem a seguinte frmula
f(x) =
f(x)x1
, ...,f(x)
xn
T,
onde as componentes f(x)xn
, i= 1, 2,...,n so as chamadas derivadas parciais
da funo f. Se uma funo diferencivel e suas derivadas parciais so todas
continuas, ento a funo dita continuamente diferencivel.
O limite
f(x; d) = limt0
f(x +td) f(x)t
(se existe) chamado de derivada direcionalde fem x Rn na direodRn.Se uma funo f diferencivel em x, ento a derivada direcional existe em cada
direodRn ef(x; d) =f(x)Td.
Se, ainda,ffor convexa, ento para todo yRn
f(y)f(x) + f(x)T(y x).
Uma funo f : Rn R dita duas vezes diferencivel em x Rn seexiste um vetorf(x) Rn, uma matriz simtrica2f(x) Rnn e uma funo: Rn Rtal que para todo d Rn,
f(x + d) = f(x) + f(x)Td +12
dT2f(x)d + d (d),
6
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
19/146
onde(d)0 sempre qued 0. A matriz2f(x) chamada de Hessianadefem xe definida por
2
f(x) =
2f(x)x2
1
2f(x)x1xn
... . . . ...2f(x)
xnx1 2f(x)
x2n
.
onde as componentes 2f(x)
xixj,i, j= 1, 2,...,n so as chamadasderivadas parciais
de segunda ordemda funo f. Se uma funo duas vezes diferencivel e suas
derivadas parciais de segunda ordem so todas continuas, ento a funo ditaduas
vezes continuamente diferencivel.
Uma matriz A Rnn chamada definida positiva se A = AT, i.e., A
simtricae xTAx>0
para todo vetor x Rn.Considere um mapeamento Fque associa cada xX Rn a um conjunto do
Rn, ou seja, xF(x) Rn. Denomina-se tal mapeamento de multi-funo.
O domnio de F definido pordom F :={xX: F(x)=}.Diz-se que F fechadase seu grfico (i.e., a unio de{x} F(x)XRn)
um conjunto fechado. Dize-se ainda que ela localmente limitadaperto de
x se para alguma vizinhana V de x e algum conjunto limitado B Rn
, tem-seVdom F eF(V)B .
Seja Fuma multi-funo fechada e localmente limitada em x. Ento, F
semi-continua exterior(resp. semi-continua interior) se, para todo >0, existe
uma vizinhanaVx de xtal que xVx implica
F(x)F(x) +B(0; )
F(x)F(x) +B(0; )
.
Alm disso, se F semi-contnua exterior e interior, ento ela contnua.
7
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
20/146
1.2 Anlise No Diferencivel
A teoria da Anlise no diferencivel para funes convexas est baseada na
chamada Anlise Convexa, e por esta razo faz-se uma breve introduo baseada nos
conceitos de convexidade(veja Rockafellar[9]). Primeiramente define-se o conceitode subdiferencial de uma funo convexa e depois estende-se os resultados para
funes localmente Lipschitz no convexas.
Definio 1.1. O subdiferencialde uma funo convexaf : Rn R num pontox Rn o conjunto dos vetoress Rn tais que
cf(x) =
s Rn | f(y)f(x) + sT(y x) para todo y Rn
.
Teorema 1.2.
Sejaf :R
n
R
uma funo convexa. Ento a derivada direcionalexiste em qualquer direo d Rn e satisfaz
f(x; d) = inft>0
f(x +td) f(x)t
.
Apresenta-se algumas relaes existentes entre o subdiferencial e a derivada
direcional.
Teorema 1.3. Sejaf: Rn R uma funo convexa. Ento para todo x Rn
(i) f(x; d) = max
sTd| scf(x)
para todo d Rn,
(ii) cf(x) =
sRn | f(x; d)sTd para todo d Rn
,
(iii) cf(x) um conjunto no vazio, convexo e compacto tal quecf(x)B(0; L),ondeL >0 a constante de Lipschitz def emx.
O prximo teorema mostra que realmente o subdiferencial um generalizao
da derivada clssica.
Teorema 1.4.
Sef: Rn R uma funo convexa e diferencivel emx, ento
cf(x) ={f(x)} .
Teorema 1.5. Sef: Rn R uma funo convexa ento para todo y Rn
f(y) = max
f(x) + sT(y x)| xRn, scf(x)
. (1.2)
Em Otimizao no diferencivel, os chamados mtodos de feixe so baseados
na teoria do -subdiferencial, cuja definio uma adaptao do conceito desubdiferencial.
8
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
21/146
Definio 1.6. Sejaf : Rn R uma funo convexa. A -derivada direcionaldef emxRn na direo ded Rn definida por
f(x; d) = inft>0f(x +td) f(x) +
t .
Definio1.7. Seja >0, o -subdiferencial de uma funo convexaf : Rn Remx Rn o conjunto
f(x) =
s Rn | f(y)f(x) + sT(y x) para todo yRn
.
Cada elemento sf(x) chamado -subgradientede fem x.Para funes localmente Lipschitz no necessariamente existe a noo de
derivada direcional clssica, por isso, primeiramente define-se uma derivada
direcional generalizada (veja Clarke[16]). Dando sequncia estende-se o conceitode subdiferencial para funes localmente Lipschitz.
Definio 1.8 (Clarke). Seja f : Rn R uma funo localmente Lipschitz emx Rn. A derivada direcional generalizadadef em x na direo d Rn definida por
f(x; d) = limyxt0
supf(y +td) f(y)
t .
Definio 1.9 (Clarke). Seja f : Rn R uma funo localmente Lipschitz em
x Rn. O subdiferencialdef emx o conjunto de vetoress Rn tal que
f(x) =
s Rn | f(x; d)sTd para todo dRn
.
Cada vetor sf(x) chamado desubgradiente def emx.
Teorema 1.10. Sejaf : Rn R uma funo localmente Lipschitz em xRn comconstanteL. Ento
(i) f(x; d) = max
sTd| sf(x)
para todo d Rn,(ii) f(x) um conjunto no vazio, convexo e compacto tal quef(x)B(0; L).
O prximo teorema mostra que o subdiferencial para funes localmente
Lipschitz uma generalizao do subdiferencial de uma funo convexa.
Teorema 1.11. Sejaf: Rn R uma funo convexa. Ento
(i) f(x; d) =f(x; d) para todo d Rn e
(ii) cf(x) =f(x).
9
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
22/146
Os dois seguintes teoremas mostram que o subdiferencial realmente uma
generalizao da derivada clssica.
Teorema 1.12. Sejaf : Rn R uma funo localmente Lipschitz e diferencivel
emxR
n
. Ento f(x)f(x).
Teorema 1.13. Sef: Rn R continuamente diferencivel emxRn. Ento
f(x) ={f(x)} .
Teorema 1.14 (Rademacher). Seja U Rn um conjunto aberto. U ma funof : U R que localmente Lipschitz em U diferencivel em quase todos ospontos deU(i.e., diferencivel a menos de um conjunto de medida nula).
Devido ao Teorema de Rademacher sabe-se que para funes localmente Lipschitz
o gradiente existe em quase todos os pontos do domnio da funo. De posse desta
informao, pode-se reconstruir o subdiferencial como sendo o fecho convexo todos
os possveis limites de gradientes nos pontos{xk}que convergem a x.E usa-se a notao fpara representar o conjunto dos pontos onde fno
diferencivel.
Teorema 1.15. Seja f : Rn
R uma funo localmente Lipschitz em x
R
n.
Ento
f(x) = conv
s Rn | existe{xk} Rn \ f tal quexk x ef(xk)s
.
(1.3)
Agora define-se o Goldstein -subdiferencial de uma funo localmente
Lipschitz, de modo anlogo ao que fizemos para funes convexas.
Definio 1.16. Sejaf : Rn R uma funo localmente Lipschitz em x Rn eseja >0. Ento o Goldstein-subdiferencial def o conjunto
Gf(x) = conv {f(y)| yB(x; )} .
Cada elemento sGf(x) chamado -subgradientedef emx.
10
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
23/146
1.3 Condies de Otimalidade
Nesta seo generaliza-se as condies de otimalidade de primeira ordem clssicas
para os casos de otimizao restrita e irrestrita. E mostra-se as condies necessrias
para uma funo localmente Lipschitz atingir um mnimo local.Definio 1.17. Um ponto x Rn um mnimo localdef, se existir >0 talquef(x)< f(y) para todo yB(x, ).Definio1.18. Um ponto xRn um mnimo globaldef, se satisfazf(x)0, i.e., f(x)f(y) + para todo y Rn.Agora, mostra-se as condies necessrias correspondentes para o caso de
problemas com restries. Uma dificuldade existente em mtodos de otimizao
iterativos a de encontrar uma direo tal que os valores da funo objetivo vosempre decrescendo quando nos movimentamos naquela direo.
11
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
24/146
Definio 1.23. A direo d Rn uma direo de descida para uma funof: Rn R num ponto xRn, se existe t> 0 tal que para todo t(0, t],
f(x +td)< f(x).
Lema1.24. Sejaf: Rn Ruma funo localmente Lipschitz contnua emx Rn.A direo d Rn uma direo de descida para f em x se sTd < 0 para todosf(x).
Contudo, em otimizao com restries no suficiente encontrar qualquer
direo de descida, pois no se pode violar as restries. Logo, precisa-se definir
a noo de direo vivel. Considere o seguinte problema com restries de
desigualdade minimizexRn f(x)sujeito a c(x)0 (1.4)
onde f, c: Rn R.Definio1.25. A direo d Rn umadireo vivelpara um problema do tipo(1.4) se existe t> 0 tal que para todo t(0, t]
x +td
onde ={xRn |c(x)0} a regio vivel.Lema1.26. Sejac: Rn R, uma funo localmente Lipschitz contnua emx.A direo d Rn uma direo vivel emx para o problema (1.4) serTd
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
25/146
Corolrio 1.28. Seja c : Rn R uma funo tal que c(x) = max{ci(x)| i =1,...,m} onde cada ci : Rn R convexa e suponha que c(z) < 0 para algumzRn. Seja
C:={x Rn |c(x)0}.Suponha quef: Rn R convexa. Ento as seguintes condies so equivalentes:
(i) fatinge seu mnimo global sobreC emx,
(ii) Existei0 parai= 1,...,mtal queici(x) = 0 e
0f(x) +m
i=1
ici(x). (1.7)
Demonstrao. Veja [13], pgina 74.
Um pontox chamado umponto KKTassociado ao problema (1.4) se vivel
e satisfaz a condio de otimalidade KKT do Teorema1.28.
1.4 Otimizao Convexa No Diferencivel
Inicia-se com uma pequena introduo aos mtodos clssicos para otimizao
convexa no diferencivel. A no diferenciabilidade produz uma srie de dificuldadesadicionais: A primeira aparece na determinao da direo de busca, pois, nem
sempre, a direo obtida de descida e consequentemente, a busca linear no faz
sentido. Outra, a dificuldade de estabelecer critrios de parada implementveis.
Os mtodos abordados nesta seo se concentram na resoluo do seguinte
problema irrestrito
minimize f(x)
sujeito a x Rn (1.8)
onde f: Rn R uma funo convexa no necessariamente diferencivel.De modo geral, os algoritmos que sero vistos esto baseados na gerao de
iterados xk atravs da busca de possveis direes de descida dk, tamanhos de passo
tk e consequente atualizao xk+1 = xk +tkdk. Nota-se ainda que estes mtodos
diferem principalmente nas estratgias que conduzem a determinao das direes
de descida.
1.4.1 Mtodos de Descida
Os mtodos de descida se baseiam na gerao de uma sequncia{xk} com agarantia de decrscimo da funo objetivo fem cada iterao. As direes a serem
13
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
26/146
tomadas so, portanto, as de descida, caracterizadas na Seco1.3. O Algoritmo
descrito a seguir:
Algoritmo1.1. Mtodo de Descida
1. Tomex1
R
n
e sejak= 1.2.(critrio de parada formal) Se0f(xk), pare.3.(Descida) Encontre uma direo de descidadk def emxk.
4.(Busca linear) Encontre um tamanho de passo tk >0 tal que
f(xk +tkdk)< f(xk).
5.(Prximo iterado) Definaxk+1 =xk +tkdk.
6.(Loop) Tomek=k+ 1e v para o passo 2.
Observa-se que o critrio de parada oferecido pelo passo 2 puramente formal,
pois a obteno de todo o subdiferencial algo excessivo. Critrios de parada
implementveis sero vistos posteriormente com detalhes nos algoritmos de planos
de corte e mtodos de feixe. Por ora, nota-se apenas que num ponto xdado, a melhor
descidadk possvel (i.e., direo de mxima descida) a soluo do problema
mind=1
f(xk; d) ou mind=1
maxsf(x)
s; d .
Geometricamente, isso significa que a direo de mxima descida justamente aque est relacionada com ao hiperplanoHortogonal a projeo de {0} em f(xk).Mais precisamente, dk =k/
k, onde k =Pf(xk)(0).Contudo h um problema que norteia o mtodo de mxima descida, o fato
da sequncia de iterados{xk}poder oscilar e convergir para um ponto no timo.Referindo-se a[31](seo VII.2.2) para verificar, atravs de um exemplo numrico,
que o mtodo pode, de fato no convergir. Para uma melhor compreenso, lembra-se
que o algoritmo de descida converge se (f(xk)) decrescente e se{xk}possui um
ponto de acumulao x, que minimizador de f. Considera-se, ento, a seguintesequncia:
k:=
dist(0; f(xk))
.
O subdiferencial f(x) visto como uma multi-funo, fechado, i.e., possui o
grfico fechado: x
k xsk f(xk) s =s
f(x). (1.9)
Dessa forma, se k
0, ento 0
f(x) e x ponto de mnimo. Para
assegurar que k 0, a multi-funo x f(x) deveria ser contnua (i.e., semi-continua interior e exterior).
14
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
27/146
A semi-continuidade exterior est garantida pela propriedade (1.9). Contudo, o
subdiferencial no possui a propriedade da semi-continuidade interior, ou seja, no
verdade que
xk
xsf(x) =existe s
k s tal que sf(xk). (1.10)
para mais detalhes veja [15] seo 8.2.2.
Da a importncia do -subdiferencial, pois, alm de aproximar o subdiferencial
f(x), j quef(x)f(x), visto como uma multi-funo, semi-contnuo interiore exterior: A semi-continuidade exterior est garantida, pois seu grfico fechado:
xk x
ksk f(xk)s =
sf(x). (1.11)
Como f localmente Lipschitz continua, tem-se para >0 fixado que
r >0, >0 :xk x=f(x)f(xk) +B(0, r),
o que garante que (, x)f(x) semi-contnua interior em x.Portanto, uma possvel maneira de contornar a no convergncia do mtodo
de descida utilizar f(), com > 0, no lugar de f(x). Tais algoritmos sodenominados de -descida [18]. Desta forma, estes algoritmos geram sequncias
(xk) tais que (f(xk)) decrescente e
dist(0; kf(xk))0 comk0.
Veja o algoritmo:
Algoritmo1.2. Mtodo de-Descida
1. Tomex1 Rn, >0 e sejak= 1.2.(critrio de parada formal) Se0f(xk), pare.3.(Descida) Encontre uma direo de-descidadk def emxk.
4.(Busca linear) Encontre um tamanho de passo tk >0 tal que
f(xk +tkdk)< f(xk) .
5.(Prximo iterado) Definaxk+1 =xk +tkdk.
6.(Loop) Tomek=k+ 1e v para o passo 2.
Neste algoritmo,f(xk) ou o algoritmo termina numa iterao ktal quexk -timo. Esse o algoritmo de-descida mais simples, existem variantes do
mtodo que permitem escolhas de =ka cada iterao.
15
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
28/146
Nota-se que o-subdiferencial tambm no usualmente conhecido por inteiro e
portanto o algoritmo ainda no implementvel. Nas prximas sees, sero vistos
outros algoritmos que tentam contornar essa questo.
Conclu-se esta seo mostrando, atravs de um exemplo, que a propriedade de
semi-continuidade interior de f(x) vlida apenas para > 0. Considera-se afuno modulo dada por f(x) =|x|.
Na figura abaixo o grfico da esquerda ilustra a multi-funo f(x), enquanto
que a da direita representa f(x) para > 0 fixo. Nota-se por exemplo, que o
conjunto f(0) = [1, 1] muito maior do que f(x) ={1}, quando x> 0. Poroutro lado,f(x) no explode quando xse aproxima do ponto 0.
s
x
s
x
1
1
1
1
Figura 1.1: Semi-continuidade interior do -subdiferencil
1.4.2 Mtodo de Subgradientes
Como observado na seo anterior, a determinao de todo o subgradiente algoexcessivo ou impossvel computacionalmente falando, e uma forma de contornar esse
problema exigir menos, ou seja, pedir o clculo de apenas um nico subgradiente.
Tal exigncia est relacionada ao que chama-se decaixa preta, que utilizado como
base em diversos algoritmos para problemas no diferenciveis, onde dado xk Rn,a caixa preta responsvel por gerarf(xk) e um subgradiente sk f(xk).
A ideia do mtodo de subgradientes provm do mtodo de Cauchy, lembre-se
portanto deste mtodo diferencivel: De posse das devidas hipteses, o mtodo de
Cauchy encontra uma direo dk
tal quef(xk
+ dk
)< f(xk
). A inteno escrevero problema (1.8) na forma
minimize f(x
k + d) f(xk)sujeito a d Rn
que tem uma soluo dk = 0. Devido a expanso de primeira ordem de Taylor
f(xk + d) f(xk) =f(xk; d) + d (d),
16
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
29/146
onde (d)0 quandod 0 e a identidade f(xk; d) =f(xk)Td, obtm-se asseguintes verses equivalentes
minimize f(xk; d)
sujeito a d 1
minimizef(xk)Td
sujeito a d 1.onde a restrio adicional d 1 necessria, pois a funo f(xk; ) positivamente homognea. Da considera-se a direo dk =f(xk)/
f(xk).Com isso, no caso no diferencivel, a ideia do mtodo de subgradientes
considerar o vetor oposto ao subgradiene fornecido pela caixa preta, i.e.,
dk =sk/sk .
Porm, tal direo no necessariamente de descida, conforme pode ser visto naFigura1.2abaixo, que mostra curvas de nvel para funes minimizadas em zero,
direes de descida devem fazer produto escalar negativo com o subdiferencialf(x)
inteiro e no apenas com um nico subgradiente s.
( )f x
s
s
s ( )f x
Figura 1.2: Direes de descida: caso diferencivel e no diferencivel
A Figura da direita (caso no diferencivel), mostra um exemplo em que a direo
s, fornecida pela caixa preta, um vetor extremo do cone associado a f(x) e em
tal exemplo, a direo opostasclaramente no descida.Apesar deste algoritmo no assegurar necessariamente o decrscimo da funo
objetivo a cada iterao, escolhas adequadas dos tamanhos de passo podem garantir
a convergncia ao mtodo. Contudo, a fixao do comprimento de passo para uma
iterao k antes que o ponto xk seja calculado, dificilmente pode dar uma boa
escolha. Diante o exposto, esta maneira de remover a dificuldade associada ao
decrscimo da funo objetivo puramente formal visto que se trata de uma medida
paliativa, apenas para resolver a anlise de convergncia terica.
Veja o algoritmo:
17
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
30/146
Algoritmo1.3. Mtodo de Subgradientes
1. Tomex1 Rn e sejak= 1.2.(caixa preta) Calcule sk ef(xk).
3.(critrio de parada) Se0f(xk), pare.4.(Busca linear) Encontre um tamanho de passo tk >0 adequado.5.(Prximo iterado) Definaxk+1 =xk tk sksk .6.(Loop) Tomek=k+ 1e v para o passo 2.
Para compreender o Passo 4 do Algoritmo 1.3, define-se primeiro x como o
conjunto de solues timas. Da definio de subdiferencial, se sk f(xk) ento
f(x) f(xk)(sk)T(x xk)
o que implica em (sk)T(x xk)f(xk) f(x)0 xRn.Desta observao, conclui-se que o ngulo entre sk e xxk agudo e, portanto,
para tk >0 suficiente pequeno, tem-se xk+1 mais prximo de x do que xk. E isso
motiva a escolha de uma sequncia{tk}satisfazendo limk
tk = 0.
Mais precisamente vale o seguinte resultado:
Lema 1.29. Seja x uma soluo de minxRn
f(x). Entoxk+1 x < xk x
sempre que0 < tk 0 fixado, no podem ser utilizados em mtodos
no diferenciveis pois esta situao pode nunca acontecer. Para ver isto basta
considerar f : R Rdefinida por f(x) =|x|. Tem-sef(xk)= 1, xk = 0,
no importando o quanto xk esteja prximo da soluo x= 0.
18
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
31/146
A nica atrao de mtodos de subgradiente sua simplicidade (quando o clculo
de subgradientes fcil). Nem sequer requerem uma busca linear. Um estudo
profundo sobre os mtodos de subgradiente pode ser encontrado em [15], [14] ou
[18].
1.4.3 Mtodo de Planos de Corte
Ao contrrio do mtodo de subgradientes, a ideia do mtodo de planos de corte
aproveitar as informaes obtidas nas iteraes anteriores para definir um modelo da
funo objetivo. Esse modelo ser til para obter candidatos a direes de descida,
logo, a cada iterao k, tem-se um modelo linear por partes fk de fconstrudo da
seguinte forma:fk(x) = max
i=1,...,kf(xi) + (si)T(x
xi) . (1.12)Nota-se que a igualdade acima se deve ao teorema 1.5e que a cada iterao k,
adiciona-se ao modelo uma funo afim f(xk) + (sk)T(x xk).
1f
3 3 3( ) ,f x s x+
2 2 2( ) ,f x s x+
epif
1x4x 3x2
x
S
2 3
4
Figura 1.3: Iteraes do mtodo de planos de corte
O mximo de todas as funes que definem fk claramente uma funo convexae linear por partes. Alm disso,
fk fk+1 e fkf
para todok, ou seja, fkse aproxima de fpor baixo a cada iterao.
Feito isso, pode-se utilizar o modelo fk para encontrar o prximo iterado xk+1,
como soluo do seguinte problema
xk+1
argminxS fk(x), (1.13)
19
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
32/146
onde S um conjunto compacto, convexo que contm um ponto mnimo de f.
Ademais, o modelo ainda nos permite ter um critrio de parada implementvel
atravs do calculo do decrscimo nominal, definido por
k:= f(xk
) fk1(xk
). (1.14)
Observa-se que o algoritmo termina quando k pequeno.
Vejamos agora como fica o algoritmo.
Algoritmo1.4. Mtodo de Planos de Corte
1. Sejamtol0 uma tolerncia dada eS Rn.2. Tomex1 Se sejak= 1. Defina f0 .3. (caixa preta) Calculesk ef(xk).
4. (Decrscimo nominal) Calculek:= f(xk) fk1(xk).5. (Critrio de parada) Sektol, pare.6. (Prximo iterado) Definaxk+1 arg min
xSfk(x).
7. (Loop) Tomek= k+ 1e v para o passo 3.
Assim como no mtodo de subgradientes, o mtodo de planos de corte no
garante o decrscimo da funo objetivo a cada iterao. Tal fato pode ser observado
quando introduz-se uma funo afim quase horizontal ao modelo fk, por esse
motivo dize-se que o algoritmo no est livre de instabilidades. Veja a Figura1.4
abaixo.
1f
3 3 3( ) ,f x s x+
2 2 2( ) ,f x s x+ epif
1x
4x
3x2x
S
3
1f
3 3 3( ) ,f x s x+
2 2 2( ) ,f x s x+ epif
1x
4x
3x2x
S
3
Figura 1.4: Introduo de uma funo afim quase horizontal
Observe que a introduo da funo afim f(x3) + (s3)T( x3) gera um pontox4 tal quef(x4)> f(x3).
Verifica-se ainda que o modelo acumula um nmero crescente de funes afinsque definem o modelo, o que dificulta a resoluo dos problemas do passo 6, mesmo
20
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
33/146
se essas forem lineares. Alm disso, em alguns momentos vrias dessas restries
ficam quase idnticas umas as outras.
1.4.4 Mtodo de Feixe
O mtodo de Feixe reconcilia as caractersticas dos mtodos de descida e
planos de corte, garantindo ao mesmo tempo o decrscimo da funo objetivo e
a estabilizao. O modelo construdo de modo anlogo ao utilizado no mtodo
de planos de corte. Porm, tenta-se evitar o acmulo grande de funes afins que
causam mau condicionamento. E isso feito adotando-se duas sequncias de pontos
distintas:
Uma sequncia formada pelos chamados centros de estabilizao{xk} Rn quedecrescem de fato a funo objetivo. E supe-se que, em adio para um ponto de
iterao corrente xk, tem-se alguns pontos testes yj Rn (das ltimas iteraes)e subgradientes sj f(yj) para j Jk, onde o conjunto de ndices Jk umsubconjunto no-vazio de{1,...,k}. Assim como nos planos de corte, a funoobjetivo aproximada por um modelo de planos de corte
fk(x) = maxjJk
f(yj) + sTj(x yj)
. (1.15)
O prximo iterado candidato ento definido por
yk+1:=xk + dk,
onde a direo de busca dk calculada por
dk := arg mindRn
fk(xk + d) +
12
dTMkd
. (1.16)
O papel do termo de estabilizao 12
dTMkd para garantir a existncia da soluo
dk e manter a aproximao local suficiente. Como instabilidades ocorrem quando
o movimento a partir de xk muito grande, a matriz Mk simtrica regular n ndestina-se a acumular informao a respeito da curvatura de fnuma bola ao redor
de xk.
Definio 1.31. Um iterado (ponto candidato) yk+1 torna-se um centro de
estabilizao (i.e., xk+1 := yk+1) somente se uma condio do tipo Armijo
satisfeita, ou seja,
f(yk+1)f(xk) mkondek o decrscimo nominal calculado na iterao k em
(0, 1). Nesse caso, o
passo realizado chamado passo srio. Caso contrrio, tomado xk+1 := xk e o
passo denominado passo nulo.
21
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
34/146
O respectivo decrscimo nominal serk= fk(yk+1)f(xk). Em ambos os casos,na Definio1.31, um plano de corte acrescentado ao modelo fk+1, pois define-se
o conjuntoJk+1:=Jk{k+ 1}.
Com as definies acima possvel descrever o mtodo.
Algoritmo1.5. Mtodo de Feixe
1. Sejamtol0 uma tolerncia dada em(0, 1).2. Tomex1 e sejamk= 1 ek:=.3. (caixa preta) Calcules1 ef(x1).
4. (Construo do modelo) Construa o modelo f1.
5. (Critrio de parada) Sektol, pare.6. (Ponto candidato) Calculeyk+1:=xk + d.
7. (Decrscimo nominal) Definak:= fk(yk+1)
f(xk).
8. (Teste de Descida) Sef(yk+1)f(xk) mk:Faa xk+1 :=yk+1, (passo srio).
Caso contrrio faa xk+1 :=xk (passo nulo).
9. (Atualizao do modelo) Construa fk+1 adicionando sk+1 ao modelo.
10. (Loop) Tomek=k+ 1e v para o passo 5.
Nota-se que o problema estabilizado (1.16) de programao quadrtica convexa,
usualmente resolvido atravs do seu dual, que possui um conjunto vivel com uma
estrutura mais simples. Para mostrar esse problema dual, convm antes considerar
o modelo fkreferindo-o ao centro de estabilizao. Para isso, considere as seguintes
definies:
Definio 1.32. Dada uma iterao k do mtodo, o feixe o conjunto das
informaes obtidas, i.e.,
{(yj, f(yj), sj) : sjf(yj), jJk} .
Definio1.33.
Considere uma iterao k do mtodo. Para cada ndicej do feixe,
o erro de linearizao dado porekj :=f(xk) f(yj) sTj(xk yj).
Feito isso, pode-se substituir a caracterizao do modelo fkdado em (1.15) pelo
seguinte modelo:
fk(x) =f(xk) + maxiJk
ekj+ sTj(x xk)
. (1.17)
Apesar do problema (1.16) ser um problema de otimizao no diferencivel,
devido a sua natureza linear por partes, possvel reescreve-lo como um
22
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
35/146
(diferencivel) subproblema de programao quadrtica
minimize + 1
2dTMkd
sujeito a ekj+ sTjd para todo jJk
(PQ)
Dualizando este problema chega-se a um problema equivalente quando se
determina mltiploskj parajJk resolvendo o problema
minimize 12
jJk
kj sj
TM1k
jJk
kj sj
+jJk
jekj
sujeito a
jJkj= 1, j0
(PD)
Os problemas (PQ) e (PD) so equivalentes e tem solues nicas, para mais
detalhes veja [13]. Do ponto de vista computacional, a escolha do conjunto dendices um ponto crucial, pois se os mtodos armazenam todos os subgradientes
anteriores, ou seja, seJk={1,...,k}, isso poderia causar grandes dificuldades comopor exemplo um problema (PQ) muito grande.
No que segue, apresenta-se uma pequena descrio de alguns mtodos de feixe
onde possvel ver suas modificaes. Para evitar detalhes tcnicos, procura-se dar
foco as principais diferenas na escolha da aproximao por plano de cortes fk, o
erro de linearizaoekj ou a matriz de estabilizao Mk.
1.4.5 Mtodos de Feixe com Mtrica Varivel Diagonal
A ideia dos mtodos com mtrica varivel diagonal est baseada na introduo de
um parmetro de ponderao no termo quadrtico da funo objetivo do problema
quadrtico, para acumular alguma informao de segunda ordem sobre a curvatura
de fao redor de xk. Portanto a matriz de mtrica varivelMk considerada na
forma diagonal
Mk= ukI,
com o parmetro de ponderao uk>0.Baseado no algoritmo de ponto proximal de [33] e no trabalho de [23], omtodo
de feixe proximalfoi apresentado em [34], onde tambm uma tcnica de interpolao
quadrtica para atualizar ukfoi introduzida.
Um resultado similar foi concludo em [19], onde o mtodo defeixe com regies
de confianafoi desenvolvido combinando a ideia do feixe com o clssico mtodo de
regies de confiana de[35,36].
Alm disso, o mtodo quase-Newton diagonal poor mans de [37] e o mtodo
de feixe proximalde [38] baseados na Regularizao de Moreau-Yosida esto nestaclasse de mtodos de feixe.
23
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
36/146
Estes mtodos diferenciam-se basicamente nas estrategias para atualizar o
parmetro uk.
1.4.6 Mtodos de Feixe com Mtrica Varivel
O desenvolvimento de mtodos de segunda ordem para otimizao no
diferencivel tem chamado a ateno de alguns pesquisadores durante toda a sua
histria. Vrias tentativas de empregar
Mk como um matriz cheia
com algum tipo de atualizao tem sido propostos por alguns autores. J em
seu trabalho pioneiro [12], Lemarchal apresenta uma verso do mtodo de Feixe
com mtrica varivel, utilizando a formulao clssica do BFGS com atualizaosecante para otimizao diferencivel (veja[39], p.135). Devido ao desapontamento
com os resultados numricos obtidos em [40], esta ideia foi abandonada por
aproximadamente duas dcadas. Depois, baseado na regularizao de Moreau-
Yosida, atualizao BFGS e na tcnica de busca em curva, um mtodo quase-Newton
foi proposto em[37]. De acordo com as experincias numricas em [41], v-se que os
mtodos de Feixe com mtrica varivel trabalham razoavelmente bem. Um trabalho
mais recente baseado no mtodo de feixe com mtricas variveis usando atualizao
BFGS, foi proposto em [42], a ideia do mtodo usar somente trs subgradientes(dois calculados em xk e yk+1, e um agregado, contendo informaes das ltimas
iteraes). O proposito disso, segue do fato que a dimenso do problema quadrtico
trs e, com isso, o problema pode ento ser resolvido com clculos simples. Os
testes numricos em[42] mostram que a tcnica comparvel com os mtodos de
feixe com mtrica varivel diagonal em nmero de avaliaes da funo, contudo o
tempo computacional pode ser significativamente menor.
1.4.7 Mtodos de Feixe - NewtonUm avano na direo de mtodos de feixe com informaes de segunda ordem
foi dado em [43], onde ao invs de um modelo de planos de corte linear por partes
(1.15), os autores introduzem um modelo quadrtico da forma
fk(x) := maxjJk
f(yj) + sTj(x yj) +
12
j(x yj)TMj(x yj))
. (1.20)
24
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
37/146
onde j um parmetro de amortecimento. A direo de busca encontrada no
problema (1.16) foi ento trocada pelo problema
dk := arg mindRn
fk(xk + d). (1.21)
1.4.8 Mtodos de Feixe com Dados inexatos
Existe tambm variantes do mtodo de feixes para casos onde a funo objetivo
e o subgradiente possuem dados inexatos. Supe-se que para cada pontox Rn e >0 possvel calcular o valor aproximado da funo f(x) satisfazendo
f(x) f(x)f(x)
e um-subgradiente sdo-subdiferencial
f(x) ={s Rn |f(y)f(x) + sT(y x) , para todo yRn}.
Ento o modelo de planos de corte em (1.15) pode ser substitudo por um modelo
de planos de corte aproximado
fk(x) = maxjJk
fj(yj) + (sj)
T(x yj)
.
onde sj jf(yj) para todo jJke0.Em[44] o modelo de plano de corte generalizado de [11] foi estendido para dados
inexatos, em outras palavras
Mk= I .
Depois o mtodo de feixe proximal de [34] com
Mk= ukI
foi estendido em[45] onde tambm alguma experincia numrica foi reportada.
1.5 Otimizao No Convexa No Diferencivel
Nesta seo considera-se o seguinte problema de otimizao irrestrito
minimize f(x)
sujeito a x Rn (1.22)
25
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
38/146
onde a funo objetivo f : Rn R suposta localmente Lipschitz contnua. Notequefno precisa ser convexa. O subdiferencial de fagora definido por
f(x) = conv{ limi
f(xi)|xi x and f(xi) existe.} (1.23)
Lembrando que para as funes localmente Lipschitz contnuas tem-se a seguinte
condio necessria de otimalidade: Sef, localmente Lipschitz contnua, atinge um
mnimo local em x, ento
0f(x). (1.24)A no convexidade trs algumas dificuldades, como por exemplo: Os mtodos
no podem garantir a otimalidade local das solues, pois somente alguns
candidatos, chamados pontos estacionrios, satisfazem a condio (1.24). Outro
fato que deve ser levado em considerao, que no caso convexo, o modelo deplanos de corte era uma estimao da funo objetivo e o erro de linearizao no
negativo media o quo boa era a aproximao do problema original. No caso no
convexo, estas propriedades no so mais vlidas: ekj pode ser muito pequeno ou
negativo embora o ponto teste yj esteja longe do ponto de iterao corrente xk e
assim o subgradiente correspondente sj seria intil. Por estas razes, as principais
modificaes para os mtodos no convexos se concentram no erro de linearizao.
1.5.1 Regras de eliminao de subgradientesAlguns mtodos so propostos simplesmente ignorando o erro de linearizaoekj ,
Definio (1.33). Este procedimento j era feito nos mtodos de gradiente conjugado
[46], onde por exemplo, o seguinte tipo de regra de eliminao proposta
Jk:={1jk| xk yj k}
onde k tende para zero. Em[47] um mtodo de feixe transladado, proposto sem
qualquer tipo de regra de eliminao, pois o erro de linearizao sempre no-negativo, ou seja,
kj =f(yj) f(xk)0.
Um regra de eliminao mais complicada proposta em [11], Captulo 4, para
mtodos de planos de corte generalizados. O erro de linearizao substitudo por
seu valor absoluto
kj :=|ekj |=|f(xk) f(yj) sTj(xk yj)| para todo jJk,
26
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
39/146
e o algoritmo elimina a informao dos subgradientes anteriores sempre que
dk mS maxjJk
{skj },
onde mS>0 uma tolerncia para resetar, definida pelo usurio e
skj :=xj yj +k1i=j
xi+1 xi (1.25)
a medida da distncia estimada dexk yjsem a necessidade de armazenar ospontos testes yj.
1.5.2 Subgradiente com medida local
No que segue, introduz-se outra estratgia popular para evitar as dificuldades
causadas pela no convexidade. Para adicionar alguma informao local ao modelo,
o erro de linearizao substitudo pelosubgradiente com medida local
kj := max
ekj , xk yj2
(1.26)
em [48] para o mtodo-steepest descent. O parmetro de medida da distncia0pode ser definido como zero quando a funo f convexa. Os autores tambm
prope o uso de uma medida da distncia (1.25) evitando o armazenamento dospontos testes yj, ou seja, trocando (1.26) por
kj := max
ekj , (skj )
2
.
1.6 Otimizao Convexa No Diferencivel com
Restries
Considera-se o seguinte problema de otimizao
minimizexRn
f(x)
sujeito a ci(x)0, i= 1,...,m,(1.27)
onde a funo objetivo f : Rn R e as restries funcionais ci : Rn R sosupostas convexas. Para este problema, considera-se que ele satisfaz a Condio de
Qualificao de Slater, i.e., se
c(y)
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
40/146
para algum yRn, ondec: Rn R afuno restrio total, definida por
c(x) := maxi=1,...,m
ci(x). (1.28)
Teorema 1.34.
Se o problema (1.27) convexo e satisfaz a condio de qualificaode Slater, ento (1.27) atinge seu mnimo em x se e somente se existe o
multiplicador de Lagrange0 Rm tal queici(x) = 0 para todo i= 1,...,me
0f(x) +m
i=1
ici(x).
Demonstrao. Veja [13].
1.6.1 Mtodo de Linearizao de Restries
Nos mtodos de feixe, a forma mais popular de se lidar com as restries
encontrar um minimo irrestrito da chamada improvement function[23],
H(x; y) = max{f(x) f(y), c(x)}.
O modelo, a partir de planos de corte, da funo H(x; y) determinado
linearizando a funo objetivo e a restrio, considerando
Hk(x) = max{ f(x) f(xk), ck(x)}, (1.29)
onde
ck(x) = maxjJk
c(yj) + rTj(x yj)
. (1.30)
e rjc(yj). A direo de busca encontrada em (1.16) substituda por
dk:= arg mindRn
Hk(xk+ d) +
12
dTMkd
. (1.31)
Esta abordagem foi empregada no contexto do mtodo de plano de cortegeneralizado, ou seja, para
Mk= I ,
no trabalho de Mifflin [24]. Verses salvando e armazenando subgradientes com
estratgias de agregao foram introduzidas em [11], Captulos 5 e 6.
Em [13] a abordagem de linearizao da restrio foi usada com o mtodo de
feixe proximal, ou seja, com
Mk= ukI,
comuk >0.
28
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
41/146
1.6.2 Mtodo de Funo Penalidade Exata
Uma outra estratgia em otimizao no diferencivel com restries utilizar a
funo de penalidade exata[49],
e(x; ) :=f(x) +m
i=1
i max{ci(x), 0}.
O modelo de planos de corte da funo de penalidade exata ento definido por
ek(x; k) := fk(x) +m
i=1
ki max{cki (x), 0}.
onde
cki (x) = maxjJk ci(yj) + r
Ti,j(x
yj)
e ri,jci(yj). A direo de busca ento obtida por
dk:= arg mindRn
ek(xk+ d) +
12
dTMkd
. (1.32)
1.7 Algorimo de Pontos Interiores e Direes
Viveis
O algoritmo que apresentado nesta seo foi proposto por Jos Herkovits em [50,51], e denominado FDIPA (Feasible Direction Interior Point Algorithm). Proposto
para lidar com problemas de otimizao no linear diferencivel, o FDIPA converge
globalmente para pontos Karush-Kuhn-Tucker. um mtodo diferenciado, pois no
necessria a soluo de subproblemas quadrticos, e no se trata de um mtodo
de penalidades ou barreira, ou filtros.
Apesar de ser uma tcnica para problemas diferenciveis, neste trabalho, os
sistemas internos do FDIPA so amplamente utilizados na determinao de direes
viveis de descida para os mtodos que esto sendo apresentados nos captulosseguintes.
Considera-se o seguinte problema de otimizao no linear diferencivel com
restries de desigualdade:
minimizexRn
f(x)
sujeito a g(x)0(1.33)
e caracteriza-se suas solues, onde f : Rn
R e g : Rn
Rm
so funesdiferenciveis. Denota-se porg(x) Rnm a matriz das derivadas de g, =
29
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
42/146
{x Rn |g(x)0} o conjunto vivel e introduzindo a varivel auxiliar Rm,chamada varivel dual ou multiplicador de Lagrange, defini-se a funo Lagrangiana
associada ao problema (1.33)
L(x,) =f(x) +Tg(x),
cuja matriz Hessiana dada porH(x,) =2f(x) + m
i=1i2g(x).
Representa-se por I(x) ={i|gi(x) = 0} o conjunto de ndices cujas restriesso ativas e se diz quex umponto regularse os vetoresgi(x) paraiI(x) foremlinearmente independentes.
Dado um ponto interior inicial, o FDIPA gera uma sequncia{xk} de pontosinteriores tais que
f(xk+1
)< f(xk
) e gi(xk
)
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
43/146
qualquer elemento de d(x). Quandod(x) constitui um campo uniforme de direes
viveis, ele suporta um segmento vivel [x, x+(x)d(x)], tal que (x) limitado
inferiormente em por >0.
Se x um ponto regular e mnimo local para o problema (1.33), ento existe
Rm tal que
f(x) + g(x)= 0 (1.34)G(x)= 0 (1.35)
0 (1.36)g(x)0 (1.37)
onde G(x) = diag[g1(x),...,gm(x)] uma matriz m m.Considerando as equaes (1.35) e (1.36), e fazendo
y= (x,) e (y) = (f(x) + g(x), G(x))obtm-se
(y) = H(x,) g(x)
g(x)T G(x)
onde = diag[1,...,m] uma matriz m m.Uma iterao de Newton para resolver o sistema de equaes lineares ( y) = 0,
com o ponto yk = (xk,k) na iteraok , define um novo ponto yk+1 = (xk+1,k+1)
soluo do sistema linear (yk)(y yk)T =(yk)Tque pode ser reescrito como
Bk g(xk)
kg(xk)T G(xk)
x xk k
=
f(xk) + g(xk)k
G(xk)k
, (1.38)
onde substitui-seHk(xk,k) porBk.
De fato, a matriz simtrica Bk Rnn pode ser considerada como umaaproximao da matriz Hessiana obtida por alguma tcnica quase-Newton ou pelaprpria matriz identidade. Contudo, como requerimento para a convergncia global
do presente algoritmo,Bk deve ser definida positiva.
Introduzindo algumas modificaes na iterao (1.38) obtm-se, para um dado
par (xk, k), uma nova estimativa com valor da funo objetivo menor. Com isto,
defini-se uma direo dno espao primal por d= xk+1 xk.Ento obtm-se o sistema linear
Bkd+
g(xk)=
f(xk) (1.39)
kg(xk)Td+G(xk)= 0 (1.40)
31
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
44/146
A soluo (d,) deste sistema, fornece uma direod, e uma nova estimativa
para . Em [51], Herskovits provou que d uma direo de descida para f, ou
seja, que dTf(xk)0, d a nova direo e a nova estimativa de .
Neste caso, (1.42) equivalente a
ki gi(xk)Td +gi(xk)i=kki para i= 1,...,me, consequentemente
gi(xk)Td=k
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
45/146
A incluso do termo negativo do lado direito da equao (1.40) produz uma
deflexo em d, proporcional , na direo do interior da regio vivel. Para
garantir que dseja uma direo de descida, seve ser escolhido convenientemente,
veja[51].
Observa-se que direo de podem ser obtidos resolvendo-se os sistemas deequao lineares (1.39)-(1.40) e (1.41)-(1.42) de modo que so definidos
d=d+d e = +.
Agora se est em condies de apresentar o FDIPA.
1.7.1 Feasible Direction Interior Point Algorithm
ALGORITMO - FDIPA
Parmetros: , (0, 1), >0, (0, 1).Dados: (Inicializao)
x0 , 0< 0< Rn, B0 Rnn simtrica e definida positiva.
Passo 1: (Calculo da direo de busca)
i) Calcule (d,) resolvendo o sistema linear
Bd+ g(x)=f(x)
g(xk
)T
d+G(x)= 0
Se d= 0 pare.
ii) Calcule (d,) resolvendo o sistema linear
Bd+ g(x)= 0g(x)Td+G(x)=
iii) Se dT
f(x)>0 ento= min
d22; ( 1)
dTf(x)dT f(x)
Caso contrrio,
= d22iv) Calcule a direo de busca d= d+d e= +
Passo 2: (Busca Linear)
Calcule t, o primeiro elemento da seqncia{1, , 2
, 3
,...}que satisfaz
33
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
46/146
f(x +td)f(x) +tf(x)Td,e gi(x +td)0 eBsimtrica, definida positiva.
ii) V para o passo 1.
A seguinte atualizao para foi considerada em[51],
i:= max [i; d2], >0, parai= 1,...,m.
34
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
47/146
Captulo 2
Algoritmo para Otimizao
Convexa No Diferencivel
Introduz-se o algoritmo para otimizao convexa no diferencivel, que foi
apresentado inicialmente em 2005, na tese de doutorado de Freire [29]. Contudo,
neste trabalho, foram realizadas algumas modificaes em relao ao trabalho de
Freire, como por exemplo, a introduo do passo srio de descida mxima,
hipteses, e consequentemente partes da demonstrao da convergncia global do
algoritmo. Por fim, foram feitos novos testes numricos e uma anlise comparativa
do desempenho com outros algoritmos traando seu performance profiles, usando
como medida de performance o nmero de iteraes e avaliaes da funo.Ressalta-se que no sero citados os detalhes das modificaes entre o algoritmo
apresentado por Freire e o que por hora est sendo apresentado, uma vez que, o
objetivo deste trabalho dar continuidade na pesquisa e no aprimoramento das
tcnicas inicialmente apresentadas por Freire em sua tese de doutoramento.
2.1 Mtodo
Neste estudo considera-se o seguinte problema de otimizao: minimize f(x)sujeito a x Rn, (P.1)
onde f : Rn R uma funo convexa, no necessariamente diferencivel. Sejaf(x) o subdiferencial [16] defemx. No que segue, assumi-se que um subgradiente
arbitrriosf(x) pode ser calculado em qualquer ponto xRn.Uma caracterstica especial da otimizao no diferencivel o fato de que
o gradiente f(x) pode mudar descontinuamente, e ainda, no precisa sernecessariamente pequeno na vizinhana de um extremo local da funo objetivo,
35
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
48/146
como o leitor pode ver em [15,31]. Por esta razo, que os mtodos de otimizao
clssicos, baseados no gradiente, no podem ser utilizados de forma direta. Tendo
isso em vista, novos mtodos tem sido propostos para resolver o problema (P.1),
como pode ser visto no captulo 2 ou, por exemplo, nos trabalhos de Kiwiel [11],
Makla[13].Nesta nova proposta de algoritmo, so combinadas algumas ideias do clssico
mtodo de planos de corte de Kelley[10], os passos srio"e nulo"do mtodo de feixe
tradicional[11] com os sistemas internos do FDIPA - algoritmo de pontos interiores e
direes viveis desenvolvido por Herskovits [30,50], para criar um mtodo adequado
a resoluo de problemas convexos no diferenciveis. A escolha desta abordagem foi
feita com base na no utilizao de qualquer tipo de subproblema de programao
quadrtica, funes de penalidade, barreira, ou mesmo filtros.
A metodologia utilizada est baseada na substituio do problema (P.1) por umproblema equivalente restrito (PE.1) com uma funo objetivo linear e com restries
de desigualdade no diferenciveis,
minimize(x,z)Rn+1
F(x, z) =z
sujeito a f(x)z.(PE.1)
onde z R uma varivel auxiliar. Dessa forma pretende-se criar um algoritmoque gere uma sequncia decrescente de pontos viveis
{(xk, zk)
}kN
int(epi f) que
convirja para o mnimo de f(x). E para isso, o algoritmo gera uma sequencia quesatisfaz
zk+1 < zk, e f(xk)< zk para todok.
Utilizando as ideias do mtodo de planos de corte [10], o algoritmo gera uma
aproximao linear por partes das restries de (PE.1) da seguinte forma: Considere
o plano de corte
gi(x, z) = f(yi) + (si)T(x
yi)
z, i= 0, 1,...,
onde yi Rn so pontos auxiliares, sif(yi) so subgradientes nestes pontos e representa o nmero de planos corrente. Agora defina,
g(x, z)[g0(x, z),...,g(x, z)]T, g: Rn R R+1
e o problema auxiliar corrente
minimize
(x,z)F(x, z) =z
sujeito a g(x, z)0. (PA.1)
36
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
49/146
Ao invs de resolver este problema, o presente algoritmo utiliza os sistemas
internos do FDIPA para determinar uma direo de busca dk para (PA.1). Com
o FDIPA a direo de descida dk pode ser calculada ainda se o problema auxiliar
(PA.1) no tiver um mnimo finito. E portanto, no necessria a utilizao de um
termo quadrtico estabilizante como feito nos mtodos de feixe, como pode servisto em [15].
Quando usado para lidar com problemas de programao linear (como (PA.1)),
o FDIPA se comporta de forma similar aos mtodos de ponto interiores para
programao linear [30], desta forma, esta uma boa alternativa para resolver este
tipo de problema.
Em cada iterao, um programa auxiliar (PA.1) linear definido substituindo a
restriof(x)zpor planos de corte. Com isso, obtm-se uma direo de descida
vivel para (PA.1), e um tamanho de passo calculado.O maior passo vivel dado por tmax{t| gk ((xk, zk) +tdk )0}. Como t
no sempre finito, considera-se
tk := min{tmax, t}.
Ento, um novo iterado (xk+1, zk+1) definido de acordo com o seguinte
procedimento: O algoritmo produz pontos auxiliares (y, w) e quando um ponto
auxiliar est no interior do epgrafo de f, se diz que foi realizado um passo srio
e este ponto ser o novo iterado. Caso contrrio, continua-se com o mesmo iteradoe se diz que foi realizado um passo nulo. Em todos os casos, um novo plano de
corte adicionado e o procedimento se repete at que um passo srio seja obtido.
Com a direo de descida e um tamanho de passo calculados, um novo ponto
auxiliar com respeito a (PA.1) calculado. Para isso, considera-se os pontos da
forma:
(xk+1, zk+1) = (x
k, zk) +tk dk (2.1)
viveis com respeito ao problema auxiliar (PA.1). Depois calcula-se o prximo pontoauxiliar fazendo,
(yk+1, wk+1) = (x
k, zk) +tk dk , (2.2)
onde (0, 1). Se (y+1, w+1) vivel com respeito a (PE.1) e descente para f,atualiza-se a soluo (i.e. faz-se (x+1, z+1) = (y+1, w+1)) e diz-se que o passo
um passo srio de descida vivel.
Se o novo ponto auxiliar vivel com relao a (PE.1), mas no de descida
paraf, considera-se que o ponto de iterao corrente (xk, zk) est longe da fronteira
do epgrafo de f. E neste caso, ao invs de usar a direo calculada pelo FDIPA,
37
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
50/146
utiliza-se a direo de descida rpidaez (onde ez = [0, ..., 0, 1]T Rn+1) paraobter um ponto ainda estritamente vivel e suficientemente prximo da fronteira do
epgrafo. Assim, para a prxima iterao faz-sef(xk+1) = f(xk) e pode-se provar
que a nova direo de busca gerada pelo FDIPA tambm de descida para f. Este
passo chamado de passo srio de mxima descida.Se nenhum dos casos acima citados acontece, o algoritmo realiza um passo nulo.
Neste caso, a soluo no atualizada, mas um novo plano de corte calculado em
(y+1, w+1) e uma nova direo vivel com respeito a (PA.1) calculada usando o
FDIPA. Ento o procedimento se inicia novamente.
2.1.1 Nonsmooth Feasible Direction Algorithm
ALGORITMO - NFDA
Parmetros: Escolha uma tolerncia aproximada final > 0. Selecione os
parmetros de controle >0 e(0, 1) para o limite da deflexo. Selecioneos multiplicadores(1/2, 1) para o tamanho de passo e o tamanho mximode passotmax>0.
Dados: (Inicializao) Escolha um ponto estritamente vivel (x0, z0) int(epi f), um vetor positivo inicial 0 R e uma matriz simtrica definidapositiva B0 R(n+1)(n+1). Seja y00= x0,k= 0 e= 0. Calculef(x0).
Passo 1: (Plano de Corte inicial) Calcule sk0 f(xk) e um novo plano decorte
gk0 (xk, zk) =f(xk) zk.
Considere
gk0 (xk, zk) =
sk0
1
Rn+1,
defina
gk0(xk, zk) = [gk0 (x
k, zk)] R, egk0(xk, zk) = [gk0 (xk, zk)] Rn+1.
Passo 2: Calculo da Direo de Descida Vivel dk para (PA.1)
i) Calcule dk,e k,, resolvendo
Bk
dk,+ g
k (x
k
, zk
)k,=F(x, z) (2.3)
k [gk (xk, zk)]Tdk,+Gk (xk, zk)k,= 0. (2.4)
38
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
51/146
Calcule dk, e k,, resolvendo
Bkdk,+ gk (xk, zk)k,= 0 (2.5)k [gk (xk, zk)]Tdk,+Gk (xk, zk)k, =k , (2.6)
onde
k,:= (k,1,...,
k,),
k, := (
k,1,...,
k,),
k := (
k1,...,
k ),
k := diag[k1,...,
k ], G
k (x, z) := diag[g
k1 (x, z),...,g
k (x, z)].
ii) Se (dk,)TF(x, z)>0, faa =dk,2.
Caso contrrio, faa
= min
dk,2, ( 1)(dk,)
TF(x, z)(dk,)TF(x, z)
. (2.7)
iii) Calcule a direo de descida vivel
dk =dk,+d
k,. (2.8)
Passo 3: Calcule um tamanho de passo
tk = min
tmax, max{t|gk ((xk, zk) +tdk )0}
. (2.9)
Se dkento pare com (xk, zk) como sendo a soluo. Caso contrrio, faa
(yk+1, wk+1) = (x
k, zk) +tk dk ,
e calcule o valor correspondente f(yk ).
Se f(yk+1) wk+1, ento tem-se um passo nulo: v para o Passo 6). Casocontrrio, faa dk =dk , d
k= d
k, d
k= d
k,
k=
k,
k=
k e
k =.
Sef(xk)f(yk+1) v para o Passo 4, seno: v para o Passo 5.
Passo 4: (Passo srio de descida vivel) Faa (xk+1, zk+1) = (yk+1, wk+1) e
f(xk+1) = f(yk+1). Defina k+10 > 0, a matriz B
k+1 simtrica e definida
positiva, faak=k+ 1,= 0, yk0= xk e v para o Passo 1.
39
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
52/146
Passo 5: (Passo srio de mxima descida) Faa
(xk+1, zk+1) = (xk, zk) (zk f(xk))f(x, z) e f(xk+1) =f(xk). (2.10)
Definak+10 >0, a matriz Bk+1 simtrica e definida positiva, faa k= k+ 1,= 0, yk0= x
k e v para o Passo 1.
Passo 6: (Passo nulo) Faa (xk+1, zk+1) = (xk, zk), calcule sk+1 f(yk+1),um novo plano de corte e seu gradiente
gk+1(xk, zk) =f(yk+1) + (s
k+1)
T(xk yk+1) zk.
Considere
gk+1(xk, zk) =s
k
+1
1
,
determine
gk+1(xk, zk) = [gk0 (x
k, zk),...,gk (xk, zk), gk+1(x
k, zk)]T R+2, egk+1(xk, zk) = [gk0 (xk, zk), ...,gk (xk, zk), gk+1(xk, zk)] R(n+2)(+2).
Defina=+ 1 e v para o Passo 2.
Os valores dee Bdevem satisfazer as seguintes hipteses:
Hiptese 2.1. Existem nmeros positivos1 e2 tais que
1 d2 dTBd2 d2 , para d Rn+1.
Hiptese 2.2.
Existem nmeros positivos I, S, tais que I i S, parai= 0, 1, . . . , .
40
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
53/146
2.2 Anlise da Convergncia
Nesta seo, realiza-se a demonstrao da convergncia global do presente
algoritmo. Primeiramente, se mostra que a direo de busca dk uma direo
de descida vivel para a z. Ento, prova-se que o nmero de passo nulos em cadaiterao finito. Isto ; Como (xk, zk)int(epi f), depois de um nmero finito desub-iteraes, obtm-se (xk+1, zk+1) int(epi f). Consequentemente, a sequncia
(xk, zk)
kN limitada e est no interior do epgrafo de f. Ento, mostra-se
que qualquer ponto de acumulao da sequncia
(xk, zk)
kN uma soluo do
problema (P.1). Tem-se ainda quedk= 0 somente num ponto estacionrio e quedk0 quandok , fato este que justifica o critrio de parada no passo 3).
Finalmente, mostra-se que para pontos de acumulao (x, z) da sequncia
(x
k
, zk
)
kN, a condio de otimalidade 0f(x) satisfeita.Em alguns momentos, alguns ndices sero omitidos para simplificar a notao.
Hiptese 2.3. O conjunto{x Rn |f(x)f(x0)} compacto.
Hiptese 2.4. Para todo (x, z)int(epi f) e todo i tal quegi(x, z) = 0 os vetoresgi(x, z) so linearmente independentes.
Observa-se que as solues d, , d, e dos sistemas lineares (2.3), (2.4), e
(2.5), (2.6) so nicas. Este fato uma consequncia do lema provado em [52,53] e
enunciado como segue:
Lema2.1. Para qualquer vetor(x, z)int(epi f)e qualquer matriz positiva definidaB R(n+1)(n+1), a matriz
B g(x, z)
[g(x, z)]T G(x, z)
,
no singular.
E segue do resultado anterior que d, d,e so limitados no conjuntodefinido na Hiptese2.3. Como limitado superiormente, tem-se = + limitado.
Lema2.2. A direo d satisfaz dTF(x, z) dT Bd.
Demonstrao. Veja a demonstrao do Lema 4.2. em[30].
Como consequncia, tem-se que a direo de busca d de descida para a funo
objetivoF(x, z), (i.e., para (PA.1) e (PE.1)).
41
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
54/146
Lema 2.3. A direo d definida no Passo 2, item iii) do algoritmo uma direo
de descida para(PE.1) e(PA.1).
Demonstrao. Por definio d= d+d, logo se pode escrever
d
T
F(x, z) = dT
F(x, z) +dT
F(x, z).No caso em que dT F(x, z)>0, tem-se que(1)
dTF(x, z)dT F(x, z)
, veja o Passo 2
do algoritmo. E comod uma direo de descida para F, pelo Lema2.2, obtm-se
dTF(x, z)dTF(x, z) + ( 1)dTF(x, z)=dTF(x, z)0.
(note que dTF(x, z) = 0 somente se d= 0). Agora, supondo que dT F(x, z)
0, tem-se que a inequao dT
F(x, z) dT
F(x, z)
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
55/146
para [0, 1] e zk f(xk)>0. De onde, novamente tem-se zk+1 zk ef(xk+1) =f(xk)< zk+1.
Lema2.5. A sequencia{(xk, zk)}kN gerada pelo algoritmo limitada.
Demonstrao. A sequencia{(xk, zk)}kN limitada, pois zk+1 < zk para todo k epor ela estar contida no conjunto limitado dado por
epi(f) {(x, z) Rn+1 |z < z0}.
Lema2.6. Seja(xk, zk)int(epi f)um ponto suficientemente prximo da fronteirado epgrafo def (i.e. zkf(xk < tkdkz )). Se(xk, zk)no um ponto estacionrio,ento a direodk definida em (2.8) uma direo de descida para o problema(P.1).
Demonstrao. Como (xk, zk) int(epi f), segue que zk = f(xk) +1 para algum1 0. Tambm tem-se que dkz < 0 pelo Lema 2.3. O prximo iterado em z calculado pela frmula zk+1 = zk +tkdkz com, t
k >0. Logo, se pode escrever
zk+1 =zk2= (f(xk)+1)2, onde2=tkdkz >0. Quando1 suficientementepequeno (i.e. 1 < 2) obtm-se que zk+1 f(xk)0. (2.11)
Por outro lado, do Lema2.2e da Hiptese2.1, obtm-se que
dTf(x, z)1 d2 ,
e portanto, devido a (2.7),
min
, (1 )1dT f(x, z)
d2 ,
se dT f(x, z). Devido a (2.7) e como d limitada, existe um limite inferiorlow >0 tal que
low d2 .
43
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO NO DIFERENCIVEL
56/146
Portanto, pela limitao de d, a deflexo dada por positiva limitada como
acima. De (2.8) e (2.11), tem-se
d=d+d d + d d + d2 d= (1 + d d) d .
Portanto, existe >1 tal qued d vlida. E devido a limitao de d,temos que d limitada como acima.
O Lema seguinte apenas um exerccio que ser repetido aqui.
Lema2.8.
SejaX Rn um conjunto convexo. Considerex0int X exX.Seja{xk}kN Rn \ X uma sequencia, tal quexk x. Seja{xk}kN Rn umasequencia definida por xk = x0+(xk x0) com(0, 1). Ento existek0 Ntal quexk int X, para todo k > k0.
Demonstrao. Observa-se que xk = x0+ (xk x0) x0+ (xx0) = xquando k . Como o segmento [x0,x] X e (0, 1) temos que x int Xe, como consequncia existe >0 tal que B(x, )int X. Como xk xexistek0
Ntal que xk
B(x, )
int X, para todo k > k0.
OBS 2.1: A sequencia{(xk , zk )}N definida em (2.1) para k fixo, est numconjunto limitado. De fato, pelo Lema2.5, existe r >0 tal que||(x, z)|| < r paratodo ponto no conjunto dado por int(epi f) {(x, z)Rn+1 |z < z0}. Ento paraqualquer passo srio tem-se||(xk, zk)|| < r. Para a sequencia de baixo, dada por(xk , z
k ) = (x
k, zk) +td com t limitado por tmax e||d|| limitado por um valor D,segue que, pela desigualdade triangular||(xk , zk )|| ||(xk, zk)||+Dtmax, ento asequencia
{(xk , z
k )
}
Nest numa bola centrada na origem e raio r+Dtmax.
Proposio 2.9. Considere a sequencia{(xki , zki)}iN definida em (2.1) para kfixado. Se(xk,zk) um ponto de acumulao desta sequencia, ento zk =f(xk).
Demonstrao. Pela construo da sequencia{(xki , zki)}iN, segue que, num pontode acumulao tem-se que f(xk)zk. Logo, suponha que zk < f(xk) e considereuma subsequencia convergente{(xki , zki)}iN(xk,zk) tal que{ski }iN sk, ondeN N. Estas sequencias existem porque, tanto{(xki , zki)}iN como{ski }iN esto
num conjunto compacto pela Hiptese 2.3. O plano de corte correspondente
representado porf(xki ) + sTi(x xki ) z= 0. Ento, z(xk) =f(xki ) + sTi(xk xki ) a projeo vertical de (xk,zk) no plano de corte. Tomando o limite quando i ,
44
-
7/25/2019 Mario Tanaka FilhALGORITMOS DE DIREES VIVEIS PARA OTIMIZAO