agostinho jorge otimiza˘c~ao n~ao linear de m …otimiza˘c~ao n~ao linear de m nimos quadrados...

132
Universidade de Aveiro Departamento de Matem´ atica, 2013 Agostinho Jorge Tavares Monteiro Otimiza¸ ao N˜ ao Linear de M´ ınimos Quadrados

Upload: others

Post on 29-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Universidade de Aveiro Departamento de Matematica,2013

Agostinho JorgeTavares Monteiro

Otimizacao Nao Linear de Mınimos Quadrados

Page 2: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 3: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Universidade de Aveiro Departamento de Matematica,2013

Agostinho JorgeTavares Monteiro

Otimizacao Nao Linear de Mınimos Quadrados

Dissertacao apresentada a Universidade de Aveiro para cumprimento dosrequisitos necessarios a obtencao do grau de Mestre em Matematica eAplicacoes, area de especializacao Matematica Empresarial e Tecnologica,realizada sob a orientacao cientıfica do Doutor Jorge Manuel Sa Esteves,Professor Auxiliar do Departamento de Matematica da Universidade deAveiro.

Page 4: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 5: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

o juri / the jury

presidente / president Professora Doutora Isabel Maria Simoes PereiraProfessora Auxiliar do Departamento de Matematica da Universidade de

Aveiro

vogais / examiners committee Professora Doutora Ana Cristina Soares De LemosProfessora Coordenadora do Instituto Politecnico de Leiria - Escola Superior

de Tecnologia e Gestao

Professor Doutor Jorge Manuel Sa EstevesProfessor Auxiliar do Departamento de Matematica da Universidade de

Aveiro (orientador)

Page 6: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 7: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

agradecimentos /acknowledgements

Agradeco:Ao Professor Doutor Jorge Manuel Sa Esteves, pela sua total disponi-bilidade na orientacao deste trabalho, pelas sugestoes apresentadas epela revisao final deste trabalho.Ao Instituto Portugues de Apoio ao Desenvolvimento (IPAD) pela con-cessao da bolsa de estudos.Ao Departamento de Matematica da Universidade de Aveiro e, em par-ticular, a diretora do curso de Mestrado em Matematica e Aplicacoes,Doutora Isabel Maria Simoes Pereira pelo acolhimento e apoio presta-dos.A Direcao Geral do Ensino Superior de Cabo Verde que conduziu todoo processo de candidatura a bolsa de estudos.Ao Governo de Cabo Verde por ter aceite o pedido de Comissao Even-tual de Servicos.A minha famılia e aos meus amigos pelo carinho e motivacao apresen-tados.Obrigado a todos!

Page 8: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 9: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Palavras-chave Otimizacao, Mınimos Quadrados Nao Lineares, Algoritmos.

Resumo O problema de otimizacao de mınimos quadrados e apresentado comouma classe importante de problemas de minimizacao sem restricoes.A importancia dessa classe de problemas deriva das bem conhecidasaplicacoes a estimacao de parametros no contexto das analises de re-gressao e de resolucao de sistemas de equacoes nao lineares. Apresenta-se uma revisao dos metodos de otimizacao de mınimos quadrados li-neares e de algumas tecnicas conhecidas de linearizacao. Faz-se umestudo dos principais metodos de gradiente usados para problemas naolineares gerais: Metodos de Newton e suas modificacoes incluindo osmetodos Quasi-Newton mais usados (DFP e BFGS). Introduzem-sedepois metodos especıficos de gradiente para problemas de mınimosquadrados: Gauss-Newton e Levenberg-Marquardt. Apresenta-se umavariedade de exemplos selecionados na literatura para testar os diferen-tes metodos usando rotinas MATLAB. Faz-se uma analise comparativados algoritmos baseados nesses ensaios computacionais que exibem asvantagens e desvantagens dos diferentes metodos.

Page 10: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 11: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Keywords Optimization, Nonlinear Least Squares, Algorithms.

Abstract The least squares optimization problem is presented as an importantclass of unconstrained minimization problems. The importance of thatclass of problems is due to the well-known applications to parameterestimation in the context of regression analysis and from methods forsolving systems of nonlinear equations. A review of linear least squa-res optimization methods and some linearization techniques is carriedout. A study of the major gradient methods used for general nonlinearproblems is presented: Newton Methods and its modifications, inclu-ding the frequently used Quasi-Newton methods (DFP and BFGS).Some specific gradient methods for non-linear least squares problems:Gauss-Newton and Levenberg-Marquardt methods. Several selectedexamples are used for testing the methods using MATLAB routines.Finally, based on those computational tests, a comparative analysisof the algorithms is made in order to highlight the advantages anddisadvantages of the different methods.

Page 12: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 13: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

“Nothing at all takes place in the uni-verse in which some rule of maximumor minimum does not appear.”

– Leonhard Euler (1707–1783)

Page 14: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 15: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Conteudo

Conteudo i

Introducao 1

1 Problemas de Mınimos Quadrados 91.1 Regressao Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Regressao Polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.1 Modelo com Polinomios Ortogonais . . . . . . . . . . . . . . . . . . 181.3 Regressao Linear Multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.1 Regressao linear Bidimensional . . . . . . . . . . . . . . . . . . . . 211.4 Regressao dos Mınimos Quadrados Linear Geral . . . . . . . . . . . . . . . 231.5 Tecnicas de Linearizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.5.1 Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 261.5.2 Modelo com Equacao de Potencia Simples . . . . . . . . . . . . . . 281.5.3 Modelo Hiperbolico . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.6 Regressao nao Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2 Algoritmos de Otimizacao sem Restricoes 372.1 Otimizacao nao Linear sem Restricoes . . . . . . . . . . . . . . . . . . . . 37

2.1.1 Forma Geral de um Problema de Otimizacao nao Linear . . . . . . 372.1.2 Otimizacao sem Restricoes . . . . . . . . . . . . . . . . . . . . . . . 38

2.2 Conceitos Basicos de Otimizacao Multidimensional sem Restricoes . . . . . 382.2.1 Condicoes de Otimalidade . . . . . . . . . . . . . . . . . . . . . . . 392.2.2 Classificacao dos Pontos de Estacionaridade . . . . . . . . . . . . . 40

2.3 Problema de Mınimos Quadrados sem Restricoes . . . . . . . . . . . . . . . 422.3.1 Existencia da solucao de mınimos quadrados . . . . . . . . . . . . . 432.3.2 Unicidade da solucao de mınimos quadrados . . . . . . . . . . . . . 452.3.3 Existencia de multiplos minimizantes locais distintos . . . . . . . . 45

2.4 Metodos Numericos de Minimizacao . . . . . . . . . . . . . . . . . . . . . . 472.4.1 Metodo da Descida mais Rapida (Steepest Descent) . . . . . . . . . 472.4.2 Metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . 512.4.3 Metodo de Newton Modificado . . . . . . . . . . . . . . . . . . . . 54

2.5 Metodos Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

i

Page 16: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Conteudo

2.5.1 Abordagem dos Metodos Quasi-Newton Basico . . . . . . . . . . . . 552.5.2 Metodo DFP (Davidon-Fletcher-Powell) . . . . . . . . . . . . . . . 572.5.3 Metodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS) . . . . . . . 58

3 Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes 613.1 Forma geral do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.1.1 Sistemas nao Lineares de Equacoes versus Problemas de Otimizacao 623.2 Metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.2.1 Algoritmo de Newton para Sistemas nao Lineares de Equacoes . . . 643.2.2 Criterios de paragem . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.3 Convergencia Local do Metodo de Newton . . . . . . . . . . . . . . . . . . 703.4 Metodo de Newton Modificado . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.4.1 Atualizacao Periodica da Matriz Jacobiana . . . . . . . . . . . . . . 733.4.2 Aproximacao da Matriz Jacobiana por Diferencas Divididas . . . . 74

4 Algoritmos para Otimizacao nao Linear de Mınimos Quadrados 754.1 Metodo de Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.2 Metodo de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . . 834.3 Problemas de Mınimos Quadrados com Resıduos Grandes . . . . . . . . . . 85

4.3.1 Problemas de Grande Escala . . . . . . . . . . . . . . . . . . . . . . 864.4 Regressao de Distancias Ortogonais . . . . . . . . . . . . . . . . . . . . . . 864.5 Comparacao de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Conclusoes 97

A Matrizes de Hankel 101A.1 Caso da regressao linear polinomial quando m = n . . . . . . . . . . . . . . 101A.2 Caso da regressao linear polinomial geral (m > n) . . . . . . . . . . . . . . 104A.3 Caso da regressao linear geral . . . . . . . . . . . . . . . . . . . . . . . . . 105

A.3.1 Existencia de solucao . . . . . . . . . . . . . . . . . . . . . . . . . . 105A.3.2 Condicoes para a unicidade da solucao . . . . . . . . . . . . . . . . 106A.3.3 Qualificacao das solucoes como minimizantes globais . . . . . . . . 107

B Ordens de Convergencia 109

Bibliografia 113

ii

Page 17: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

Enquadramento

Em todas as situacoes o ser humano procura melhorar, isto e, optimizar o que tem, oque e. O mesmo se passa na Natureza. Por exemplo: os corpos tendem a ocupar a posicaode menor energia possıvel; a luz escolhe o caminho mais rapido entre dois pontos. . . Daıque seja natural a importancia de estudar a optimizacao, dado que melhoramos a nossavida e entendemos melhor a natureza.

Supondo que conseguimos quantificar os principais descritores de uma dada situacaopodemos estabelecer um modelo matematico baseado em variaveis que suporemos reais.Dessa forma, o esforco requerido para obter um benefıcio desejado em qualquer situacaopratica pode ser expresso como uma funcao (de variaveis de decisao). A optimizacao podeser definida como o processo de encontrar as condicoes que nos dao o mınimo ou o maximovalor de uma funcao. O termo optimo refere-se a um mınimo ou a um maximo dependentedas circunstancias. Na verdade, optimo e um termo tecnico que implica a possibilidade demedicoes quantitativas e e mais forte que o termo melhor que e mais apropriado no usoda linguagem natural quotidiana. Da mesma forma, o termo optimizar e mais forte que otermo melhorar. A Teoria da Optimizacao e o ramo da Matematica que engloba o estudoquantitativo dos otimos e dos metodos que permitem encontra-los.

Com o advento dos computadores digitais de elevada velocidade de processamentoos metodos de optimizacao sofreram avancos gigantescos. Na verdade, nos ultimos cin-quenta anos foram estabelecidos muitos metodos de optimizacao definidos por algoritmos.Ao mesmo tempo que esse desenvolvimento se dava, os computadores eletronicos digitaistornaram-se sucessivamente mais rapidos e com acesso a muito mais memoria. Ou seja,tornaram-se mais versateis e mais eficientes. Como consequencia, e agora possıvel resolverproblemas de optimizacao muito complexos que eram considerados intrataveis no passado.

A abordagem mais poderosa para desenvolver algoritmos praticos de optimizacao e aque se baseia em metodos numericos iterativos, tendo como finalidade a sua implementacaoem programas executados por computadores digitais. Na verdade, estes processos permi-tem resolver problemas de elevada complexidade que nunca poderiam ser resolvidos pormetodos analıticos e graficos (ou outros baseados em simulacoes experimentais).

1

Page 18: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

O Problema de Optimizacao Basico

Antes da optimizacao ser levada a cabo, o problema deve ser corretamente formulado.Um criterio de performance tem de ser estabelecido em funcao de n variaveis de decisaox1, x2, . . . , xn, como

F = f(x1, x2, . . . , xn) (1)

onde F e uma funcao real.O mais basico problema de optimizacao consiste em ajustar as variaveis de decisao

x1, x2, . . . , xn de tal forma que minimizem a funcao F . Para simplificar a notacao deveusar-se notacao vetorial. Assim, se x for um vector coluna de componentes x1, x2, . . . , xn,temos

x> = [x1, x2, . . . , xn] ∈ Rn.

Usando esta notacao, o problema basico de optimizacao pode formular-se como1:

minimize F = f(x) para x ∈ Rn. (2)

Um problema similar surge em aplicacoes cientıficas e de engenharia quando uma funcaode x que se pretende optimizar e tambem uma funcao de uma variavel real independentet (i.e. tempo, posicao, velocidade) que toma valores num intervalo [a, b] ⊂ R. Neste caso,a optimizacao visara ajustar os valores de x1, x2, . . . , xn de tal forma que se optimize afuncao objectivo quando t varia ao longo de [a, b]. Nestas aplicacoes e comum amostrar(ou tabelar) a funcao objectivo fazendo variar a variavel t. Neste caso, define-se a funcaovetorial

F(x) = [f(x, t1), f(x, t2), . . . , f(x, tm)]> ∈ Rm. (3)

cujas componentes sao os valores obtidos quando a variavel t toma os valores t = t1, t2, . . . , tm.Adicionalmente, se definirmos

fi ≡ f(x, ti) , i = 1, 2, . . . ,m

podemos de novo escrever

F(x) = [f1(x), f2(x), . . . , fm(x)]> ∈ Rm. (4)

Uma solucao de um tal problema pode ser obtida optimizando simultaneamente as funcoesfi para i = 1, 2, . . . ,m. Esta solucao pode, evidentemente, ser apenas aproximada porquequalquer variacao de f(x, t) entre pontos da tabela e ignorada. Contudo, uma solucaorazoavel pode ser obtida na pratica usando um numero suficientemente grande de pontosamostrais.

Problemas deste tipo podem ser resolvidos se definirmos uma funcao objectivo escalarem termos das componentes da funcao vetorial F(x). A funcao objectivo deve ser escalar

1 Se o objectivo consistir em encontrar o maximo da funcao f , entao esse problema pode ser convertidofacilmente num problema de minimizacao uma vez que max [f(x)] = −min [−f(x)]. Consequentemente,trataremos so problemas de minimizacao sem perda de generalidade.

2

Page 19: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

e a optimizacao tem de conduzir a optimizacao de todas as componentes de F(x) usandoum qualquer criterio. E facil de verificar que uma boa escolha e fazer uso de uma norma.Assim, uma funcao objectivo pode ser definida em termos da norma Lp de Holder como

F ≡ Lp =

{m∑i=1

|fi(x)|p}1/p

(5)

onde p ∈ N.Alguns casos especiais da norma Lp assumem interesse particular. Se p = 1

F ≡ L1 =m∑i=1

|fi(x)| (6)

e, portanto, trata-se de minimizar a soma dos valores absolutos das componentes. Esteproblema designa-se habitualmente por problema L1.

Fazendo tender p para infinito e se assumirmos que existe um unico maximo de |fi(x)|designado por F tal que

F = max1≤i≤m

|fi(x)|

entao podemos escrever

F ≡ L∞ = limp→+∞

{m∑i=1

|fi(x)|p}1/p

= F limp→+∞

{m∑i=1

∣∣∣∣ fi(x)

F

∣∣∣∣p}1/p

Como todos os termos do somatorio excepto um sao estritamente menores que um, apotencia p desses termos tendera para zero quando p→ +∞. Entao, obtemos que

F = F = max1≤i≤m

|fi(x)| .

Usando este criterio, estaremos a tomar a norma L∞. Neste caso vai-se minimizar acomponente que em valor absoluto e a maior. Trata-se de um problema minimax.

No entanto, o caso mais notavel resulta de tomarmos p = 2. Nesse caso a normaEuclideana

F ≡ L2 =

{m∑i=1

|fi(x)|2}1/2

(7)

e minimizada, e se a raiz quadrada for omitida, a soma dos quadrados das componentes eminimizada. Este problema e designado normalmente por problema de mınimos quadrados .Dedicaremos esta dissertacao ao estudo desta classe de problemas.

3

Page 20: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

Uma variante interessante destes problemas resulta se tomarmos coeficientes de pon-deracao w1, w2, . . . , wn ∈ R+ (tambem designados por pesos). Neste caso, a funcao objec-tivo de mınimos quadrados sera

F =m∑i=1

|wifi(x)|2

para enfatizar certas componentes como importantes ou crıticos e para relaxar outras com-ponentes por serem menos importantes. Esta variante costuma ser designada por problemade mınimos quadrados ponderados. Se F for minimizada, os erros residuais wifi(x) no fimda minimizacao tenderao a ser da mesma ordem de grandeza, ou seja

erro em |wifi(x)| ≈ ε

e entao

erro em |fi(x)| ≈ ε

|wi|

Daqui decorre que se for usado um valor positivo elevado para wi (correspondente a fi(x)),obter-se-a um pequeno erro residual |fi(x)|, tal como pretendido.

Modelos de Regressao

Nos problemas de optimizacao de mınimos quadrados, a funcao objectivo f tem aseguinte forma especial:

f(x) =m∑j=1

r2j (x) (8)

onde cada rj e uma funcao suave de Rn em R. Designa-se cada rj como funcao resıduo eassume-se que m ≥ n.

Os problemas de optimizacao de mınimos quadrados surgem em muitas areas de aplicacaoe podem mesmo ser considerados a fonte da maior parte dos problemas de optimizacao naolinear sem restricoes. Muitos dos cientistas e engenheiros que formulam modelos parame-trizados para uma aplicacao quımica, fısica, financeira ou economica usam uma formulacaodo tipo (8) para medir a discrepancia entre o modelo e o comportamento observado para osistema em estudo. Por minimizacao dessa funcao, selecionam-se os valores dos parametrosque melhor ajustam o modelo aos dados no sentido dos mınimos quadrados. Este processoe conhecido na area da Estatıstica como regressao.

Discutiremos um modelo parametrizado simples e mostraremos como as tecnicas demınimos quadrados fazem sentido na escolha de parametros que melhor se ajustam ummodelo a dados experimentais observados.

4

Page 21: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

Exemplo: Concentracao sanguınea de um farmaco Suponha-se que estamos in-teressados em estudar o efeito de um certo medicamento no tratamento de um paciente.Faremos colheitas de amostras do sangue sucessivas apos a administracao do farmaco aodoente. Apos cada colheita determina-se experimentalmente a concentracao do medica-mento no sangue do doente. Constroi-se assim uma tabela dessa concentracao yj que foiregistada na colheita tomada no instante tj.

Baseados nas nossas experiencias anteriores e conhecimento dos fenomenos bioquımicosenvolvidos, sabemos que a seguinte funcao φ(x; t) permite uma boa predicao da concen-tracao no instante t, para valores apropriados do parametro vectorial x = [x1, x2, x3, x4, x5]

T :

φ(x; t) = x1 + tx2 + t2x3 + x4e−x5t. (9)

Escolheremos o parametro vectorial x por forma que o modelo melhor se ajuste as ob-servacoes experimentais seguindo um certo criterio. Veremos a frente que uma boa medidadas discrepancias entre a predicao do modelo e as observacoes experimentais e a seguintefuncao de mınimos quadrados:

1

2

m∑j=1

[φ(x, tj)− yj]2 , (10)

que soma os quadrados das diferencas entre as predicoes do modelo e as observacoes emcada tj. Esta funcao tem a forma da funcao (8) se definirmos

rj(x) = φ(x; tj)− yj , j = 1, 2, . . . ,m. (11)

Este modelo e um exemplo do que em Estatıstica se chama modelo fixo de regressao.Assume-se que os instantes tj das colheitas de sangue sao medidos com grande precisao,enquanto que as observacoes yj estao afetados de um erro experimental devido as limitacoesdo equipamento e das tecnicas de medida.

Em geral, nos problemas deste tipo (ajuste de curvas a dados observados), a variavel tno modelo φ(x; t) pode ser um vector em vez de um escalar2.

A funcao soma de quadrados (10) nao e o unico processo para medir as discrepanciasentre o modelo e as observacoes. Outras medidas comuns incluem o maximo valor absoluto

maxj=1,2,...,m

|φ(x; tj)− yj| (12)

e a soma dos valores absolutosm∑j=1

|φ(x; tj)− yj| . (13)

2 No exemplo descrito, a variavel t pode ter duas dimensoes, com a primeira dimensao a representar otempo decorrido desde a administracao do farmaco e a segunda dimensao a representar o peso do paciente.Podemos recolher uma tabela referente a uma populacao de doentes em vez de nos fixarmos num soindivıduo. Desta forma podia-se obter os “melhores” parametros para o modelo tendo em conta toda apopulacao de doentes

5

Page 22: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

Usando a definicao das normas L∞ e L1, podemos reescrever estas medidas como

f(x) = ‖r(x)‖∞ e f(x) = ‖r(x)‖1 , (14)

respectivamente. Nao nos dedicaremos aqui a estes problemas3. Neste trabalho dedicar-nos-emos a formulacao em termos da norma L2 (10). Se admitirmos algumas hipotesesmuito razoaveis ha motivacoes de ordem estatıstica que apontam para o criterio dosmınimos quadrados como sendo o melhor criterio a usar. Mudando um pouco a notacao,denotaremos as discrepancias entre o modelo e as observacoes por εj, ou seja

εj = φ(x; tj)− yj.

Por vezes e razoavel assumir que os εj’s sao variaveis aleatorias independentes e iden-ticamente distribuıdas4 com uma certa variancia σ2 e funcao densidade de probabili-dade gσ(·). Assim, a funcao verosimilhanca de um conjunto particular de observacoesyj, j = 1, 2, . . . ,m, dado que o parametro vectorial e x, e dada por

℘(y;x, σ) =m∏j=1

g (εj) =m∏j=1

g (φ(x; tj)− yj) . (15)

Dadas as observacoes y1, y2, . . . , ym, o valor “mais plausıvel” de x neste enquadramento serao que corresponde a estimativa de maxima verosimilhanca. Ou seja, a que corresponde amaximizar ℘(y;x, σ) relativamente ao vector x.

Quando se assume que as discrepancias seguem uma distribuicao normal, temos

gσ(ε) =1√

2πσ2exp

(− ε2

2σ2

).

Substituindo em (15) obtemos

℘(y;x, σ) = (2πσ2)−m/2 exp

(− 1

2σ2

m∑j=1

[φ(x; tj)− yj]2).

Ora, para qualquer valor fixo da variancia σ2, e obvio que ℘ e maximizado quando a somade quadrados (10) e minimizada. Para sumarizar: Quando as discrepancias se assumemcomo independentes e identicamente distribuıdas seguindo uma funcao distribuicao normal,a estimativa da maxima verosimilhanca e obtida minimizando a soma de quadrados dosdesvios.

3 Na verdade, a melhor abordagem destes problemas e uma formulacao de optimizacao nao linear comrestricoes envolvendo algoritmos especıficos para esses casos.

4 Esta hipotese e muito plausıvel, por exemplo, quando o modelo reflete bem as caracterısticas dofenomeno em estudo e quando o erro nas observacoes nao estao afetadas de um erro sistematico sempredo mesmo sinal.

6

Page 23: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

Objetivos Gerais do Trabalho

Nesta dissertacao pretende-se estudar problemas de optimizacao de mınimos quadradosusando uma abordagem algorıtmica e computacional baseada em exemplos. Dizendo deoutra forma, pretendemos apresentar um estudo de metodos construtivos para resolverproblemas de optimizacao nao linear sem restricoes quando a funcao objectivo e umasoma de quadrados. Assim, o objectivo e nao so um estudo teorico dos metodos mastambem a sua aplicacao a exemplos selecionados na literatura usando o ambiente MATLABpara efetuar ensaios computacionais. A analise comparativa da performance dos variosalgoritmos e tambem um objectivo do trabalho. Essa analise devera ser ligada as vantagense desvantagens dos diferentes metodos descritos na literatura.

Pretende-se fazer uma revisao da regressao linear como introducao a regressao naolinear. Nao podendo ser exaustivo na panoplia de metodos a estudar escolhemos os metodosde gradiente. Assim, os importantes metodos de grau zero (derivative-free optimization)ficam fora do ambito deste trabalho. No entanto, nos resultados computacionais essesmetodos sao referidos porque o comando fminsearch do MATLAB implementa um metododesse tipo.

Descrevem-se os conhecidos metodos de Gauss-Newton e de Levenberg-Marquardt.Para efeitos de comparacao tambem se estudam os metodos Quasi-Newton (DFP e BFGS).Inclui-se um grande numero de exemplos que permitem atribuir um cariz pratico e com-putacional a esta dissertacao.

Organizacao da Dissertacao

No Capıtulo 1 iniciaremos o nosso estudo pelos modelos mais simples de regressaolinear. Apresentamos a deducao do sistema linear de equacoes que conduz a reta dosmınimos quadrados e aos polinomios de mınimos quadrados. Faz-se uma referencia ao usode polinomios ortogonais nesse contexto. O caso da regressao linear multipla e abordadocom base num exemplo. Apresenta-se depois o problema da regressao linear geral. Aindano Capıtulo 1, passa-se ao tratamento do caso nao linear. Discutem-se algumas tecnicas delinearizacao que dao bons resultados no ajuste de algumas classes de funcoes nao lineares.Este capıtulo termina com dois exemplos apresentando modelos intrinsecamente nao linea-res (que nao admitem linearizacao possıvel). Esses exemplos introduzem a necessidade deestudar algoritmos de minimizacao e tambem de algoritmos de resolucao de sistemas naolineares de equacoes. A ligacao ao capıtulo seguinte fica estabelecida de forma natural.

O Capıtulo 2 faz uma revisao breve da teoria de optimizacao nao linear sem restricoes.Apresentam-se os metodos classicos de gradiente: Steepest Descent e Newton-Raphson.Alguns resultados acerca da convergencia local desses metodos sao apresentados. Dedica-se depois o devido espaco as modificacoes do metodo de Newton para obter convergenciaglobal. Por fim, tratam-se os populares metodos Quasi-Newton: DFP (Davidon, Fletchere Powell) e BFGS (Broyden, Fletcher, Goldfarb e Shanno). Exemplos de aplicacao destesmetodos sao apresentados em detalhe.

7

Page 24: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Introducao

A optimizacao dos mınimos quadrados esta intimamente relacionada com metodos deresolucao de sistemas nao lineares de equacoes. Esta constatacao e explicada na aberturado Capıtulo 3. Torna-se natural reintroduzir o metodo de Newton no enquadramento dossistemas nao lineares de equacoes. Discutem-se condicoes suficientes de convergencia doMetodo de Newton e do Metodo de Newton modificado. Estrategias de aproximacao damatriz Jacobiana por processos de atualizacao relaxada ou por meio de diferencas finitascompletam o capıtulo.

O Capıtulo 4 dedica-se exclusivamente a algoritmos de optimizacao nao linear demınimos quadrados. Estes algoritmos fazem sentido quando a funcao objectivo e umasoma de quadrados. Cada uma dessas parcelas designa-se por resıduo. Na hipotese dosresıduos serem pequenos o metodo de Newton pode ser simplificado conduzindo ao conhe-cido metodo de Gauss-Newton. Este metodo apresenta bom comportamento local, ou seja,proximo do optimo mas pode ter dificuldades de convergencia global. Para obviar isso,somos conduzidos ao moderno metodo de Levenberg-Marquardt que usa uma direcao debusca que varia entre a direcao de Cauchy e a direcao de Newton. Ainda no Capıtulo 4sao abordados alguns topicos mais avancados:

� Problemas de mınimos quadrados com grandes resıduos;

� Problemas de grande dimensao;

� Problemas de mınimos quadrados ponderados;

� Problemas de distancias ortogonais.

O Capıtulo 4 termina com a apresentacao de alguns exemplos resolvidos pelos varios algorit-mos estudados nesta dissertacao. Fazem-se algumas analises comparativas da performancedos varios metodos. Para isso usam-se comandos da optimization toolbox do MATLAB(fminsearch e fminunc ) e tambem programas publicados por varios autores nos sites queacompanham livros da area da optimizacao nao linear.

Deixou-se para apendice o estudo de algumas propriedades das matrizes de Hankel quegarantem a existencia e a unicidade da solucao dos problemas de regressao linear geral.Esse e o tema do Apendice A. No Apendice B sao apresentadas as definicoes de ordem erazao de convergencia de uma sucessao convergente.

No Apendice A fizemos uma abordagem original nas secoes A2 e A3, apresentandouma prova sobre a existencia e unicidade da solucao do problema de mınimos quadradosno caso polinomial e provamos tambem a existencia de solucao para o problema de mınimosquadrados linear geral.

8

Page 25: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Capıtulo 1

Problemas de Mınimos Quadrados

Em varios campos cientıficos sao feitas experiencias e sao encontrados conjuntos devalores que podem ser apresentados numa tabela. Neste caso temos uma funcao f(x)conhecida so numa tabela de valores, onde as abcissas xi sao valores exatos e os f(xi)

x0 x1 x2 . . . xmf(x0) f(x1) f(x2) . . . f(xm)

sao dados observados que normalmente estao sujeitos a erros experimentais. Considera-se sempre que xi 6= xj para i 6= j. A partir desses resultados, procuram-se encontrarrelacoes matematicas entre as variaveis em estudo. Noutros casos tem-se em maos funcoesf(x) definidas por expressoes algebricas muito complexas (por exemplo funcoes definidaspor integrais, funcoes definidas por soma de series, etc). Surge assim a necessidade deencontrar uma nova funcao g(x) que melhor se ajusta aos dados no primeiro caso ou melhorse aproxima de f(x), num intervalo [a, b] de R, no segundo caso.Sendo assim podemosdestacar dois casos de ajuste de funcoes:

1. O caso discreto em que a funcao f(x) e conhecida numa tabela de valores.

0

y

x

9

Page 26: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

2. O caso contınuo em que f(x) e uma funcao contınua definida por uma expressaoalgebrica num intervalo [a, b] ⊂ R.

0

y

xa b

f(x)

g(x)

Neste trabalho faremos uma abordagem sobre o caso discreto do ajuste de funcoes.Dada uma funcao atraves de uma tabela de valores (xi, f(xi)), i = 0, 1, 2, . . . ,m e

x0, x1, x2, . . . , xm pertencentes a um intervalo [a, b] de R, pretende-se determinar umafuncao g(x) que melhor se aproxima de f(x), isto e, uma funcao g(x) deve ser deter-minada de tal modo que a diferenca f(x) − g(x) seja mınima. Esta diferenca e chamadadesvio ou resıduo. Assim considerando di = f(xi)− g(xi) deve-se obter g(x) de forma quedi seja pequeno para cada i ∈

{0, 1, 2, . . . ,m

}.

0

x

d0 d1

d2

d3

d4d5

d6

dm

x

y

Ha varios criterios para determinar a funcao g(x). Um desses criterios e minimizar asoma dos desvios, isto e, minimizar

∑mi=0 di. Esse criterio e inadequado na medida em que

os di podem ter sinais contrarios e, neste caso, corre-se o risco de ter um valor mınimo dasoma dos desvios sem que necessariamente cada um dos desvios seja mınimo.

Outro criterio para encontrar g(x) e atraves da minimizacao da soma dos valores ab-solutos dos desvios. Este criterio tambem se revela-se inadequado visto que quando se

10

Page 27: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

aplicam as condicoes necessarias de mınimo, ou seja, quando se aplicam as derivadas sur-gem problemas ja que, como sabemos a funcao modular nao e diferenciavel na origem.

O criterio mais adequado e o criterio dos mınimos quadrados, como vimos na In-troducao. Esse criterio consiste em minimizar o quadrado dos desvios, ou seja, minimizar∑m

i=0 d2i .

Segundo [6] esse metodo e o que apresenta maiores vantagens, de entre as quais aconvexidade da funcao aproximante g(x), no caso linear.

O Metodo dos Mınimos Quadrados e uma das tecnicas de ajuste de curvas mais utili-zadas. Este facto e derivado da sua simplicidade e tambem da capacidade de reduzir oserros provenientes das medicoes, pois geralmente assumimos que o numero de pontos queserao ajustados sao muito maiores do que o numero de parametros a determinar da funcaoaproximante g(x).

1.1 Regressao Linear

O caso mais simples de aproximacao por mınimos quadrados consiste em ajustar umareta a uma tabela de dados, onde os xi sao valores exatos e os yi = f(xi) sao valoresprovenientes de experiencias, com erros de observacao. Assim, dados um conjunto depontos distintos (xi, yi) , i = 0, 1, 2, . . . ,m, m > 2, devemos determinar a reta que melhorse aproxima de f(x) segundo o criterio de mınimos quadrados.

0

y

x

O modelo para ajustar os pontos por uma reta e y = a1x + a0 + ε, em que a0 e a1 saocoeficientes a determinar e ε o erro, desvio ou resıduo entre o modelo e conjunto dos pontos

observados. Assim, pretendemos determinar a0 e a1 de modo que [∑m

i=0(a1xi + a0 − yi)2]1/2

seja mınimo. Isto equivale a determinar o minimizante de∑m

i=0(a1xi + a0 − yi)2.di = a1xi + a0 − yi representa o erro da reta no ponto i.d2i = (a1xi + a0 − yi)2 representa o erro quadratico da reta no ponto i.

q(a0, a1) =m∑i=0

(a1xi + a0 − yi)2 (1.1)

11

Page 28: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

e soma dos erros quadraticos que pretendemos minimizar. Para determinar os parametrosa1 e a0 da equacao (1.1), devemos aplicar a condicao necessaria de otimalidade, isto e,calcular as derivadas parciais de q em relacao a cada um dos parametros e iguala-las azero.

∂q

∂a0= 2

m∑i=0

(a1xi + a0 − yi) = 0 (1.2)

∂q

∂a1= 2

m∑i=0

(a1xi + a0 − yi)xi = 0. (1.3)

Considerando que,

m∑i=0

(a1xi + a0 − yi) =m∑i=0

a1xi +m∑i=0

a0 −m∑i=0

yi =

(m∑i=0

xi

)a1 + (m+ 1) a0 −

m∑i=0

yi

e que

m∑i=0

(a1xi+a0−yi)xi =m∑i=0

a1x2i +

m∑i=0

a0xi−m∑i=0

xiyi =

(m∑i=0

x2i

)a1+

(m∑i=0

xi

)a0−

m∑i=0

xiyi,

formamos o seguinte sistema de equacoes, denominadas “equacoes normais” do problema,cujas incognitas sao os parametros a1 e a0 da equacao y = a1x+ a0.{

(m+ 1) a0 + (∑m

i=0 xi) a1 =∑m

i=0 yi

(∑m

i=0 xi) a0 + (∑m

i=0 x2i ) a1 =

∑mi=0 xiyi

. (1.4)

Resolvendo o sistema (1.4) usando a regra de Cramer, obtemos:

a1 =(m+ 1)

∑mi=0 xiyi −

∑mi=0 xi

∑mi=0 yi

(m+ 1)∑m

i=0 x2i − (

∑mi=0 xi)

2 (1.5)

e substituindo na primeira equacao, vem

a0 =

∑mi=0 yi − (

∑mi=0 xi) a1

(m+ 1). (1.6)

Com isso levantamos as seguintes questoes: O sistema linear definido em (1.4) temsempre solucao? E tendo solucao essa solucao e unica? Alem disso, essa solucao e sempreum minimizante local (e global) da funcao q(a0, a1)?

Para responder a essas questoes comecemos por mostrar que o sistema de equacoes(1.4) pode ser escrito em notacao matricial como

XTXa = XTy, (1.7)

12

Page 29: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

onde

X =

1 x01 x11 x2...

...1 xm

(1.8)

a =

[a0a1

]e y =

y0y1...ym

. Com efeito, considerando X definido em (1.8), temos que

XTX =

[1 1 1 · · · 1x0 x1 x2 · · · xm

]

1 x01 x11 x2...

...1 xm

=

[m+ 1

∑mi=0 xi∑m

i=0 xi∑m

i=0 x2i

]

e

XTy =

[1 1 1 · · · 1x0 x1 x2 · · · xm

]y0y1...ym

=

[ ∑mi=0 yi∑mi=0 xiyi

].

De seguida apresentaremos uma proposicao que garante a existencia e unicidade da solucaodo sistema (1.4), desde que a caracterıstica da matriz X seja dois, isto e, as colunas de Xdevem ser linearmente independentes.

Proposicao 1.1 Se X ∈ R(m+1)×n, tem caracterıstica n, a matriz A = XTX, de dimensaon× n, e simetrica e definida positiva.

Prova: A matriz A = XTX e sempre simetrica. Por outro lado A e definida positiva sezTAz > 0 para todo z ∈ Rn\{0}. Com efeito, zTAz = zTXTXz = (Xz)TXz = ‖Xz‖22 > 0para todo z 6= {0}, uma vez que rank(X) = n. 2

Agora para provar que o sistema (1.4) tem sempre solucao e a solucao e unica, basta provarque a caracterıstica da matriz X definida em (1.8) e dois. Para isso consideremos λ1 e λ2reais e mostremos que

λ1(1, 1, . . . , 1) + λ2(x0, x1, x2, . . . , xm) = (0, 0, 0, . . . , 0)⇒ λ1 = λ2 = 0. (1.9)

13

Page 30: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Com efeito, de (1.9), vem que

λ1 + λ2x0 = 0

λ1 + λ2x1 = 0

λ1 + λ2x2 = 0...

λ1 + λ2xm = 0

λ2(x0 − x1) = 0

...

λ2 = 0 ∨ x0 − x1 = 0

...

λ2 = 0

...

uma vez que x0− x1 6= 0, por serem os xi todos diferentes. Daı segue tambem que λ1 = 0.Logo concluımos que rank(X) = 2. Deste modo, fica provado que o sistema de equacoes(1.4) tem sempre solucao e a solucao e unica.

Falta-nos provar que essa solucao representa sempre um minimizante local (e global)da funcao q(a0, a1). Para isso devemos provar que a matriz Hessiana de q(a0, a1) e definidapositiva, o que implica ser q(a0, a1) estritamente convexa1.

Seja H a matriz Hessiana de q(a0, a1). Assim temos:

H =

[∂2q∂a20

∂2q∂a0∂a1

∂2q∂a1∂a0

∂2q∂a21

]=

[2(m+ 1) 2

∑mi=0 xi

2∑m

i=0 xi 2∑m

i=0 x2i

]=

[h11 h12h21 h22

].

Como H = 2A = 2XTX, entao H e definida positiva, uma vez que ja provamos que Ae definida positiva. Assim, fica provado que a solucao do sistema de equacoes (1.4) e umminimizante global de q(a0, a1) visto que, sendo a funcao estritamente convexa, qualquerponto de estacionaridade e um minimizante global.

Exemplo 1.1 Determinar pelo metodo dos mınimos quadrados a equacao da reta que me-lhor se ajusta aos pontos da tabela

xi 0 2 4 6 9 11 12 15 17 19yi 5 6 7 6 9 8 7 10 12 12

.

Resolucao: Neste caso pretendemos determinar os parametros a1 e a0 da equacaoy = a1x+ ao. Para isso construımos a Tabela 1.1. ∑

xi 0 2 4 6 9 11 12 15 17 19 95yi 5 6 7 6 9 7 10 12 12 12 82x2i 0 4 16 36 81 121 144 225 289 361 1277

xiyi 0 12 28 36 81 88 84 150 204 228 911

Tabela 1.1:

1Ver Capıtulo 2.

14

Page 31: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Agora aplicando (1.5) e (1.6) temos

a1 =10× 911− 95× 82

10× 1277− 952∼= 0.35247

e

a0 ∼=82− 0.35247× 95

10∼= 4.85154.

Utilizando o MATLAB, facilmente obtemos os parametros a1 e a0 do modelo. Primeirointroduzimos os vetores com os valores de x e y da tabela. A funcao em MATLAB paraestimar parametros em modelos lineares polinomiais, pelo processo dos mınimos quadradose a funcao polyfit. Assim, fazendo polyfit(x,y,1) (em que 1 indica que o polinomioe de grau ≤ 1 e x e y respectivamente as abcissas e as ordenadas dos pontos), obtemosa1 ∼= 0.3525 e a0 ∼= 4.8515, ou seja, a reta que melhor se ajusta aos pontos da tabela emtermos de mınimos quadrados e y ∼= 0.3525x+ 4.8515.

Exemplo 1.2 (Regressao linear de grau zero) O perıodo de um pendulo foi medidopor um cronometro seis vezes. Como em cada medicao ocorreram erros experimentais,obteve-se a seguinte tabela

Medicao i 0 1 2 3 4 5Valor Medido pi (segundos) 31.7 30.8 32.1 31.9 30.9 32.0

Determine o melhor valor P para o perıodo do pendulo, usando o criterio dos mınimosquadrados.

Resolucao:

1 2 3 4 5 6

10

20

30

0 x

y

P

O modelo para este exemplo e y = P + ε, sendo ε o erro experimental.(P − pi) e o erro da reta no ponto i.(P − pi)2 e o erro quadratico da reta no ponto i.

15

Page 32: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

E(P ) =∑5

i=0(P − pi)2 e a soma dos erros quadraticos a minimizar.A condicao necessaria de mınimo de E(P ) e

d E

d P=

5∑i=0

d

d P(P − pi)2 = 0⇔

5∑i=0

2(P − pi) = 0⇔5∑i=0

(P − pi) = 0

⇔5∑i=0

P −5∑i=0

pi = 0⇔ 6P =5∑i=0

pi ⇔ P =1

6

5∑i=0

pi.

Portanto, o valor de P e a media aritmetica dos valores dos pi.

Em [37, pag. 260-261] encontramos um teorema que permite tracar a reta de regressaolinear com muita facilidade.

Teorema 1.1 A reta de regressao linear y = a0 +a1x passa pelo ponto M , de coordenadas

(x, y), sendo x =∑mi=0 xim+1

e y =∑mi=0 yim+1

.

Prova: Este resultado e consequencia imediata de (1.6). 2

Agora para tracar a reta de regressao precisamos de mais um ponto. Esse ponto podeser o ponto em que a abcissa e zero. Ja vimos que a0 = y− xa1. Substituindo a1 por (1.5)vem:

a0 = y − x(m+ 1)∑m

i=0 xiyi −∑m

i=0 xi∑m

i=0 yi

(m+ 1)∑m

i=0 x2i − (

∑mi=0 xi)

2

=y[(m+ 1)

∑mi=0 x

2i − (

∑mi=0 xi)

2]− x[(m+ 1)

∑mi=0 xiyi −

∑mi=0 xi

∑mi=0 yi]

(m+ 1)∑m

i=0 x2i − (

∑mi=0 xi)

2 ,

ou seja,

a0 =

∑yi∑x2i −

∑xi∑xiyi

(m+ 1)∑x2i − (

∑xi)2

.

A obtencao dos pontos P1 = (x, y) e P2 = (0, a0) permite-nos tracar a reta de regressao.

1.2 Regressao Polinomial

Na seccao anterior, foi apresentado um procedimento para determinar a equacao dareta usando o metodo dos mınimos quadrados. Mas acontece que na maioria dos casos osdados representam fenomenos que nao sao bem ajustados por uma reta mas sim por umacurva. Nesses casos pode ser conveniente ajustar os dados usando um polinomio de grausuperior a um.

Seja pn(x) ∈ P , com P o conjunto dos polinomios, assim definido:

pn(x) = a0 + a1x+ a2x2 + · · ·+ an−1x

n−1 + anxn, ai ∈ R, i = 0, 1, . . . , n. (1.10)

16

Page 33: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Pretende-se entao minimizar

S =m∑i=0

[f(xi)− pn(xi)]2 , (1.11)

onde m > n ou mesmo m� n2.A determinacao dos parametros a0, a1, . . . an−1, an e feita calculando as n+ 1 derivadas

parciais de (1.11) e impondo que ∂S∂ak

= 0, k = 0, 1, 2, . . . , n.Assim temos:

∂S

∂a0= 2

m∑i=0

(fi − a0 − a1xi − · · · − anxni ) = 0

∂S

∂a1= 2

m∑i=0

(fi − a0 − a1xi − · · · − anxni )xi = 0

∂S

∂a2= 2

m∑i=0

(fi − a0 − a1xi − · · · − anxni )x2i = 0

...

∂S

∂an= 2

m∑i=0

(fi − a0 − a1xi − · · · − anxni )xni = 0.

Com isso, formamos um sistema de n+ 1 equacoes lineares,

(m+ 1)a0 + a1∑m

i=0 xi + · · ·+ an∑m

i=0 xni =

∑mi=0 fi

a0∑m

i=0 xi + a1∑m

i=0 x2i + · · ·+ an

∑mi=0 x

n+1i =

∑mi=0 fixi

a0∑m

i=0 x2i + a1

∑mi=0 x

3i + · · ·+ an

∑mi=0 x

n+2i =

∑mi=0 fix

2i

...

a0∑m

i=0 xni + a1

∑mi=0 x

n+1i + · · ·+ an

∑mi=0 x

2ni =

∑mi=0 fix

ni

(1.12)

que e um sistema de equacoes lineares de Cramer com n + 1 equacoes e n + 1 incognitas.Este problema e mal condicionado se n e elevado, isto e, a solucao deste sistema e muitosensıvel a pequenas alteracoes nos dados. A matriz deste sistema e uma forma especialde matrizes de Hankel. Estas matrizes sao sempre invertıveis (ver Apendice A). Logo osistema (1.12) tem uma e uma so solucao. No Apendice A prova-se ainda que essa solucaoe um minimizante global de S.

Exemplo 1.3 Ajustar, pelo metodo dos mınimos quadrados os pontos da Tabela 1.2 a umpolinomio do terceiro grau.

Resolucao: Com o comando polyfit(x,y,3) do MATLAB obtemos os parametros a3,a2, a1 e a0 do polinomio do terceiro grau. Neste caso, obtemos a3 ∼= 0.0467, a2 ∼= −1.0412,a1 ∼= 7.1438 e a0 ∼= −11.4887. Entao, o polinomio do terceiro grau que melhor se ajustaaos dados da tabela e p3(x) ∼= 0.0467x3−1.0412x2+7.1438x−11.4887. O grafico da Figura1.1 ilustra o ajuste deste exemplo.

2Se m ≤ n, entao pn(x) e um polinomio interpolador de f nos pontos xi, i = 0, 1, . . . ,m.

17

Page 34: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

xi 3 4 5 7 8 9 11 12yi 1.6 3.6 4.4 3.4 2.2 2.8 3.8 4.6

Tabela 1.2:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

−2

2

4

6

8

0

Figura 1.1: Grafico do Exemplo 1.3.

1.2.1 Modelo com Polinomios Ortogonais

Dissemos anteriormente que o sistema (1.12) e mal condicionado se n e elevado, por sermuito sensıvel a pequenas alteracoes nos dados (as matrizes de Hankel tem, nesse caso, umnumero de condicao muito elevado). Assim, a resolucao numerica do sistema de equacoes(1.12) e crıtica em termos de acumulacao de erros de arredondamento, podendo haverinstabilidade numerica. Uma forma de superar esta limitacao e a utilizacao de polinomiosortogonais que faz com que o sistema de equacoes resultante seja de facil resolucao por serum sistema diagonal.

Em [17, pag. 200-201] encontramos uma definicao de polinomios ortogonais e umapropriedade sobre a relacao de recorrencia dos polinomios ortogonais que apresentaremosde seguida.

Definicao 1.1 Duas funcoes f(x) e g(x) dizem-se ortogonais se o seu produto interno fornulo, ou seja, se 〈f(x), g(x)〉 = 0.

Propriedade 1.1 Os polinomios ortogonais satisfazem a seguinte relacao de recorrencia,

Pi+1(x) = Ai(x−Bi)Pi(x)− CiPi−1(x), i = 1, 2, . . . , n− 1, (1.13)

18

Page 35: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

sendo P0(x) = 1 (P−1 = 0 por convencao) e os coeficientes da relacao, Ai, Bi e Ci, definidospor:

Ai = 1, para todo i (1.14)

Bi =〈xPi(x), Pi(x)〉〈Pi(x), Pi(x)〉

, para todo i (1.15)

C0 = 0 e Ci =〈Pi(x), Pi(x)〉〈Pi−1(x), Pi−1(x)〉

, para i > 0. (1.16)

Suponhamos agora que pretendemos minimizar S =∑m

i=0 [f(xi)− pn(x)]2, em que pn(x) =a0P0(x) + a1P1(x) + a2P2(x) + · · · + anPn(x), sendo P0(x), P1(x), . . . , Pn(x) polinomiosortogonais e f e conhecida em m + 1 pontos. Calculando as derivadas parciais de S emordem aos parametros a0, a1, a2, . . . , an e igualando a zero as derivadas parciais, vem:

∂S

∂a0= 2

m∑i=0

(fi − a0P0(xi)− a1P1(xi)− · · · − anPn(xi))P0(xi) = 0

∂S

∂a1= 2

m∑i=0

(fi − a0P0(xi)− a1P1(xi)− · · · − anPn(xni ))P1(xi) = 0

∂S

∂a2= 2

m∑i=0

(fi − a0P0(xi)− a1P1(xi)− · · · − anPn(xni ))P2(xi) = 0

...

∂S

∂an= 2

m∑i=0

(fi − a0P0(xi)− a1P1(xi)− · · · − anPn(xi))Pn(xi) = 0,

deste modo, formamos o seguinte sistema de equacoes lineares:

a0∑m

i=0 P0(xi)P0(xi) + a1∑m

i=0 P0(xi)P1(xi) + · · ·+ an∑m

i=0 P0(xi)Pn(xi) =∑m

i=0 fiP0(xi)

a0∑m

i=0 P1(xi)P0(xi) + a1∑m

i=0 P1(xi)P1(xi) + · · ·+ an∑m

i=0 P1(xi)Pn(xi) =∑m

i=0 fiP1(xi)

a0∑m

i=0 P2(xi)P0(xi) + a1∑m

i=0 P2(xi)P1(xi) + · · ·+ an∑m

i=0 P2(xi)Pn(xi) =∑m

i=0 fiP2(xi)...

a0∑m

i=0 Pn(xi)P0(xi) + a1∑m

i=0 Pn(xi)P1(xi) + · · ·+ an∑m

i=0 Pn(xi)Pn(xi) =∑m

i=0 fiPn(xi)

.

Mas sendo os polinomios P0(x), P1(x), . . . , Pn(x) ortogonais, teremos que Pj(xi)Pk(xi) = 0,∀j 6= k, daı o sistema reduz-se a forma diagonal, tendo-se desta forma:

aj =

∑mi=0 Pj(xi)fi∑m

i=0 Pj(xi)Pj(xi), j = 0, 1, 2, . . . , n. (1.17)

19

Page 36: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Exemplo 1.4 Calcular a solucao do problema

min9∑i=0

[fi − g(xi, a)]2 (1.18)

a partir da Tabela 1.3 da funcao f .

xi 0 1 2 3 4 6 8 10 15 20fi 4.0 4.7 4.9 5.3 6.1 6.7 6.9 7.2 7.1 7.5

Tabela 1.3:

Para o caso em que g(x; a) = a0P0(x) + a1P1(x) + a2P2(x), com P0(x), P1(x) e P2(x)polinomios ortogonais e a = [a0, a1, a2]

T .Resolucao: Primeiro, determinemos os polinomios P0(x), P1(x) e P2(x), aplicando as

relacoes de recorrencia dadas por (1.13). Assim, temos que: P0(x) = 1 e P1(x) = A0(x −B0)P0(x)− C0P−1(x). Sendo C0 = 0, A0 = 1 e P0(x) = 1, temos que P1(x) = (x−B0), e

B0 =〈xP0(x), P0(x)〉〈P0(x), P0(x)〉

=

∑9i=0 xi∑9i=0 1

=69

10= 6.9.

Assim, P1(x) = x− 6.9.P2(x) = A1(x−B1)P1(x)− C1P0(x), com

B1 =〈xP1(x), P1(x)〉〈P1(x), P1(x)〉

=

∑9i=0 xi(xi − 6.9)2∑9i=0(xi − 6.9)2

=4689.09

378.9∼= 12.37553

e

C1 =〈P1(x), P1(x)〉〈P0(x), P0(x)〉

=

∑9i=0(xi − 6.9)2∑9

i=0

=378.9

10= 37.8,

daı, temos entao P2(x) = (x− 12.37553)(x− 6.9)− 38.89.

a0 =

∑9i=0 P0(xi)f(xi)∑9i=0 P0(xi)P0(xi)

=63.4

10= 6.34

a1 =

∑9i=0 P1(xi)f(xi)∑9i=0 P1(xi)P1(xi)

=59.24

378.9∼= 0.156347

a2 =

∑9i=0 P2(xi)f(xi)∑9i=0 P2(xi)P2(xi)

=−284.682

12489.63∼= −0.02279

logo, g(x) = 6.34 + 0.156347(x− 6.9)− 0.02279[(x− 12.37553)(x− 6.9)− 37.89].

20

Page 37: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

2

4

6

8

0 x

y

g(x)

Figura 1.2: Grafico do Exemplo 1.4.

1.3 Regressao Linear Multipla

Um caso particular da regressao linear e o caso em que a variavel dependente y e umafuncao linear de duas ou mais variaveis independentes. Neste caso pretende-se avaliar arelacao de uma variavel de interesse y em relacao a k variaveis zj, j = 1, 2, . . . , k. O modelopara avaliar essa relacao e dado por

y = a0 + a1z1 + a2z2 + · · ·+ akzk + ε, (1.19)

onde os zi representam as k variaveis independentes, os ai, i = 0, 1, . . . , k sao os parametrosdo modelo e ε o erro aleatorio. Este modelo descreve um hiperplano no espaco k −dimensional dos {zi}.

As condicoes subjacentes a regressao linear multipla sao analogas as condicoes da re-gressao linear simples.

1.3.1 Regressao linear Bidimensional

Em muitos casos ha necessidade de ajustar os dados experimentais, utilizando funcoesde duas variaveis. Nesse caso esta-se perante uma regressao linear bidimensional, cujomodelo e y = a0 + a1z1 + a2z2 + ε.

Em regressao linear bidimensional, pretende-se determinar a equacao do plano quemelhor se ajusta a um conjunto de pontos de R3, em termos de mınimos quadrados, ouseja, pretende-se determinar o “plano” de regressao.

21

Page 38: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Figura 1.3: Regressao Multipla – Caso Bidimensional

Exemplo 1.5 Pretende-se estimar pelo metodo dos mınimos quadrados os parametros ao,a1 e a2 do modelo Y = a0 + a1z1 + a2z2 a partir dos dados apresentados na Tabela 1.4. Osdados representam as vendas efetuadas por dez empregados de uma dada empresa, o numerode anos de experiencia de cada vendedor e a respetiva pontuacao no teste de inteligencia.O problema da regressao consiste em determinar se o sucesso nas vendas pode ser medidoem funcao das duas variaveis explicativas utilizadas.

Vendedor A B C D E F G H I JY 9 6 4 3 3 5 8 2 7 4z1 6 5 3 1 4 3 6 2 4 2z2 3 2 2 1 1 3 3 1 2 2

Tabela 1.4:

Sendo:Y → Vendas (em milhoes de euros).z1 → Anos de experiencia como vendedor.z2 → Pontuacao no teste de inteligencia.

22

Page 39: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Para determinar a relacao linear de Y com as variaveis z1 e z2, calculemos os somatorios:

∑1 = 10∑z1 = 36∑z2 = 20∑z21 = 156∑z22 = 46∑z1z2 = 80∑Y = 51∑Y z1 = 214∑Y z2 = 116

e com isso formamos o sistema de equacoes normais10 36 2036 156 8020 80 46

a0a1a2

=

51214116

,cuja solucao e a0 ∼= −0.2627, a1 ∼= 0.74 e a2 ∼= 1.3390. Sendo os coeficientes de z1 e z2ambos positivos, conclui-se que variacoes positivas nas variaveis explicativas z1 e z2 levama aumentos nas vendas medias.

1.4 Regressao dos Mınimos Quadrados Linear Geral

Os modelos de regressao linear simples e polinomial abordados anteriormente podemser ambos incluıdos no seguinte modelo de regressao linear de mınimos quadrados geral:

g(x) = a0h0(x) + a1h1(x) + a2h2(x) + · · ·+ anhn(x) (1.20)

em que h0(x), h1(x), h2(x), . . . , hn(x), sao as n+1 funcoes base (subfuncoes), a0, a1, a2, . . . , ansao os parametros a determinar os seus valores e m ≥ n+ 1.

Para o caso de regressao linear simples temos que h0(x) = 1 e h1(x) = x. Para o modelopolinomial os hi(x), i = 0, 1, · · · , n sao as potencias de x.

De notar que a linearidade neste caso e relativa aos parametros ai, i = 0, 1, . . . , n e naoem relacao as funcoes h0(x), h1(x), h2(x), . . . , hn(x) que podem ser funcoes nao lineares dex, como por exemplo, h0(x) = ex, h1(x) = cos x, h2(x) = (1− x3) sinx, etc.

Seja

S(a0, a1, . . . , an) =m∑i=0

[f(xi)− a0h0(xi) + a1h1(xi) + a2h2(xi) + · · ·+ anhn(xi)]2 . (1.21)

Para determinar os parametros a0, a1, . . . , an que minimizam S procede-se como nos casosanteriores, isto e, aplica-se a condicao necessaria de otimalidade, isto e, calculam-se as

23

Page 40: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

derivadas parciais de S em ordem aos ai e igualam-se a zero.

∂S

∂a0= 2

m∑i=0

(fi − a0h0(xi)− a1h1(xi)− · · · − anhn(xi))h0(xi) = 0

∂S

∂a1= 2

m∑i=0

(fi − a0h0(xi)− a1h1(xi)− · · · − anhn(xni ))h1(xi) = 0

∂S

∂a2= 2

m∑i=0

(fi − a0h0(xi)− a1h1(xi)− · · · − anhn(xni ))h2(xi) = 0

...

∂S

∂an= 2

m∑i=0

(fi − a0h0(xi)− a1h1(xi)− · · · − anhn(xi))hn(xi) = 0.

Agora vem o sistema de equacoes normais representada na forma matricial,∑h0(xi)h0(xi)

∑h0(xi)h1(xi) · · ·

∑h0(xi)hn(xi)∑

h1(xi)h0(xi)∑h1(xi)h1(xi) · · ·

∑h1(xi)hn(xi)

...... · · · ...∑

hn(xi)h0(xi)∑hn(xi)h1(xi) · · ·

∑hn(xi)hn(xi)

a0a1...an

=

∑f(xi)h0(xi)∑f(xi)h1(xi)

...∑f(xi)hn(xi)

.(1.22)

Exemplo 1.6 Aproximar f dada pela Tabela 1.5, por uma funcao do tipo g(x) = a0 sin(x)+a1 cos(x), usando o criterio dos mınimos quadrados.

x 0 π/4 π/2f(x) −1 0.71 2

Tabela 1.5:

Resolucao: Neste caso temos h0(x) = sin(x) e h1(x) = cos(x). Para determinar osparametros a0 e a1 vamos resolver o sistema de equacoes,[ ∑2

i=0 sin2(xi)∑2

i=0 sin(xi) cos(xi)∑2i=0 cos(xi) sin(xi)

∑2i=0 cos2(xi)

] [a0a1

]=

[∑2i=0 f(xi) sin(xi)∑2i=0 f(xi) cos(xi)

].

Agora calculando os somatorios passamos a ter o sistema de equacoes[1.5 0.250.25 1.5

] [a0a1

]∼=[

2.502046−0.49795

],

cuja solucao e a0 ∼= 1.7726 e a1 ∼= −0.6274. Assim, g(x) ∼= 1.7726 sin(x)− 0.6274 cos(x).

24

Page 41: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

No exemplo anterior verificou-se que o sistema normal tinha uma e uma so solucao.Tambem sabemos que o conjunto de funcoes C = {sinx, cosx} e linearmente independente.Pode pensar-se que, desde que o conjunto de funcoes {h0(x), h1(x), . . . , hn(x)} seja l.i.,entao estara garantido que o sistema (1.22) tem solucao unica. Em princıpio sera assim,mas no caso geral nao se pode afirmar isso. Vejamos o exemplo seguinte.

Exemplo 1.7 Aproximar f dada pela Tabela 1.6, por uma funcao do tipo g(x) = a0 sin(x)+a1 cos(x), usando o criterio dos mınimos quadrados.

x π/4 π/4 + 2π π/4 + 4π

f(x)√

2/2√

2/2√

2/2

Tabela 1.6:

Resolucao: Temos de novo h0(x) = sin(x) e h1(x) = cos(x). Tal como no exemploanterior, a determinacao dos parametros a0 e a1 passa por resolver o sistema normal,[ ∑2

i=0 sin2(xi)∑2

i=0 sin(xi) cos(xi)∑2i=0 cos(xi) sin(xi)

∑2i=0 cos2(xi)

] [a0a1

]=

[∑2i=0 f(xi) sin(xi)∑2i=0 f(xi) cos(xi)

].

Como sin(π/4 + 2kπ) = cos(π/4 + 2kπ) =√

2/2, k = 0, 1, 2, entao chegamos ao sistema[1.5 1.51.5 1.5

] [a0a1

]=

[1.51.5

].

Este sistema e possıvel mas indeterminado. Na verdade, a matriz do sistema nao e in-vertıvel. O conjunto infinito de solucoes e {(a0, a1) ∈ R2 : a0 + a1 = 1}. Desta maneiraverificamos que a aproximacao dos mınimos quadrados existe mas nao e unica. Note, porexemplo, que g(x) = sin(x) permite um ajuste optimo com resıduos nulos. Da mesmaforma, g(x) = cos(x) tambem permite um ajuste optimo com resıduos nulos.

Considere-se a matriz Z,

Z =

h0(x0) h1(x0) h2(x0) h3(x0) · · · hn(x0)h0(x1) h1(x1) h2(x1) h3(x1) · · · hn(x1)h0(x2) h1(x2) h2(x2) h3(x2) · · · hn(x2)

......

......

. . ....

h0(xm) h1(xm) h2(xm) h3(xm) · · · hn(xm)

. (1.23)

No Apendice A provamos que o sistema de equacoes normais (1.22) tem uma e uma sosolucao se e somente se a matriz Z dada por (1.23) tem as colunas linearmente indepen-dentes. Obviamente estamos a supor que os pontos xj, j = 0, 1, . . . ,m sao distintos.

Tambem no Apendice A se prova que a funcao S(a0, a1, . . . , an) definida por (1.21) esempre convexa (mesmo no caso em que a solucao do sistema (1.22) nao e unica). Entao,o sistema normal de equacoes obtem pontos de estacionariedade que sao minimizantesglobais de S.

25

Page 42: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

1.5 Tecnicas de Linearizacao

De acordo com [6] o modelo de regressao linear e uma tecnica poderosa para ajustar amodelos lineares a um conjunto de dados. No entanto, a maioria dos fenomenos reais, sejameles fısicos, quımicos, biologicos ou outros dados experimentais obtidos em laboratoriosrepresentam uma relacao nao linear entre o modelo e os seus parametros. Sendo assime de extrema importancia descobrir de que tipo e essa relacao e quais os parametros quea caracterizam. De entre os modelos que representam relacoes nao lineares com os seusparametros podemos distinguir dois tipos:

1. Modelos com funcoes intrinsecamente lineares.

2. Modelos com funcoes intrinsecamente nao lineares.

O caso 1 e o nosso objeto de estudo nesta secao, enquanto que o caso 2 sera abordado nasecao seguinte.

Para o caso 1, podemos sempre atraves de mudancas de variaveis ou aplicando trans-formacoes convenientes, encontrar uma relacao linear entre o modelo e os parametros.

De seguida apresentaremos algumas tecnicas de linearizacao de funcoes.

1.5.1 Modelo Exponencial

Em muitos casos o diagrama de dispersao sugere que a funcao pode ser aproximadapor uma funcao exponencial da forma y = αeβx, em que α e β sao constantes reais positi-vas. Segundo [6] esse modelo e usado em muitos campos da engenharia para caracterizarquantidades que aumentam ou diminuem a uma taxa proporcional a seu valor absoluto.Supondo y > 0, podemos linearizar este modelo, aplicando logaritmo natural a ambos osmembros da equacao, passando assim a ter:

ln y = lnα + βx, (1.24)

desta forma, encontramos uma relacao linear de ln y em funcao de x, com declive β eordenada na origem lnα. Este processo e chamado por vezes linearizacao dos dados, vistoque os pontos (xi, ln yi) estao “linearizados”.

26

Page 43: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

y = αeβ

x

y

x

ln y

lnα

ln y = lnα + βx

Figura 1.4: Graficos do modelo exponencial e do modelo linearizado.

Exemplo 1.8 Ajustar os dados da tabela seguinte a um modelo exponencial.

x −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0y 0.157 0.234 0.350 0.522 0.778 1.162 1.733 2.586 3.858

Resolucao: Neste caso pretendemos ajustar os dados da tabela ao modelo y = αeβx.Apliquemos (1.24) e de seguida consideremos a seguinte mudanca de variavel: ln y = t elnα = γ. Assim, passamos a ter o modelo de regressao linear simples.

t = γ + βx (1.25)

Consideremos a tabela seguinte com os valores das novas variaveis.

xi −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0ti −1.852 −1.452 −1.050 −0.650 −0.251 0.150 0.550 0.95 1.35xiti 1.852 0.726 0 −0.325 −0.251 0.225 1.1 2.375 4.05

.

Da tabela acima temos que:∑xi = 9,

∑ti = −2.255,

∑xiti = 9.752 e

∑x2i = 24.

Aplicando (1.5) e (1.6), obtemos

β =9× 9.752− 9× (−2.255)

9× 24− 81∼= 0.8005

27

Page 44: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

e

γ =−2.255− 0.800× 9

9∼= −1.0511.

Voltando agora as variaveis iniciais, temos que lnα = −1.0511, de onde vem α ∼= e−1.0511 ∼=0.3496. Logo, temos que g(x) ∼= 0.3496e0.8005x.

E de realcar que os valores dos parametros a0 e a1 determinados no exemplo anteriornao minimizam a funcao

S(α, β) =8∑i=0

[yi − αeβxi

]2.

Minimizam sim a funcao:

T (α, β) =8∑i=0

[ln yi − (lnα + βxi)]2 .

Deste modo a solucao obtida aplicando esta tecnica de linearizacao nao e otima3.

1.5.2 Modelo com Equacao de Potencia Simples

Um outro caso de modelo nao linear e que pode ser linearizado e a equacao de potenciasimples que utiliza uma funcao do tipo:

y = αxβ , x > 0 , (1.26)

em que α e β sao reais positivos e β 6= 1. Uma tecnica para linearizar este modelo seratambem aplicar logaritmos a ambos os membros da igualdade, obtendo-se desta forma

ln y = lnα + β lnx,

que e uma relacao linear de ln y em funcao de lnx, com declive β e ordenada na origemlnα.

1.5.3 Modelo Hiperbolico

O modelo hiperbolico e dado por

y =αx

β + x, (1.27)

com α e β constantes reais.Segundo [6, pag. 390] esse modelo e adequado para caracterizar a taxa de crescimento

populacional sob condicoes limitantes.Para linearizar este modelo podemos inverter (1.27), obtendo-se deste modo a relacao

1

y=β

α

1

x+

1

α, (1.28)

que e uma relacao linear de 1y

em funcao de 1x, com declive β

αe ordenada na origem 1

α.

3Veremos que com Metodos que estudaremos adiante e possıvel encontrar um resultado melhor.

28

Page 45: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Exemplo 1.9 (Sugerido por [6, pag. 407])

Um investigador relatou os dados da Tabela 1.7 para uma experiencia para determinara taxa de crescimento k de uma bacteria (por dia), como uma funcao da concentracao deoxigenio c (mg/L). Sabe-se que tais dados podem ser modelados pela seguinte equacao:

k =kmaxc

2

cs + c2, (1.29)

onde cs e kmax sao parametros. Use uma transformacao para linearizar essa equacao. Aseguir, use regressao linear para fazer uma estimativa de cs e kmax e prever a taxa decrescimento em c = 2 mg/L.

c 0.5 0.8 1.5 2.5 4k 1.1 2.4 5.3 7.6 8.9

Tabela 1.7:

Resolucao: Para linearizar a equacao vamos inverter (1.29) e daı passamos a ter1k

= cs+c2

kmaxc2= cs

kmax1c2

+ 1kmax

, que e uma relacao linear de 1k

em funcao de 1c2

. Para encontraruma estimativa para os parametros cs e kmax, facamos a seguinte tabela

c k 1c2

1k

1c4

1c2k

0.5 1.1 4 0.9091 16 3.63640.8 2.4 1.5625 0.4167 2.4414 0.56101.5 5.3 0.4444 0.1887 0.1975 0.08392.5 7.6 0.16 0.1316 0.0256 0.0211

4 8.9 0.0625 0.1123 0.0039 0.0070∑9.3 25.3 6.2294 1.7584 18.6684 4.3993

Agora para obter cskmax

e 1kmax

basta aplicarmos (1.5) e (1.6). Assim,

cskmax

=5× 4.3993− 6.2294× 1.7584

5× 18.6684− 6.22942∼= 0.2025

e1

kmax=

1.7584− 0.2025× 6.2294

5∼= 0.0994.

Deste modo kmax ∼= 10.0994

∼= 10.0604 e cs = 0.2025 × 10.0604 ∼= 2.0372. Para encontraruma previsao da taxa de crescimento para uma concentracao de oxigenio de c = 2 mg/L,utilizamos equacao k ∼= 10.0604c2

2.0372+c2, e neste caso obtemos k ∼= 6.6656.

29

Page 46: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

1.6 Regressao nao Linear

Na secao anterior referimos dois modelos nao lineares de ajustes de dados pelo metododos mınimos quadrados, e fizemos uma abordagem sobre o modelo com funcoes intrinse-camente lineares nos seus parametros, onde vimos que mediante tecnicas adequadas trans-formamos esses modelos de modo a termos funcoes lineares nos parametros. Nesta seccaoabordaremos o caso com funcoes intrinsecamente nao lineares. Nesse tipo de modelos naoha nenhuma transformacao finita exata atraves da qual possamos exprimir o modelo deuma forma linear em relacao aos seus parametros, isto e, nao e possıvel escrever o modelona forma de (1.20) e consequentemente nao e possıvel transformar o problema de mınimosquadrados na resolucao de um sistema de equacoes lineares. Sao exemplos de modelosintrinsecamente nao lineares nos parametros:

g(x; a0, a1) = a0(1− e−a1x),

v(t;α, β) = e−αt + β sin t,

h(x; a0, a1, a2) = a0 sinx+ cos(a1x) + e−a2x,

etc.O modelo de regressao nao linear para ajuste de dados assume a forma:

y = f(X, a) (1.30)

Em que y =

y0y1...ym

designa um vetor (m+1)×1 de observacoes, X =

x01 x02 · · · x0kx11 x12 · · · x1k...

... · · · ...xm1 xm2 · · · xmk

e uma matriz (m+1)×k dos m+1 valores exatos das k variaveis independentes, a =

a0a1...an

e

um vetor (n+1)×1 dos parametros e f e uma funcao nao linear em relacao aos parametrosa0, a1, · · · , an.

A soma da media dos erros quadraticos entre os dados e o modelo pode ser expressapor:

ε =m∑i=0

(yi − f(xi1, xi2, . . . , xik; a0, a1, . . . , an))2 . (1.31)

Considerando m > n, podemos definir a funcao S : Rn+1 −→ R por

S(a0, a1, a2, . . . , an) =m∑i=0

(yi − f(xi1, xi2, . . . , xik; a0, a1, . . . , an))2 . (1.32)

30

Page 47: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

O nosso objetivo e determinar os parametros a0, a1, · · · , an que minimizam (1.32). Asolucao otima a∗ = [a∗0, a

∗1, . . . , a

∗n]T ajusta os dados experimentais no sentido dos mınimos

quadrados. A condicao necessaria para que a∗ = [a∗0, a∗1, . . . , a

∗n]T seja minimizante de S e

termos as derivadas parciais de S em relacao a cada um dos parametros a0, a1, . . . , an iguaisa zero. Com isso formamos um sistema de equacoes normais nao linear nos parametrosa0, a1, . . . , an. A solucao do sistema e um ponto estacionario da funcao S que pode nao serum mınimo. Convem realcar que nao existem metodos diretos para o ajuste de funcoespelo metodo dos mınimos quadrados nao lineares, sendo a solucao obtida por metodositerativos. Nos capıtulos seguintes abordaremos os metodos iterativos para o ajuste naolinear dos mınimos quadrados.

A seguir mostraremos alguns exemplos desse tipo de problemas.

Exemplo 1.10 No estudo laboratorial de um fenomeno, uma certa grandeza fısica y(t) va-ria no tempo. Prevendo-se que siga uma lei dada pela expressao analıtica: ypredicted(k1, k2, t) =k1

k1−k2

(e−k2t − e−k1t

), sendo k1 e k2 parametros reais desconhecidos. No laboratorio simula-

se o fenomeno e obtem-se os dados experimentais da tabela seguinte:

Pontos ti(s) yobserved(ti)t1 = 0.5 yo1 = 0.263t2 = 1.0 yo2 = 0.455t3 = 1.5 yo3 = 0.548

.

Pretende-se calcular os valores dos parametros reais k1 e k2 por minimizacao dos qua-drados dos desvios:

min(k1,k2)∈R

= φ(k1, k2) =m∑i=1

[yobserved(ti)− ypredicted(k1, k2, ti)]2 .

Ou seja, pretende-se encontrar os valores otimos (k∗1, k∗2) dos parametros k1 e k2 por forma

a minimizar a funcao φ(k1, k2). Trata-se do criterio dos mınimos quadrados no caso naolinear (regressao nao linear).

(a) Escreva uma function MATLAB para implementar computacionalmente a funcao φ(k1, k2).

(b) Use o comando fminsearch da Optimization Toolbox do MATLAB para calcular osvalores otimos k∗1 e k∗2.

(c) Faca um grafico MATLAB da funcao ypredicted(k1, k2, t), com t ∈ [0, 2] e assinale nessegrafico os pontos (ti, yoi), i = 1, 2, 3 da tabela acima.

Resolucao:

(a) Neste caso, a funcao a minimizar, segundo o criterio dos mınimos quadrados e

φ(k1, k2) =3∑i=1

[yoi − yp(k1, k2, ti)]2 ,

31

Page 48: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

com yp(k1, k2, t) = k1k1−k2

(e−k2t − e−k1t

).

Para implementar computacionalmente a funcao φ(k1, k2) no MATLAB, criamos asseguintes funcoes:

(1) function yp=ypredicted (k1, k2,t)

E1=exp(-k1*t);E2=exp(-k2*t);k=k1/(k1-k2);yp=k*(E2-E1);

(2) function S=phisum (k)

t=[0.5 1.0 1.5];yo=[0.263 0.455 0.548];P=(yo-ypredicted(k(1), k(2), t)).^ 2;S=sum(P);

(b) Com o comando

>> fminsearch(’phisum’,[1 1]),obtivemos k∗1

∼= 0.6630 e k∗2∼= 0.1546.

(c) Para obtermos a representacao grafica da funcao e os pontos (ti, yoi), i = 1, 2, 3implementamos a seguinte function no MATLAB:

function phigraf(a,b,h)

t=a:h:b;ti=[0.5 1.0 1.5];yo=[0.263 0.455 0.548]

k=fminsearch(’phisum’,[2 2]);yp=ypredicted(k(1), k(2), t);plot(t,yp);hold on

plot(ti,yo,’or’)

figure(gcf)

Agora com o comando phigraf(0,3,0.001), obtivemos o grafico da Figura 1.5.

No Capıtulo 3 vamos abordar metodos de minimizacao para resolver este tipo de pro-blemas.

32

Page 49: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Figura 1.5: Ilustracao grafica do Exemplo 1.10.

Exemplo 1.11 Num circuito eletronico a tensao eletrica de saıda e mostrada a intervalosde 0.5 segundos, obtendo-se a tabela

ti 0 0.5 1 1.5 2 2.5 3vi 1.0950 −0.1569 −1.0157 −1.4740 −1.3616 −0.8342 −0.0135

.

Tabela 1.8:

Sabemos que a tensao sera da forma

v(t) = e−αt + β sin t

onde α e β sao valores desconhecidos.

(a) Formular o problema de minimizacao que permite determinar α e β por forma a obterum melhor ajuste de v(t) aos dados da tabela no sentido dos mınimos quadrados.

(b) Encontrar o sistema de estacionariedade (sistema de equacoes normais).

Resolucao:

33

Page 50: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

(a) Como pretendemos aplicar o metodo dos mınimos quadrados, devemos entao mini-mizar a soma dos erros quadraticos, isto e, devemos ter

min(α,β)∈R2

E(α, β) =7∑i=1

[vi − e−αti − β sin(ti)

]2.

(b) Os valores de α e β que minimizam E(α, β), encontram-se entre os que anulam ogradiente da referida funcao.

∇E(α, β) =

[∂E∂α

(α, β)∂E∂β

(α, β)

]⇒ ∇E(α, β) =

[2∑7

i=1 [(vi − e−αti − β sin(ti))(tie−αti)]

2∑7

i=1 [(vi − e−αti − β sin(ti))(− sin(ti))]

].

O sistema de estacionariedade e ∇E(α, β) =

[00

]. Fazendo x ←− α e y ←− β,

passamos a ter o sistema de equacoes:{f(x, y) =

∑7j=1 [(vj − e−xtj − y sin(tj))(tje

−xtj)] = 0

g(x, y) =∑7

j=1 [(vj − e−xtj − y sin(tj))(− sin(tj))] = 0.

Trata-se de um sistema de equacoes nao lineares cuja resolucao abordaremos noCapıtulo 3.

Propomos agora a resolucao desse sistema atraves do comando fsolve do MATLAB.Assim, criamos a seguinte function:function F=dcircuit(x)

ti=0:0.5:3;

Vi=[1.0950 -0.1569 -1.0157 -1.4740 -1.3616 -0.8342 -0.0135];

phi=exp(-x(1)*ti)+x(2)*sin(ti);

df=sum((Vi-phi).*(ti.*exp(-x(1)*ti)));

dg=sum((Vi-phi).*(-sin(ti)));

F=[df dg]’;

end

Agora, utilizando o comando: >> [x F]=fsolve(’dcircuit’,[0 0]’), obtemosx =

0.4295 -1.9842

F =

1.0e-006 *

-0.1559 0.0639

Sendo assim, temos α ∼= 0.4295 e β ∼= −1.9842. Portanto, o modelo que melhor seajusta aos dados da Tabela 1.8 em termos de mınimos quadrados e

v(t) ≈ e−0.4295 − 1.9842 sin t.

34

Page 51: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Problemas de Mınimos Quadrados

Figura 1.6: Ilustracao grafica do Exemplo 1.11.

35

Page 52: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 53: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Capıtulo 2

Algoritmos de Otimizacao semRestricoes

2.1 Otimizacao nao Linear sem Restricoes

A procura de melhores condicoes de vida tem acompanhado os seres humanos desdeos primordios. Por isso os homens andam sempre a procura de solucoes para os seusproblemas, ou seja, o homem procura sempre otimizar a sua vida. O processo de procuraro melhor (otimizar) nao acontece apenas com o homem mas sim com os animais e coma propria natureza. Em [29, pag. 1] apresentam-se diversos exemplos de necessidadede otimizacao de entre os quais, as empresas que procuram maximizar a eficiencia naconcepcao e operacao da sua producao e consequentemente maximizar o lucro, os raios deluz que seguem o caminho que minimiza o tempo de trajeto entre dois pontos, etc. Destemodo torna-se imperioso conhecer ferramentas que nos permite encontrar solucoes otimaspara os nossos problemas. Matematicamente otimizar significa encontrar uma solucao ouum conjunto de solucoes que minimizam ou maximizam uma funcao, considerando certasrestricoes em relacao as variaveis. Sempre que se refere a otimizacao vem a tona os seguintesconceitos:

� Funcao Objetivo→ funcao f : Rn → R que pretendemos minimizar ou maximizar.

� Variaveis de Decisao → sao as variaveis independentes da funcao objetivo.

� Restricoes→ sao condicoes impostas sobre as variaveis independentes. As restricoespodem ser de igualdade ou desigualdade.

2.1.1 Forma Geral de um Problema de Otimizacao nao Linear

Um problema de otimizacao pode ser formulado do seguinte modo:

minx∈Rn

f(x) sujeito a

{ci(x) = 0, i = 1, 2, . . . k

ci(x) ≥ 0, i = k + 1, k + 2, . . . ,m, (2.1)

37

Page 54: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

onde f e a funcao objetivo, x = [x1, x2, . . . , xn]T e um vetor de Rn representando as nvariaveis independentes do problema, as equacoes ci(x) = 0 representam as k restricoes deigualdade e as inequacoes ci(x) ≥ 0 as m− k restricoes de desigualdade.

Em muitas situacoes somos confrontados com problemas de maximizacao e nao proble-mas de minimizacao. Mas acontece que maximizar f(x) = −minimizar [−f(x)], sendoo valor de x que maximiza f(x) o mesmo que minimiza −f(x). Assim, a formulacaoapresentada em (2.1) e valida tambem para problemas de maximizacao.

2.1.2 Otimizacao sem Restricoes

O Problema de Otimizacao sem restricoes e formulado do seguinte modo:

Dado f : Rn −→ R, encontre minx∈Rn

f(x), (2.2)

isto e, a procura de extremos de f nao se restringe a nenhum subconjunto de Rn.Segundo [33, pag. 301], raramente encontramos um problema de otimizacao que nao

apresente restricoes. Sendo assim, questionamos porque estudar metodos de otimizacaosem restricoes? A resposta e dada por [33] apresentando varias razoes de entre as quais:

1° As restricoes podem nao ter influencias significativas em certos tipos de problemas;

2° Alguns dos metodos poderosos e robustos de resolucao de problemas de minimizacaocom restricoes requerem a utilizacao de tecnicas de minimizacao sem restricoes.

3° O estudo das tecnicas de minimizacao sem restricoes proporcionam uma compreensaobasica necessaria para o estudo de metodos de minimizacao com restricoes.

Grande parte dos problemas sem restricoes sao ajustes de mınimos quadrados (curve fitting)ou estao associados a resolucao de sistemas nao lineares de equacoes.

2.2 Conceitos Basicos de Otimizacao Multidimensio-

nal sem Restricoes

Nesta secao apresentaremos alguns conceitos basicos de Otimizacao Multidimensional,baseando-nos essencialmente em [16, Aula 6], [33, cap. 2],[40] e [43, Aula 6].

Definicao 2.1 Chama-se Bola aberta de centro a e raio ρ ao conjunto de pontos de Rn:

Bρ(a) = {x ∈ Rn : ‖x− a‖ < ρ},

onde ‖.‖ designa a norma euclidiana.

Definicao 2.2 Um ponto x∗ diz-se um minimizante local de f : Df ⊂ Rn → R se ∃ρ >0 : f(x) ≥ f(x∗),∀x ∈ Bρ(x

∗) ∩Df .

38

Page 55: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Definicao 2.3 Um ponto x∗ diz-se um minimizante local forte ou estrito de f : Df ⊂Rn → R se ∃ρ > 0 : f(x) > f(x∗), x 6= x∗ ,∀x ∈ Bρ(x

∗) ∩Df .

Definicao 2.4 Um ponto x∗ diz-se um minimizante global ou absoluto de f : Df ⊂ Rn →R se ∃ρ > 0 : f(x) ≥ f(x∗),∀x ∈ Df .

2.2.1 Condicoes de Otimalidade

As condicoes de otimalidade estao relacionadas com a primeira e a segunda derivadas deuma funcao f . Assim, dada uma f : Rn → R, temos as seguintes condicoes de otimalidade.

Teorema 2.1 (Condicao Necessaria) Se f admite um minimizante em x = x∗ e asderivadas parciais de f(x) em x = x∗ existem, entao

∂f

∂x1(x∗) =

∂f

∂x2(x∗) = · · · = ∂f

∂xn(x∗) = 0. (2.3)

A demonstracao deste teorema pode ser vista em [33, pag. 69-70].

A partir do teorema anterior, deduz-se o seguinte sistema de equacoes nao lineares

∇f(x, y) = 0⇔

∂f∂x1

(x∗) = 0∂f∂x2

(x∗) = 0...∂f∂xn

(x∗) = 0

, (2.4)

denominado sistema de estacionariedade. O ponto x∗ e denominado ponto de estacionari-edade ou ponto crıtico da funcao f .

Definicao 2.5 A matriz n × n das derivadas parciais de segunda ordem de uma funcaof : D ⊂ Rn → R, [ ∂2f

∂xixj] (i = 1, 2, . . . , n ; j = 1, 2, . . . , n), chama-se matriz Hessiana de f

e representa-se por H(x) =[∂2f∂xixj

(x)]

sempre que tais derivadas existam.

Teorema 2.2 (Condicao Suficiente) Seja f uma funcao de classe C2 em D e x∗ ∈ D.Se x∗ e um ponto de estacionaridade de f e a matriz Hessiana de f em x∗ for definidapositiva, entao x∗ e um minimizante local de f .

A prova deste teorema pode ser vista em [3, pag. 40-41].

39

Page 56: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

2.2.2 Classificacao dos Pontos de Estacionaridade

Ja dissemos anteriormente que os pontos onde o gradiente de uma funcao f e nulo saochamados pontos de estacionaridade ou pontos crıticos de f . Nesses pontos podem ocorrerextremantes locais como nao. Assim, dada uma funcao f : D ⊂ Rn → R e um pontox∗ ∈ D, se x∗ e ponto de estacionaridade de f e x nao e extremante de f , diz-se que x∗ eum ponto sela de f .

Para classificarmos os pontos crıticos podemos usar dois criterios: menores principaisda matriz Hessiana e valores proprios da matriz Hessiana.

Classificacao dos pontos crıticos de uma funcao pelo criterio dos Menores Prin-cipais da matriz Hessiana

Sejam os menores principais liderantes da matriz Hessiana de uma funcao f , num pontoestacionario x∗:

A1 =∂2f

∂x21(x∗), A2 =

∣∣∣∣∣∂2f∂x21

(x∗) ∂2f∂x1∂x2

(x∗)∂2f

∂x2∂x1(x∗) ∂2f

∂x22(x∗)

∣∣∣∣∣ , A3 =

∣∣∣∣∣∣∣∣∂2f∂x21

(x∗) ∂2f∂x1∂x2

(x∗) ∂2f∂x1∂x3

(x∗)∂2f

∂x2∂x1(x∗) ∂2f

∂x22(x∗) ∂2f

∂x2∂x3(x∗)

∂2f∂x3∂x1

(x∗) ∂2f∂x3∂x2

(x∗) ∂2f∂x23

(x∗)

∣∣∣∣∣∣∣∣ ,· · · , An =

∣∣H∣∣.� Se todos os menores principais liderantes sao positivos, isto e, A1 > 0, A2 > 0,A3 > 0, · · · An > 0, H e definida positiva e o ponto x∗ e um minimizante local de f .

� Se todos os menores principais liderantes de ordem ımpar sao negativos e os deordem par sao positivos, isto e, se o sinal de Ai = (−1)i, i = 1, 2, · · · , n, H e definidanegativa e o ponto x∗ e um maximizante local de f .

� Se se verificar uma das condicoes anteriores ate um certo i e a partir dali todos osmenores principais sao nulos, H e semidefinida e nada se pode concluir quanto anatureza do ponto x∗.

� Se nenhum dos casos anteriores acontecer, entao H e indefinida e x∗ e um ponto sela.

Classificacao dos pontos crıticos de uma funcao pelo criterio dos valores propriosda matriz Hessiana

Os valores proprios da matriz Hessiana (H) sao determinados, resolvendo a equacao∣∣H − λI∣∣ = 0, sendo I a matriz identidade de ordem n.

� Se todos os valores proprios de H forem positivos, H e definida positiva e x∗ e umminimizante local de f .

� Se todos os valores proprios de H forem negativos, H e definida negativa e x∗ e ummaximizante local de f .

40

Page 57: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

� Se todos os valores proprios de H forem maiores ou iguais a zero (menores ou iguais azero), H e semidefinida positiva (negativa) e neste caso nada se pode concluir quantoa natureza de x∗.

� Se pelo menos dois valores proprios de H tiverem sinais contrarios, H e indefinida ex∗ e um ponto sela.

Exemplo 2.1 Considere a funcao:

f(x, y) =

(1 + 8x− 7x2 +

7

3x3 − 1

4x4)

(y2e−y).

(a) Encontrar o conjunto de todos os pontos de estacionaridade de f em R2.

(b) Provar que f nao atinge mınimo global.

(c) Provar analiticamente que f tem pelo menos um maximizante local e pelo menos umponto sela.

Resolucao:

(a) Para encontrar os pontos de estacionaridade de f , comecemos por calcular as deri-vadas parciais de f .

∇f(x, y) =

[(8− 14x+ 7x2 − x3)y2e−y

(2ye−y − y2e−y)(1 + 8x− 7x2 + 7

3x3 − 1

4x4)]

e com isso formamos o sistema de estacionaridade:

∇f(x, y) =

[00

]⇔

{(8− 14x+ 7x2 − x3)y2e−y = 0

(2y − y2)e−y(1 + 8x− 7x2 + 7

3x3 − 1

4x4)

= 0.

Agora com o auxılio do MATLAB obtivemos as raızes reais de cada uma das equacoes:1ª Equacao

f ′x(x, y) = 0⇔ x = 1 ∨ x = 2 ∨ x = 4 ∨ y = 0

2ª Equacao

f ′y(x, y) = 0⇔ x = 5.10845 · · · ∨ x = −0.113331 · · · ∨ y = 0 ∨ y = 2.

O sistema de equacoes simultaneas

{f ′x(x, y) = 0

f ′y(x, y) = 0tem infinitas solucoes. Todos os

pontos da reta y = 0 sao solucoes do sistema.

Tambem para y 6= 0 o sistema tem solucoes. Para isso consideremos y = 2 e xassumindo os valores 1, 2 ou 4. Assim, o conjunto dos pontos de estacionaridade def e

C ={

(x, y) ∈ R2 : y = 0}∪ {(1, 2), (2, 2), (4, 2)}.

41

Page 58: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

(b) Fixemos o valor de y num valor qualquer real diferente de zero e de seguida calculemoslim

x→+∞f(x, y)= lim

x→+∞

(1 + 8x− 7x2 + 7

3x3 − 1

4x4)

(y2e−y) = −∞. Portanto, a funcao

f nao e limitada inferiormente e por isso nao atinge mınimo global.

(c) Para indicar um maximizante e um ponto sela da funcao f determinemos primeiroa matriz Hessiana de f .[

(−14 + 14x− 3x2)y2e−y (2ye−y − y2e−y)(8− 14x+ 7x2 − x3)(2ye−y − y2e−y)(8− 14x+ 7x2 − x3) e−y(y2 − 4y + 2)(1 + 8x− 7x2 + 7

3x3 − 1

4x4)

]

Para y = 2, temos H =

[4e−2(−14 + 14x− 3x2) 0

0 −2e−2(1 + 8x− 7x2 + 73x3 − 1

4x4)

].

E se x = 1, H =

[−12e−2 0

0 −496e−2

]. Assim temos, A1 < 0 e A2 > 0, de onde segue

que H e definida negativa para o ponto (1, 2). Com isso concluımos que o ponto (1, 2)e um maximizante de f(x, y).

Considerando x = 2 e y = 2 temos que H =

[8e−2 0

0 −223e−2

]. Neste caso A1 > 0 e

A2 < 0, daı H e indefinida e o ponto (2, 2) e um ponto sela de f(x, y).

2.3 Problema de Mınimos Quadrados sem Restricoes

Segundo [43] os problemas de mınimos quadrados nao lineares sao uma classe de proble-mas de otimizacao sem restricoes que mais surgem nas aplicacoes. O problema de mınimosquadrados sem restricoes e formulado da seguinte forma

minx∈Rn

f(x) =1

2‖r(x)‖22 =

1

2

m∑i=1

ri(x)2, (2.5)

onde, m > n, x = [x1 x2 · · ·xn]T e r : Rn → Rm e chamada funcao residual. Nesses tiposde problemas, o objetivo e minimizar a norma Euclidiana da funcao

r : D ⊂ Rn → Rm (2.6)

x =

x1x2...xn

r1(x)r2(x)

...rm(x)

= r(x) ,

sendo r(x) = φ(x, t)−y uma funcao nao linear nos parametros x1, x2, . . . , xn, pelo facto dafuncao de ajuste φ(x, t) ser nao linear nesses mesmos parametros. Os dados experimentaissao os pares ordenados (ti, yi), i = 1(1)m.

42

Page 59: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

2.3.1 Existencia da solucao de mınimos quadrados

Sera o Problema (2.5) possıvel? Ou seja, a funcao f(x) admite um mınimo global?Abordaremos agora esta questao. Poderemos comecar por observar que em qualquer casoa funcao f e nao negativa:

f(x) =1

2

m∑i=1

[ri(x)]2 ≥ 0. (2.7)

Assim, se existir um ponto x ∈ Rn de ajuste perfeito aos dados, ou seja se:

ri(x) = φ(x, ti)− yi = 0, i = 1, 2, . . . ,m

entao f(x) = 0 e e obvio que x e um minimizante global de f . Neste caso de ajuste perfeito(φ(x, ti) = yi, i = 1(1)m), o Problema (2.5) tem solucao.

Por outro lado, mesmo que nao haja ajuste perfeito ja foi demonstrado no capıtuloanterior que se φ(x) for linear nos parametros entao a solucao dos mınimos quadradosexiste sempre (ver Apendice A).

O resultado mais basico acerca da existencia de optimizadores e o seguinte Teoremados valores extremos de Bolzano-Weierstrass:

Teorema 2.3 (Bolzano-Weierstrass) Seja f : D −→ R uma funcao contınua definidanum domınio D ⊂ R compacto (e.g. limitado, fechado e nao vazio). Entao, a funcaoatinge em D o seu valor mınimo, ou seja

∃x∗ ∈ D : f(x∗) ≤ f(x) para todo o x ∈ D.

Duas provas deste teorema podem ser encontradas em [30][pag. 33]. Este teorema restringea sua aplicacao a funcoes contınuas definidas em compactos. Na verdade, normalmente asfuncoes de ajuste φ(x, t) sao contınuas o que implica que a funcao f no Problema (2.5)seja contınua. Contudo, nos problemas de mınimos quadrados sem restricoes o conjuntode solucoes admissıveis D coincide com Rn e, portanto, nao e um compacto1. Assim,a existencia de minimizante global nao se pode provar usando o Teorema de Bolzano-Weierstrass.

Note-se que pela propriedade (2.7) a funcao f e limitada inferiormente pelo que existeo ınfimo If nao negativo de f em Rn, ou seja, existe um valor real If que e o maior dosminorantes de f :

If = infx∈Rn

f(x) ≥ 0. (2.8)

No entanto, pode ou nao existir um ponto x∗ tal que f(x∗) = If . Caso exista, entao afuncao f atinge mınimo global em Rn sendo esse mınimo global o valor If e o minimizante

1 Por vezes, nas aplicacoes, pode conseguir-se provar que os parametros xi, i = 1(1)m nao podem estarfora de intervalos [ai, bi] ⊂ R. Por exemplo, pode nao fazer sentido que os parametros xi sejam negativosou entao que sejam superiores a 1000. Nesse caso, o conjunto das solucoes admissıveis sera compacto maso problema de mınimos quadrados tem restricoes (box constraints). A existencia de restricoes no problemaesta fora do ambito desta dissertacao.

43

Page 60: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

e o ponto x∗. Neste caso diz-se que o mınimo foi atingido. Por estas razoes, a questao daexistencia da solucao dos mınimos quadrados e muitas vezes designada por atingibilidadedo mınimo.

Veremos agora que ha casos em que e possıvel provar a existencia de minimizantesglobais mesmo que o conjunto das solucoes admissıveis nao seja compacto.

Teorema 2.4 Seja f : S −→ R uma funcao contınua definida num domınio S j R. Sef tiver um qualquer conjunto de nıvel Nα(f) = {x ∈ S : f(x) ≤ α} compacto (limitado,fechado e nao vazio), entao f atinge o seu mınimo global em S.

A prova deste teorema tambem pode ser encontrada em [30][pag. 33]. Assim, a prova deque f atinge mınimo pode consistir em provar que existe um qualquer valor real α tal queo conjunto de nıvel Nα(f) = {x ∈ S : f(x) ≤ α} seja um conjunto fechado, limitado e naovazio de Rn.

Definicao 2.6 (Funcao Coerciva) Uma funcao f : Rn −→ R diz-se coerciva se forcontınua e se

f(x) −→ +∞ quando ‖x‖ −→ +∞,

onde ‖·‖ denota qualquer norma definida em Rn.

Para aclarar o conceito de funcao coerciva acrescentaremos que uma funcao contınuaf : Rn −→ R e coerciva se para todo o M > 0, existe r > 0 tal que f(x) > M paratodo o x que cumpra ‖x‖ > r. Para provar que uma funcao e coerciva nao basta provarque f tende para +∞ ao longo de todos os eixos coordenados. Com efeito, uma funcao co-erciva tera de crescer ilimitadamente por qualquer caminho que se estenda ate +∞. Logo,se conseguirmos provar que f e limitada superiormente num certo caminho de Rn quando‖x‖ → +∞ entao provamos que f nao e coerciva.

As funcoes coercivas atingem sempre o seu mınimo global. Na verdade, pode provar-se [30][pag. 34] que todos os conjuntos de nıvel Nα(f) = {x ∈ S : f(x) ≤ α} sao limitadose fechados. Esta constatacao conjugada com o Teorema 2.4 leva ao resultado seguinte.

Corolario 2.1 Uma funcao coerciva f : Rn −→ R atinge o seu mınimo global em Rn.

Com este enquadramento, voltamos a questao da existencia de solucao para o Problema(2.5) de mınimos quadrados sem restricoes. Fixada uma funcao de ajuste φ(x, t) e umatabela de dados (ti, yi), i = 1(1)m poderıamos tentar provar que a funcao e coerciva ouentao aplicar o Teorema 2.4.

Investigacoes recentes de E. Demidenko [12, 13], de D. Jukic [8, 9, 10, 7] e de outrosautores [14] mostram que mesmo para funcoes de ajuste simples ha conjuntos de dados paraos quais nao ha solucao de mınimos quadrados. Convem frisar que a investigacao se temdirigido para funcoes de ajuste muito usadas na pratica (curvas exponenciais [14], curvasGaussianas [10], curvas logısticas [7]), procurando condicoes necessarias e/ou suficientesque garantam a existencia de solucao de mınimos quadrados. Como ja foi dito, tudodepende da tabela de dados experimentais e das suas propriedades.

44

Page 61: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

A investigacao teorica acerca da atingibilidade do mınimo nos problemas de mınimosquadrados esta fora do ambito deste trabalho. Contudo, e importante referir que o assuntoe uma area de investigacao ainda fertil. No entanto, alertamos para a possibilidade de naoexistir minimizante global para estes problemas.

2.3.2 Unicidade da solucao de mınimos quadrados

Apos provar que a solucao existe levanta-se imediatamente a questao da unicidade dasolucao. Nao se trata da existencia de multiplos mınimos locais (que sera tratado adiante),trata-se da existencia de minimizantes globais distintos. E facil de provar que isso podeacontecer numa multiplicidade de situacoes tais como:

� No caso linear nao polinomial quando o sistema normal e indeterminado (ver Exemplo1.7).

� Um dos parametros xi surge como base de uma potencia de expoente dois ou mais.Por exemplo, quando procuramos o ajuste de uma tabela de dados a uma curva deLorentz:

φ(x, t) =x1

1 +(x2−tx3

)2 .Se existir uma solucao de mınimos quadrados x∗ = [x∗1, x

∗2, x∗3]> entao tera de existir

outra solucao otima distinta x∗∗ = [x∗1, x∗2,−x∗3]>. Ou seja, podemos trocar o sinal

ao parametro x∗3 que a funcao φ mantem o valor. Logo a funcao f do problema (2.5)tambem mantera o valor.

� Dois parametros podem ser trocados sem que o valor de φ se altere. Um caso simplese quando a expressao analıtica que define φ envolve o produto de dois parametros,pois, por exemplo, x1x2 e igual a x2x1.

� Um dos parametros surge como argumento de uma funcao trigonometrica periodica.E claro que, por exemplo, sin(x1) tera o mesmo valor de sin(x1 + 2nπ) com n ∈ Z.

Outras situacoes podem ocorrer por forma que existam multiplos minimizantes globais.Note-se que sempre que isso acontece a funcao objectivo f nao e estritamente convexa.Esta observacao conduz ao topico seguinte.

2.3.3 Existencia de multiplos minimizantes locais distintos

Como vimos podem existir multiplos minimizantes globais distintos. Na verdade, afuncao f pode nao ser convexa. Sem convexidade podem ocorrer multiplos minimizanteslocais o que leva a classificar o Problema (2.5) de mınimos quadrados sem restricoes comoum problema de optimizacao global.

Vejamos agora que a funcao f pode ser convexa ou nao convexa dependendo do pro-blema.

45

Page 62: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Considerando que r(x) e duas vezes continuamente diferenciavel, podemos determinara matriz das primeiras derivadas de r(x) que e chamada matriz Jacobiana e e representadapor J(x). Assim temos que J(x) ∈ Rm×n, isto e,

J(x) =

∂r1(x)∂x1

∂r1(x)∂x2

· · · ∂r1(x)∂xn

∂r2(x)∂x1

∂r2(x)∂x2

· · · ∂r2(x)∂xn

......

. . ....

∂rm(x)∂x1

∂rm(x)∂x2

· · · ∂rm(x)∂xn

. (2.9)

O gradiente da funcao objetivo f(x) e dado por:

∇f(x) =m∑i=1

ri(x)∇ri(x) = J(x)T r(x) (2.10)

e a matriz Hessiana de f(x) e dada por

∇2f(x) =m∑i=0

[∇ri(x)∇ri(x)T + ri(x)∇2ri(x)]

=m∑i=0

∇ri(x)∇ri(x)T +m∑i=0

ri(x)∇2ri(x)

= J(x)TJ(x) + S(x), (2.11)

em que

S(x) =m∑i=0

ri(x)∇2ri(x). (2.12)

Na expressao (2.11), o termo J(x)TJ(x) representa sempre uma matriz definida positiva2

desde que J tenha caracterıstica n. Se o problema de mınimos quadrados (2.5) fosse lineartodas as Hessianas∇2ri(x) = 0 e entao S(x) = 0 na expressao (2.12). Neste caso particular,∇2f(x) e definida positiva e entao f e uma funcao convexa em Rn.

No caso em que f e nao linear, pode muito bem acontecer que alguns ou todos ostermos ri(x)∇2ri(x) contribuam contra a convexidade. Como ja vimos isso pode levar aque a funcao nao seja convexa e ocorram multiplos minimizantes locais e ate multiplosminimizantes globais.

Na literatura surgem estudos [12] que provam a existencia de multiplos minimizan-tes locais na optimizacao de mınimos quadrados. Como os algoritmos podem parar emmınimos locais, corre-se o risco de supor como global um minimizante que apenas e local.Partir de varias aproximacoes iniciais e usar varios metodos aumenta o grau de certezade que a solucao encontrada possa ser mesmo um minimizante global. Este dilema e bemconhecido na pratica. Contudo, comecam a surgir criterios seguros [13] para estabelecerque um certo minimizante e mesmo global.

2 Dada uma qualquer matriz J ∈ Rm×n com caracterıstica n, por colunas, a matriz B = JTJ e sempredefinida positiva.

46

Page 63: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

2.4 Metodos Numericos de Minimizacao

A resolucao do sistema de equacoes (2.4) permite-nos encontrar os candidatos a seremminimizantes de f . Mas acontece que nem sempre e possıvel determinar uma solucao dessesistema de equacoes visto se tratar de um sistema de equacoes nao lineares. Para amenizareste problema, surgem os metodos numericos que sao metodos iterativos que, partindo deuma aproximacao inicial x0, geram uma sequencia de aproximacoes {xk}k=0,1,···, tendo comoobjetivo a minimizacao da funcao f . Deve-se em cada passo, encontrar um ponto xi que deum valor inferior da funcao objetivo relativamente ao valor encontrado anteriormente. Osmetodos que abordaremos baseiam-se na estrategia chamada busca linear (linear search).Esses metodos, partindo de um ponto xk procuram em cada iteracao uma direcao dk emovendo-se nessa direcao para chegar a um ponto xk+1 de modo a obter f(xk+1) < f(xk).Tendo-se uma direcao dk determina-se a distancia que se deve percorrer ao longo dessadirecao. Essa distancia designada comprimento do passo, e representada por αk e e obtidaresolvendo o problema de otimizacao unidimensional:

minαk∈R

f(xk + αkdk). (2.13)

2.4.1 Metodo da Descida mais Rapida (Steepest Descent)

Segundo [33, pag. 399] este metodo foi proposto pelo matematico Cauchy em 1847.Trata-se de um metodo iterativo que procura novas aproximacoes utilizando a direcaooposta ao do gradiente da funcao f em x = xk. Em [3, pag. 120-121], prova-se que essadirecao e de descida maxima. Com efeito, consideremos o problema de otimizacao

minx∈Rn

F (x). (2.14)

Usando a expansao em serie de Taylor

F + ∆F = f(x+ δ) ∼= f(x) + g(x)T δ +1

2δTHδ

e fazendo ‖δ‖ → 0, a variacao em F dada pelo afastamento δ resulta em

∆F ∼= g(x)T δ = g(x)T |δ.

Ora, g(x)T |δ e o produto escalar dos vetores g(x) e δ. Considerando g(x) = [g1, g2, · · · , gn]T

e δ = [δ1, δ2, · · · , δn]T , temos:

∆F ∼=n∑k=1

giδi = ‖g‖‖δ‖ cos(θ),

onde θ e o angulo definido pelos vetores δ e g(x). Sejam x e x+ δ pontos de uma curva denıvel. Assim, quando ‖δ‖ → 0 teremos,

∆F ∼= ‖δ‖‖g‖ cos θ = 0

47

Page 64: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

de onde segue que θ = ±π2. Logo, para qualquer vetor δ, concluımos que ∆F assume o

valor maximo quando θ = 0, sendo g = ∇f(x) a direcao de subida mais rapida e ∆F temo valor mınimo quando θ = π, sendo −g = −∇f(x) a direcao de descida mais rapida.

Alem da direcao da descida mais rapida, ha outras direcoes de descida que tambempodem ser consideradas. De um modo geral, todas as direcoes que fazem um angulo devalor absoluto estritamente inferior a π

2com −∇f(x) sao direcoes de descida, garantindo

um decrescimo na funcao objetivo f , desde que se escolha um passo α suficientementepequeno. Com efeito, considerando o Teorema de Taylor, truncado apos o segundo termo,temos:

f(xk + αdk) ≈ f(xk) + αdTk∇f(xk),

onde dk e uma direcao de descida e o angulo entre o dk e ∇f(xk) designado por θk e talque cos θk < 0. Daı segue que

dTk∇f(xk) = ‖dk‖‖∇f(xk)‖ cos θk < 0,

significando que f(xk + αdk) < f(xk) para todo α assumindo um valor positivo suficiente-mente pequeno.

Como dissemos anteriormente este metodo e iterativo uma vez que as direcoes dk =−∇f(xk) nao apontam necessariamente para o mınimo da funcao. Assim, partindo deum ponto x0, determina-se d0 = −g(x0), depois encontra-se α0 resolvendo o problema deminimizacao unidimensional3, min f(x0 + αd0). Com isso, obtem-se x1 = x0 + α0d0. Oprocesso deve ser repetitivo, usando a relacao xk+1 = xk + αkdk, por forma a encontraruma solucao otima x∗ que satisfaca um certo criterio de paragem previamente estabelecido.Esse criterio pode ser, parar quando ‖αkdk‖ for insignificante ou quando αk ≤ Kα0, ondeK e uma constante positiva suficientemente pequena.

Determinando o valor exato de α que minimiza f ao longo da direcao dk, temos que

∂f

∂α(xk + αdk) = g(xk + αdk)

Tdk = 0,

onde g(xk + αdk) e o gradiente de f no ponto xk + αdk. Assim, as sucessivas direcoesde descida maxima sao ortogonais. Esse facto leva com que este metodo apresente umcomportamento zig-zag nas ultimas iteracoes e uma consequente lentidao na obtencao dovalor otimo x∗.

Em [3, pag. 123] encontramos o seguinte algoritmo para o metodo Steepest Descent.Passo 1Introduzir x0 e inicializar a tolerancia ε.Fazer k = 0.Passo 2Calcular o gradiente gk e fazer dk = −gk.Passo 3Encontrar αk, o valor de α que minimiza f(xk + αdk), usando uma pesquisa linear.

3Este assunto pode ser estudado por exemplo em [3] ou em [33].

48

Page 65: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Passo 4Fazer xk+1 = xk + αkdk e calcular fk+1 = f(xk+1).Passo 5Se ‖αkdk‖ < ε, entao fazer:x∗ = xk+1 e f(x∗) = f(xk+1), e pararCaso contrario, fazer k = k + 1 e voltar ao Passo 2.

Convergencia do Metodo Steepest Descent

Consideremos o caso em que a funcao objetivo e uma funcao quadratica dada por:

f(x) =1

2xTQx− xT b

em que Q e uma matriz constante, no caso simetrica e definida positiva. Assim, pode-seencontrar o unico minimizante de f , resolvendo a condicao ∇f = 0, ou seja, resolvendoQx − b = 0. Pelo metodo da descida mais rapida temos que xk+1 = xk − αkgk, ondegk = Qx− b. Determinando agora αk que minimiza f , vem

f(xk − αgk) =1

2(xk − αgk)TQ(xk − αgk)− (xk − αgk)T b = φ(α).

Calculando agora a derivada de φ(α) e igualando a zero, temos

∂φ

∂α= (−gk)TQ(xk − αgk) + gTk b = 0⇔ (−gk)T (Qxk − b) + (gk)

TQgkα = 0⇔ α =gTk gkgTkQgk

.

Assim, usando o αk obtido, o metodo steepest descent para uma funcao quadratica e dadoexplicitamente por

xk+1 = xk − gTk gkgTkQgk

gk.

Em [29, pag. 49] encontramos um teorema que estabelece as condicoes de convergenciado metodo steepest descent para uma funcao f(x) ∈ C2, com um minimizante x∗ e cujamatriz Hessiana seja definida positiva para x∗. Apresenta-se de seguida esse resultado.

Teorema 2.5 Suponha-se que f : Rn → R e duas vezes continuamente diferenciavel e queas iteracoes geradas pelo metodo steepest descent com busca linear exata convergem paraum ponto x∗ no qual a matriz Hessiana seja definida positiva. Entao,

f(xk+1)− f(x∗) ≤(λn − λ1λn + λ1

)2 [f(xk)− f(x∗)

], (2.15)

onde 0 < λ1 ≤ λ2 ≤ · · · ≤ λn, sao os n valores proprios de H(x∗).

49

Page 66: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

De notar que a razao de convergencia4(λn−λ1λn+λ1

)2depende da razao r = λn

λ1. Com efeito,

(λn − λ1λn + λ1

)2

=

[1λ1

(λn − λ1)1λ1

(λn + λ1)

]2=

(λnλ1− 1

λnλ1

+ 1

)2

=

(r − 1

r + 1

)2

.

Por outro lado, a desigualdade (2.15) e verificada sempre que f for uma funcao quadratica(ver [25, pag. 238]). De (2.15) determina-se que

|f(xk+1)− f(x∗)||f(xk)− f(x∗)|

≤(λn − λ1λn + λ1

)2

=

(r − 1

r + 1

)2

.

Verifica-se assim, que o metodo converge linearmente (ver Apendice B), isto e, a ordem de

convergencia e p = 1, sendo a razao de convergencia c =(1−r1+r

)2.

Este teorema mostra que a taxa de convergencia do metodo steepest descent se tornamais lenta conforme as curvas de nıvel de f se tornam mais excentricas. Se λ1 = λn, oque significa dizer que as curvas de nıvel sao circulares, a convergencia ocorre num unicopasso. No entanto, isso pode ocorrer noutros casos (ver Exemplo seguinte).

Exemplo 2.2 Considere a funcao

f(x, y) = 10x2 + 5xy + 10(y − 3)2.

(a) Encontrar a direcao steepest descent para f no ponto z0 = [−1, 3]T .

(b) Encontrar o ponto z1, aplicando uma iteracao do metodo steepest descent.

Resolucao:

(a) Para encontrar a direcao steepest descent para f em z0, primeiro calculemos o gra-diente de f .

∇f(x, y) =

[20x+ 5y

5x+ 20(y − 3)

]⇒ ∇f(−1, 3) =

[−5−5

].

Logo, a direcao steepest descent para f no ponto z0 = [−1, 3]T e d0 =

[55

].

(b) Para encontrar z1 fazemos:

z1 = z0 + α∗d0 ⇒[−13

]+ α∗

[55

]=

[−1 + 5α∗

3 + 5α∗

],

ondeα∗ = min

α>0g(α),

4Sobre razao de convergencia, ver Apendice B.

50

Page 67: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

com g(α) = f

([−1 + 5α3 + 5α

]).

Entao,

g(α) = 10(−1 + 5α)2 + 5(−1 + 5α)(3 + 5α) + 10(5α)2

= 625α2 − 50α− 5.

g′(α) = 2× 625α− 50 = 0⇔ α =50

2× 625.

Pelo que α∗ = 125

. Assim, z1 =

[−13

]+ 1

25

[55

]=

[−4

5165

]. Neste caso z1 e o valor otimo

do problema. Com efeito, verifica-se pelo calculo diferencial que z1 e o minimizante

global de f uma vez que ∇f(x, y) = 0⇒[xy

]=

[−4

5165

]e H(z) =

[20 55 20

]e definida

positiva, de onde segue que f e estritamente convexa, atingindo o seu minimizanteglobal no seu unico ponto crıtico. Pode-se ver tambem que neste caso partimos de umaaproximacao inicial bastante proxima do minimizante e que os valores proprios deH, λ1 = 15 e λ2 = 25 sao relativamente proximos, tendo-se assim, r = 25

15= 1.6666...

e c =1− 25

15

1+ 2515

= 0.0625 ≈ 0, levando assim a convergencia do metodo steepest descent

numa so iteracao.

2.4.2 Metodo de Newton

O metodo de Newton e um metodo de segunda ordem visto que baseia nos valores dafuncao objetivo, e da sua primeira e segunda derivadas . Segundo [39] A direcao de buscado metodo de Newton e considerada uma das mais importantes.

Seja f : D ⊂ Rn → R duas vezes continuamente diferenciavel. O metodo de Newtonassenta na ideia da aproximacao da funcao f(x) em x = xk pelo desenvolvimento em seriede Taylor de segunda ordem, ou seja,

f(x) ≈ f(xk) +∇f(xk)T (x− xk) +1

2(x− xk)T∇2f(xk)(x− xk). (2.16)

Tendo-se como objetivo a minimizacao de f(x) e assumindo que H(xk) = ∇2f(xk) edefinida positiva, devemos resolver o sistema de estacionaridade de (2.16) no ponto xk,obtendo:

∇f = ∇f(xk) +H(xk)(x− xk) = 0. (2.17)

Resolvendo (2.17) e fazendo x = xk+1, obtem-se a formula iteradora de Newton

xk+1 = xk −[H(xk)

]−1∇f(xk), (2.18)

51

Page 68: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

uma vez que assumimos que H(xk) e definida positiva, sendo portanto invertıvel. Assim,deduzimos que a direcao de procura do metodo de Newton e dada por:

dk = −[H(xk)

]−1∇f(xk). (2.19)

De salientar que no metodo de Newton basico considera-se sempre que o comprimentodo passo e uma unidade (α = 1), nao havendo assim a necessidade de fazer minimizacaounidimensional.

Um caso particular da aplicacao do metodo de Newton e quando a funcao f e umafuncao quadratica. Aı se prova que o metodo converge numa so iteracao. Com efeito,consideremos a funcao quadratica dada por

f(x) =1

2xTHx+ bTx.

O minimizante global de f e obtido resolvendo o sistema de estacionaridade

∇f = Hx+ b = 0⇒ x∗ = −[H]−1b.

Agora aplicando (2.18) temos:

xk+1 = xk − [H]−1∇f(xk) = xk − [H]−1(Hxk + b),

sendo xk o ponto inicial da iteracao k. Daı segue imediatamente que

xk+1 = −[H]−1b = x∗.

Portanto, o Metodo de Newton encontrou o minimizante numa so iteracao.

Exemplo 2.3 Minimize a funcao quadratica f(x) = 4x21 + 3x22 − 5x1x2 − 8x1, usando ometodo de Newton e partido da aproximacao inicial x0 = [0, 0]T .

∇f(x) =

[8x1 − 5x2 − 8

6x2 − 5x1

]⇒ f(x0) =

[−80

]H(x) = ∇2f(x) =

[8 −5−5 6

]Verifica-se facilmente pelo criterio dos menores principais liderantes que H(x) e definidapositiva, pois

8 > 0∣∣∣∣∣ 8 −5

−5 6

∣∣∣∣∣ = 23 > 0.

[H(x)]−1 =

[623

523

523

823

]Assim temos que,

x1 = x0 − [H(x)]−1∇f(x0)⇒ x1 =

[00

]+

[623

523

523

823

] [80

]⇒ x1 =

[48234023

].

52

Page 69: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

E facil provar pelo calculo diferencial que esse valor e o minimizante global da funcaof . Portanto o Metodo de Newton encontrou o minimizante de f numa so iteracao.

Figura 2.1: Ilustracao do Exemplo 3.4

O Metodo de Newton e bem comportado perto do valor otimo x∗ uma vez que a funcaof tem segundas derivadas parciais continuas e a matriz Hessiana de f e definida positivanum ponto que seja minimizante local. Quando se parte de uma aproximacao inicialsuficientemente proxima do minimizante, o metodo de Newton tem ordem de convergenciadois, como mostrado no resultado seguinte.

Teorema 2.6 Seja f ∈ C3 em Rn, e consideremos que no ponto de mınimo local x∗ amatriz Hessiana H(x∗) e definida positiva. Entao se se partir de uma aproximacao inicialsuficientemente proxima de x∗, os pontos gerados pelo metodo de Newton convergem parax∗ com ordem de convergencia pelo menos dois.

Prova: A prova deste teorema pode ser vista por exemplo em [41, pag. 48-49]. Apresen-tamos aqui uma prova baseada em [25, pag. 247].

Sejam ρ > 0, β1 > 0, β2 > 0 tal que para todo x, com ‖x−x∗‖ < ρ se tem ‖[H(x)]−1‖ <β1 e ‖∇f(x∗) − ∇f(x) − H(x)(x∗ − x)‖ ≤ β2‖x − x∗‖2. Agora suponhamos que xk eselecionado de modo que β1β2‖xk − x∗‖ < 1 e ‖xk − x∗‖ < ρ. Entao,

‖xk+1 − x∗‖ =∥∥xk − x∗ − [H(xk)]−1

[∇f(xk)−∇f(x∗)

]∥∥=

∥∥[H(xk)]−1[∇f(x∗)−∇f(xk)−H(xk)(x∗ − xk)

]∥∥≤ ‖[H(xk)]−1‖ β2 ‖xk − x∗‖2

≤ β1β2‖xk − x∗‖2

< ‖xk − x∗‖.

53

Page 70: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Esta desigualdade mostra que o novo ponto xk+1 encontra-se mais proximo de x∗ do queo ponto anterior. Desde que ‖xk − x∗‖ < 1, o que acontece de xk ≈ x∗, para cada iteracaoxk, a nova iteracao xk+1 encontrada pelo algoritmo satisfaz a condicao ‖xk+1 − x∗‖ ≤β1β2‖xk − x∗‖2. Sendo xk → x∗, a desigualdade estabelece que a ordem de convergencia edois (ver Apendice B). 2

Desvantagens do Metodo de Newton

� Requer a inversao da matriz Hessiana H(xk) ou a resolucao do sistema linear deequacoes H(xk)dk = −∇f(xk) em cada iteracao.

� Se H(x) nao for definida positiva a direcao de Newton nao e uma direcao de descida.E com isso podera nao haver um decrescimo na funcao objetivo.

� Se a matriz H(xk) for singular para algum k, a sucessao de aproximacoes xk, k ∈ N0

nao esta definida, isto e, o metodo nem sequer e aplicavel.

� Tem desempenho fraco ou pode nao convergir se a estimativa inicial nao for boa. Naverdade, o Teorema (2.6) apenas garante convergencia local.

2.4.3 Metodo de Newton Modificado

Para colmatar algumas das dificuldades do metodo de Newton introduzem-se algu-mas modificacoes. Uma das modificacoes que pode ser considerada e a introducao de umparametro de busca linear αk. Deste modo, deixamos de ter o comprimento do passo iguala uma unidade em cada iteracao para passarmos a ter um comprimento do passo αk queminimiza a funcao f na direcao de pesquisa do metodo de Newton. Assim, passamos a tera nova iteradora:

xk+1 = xk − αk[H(xk)]−1∇f(xk) (2.20)

onde αk = arg minα∈R f(xk + αdk), com dk = −[H(xk)]−1∇f(xk).Uma outra modificacao que pode ser introduzida e a correcao da matriz H(xk) que

como ja referimos pode nao ser definida positiva, fazendo com que a direcao de Newtonnao seja uma direcao de descida. Assim, a estrategia sera “forcar” a matriz H(xk) aser definida positiva. Apesar de que quando se altera a matriz H(xk) esta deixa de ser amatriz Hessiana de f em xk, garantimos que a nova direcao sk seja uma direcao de descida,podendo conduzir a um melhoramento no valor da funcao objetivo.

Algoritmo para o Metodo de Newton Modificado

Em [3, pag. 130] encontramos o seguinte algoritmo para o metodo de Newton, incluindoas modificacoes ao metodo de Newton Basico.Passo 1Introduzir x0 e inicializar a tolerancia ε.Fazer k = 0.

54

Page 71: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Passo 2Calcular g(xk) e H(xk).Se H(xk) nao for definida positiva, forca-la a ser definida positiva.Passo 3Calcular [H(xk)]−1 e dk = −[H(xk)]−1g(xk).Passo 4Encontrar αk, o valor de α que minimiza f(xk + αdk), fazendo a minimizacao unidimensi-onal.Passo 5Fazer xk+1 = xk + αkdk.Calcular f(xk+1).Se ‖αkdk‖ < ε, entao:Indicar x∗ = xk+1 e f(x∗) = f(xk+1), e parar. Caso contrario fazer k = k + 1 e voltar aoPasso 2.

2.5 Metodos Quasi-Newton

O metodo de Newton discutido na secao anterior, apresenta as dificuldades do uso eavaliacao da matriz Hessiana e da determinacao da sua inversa em cada iteracao. Paraamenizar esta dificuldade e com o objetivo de resolver problemas de otimizacao que exi-giam muitos calculos, em meados de 1950 o fısico W. C. Davidon desenvolveu o primeiroalgoritmo Quasi-Newton, introduzindo aproximacoes sucessivas para a matriz inversa daHessiana. A partir dessa data, varios metodos Quasi-Newton foram desenvolvidos. Nestasecao abordaremos dois desses metodos mais populares, que sao:

� BFGS, proposto por Broyden, Fletcher, Goldfarb e Shanno;

� DFP, proposto por Davidon, Fletcher, e Powell.

2.5.1 Abordagem dos Metodos Quasi-Newton Basico

Consideremos o problema de otimizacao sem restricoes

minx∈Rn

f(x) (2.21)

onde a funcao f ∈ C2 e H ∈ Rn×n a matriz Hessiana de f .Como vimos anteriormente, o metodo de Newton modificado consiste em encontrar em

cada iteracao um novo ponto que cumpre a relacao

xk+1 = xk − αkSk∇f(xk) (2.22)

sendo, Sk ∈ Rn×n uma matriz simetrica, ∇f(xk) o gradiente de f no ponto xk e αk ocomprimento do passo, escolhido de tal forma que minimize f(xk). Se Sk = [H(xk)]−1

55

Page 72: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

estamos perante o metodo de Newton Basico e se Sk = I (matriz identidade) temos ometodo steepest descent.

Os metodos Quasi-Newton procuram obter uma estimativa da matriz inversa da Hes-siana evitando assim o calculo da inversa da Hessiana como no metodo de Newton. Essesmetodos sao desenvolvidos primeiramente para o problema quadratico convexo e em se-guida sao estendidos para o caso geral.

Consideremos entao o problema quadratico

minimize f(x) = bTx+1

2xTQx.

Calculando a derivada de f(xk − αSk∇f(xk)) em relacao a α e igualando a zero, deduz-seo valor de α que minimiza f(xk − αSk∇f(xk)) como

αk =gTk Skgk

gTk SkQSkgk, (2.23)

onde gk = b+Qxk e o gradiente de f(x) avaliado em x = xk.O teorema seguinte permite-nos obter a taxa de convergencia do algoritmo, generali-

zando a analise levada a cabo pelo metodo steepest descent.

Teorema 2.7 Metodo de Newton Modificado (Caso Quadratico). Seja x∗ o unicominimizante de f e consideremos E(x) = 1

2(x − x∗)TQ(x − x∗). Entao, pelo Algoritmo

(2.22) cumpre-se para cada k:

E(xk+1) ≤(λn − λ1λn + λ1

)2

E(xk), (2.24)

onde λn e λ1 sao respectivamente o maior e o menor valores proprios da matriz SkQ.

Prova: Considerando xk − x∗ = yk, e fazendo a substituicao direta usando E(x), temos

E(xk)− E(xk+1)

E(xk)=yTkQyk − (yk − αkSkgk)TQ(yk − αkSkgk)

yTkQyk

⇔ E(xk)− E(xk+1)

E(xk)=

2αkgTk SkQyk − α2

kgTk SkQSkgk

yTkQyk.

Usando a igualdade gk = Qyk e substituindo αk porgTk Skgk

gTk SkQSkgk, vem

E(xk)− E(xk+1)

E(xk)=

2(gTk Skgk)

2

gTk SkQSkgk− (

gTk SkgkgTk SkQSkgk

)2gTk SkQSkgk

gTkQ−1gk

E(xk)− E(xk+1)

E(xk)=

(gTk Skgk)2

(gTk SkQSkgk)(gTkQ−1gk)

56

Page 73: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Fazendo Mk = S1/2k QS

1/2k e pk = S

1/2k gk, temos

E(xk)− E(xk+1)

E(xk)=

(pTk pk)2

(pTkMkpk)(pTkM−1k pk)

⇔ E(xk+1) =

[1− (pTk pk)

2

(pTkMkpk)(pTkM−1k pk)

]E(xk).

Usando agora a desigualdade de Kantorovich5, temos

E(xk+1) ≤[1− 4λ1λn

(λ1 + λn)2

]E(xk) =

(λn − λ1λn + λ1

)2

E(xk),

onde λ1 e λn sao respectivamente o menor e o maior valores proprios de Mk. ComoS1/2k MkS

−1/2k = SkQ, verificamos que SkQ e uma matriz semelhante a Mk, pelo que tem os

mesmos valores proprios. 2

Este teorema apresenta uma nocao intuitiva de que para o problema quadratico deve-seproduzir uma matriz Sk proxima da inversa da matriz Q, desde que tanto o menor quantoo maior valores proprios estejam proximos de um, tendo-se assim uma convergencia rapida.

No caso de funcoes nao quadraticas deve-se ter um procedimento analogo, isto e, amatriz Sk produzida deve ser definida positiva e aproximada da matriz Hessiana da funcaoobjetivo avaliada em x = xk.

2.5.2 Metodo DFP (Davidon-Fletcher-Powell)

Como ja referimos anteriormente, os metodos Quasi-Newton tem como filosofia princi-pal gerar uma direcao de pesquisa baseada numa matriz Sk definida positiva e que seja umaboa aproximacao da inversa da matriz Hessiana da funcao objetivo. Essa aproximacao efeita considerando a seguinte equacao:

Sk+1dk = yk, (2.25)

chamada equacao da tangente, onde dk e yk sao vetores assim definidos

dk = xk+1 − xk e yk = ∇f(xk+1)−∇f(xk). (2.26)

O metodo Quasi-Newton DFP (Davidon-Fletcher-Powell) foi um dos primeiros metodospara construir uma aproximacao da inversa da Hessiana. Esse metodo foi primeiramenteproposto por Davidon e desenvolvido posteriormente por Fletcher e Powell.

Segundo [3] o metodo DFP tem a seguinte vantagem: se a matriz inicial S0 for definidapositiva, a formula de atualizacao para Sk vai produzir uma sequencia de matrizes definidaspositivas S1, S2, · · · , Sn.

5A desigualdade de Kantorovich estabelece que 4λ1λn

(λ1+λn)2≤ (rT r)2

(rTAr)(rTA−1r), onde r ∈ Rn, A ∈ Rn×n e

uma matriz simetrica e definida positiva, λ1 e λn sao respectivamente o menor e o maior valores propriosde A.

57

Page 74: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

O algoritmo para o metodo DFP, apresentado por [25], iniciando com uma matrizqualquer S0 definida positiva, um ponto x0 e com k = 0, e:Passo 1Fazer dk = −SkgkPasso 2Minimizar f(xk + αdk), com α ≥ 0 para obter xk+1, pk = αkdk e gk+1.Passo 3Fazer qk = gk+1 − gk e

Sk+1 = Sk +pkp

Tk

pTk qk− Skqkq

Tk Sk

qTk Skqk. (2.27)

Passo 4Atualizar k = k + 1 e voltar ao Passo 1.

O MATLAB usa este algoritmo no comando fminunc, desde que se escolha DFP comoopcao.

2.5.3 Metodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS)

A formula mais conhecida para gerar uma sequencia de aproximacoes para a matrizH−1 e a proposta por Broyden, Fletcher, Goldfarb e Shanno e e dada por:

Sk+1 = Sk +

(1 +

qTk SkqkpTk qk

)pkp

Tk

pTk qk− pkq

Tk Sk + Skqkp

Tk

pTk qk, (2.28)

em que pk = αkdk = xk+1 − xk e qk = gk+1 − gk.

Exemplo 2.4 (Sugerido por [33, pag. 375]) Considere o problema de Rosenbrook:

Minimize f = 100(x2 − x21)2 + (1− x1)2.

Executar duas iteracoes do metodo BFGS para minimizar a funcao f , inicializando com oponto x0 = [−1.2, 1.0]T .

Resolucao: Neste caso temos que

f(x0) = 24.2

g(x) =

[−400x1(x2 − x21)− 2(1− x1)

200(x2 − x21)

]e g(x0) =

[−215.6−88.0

]S0 = I , d0 = −S0g(x0) = −

[1 00 1

] [−215.6−88.0

]=

[215.688.0

].

Para determinar o comprimento do passo α∗ ao longo da direcao d0, vamos minimizar

f(x0 + αd0) = f

([−1.21.0

]+ α

[215.688.0

])= 100(1 + 88α− (−1.2 + 215.6α)2)2 + (2.2− 215.6α)2.

58

Page 75: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

Com o auxilio do MATLAB obtemos α∗ ∼= 0.0008, logo temos que

x1 =

[−1.21.0

]+ 0.0008

[215.688.8

]∼=[−1.02751.0704

].

f(x1) = 4.1322 e ∇f(x1) ∼=[1.94672.9205

]Como ∇f(x1) 6= 0, prosseguimos para a segunda iteracao.

p0 = x1 − x0 ∼=[−1.02751.0704

]−[−1.21.0

]∼=[0.17250.0704

]

q0 = g1 − g0 ∼=[1.94672.9205

]−[−215.6−88.0

]∼=[217.546790.9205

]

pT0 q0 = [0.1725 0.0704]

[217.546790.9205

]∼= 43.9276

p0pT0∼=[0.17250.0704

][0.1725 0.0704] ∼=

[0.0298 0.01210.0121 0.0050

]

qT0 S0q0 ∼= [217.4567 90.9205]

[1 00 1

] [217.456790.9205

]∼= 55593.094

p0qT0 S0∼=[0.17250.0704

][217.5467 90.9205]

[1 00 1

]∼=[

375268 15.683815.3153 6.4008

]

S0q0pT0∼=[1 00 1

] [217.546790.9205

][0.1725 0.0704] ∼=

[37.5268 15.315315.6838 6.04008

].

Assim temos:

S1∼=

[1 00 1

]+

(1 +

55593.094

43.9276

)1

43.9276

[0.0298 0.01210.0121 0.0050

]− 1

43.9276

[37.5268 15.683815.3153 6.4008

]− 1

43.9276

[37.5268 15.315315.6838 6.4008

]∼=

[1 00 1

]+

[−0.8506 −0.3555−0.3555 −0.1485

]∼=

[0.1494 −0.3555−0.3555 0.8515

].

59

Page 76: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos de Otimizacao sem Restricoes

d1 = −S1g1 = −[

0.1494 −0.3555−0.3555 0.8515

] [1.94672.9205

]∼=[

0.7474−1.7948

].

Agora devemos determinar α∗ que minimiza f(x1 + αd1).

f(x1 + αd1) = f

([−1.02751.0704

]+ α

[0.7474−1.7948

])= 100(1.0704− 1.7948α− (−1.0275 + 0.7474α)2)2 + (2.0275− 0.7474α)2

Com o comando fminunc do MATLAB, obtemos

α∗ ∼= 0.1439.

Assim, temos

x2 = x1 + α1d1

∼=[−1.02751.0704

]+ 0.1439

[0.7474−1.9748

]∼=

[−0.91990.8121

]f(x2) ∼= 3.8024.

E facil verificar que a funcao de Rosenbrook tem como minimizante global o ponto [1, 1]T ,

uma vez que f(x1, x2) ≥ 0 e f(x1, x2) = 0⇔

{x1 = 1

x2 = 1.

Nas primeiras duas iteracoes o metodo BFGS esta a aproximar-se de [−1, 1]T .

60

Page 77: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Capıtulo 3

Metodo de Newton para resolucao deSistemas nao Lineares de Equacoes

Em quase todos os ramos da ciencia, surgem frequentemente a necessidade de resolversistemas de equacoes nao lineares. Num sistema nao linear de equacoes, ha pelo menosuma equacao nao linear.

Exemplo 3.1 Seja o sistema de equacoes:{x2 + y2 − 9 = 0

x+ y − 3 = 0.

A partir da seguinte representacao grafica, verificamos que este sistema admite duas solucoes,que sao os pares ordenados (0, 3) e (3, 0).

−4 −3 −2 −1 1 2 3 4 5

−4

−3

−2

−1

1

2

3

4

0

De um modo geral um sistema nao linear de equacoes pode ter zero, uma ou infinitassolucoes. O numero de solucoes nao se pode deduzir do numero de equacoes nem do numerode incognitas.

61

Page 78: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

3.1 Forma geral do Problema

Seja F : D ⊆ Rn → Rn, em que D e um domınio de Rn. O problema consiste emdeterminar as solucoes do sistema de equacoes

F (x) = 0, (3.1)

que se pode tambem escrever em notacao indicial comof1(x1, x2, . . . , xn) = 0

f2(x1, x2, . . . , xn) = 0...

fn(x1, x2, . . . , xn) = 0

,

onde fi : D ⊂ Rn → R sao funcoes nao lineares em alguma componente i = 1, 2, . . . , n ex = [x1 x2 · · · xn]T .

Segundo [31], o sistema de equacoes (3.1) admite solucao analıtica somente em al-guns casos excepcionalmente simples, nao havendo assim metodos diretos de resolucao.Portanto, a resolucao de (3.1) e feita atraves de metodos aproximados que assumem geral-mente uma natureza iterativa. A utilizacao desses metodos para a resolucao de sistemasnao lineares de equacoes apresentam muitas dificuldades, a comecar com a dificuldade deprovar que um dado sistema tem solucoes; a localizacao de uma so solucao num certodomınio D ⊂ Rn que envolve normalmente complicacoes analıticas; por outro lado, provara convergencia de um metodo iterativo quando se parte de uma certa aproximacao inicialtambem e habitualmente muito difıcil. Todas estas dificuldades aumentam a medida queo numero de equacoes aumenta.

3.1.1 Sistemas nao Lineares de Equacoes versus Problemas deOtimizacao

E facil constatar que ha uma estreita relacao entre a resolucao de sistemas nao linearesde equacoes e a resolucao de problemas de otimizacao nao lineares sem restricoes. Comefeito, dada uma funcao f : Rn → R, o problema de minimizacao tem por base encontrarum vetor de Rn, x∗ para o qual a funcao f toma o valor mınimo. Caso f seja diferenciavelsomos conduzidos a resolucao do sistema de estacionaridade nao linear

∂xif(x) = 0, i = 1, 2, . . . , n. (3.2)

Um outro caso que podemos considerar e o caso em que temos uma certa quantidade yque satisfaz uma relacao

y(x) = f(x, a) (3.3)

em que f e uma funcao diferenciavel conhecida, x e a variavel independente e a o ve-tor dos parametros desconhecidos n-dimensional. Se para dados valores de x1, x2, . . . , xm

62

Page 79: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

obtiveram-se os valores y1, y2, . . . , ym, deve-se determinar os ai, i = 1, 2, . . . , n que satisfacao sistema

yi(x) = f(xi, a), i = 1, 2 . . . ,m (3.4)

que e um sistema de m equacoes e n incognitas, normalmente incompatıvel. Um procedi-mento para obter uma solucao a∗ tal que yi ≈ f(xi, a

∗), i = 1, 2, . . . ,m e aplicar o metododos mınimos quadrados que consiste em minimizar a funcao h : Rn → R definida por

h(a) =m∑i=1

[yi − f(xi, a)]2 . (3.5)

Para isso pode-se resolver o sistema de estacionaridade

∂h

∂ai=

m∑j=1

[yj − f(xj, a)]∂f

∂ai(xj, a) = 0, i = 1, 2, . . . , n.

Inversamente, considere o seguinte problema de minimizacao

minx∈Rn

g(x) = ‖F (x)‖22, (3.6)

que e um problema de mınimos quadrados nao lineares. A resolucao deste problema permiteresolver o problema (3.1). Se g(x∗) = 0 ⇔ F (x∗) = 0, neste caso x∗ e solucao do sistema(3.1). No entanto o Problema (3.1) nao e equivalente ao problema (3.6). Na verdadepodemos encontrar a solucao do problema (3.6), x∗ e termos g(x∗) > 0. Neste caso x∗ naoe solucao de (3.1).

3.2 Metodo de Newton

O metodo de Newton para resolucao de sistemas de equacoes nao lineares e equivalenteao metodo de Newton para minimizacao exposto no Capıtulo 2.

Consideremos novamente o seguinte sistema de equacoes nao lineares:f1(x1, x2, . . . , xn) = 0

f2(x1, x2, . . . , xn) = 0...

fn(x1, x2, . . . , xn) = 0

.

O sistema pode ser representado na forma vetorial

F (x) = 0 = [0 0 · · · 0]T ,

onde x = [x1 x2 · · · xn]T .

63

Page 80: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

Aplicando o desenvolvimento em serie de Taylor da funcao F (x), truncado a partir daprimeira ordem, em torno de x0, temos:

F (x) ≈ F (x0) + J(x0)(x− x0)

em que J(x0) e a matriz Jacobiana de F , calculada no ponto x0:

J(x0) =

∂f1∂x1

(x0) ∂f1∂x2

(x0) · · · ∂f1∂xn

(x0)∂f2∂x1

(x0) ∂f2∂x2

(x0) · · · ∂f2∂xn

(x0)...

.... . .

...∂fn∂x1

(x0) ∂fn∂x2

(x0) · · · ∂fn∂xn

(x0)

.Assim, de F (x) = 0, vem F (x0) + J(x0)(x − x0) = 0 ⇔ J(x0)(x − x0) = −F (x0). Agorafazendo x = x1 e admitindo que |J(x0)| 6= 0, o que leva a matriz J(x0) a ser invertıvel,podemos multiplicar ambos os membros da ultima equacao por J−1(x0), obtendo-se assim:

J−1(x0)J(x0)(x1 − x0

)= −[J(x0)]−1F (x0)

x1 = x0 − [J(x0)]−1F (x0),

que de forma generica nos leva a formula iteradora do Metodo de Newton para sistemasnao lineares,

xk+1 = xk − [J(xk)]−1F (xk) , k = 0, 1, 2, . . . , (3.7)

supondo que a matriz Jacobiana e invertıvel nos pontos x0, x1, x2, . . ., do domınio D.Se de (3.7) considerarmos δk = xk+1 − xk, vem que δk = −[J(xk)]−1F (xk), que e

equivalente aJ(xk)δk = −F (xk). (3.8)

Trata-se de um sistema linear de equacoes, cuja resolucao e muito mais barata em termoscomputacionais do que a inversao da matriz J(xk). Assim, resolvendo o sistema (3.8), aformula iteradora de Newton passa a ser dada por

xk+1 = xk + δk. (3.9)

3.2.1 Algoritmo de Newton para Sistemas nao Lineares de Equacoes

Em [4, pag. 23-24] encontramos o seguinte Algoritmo para o metodo de Newton.ENTRADA: Funcao vetorial F , estimacao inicial x0, tolerancia (tol) e numero maximode iteracoes (maxiter)SAIDA: Solucao aproximada x0, mensagem de fracasso, numero de iteracoes do processo(iter), estimacao do erro cometido (incr).PASSO 1: Inicializacao de variaveis:iter=0incr=tol+1

64

Page 81: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

PASSO 2: Enquanto incr > tol e iter < maxiter executar os passos 3 a 7.PASSO 3: Avaliacao da funcao vetorial F em x0 e calculo da matriz Jacobiana:

JF (x0) =

(∂fi∂xj

(x0)

)i,j=1,··· ,n

PASSO 4: Resolver o sistema linear

JF (x0)δ = −F (x0)

PASSO 5: tomar x = x0 + δPASSO 6: se ‖δ‖ e menor que a tolerancia (tol), entaoSAIDA xPARARPASSO 7: atualizar o contador de iteracoes e a variavel x0

iter=iter+1x0 = xPASSO 8: SAIDAPASSO 9: PARAR

Exemplo 3.2 Consideremos o sistema de equacoes{x31 + (x1 − x2)2 = 1

x1 + x1x22 = 2

que possui a solucao x∗ = [1 1]T . Efetuar duas iteracoes do metodo de Newton a partirda estimativa inicial x0 = [2 2]T .

Resolucao:O sistema pode ser escrito na forma

F (x) =

[f1(x1, x2)f2(x1, x2)

]=

[x31 + (x1 − x2)2 − 1x1 + x1x

22 − 2

]=

[00

],

com F : R2 → R2.A matriz Jacobiana e dada por[

3x21 + 2(x1 − x2) 2(x2 − x1)1 + x22 2x1x2

].

Para x0 = [2 2]T , tem-se

J(x0) =

[12 05 8

]e F (x0) =

[78

].

Com isso formamos o sistema de equacoes lineares[12 05 8

] [δ10δ20

]= −

[78

],

65

Page 82: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

cuja solucao aproximada e δ0 = [−0.5833 − 0.6354]T .Assim temos que

x1 = x0 + δ0 =

[22

]−[0.58330.6354

]=

[1.41671.3646

].

Para x1 ∼=[1.41671.3646

], vem

J(x1) ∼=[6.2259 −0.10423.0070 3.8665

]e F (x1) ∼=

[1.84612.0548

],

de onde formamos o seguinte sistema de equacoes lineares[6.2259 −0.10423.0070 3.8665

] [δ11δ21

]∼= −

[1.84612.0548

],

resultando em δ1 ∼= [−0.3015 − 0.2970]T .Os novos valores de x sao dados por

x2 = x1 + δ1 ∼=[1.41671.3646

]+

[−0.3015−0.2970

]∼=[1.11521.0676

].

Aparentemente, temos convergencia para a solucao [1 1]T .

3.2.2 Criterios de paragem

Para se aceitar um ponto xk+1 como uma aproximacao da solucao exata x∗ ou para seidentificar a divergencia do processo iterativo, e necessario estabelecer previamente criteriosde paragem. Sabendo que para a solucao exata x∗ temos que F (x∗) = 0, e natural que seestabeleca como criterio de paragem a condicao de que todas as componentes de F (xk+1)tenham valor absoluto proximos de zero. Assim considera-se ‖F (xk+1)‖ < ε1, onde ‖.‖ euma norma de vetores.

Outro criterio de paragem que tambem pode ser considerado, e verificar se ‖xk+1−xk‖encontra-se proximo de zero, isto e, parar o processo quando se verificar ‖xk+1− xk‖ < ε2,para ε2 previamente fixado.

Exemplo 3.3 (Sugerido por [37, pag. 575]) Considere o sistema de equacoes naolineares {

x2 + y2 − 4 = 0√x− y + 1 = 0

.

(a) Localize graficamente a raiz , deste sistema no primeiro quadrante de R2.

(b) Aplique o Metodo de Newton para encontrar uma aproximacao da solucao do sistema,partindo da aproximacao inicial z0 = [1 2]T e considere ε1 = ε2 = 10−2 (criterios deparagem referidos nesta secao).

66

Page 83: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

Resolucao:

(a) Tracando no mesmo referencial os graficos relativos as duas equacoes do sistema,verificamos que este sistema de equacoes admite uma unica solucao no primeiro qua-drante.

−3 −2 −1 1 2 3 4 5 6

−2

−1

1

2

3

4

0

(b) Considerando F (z) =

[x2 + y2 − 4√x− y + 1

]=

[00

], temos:

J(z) =

[2x 2y1

2√x−1

].

Para z0 = [1 2]T , tem-se

J(z0) =

[2 412−1

]e F (z0) =

[10

][

2 412−1

]δ0 = −

[10

]⇒ δ0 =

[−0.2500−0.1250

].

Assim

z1 = z0 + δ0 =

[12

]+

[−0.2500−0.1250

]=

[0.75001.8750

].

Usando a norma infinita, temos

‖z1 − z0‖∞ = max{0.25, 0.125} = 0.25 > ε2 = 0.01

F (z1) =

[0.0781−0.0090

]e ‖F (z1)‖∞ = max{0.0090, 0.0781} = 0.0781 > ε1 = 0.01.

67

Page 84: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

Portanto, seguimos para a segunda iteracao.

J(z1) =

[1.5 3.75

0.5774 −1

][

1.5 3.750.5774 −1

]δ1 = −

[0.0781−0.0090

]⇒ δ1 =

[−0.0121−0.0160

].

z2 = z1 + δ1 =

[0.75001.8750

]+

[−0.0121−0.0160

]=

[0.73791.8590

].

‖z2 − z1‖∞ = max{0.0121, 0.0160} = 0.0160 > ε2 = 0.01.

F (z2) =

[3.7741× 10−4

1.10593× 10−5

]‖F (z2)‖∞ = max{3.7741× 10−4, 1.10593× 10−5} = 1.10593× 10−5 < ε1 = 0.01.

Paramos o processo iterativo por se ter satisfeito um dos criterios de paragem.

Exemplo 3.4 Resolva o sistema de estacionaridade do Exemplo 1.11, aplicando o Metodode Newton.

Resolucao: O sistema de equacoes a resolver neste caso e{f(x, y) =

∑7j=1 [(vj − e−xtj − y sin(tj))(tje

−xtj)] = 0

g(x, y) =∑7

j=1 [(vj − e−xtj − y sin(tj))(− sin(tj))] = 0.

Vamos utilizar o MATLAB para a resolucao desde problema. Para isso vamos utilizar a rotinaseguinte que implementa o Metodo de Newton.

function [X,iter,erroX,erroF] = newtgen(FXJF,Xa,delta,epsilon,maxit)

%---------------------------------------------------------------------------

% Newton Generalizado - metodo iterativo para sistemas n~ao lineares F(X)=0

% F(X)=[f1(x1,...,xn) f2(x1,...,xn) ... fn(x1,...,xn)]’

%

% Entradas: FXJF vector das equac~oes do sistema F e matriz jacobiana JF

% (function [F,JF]=FXJF(X) em FXJF.m)

% Xa - aproximac~ao inicial de X=[x1 x2 ... xn]’

% delta - tolerancia para ||X^(k)-X^(k-1)||

% epsilon - tolerancia para ||F(X)||

% (e usada a norma de maximo - inf)

% maxit - maximo de iterac~oes

%

% Saıdas: X=[x1 x2 ... xn]’ aproximac~ao da soluc~ao

% iter - numero maximo de iterac~oes

68

Page 85: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

% erroX - ||X^(k)-X^(k-1)||_inf

% erroF - ||F(X^(k))||_inf

%---------------------------------------------------------------------------

%F(Xa) e JF(Xa)

[F,JF]=feval(FXJF,Xa);

for iter=1:maxit

%resolve JF(Xa)*Ha=-F(Xa)

Ha=-JF\F;

%nova aproximac~ao

X=Xa+Ha;

[F,JF]=feval(FXJF,X);

%criterio de paragem

erroX=norm(X-Xa,inf);

erroF=norm(F,inf);

if (erroX < delta) | (erroF < epsilon)

break;

end

Xa=X;

end

Para usar esta rotina na resolucao do problema criamos a function seguinte. Assimse define a funcao vetorial que define o sistema a resolver, bem como a sua respetiva matrizJacobiana.

%===================================================================

% Sistema de estacionariedade para soluc~ao de minımos quadrados

% Matriz Jacobiana para o metodo de Newton

% Ajuste da curva: \phi(a,b,t)=exp(-a*t)+b*sin(t)

%

%===================================================================

function [F J]=djcircuit(x)

ti=0:0.5:3;

Vi=[1.0950 -0.1569 -1.0157 -1.4740 -1.3616 -0.8342 -0.0135];

phi=exp(-x(1)*ti)+x(2)*sin(ti);

df=sum((Vi-phi).*(ti.*exp(-x(1)*ti)));

dg=sum((Vi-phi).*(-sin(ti)));

69

Page 86: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

F=[df dg]’;

J11=sum((Vi-phi).*(-ti.^2.*exp(-x(1)*ti))+(ti.*exp(-x(1).*ti)).^2);

J12=sum(-sin(ti).*ti.*exp(-x(1)*ti));

J21=sum((ti.*exp(-x(1)*ti)).*(-sin(ti)));

J22=sum((sin(ti)).^2);

J=[J11 J12; J21 J22];

end

Escolhendo agora como aproximacao inicial o vetor [0, 0]T e com o comando:

>> [X,iter,erroX,erroF] = newtgen(’djcircuit’,[0 0]’,1e-15,1e-15,1e4)

Obtivemos:

X =

0.4295

-1.9842

iter =

9

erroX =

2.6228e-009

erroF =

1.3271e-016

Os valores encontrados para os parametros neste caso sao os mesmos que os enconc-trados aquando da resolucao com o comando fsolve. Assim, podemos constatar o bomdesempenho do Metodo de Newton na resolucao deste sistema de equacoes.

3.3 Convergencia Local do Metodo de Newton

O metodo de Newton quando aplicado sobre determinados pressupostos apresenta umataxa de convergencia quadratica, isto e, o metodo gera uma sequencia de iteradas xk cujoerro absoluto relativamente a solucao x∗ decresce quadraticamente, em norma1. Essa e umadas principais vantagens do metodo de Newton. A convergencia e dita local na medida emque a sua garantia so e estabelecida para uma escolha x0 numa certa vizinhanca de x∗.

Para facilitar a demonstracao do proximo teorema que estabelece as condicoes de con-vergencia do metodo de Newton precisaremos de dois resultados auxiliares.

1Sobre a ordem de convergencia de uma sucessao ver Apendice B.

70

Page 87: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

Proposicao 1 Seja F : D ⊂ Rn → Rn uma funcao vetorial definida num conjunto abertoD. Suponhamos que F e continuamente diferenciavel em D e que a sua matriz JacobianaJ e contınua a Lipschitz2 em D com constante γ.

Entao, quaisquer que sejam x e x + d em D, com [x, x + d] ⊂ D e verdadeira adesigualdade

‖F (x+ d)− F (x)− J(x)d‖ ≤ γ

2‖d‖2. (3.10)

A prova desta proposicao pode ser vista em [43, pag. 11].

Proposicao 2 Seja A uma matriz quadrada, entao

limAk = 0⇔ ρ(A) < 1. (3.11)

Alem disso, a serie geometrica∑∞

k=0Ak e convergente sse ρ(A) < 1. Neste caso

∞∑k=0

Ak = (I − A)−1. (3.12)

Como resultado, se ρ(A) < 1 a matriz I−A e invertıvel e as seguintes desigualdades estaoasseguradas

1

1 + ‖A‖≤ ‖(I − A)−1‖ ≤ 1

1− ‖A‖, (3.13)

onde ‖.‖ e uma norma matricial induzida3, desde que ‖A‖ < 1.

A prova desta proposicao pode ser vista em [32, pag. 27].Estamos agora em condicoes de provar o seguinte resultado exposto em [43, pag. 13],

relativo a convergencia local do metodo de Newton.

Teorema 3.1 Seja F : D ⊂ Rn → Rn uma funcao vetorial definida num conjunto abertoD. Suponhamos que F e continuamente diferenciavel em D e que a sua matriz JacobianaJ e contınua a Lipschitz em D com constante γ.

Seja x∗ ∈ D uma solucao de F (x) = 0 para o qual J(x∗) e nao singular. Seja ainda, βum escalar positivo tal que

‖J(x∗)−1‖ ≤ β.

Nestas condicoes, existe um escalar ε positivo tal que se

‖x0 − x∗‖ ≤ ε

2A matriz Jacobiana J diz-se contınua a Lipschitz em D ⊂ Rn, com constante γ > 0, se

‖J(x)− J(y)‖ ≤ γ‖x− y‖, para todos os x e y em D.

3Sobre normas matriciais ver [32, pag. 22].

71

Page 88: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

entao a sucessao {xk} gerada pelo metodo de Newton esta bem definida, converge para x∗

e satisfaz‖xk+1 − x∗‖ ≤ βγ‖xk − x∗‖2, (3.14)

ou seja, a convergencia e quadratica.

Prova: Apresentaremos uma prova deste teorema, baseando-nos nas provas de [32], [31]e [43].

A prova deste teorema e feita por inducao matematica. Em cada iteracao, e necessarioverificar que J(xk)−1 existe, xk+1 ∈ B(x∗, r) e e verificada a desigualdade (3.14).

Consideremos uma bola centrada em x∗ dentro de D o que e possıvel, uma vez que De uma aberto de Rn. Seja r > 0 o raio dessa bola. Se ε ≤ r, entao x0 ∈ B(x∗, r) e logo x0

encontra-se em D.Primeiro mostremos a existencia de J(x0)−1 para x0 ∈ B(x∗, r). Com efeito, da hipotese

‖J(x∗)−1‖ ≤ β e da continuidade a Lipschitz, temos que

‖J(x∗)−1[J(x0)− J(x∗)]‖ ≤ ‖J(x∗)−1‖‖J(x0)− J(x∗)‖ ≤ βγ‖x0 − x∗‖.

Assim, escolhendo ε = min{r, 12βγ}, temos que

‖J(x∗)−1[J(x0)− J(x∗)]‖ ≤ βγε ≤ 1

2.

Sendo assim, a Proposicao 2 assegura que J(x0)−1 existe. Para alem disso a desigualdadedesse teorema proporciona a relacao

‖J(x0)−1‖ ≤ ‖J(x∗)−1‖1− ‖J(x∗)−1[J(x0)− J(x∗)]‖

≤ ‖J(x∗)−1‖1− 1

2

≤ 2β,

o que implica ser x1 bem definido. Por outro lado, da primeira iteracao de Newton, tem-seque

x1 = x0 − J(x0)−1F (x0)

⇔ x1 − x∗ = x0 − x∗ − J(x0)−1F (x0)

= x0 − x∗ − J(x0)−1[F (x0)− F (x∗)]

= J(x0)−1[F (x∗)− F (x0)− J(x0)(x∗ − x0)]

Tomando normas e considerando a Proposicao 1, vem

‖x1 − x∗‖ ≤ ‖J(x0)−1‖‖F (x∗)− F (x0)− J(x0)(x∗ − x0)‖ ≤ 2βγ

2‖x0 − x∗‖2,

provando assim a desigualdade (3.14). Mas como por hipotese

‖x0 − x∗‖ ≤ ε,

72

Page 89: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

isto implica que

‖x1 − x∗‖ ≤ βγ‖x0 − x∗‖ 1

2βγ=

1

2‖x0 − x∗‖ ≤ ε

2≤ ε.

Logo concluımos que x1 encontra-se nas mesmas condicoes do que x0, isto e, x1 ∈ B(x∗, r).Do mesmo modo provar-se-iam os mesmos limites para o erro ‖x2−x∗‖ em funcao do erro‖x1 − x∗‖.

De um modo geral, usando um raciocınio semelhante pode-se verificar que o Teorema3.1 e verdadeiro para um determinado k e de seguida, a mesma desigualdade seria verificadapara k + 1. Isto prova o teorema. 2

O Teorema 3.1 confirma, portanto, que o metodo de Newton converge quadraticamentesomente no caso em que se parte de uma aproximacao inicial x0 suficientemente proxima dasolucao otima x∗ e se a matriz Jacobiana nao for singular. No entanto, convem referir quea ordem quadratica de convergencia pode ser afetada quando o produto βγ que multiplica‖xk − x∗‖2 e grande, significando que a regiao de convergencia local para problemas ondeisso acontece ser mais pequena.

3.4 Metodo de Newton Modificado

O metodo de Newton apresenta algumas dificuldades como: a necessidade de calcularn2 derivadas para obter a matriz Jacobiana; a resolucao em cada iteracao de um sistema deequacoes lineares que requer um numero de operacoes proporcional a n3 ; a possibilidade damatriz Jacobiana se tornar singular ou entao mal condicionada; a dificuldade em escolheruma boa aproximacao inicial.

Assim, com o objetivo de amenizar algumas dessas dificuldades, varias modificacoes aometodo de Newton tem sido propostas.

Uma modificacao ao metodo de Newton consiste em considerar Sk = J(x0) em cadaiteracao k, isto e, resolve-se em cada iteracao o sistema de equacoes

J(x0)δk = −F (xk),

sendo a matriz dos coeficientes J(x0) a mesma para todas as iteracoes. Estes sistemaspodem ser resolvidos pelo metodo da decomposicao LU4. Desta forma, reduz-se o numerode operacoes de ordem n3 para n2 uma vez que o metodo da decomposicao LU se baseiana resolucao de sistemas triangulares.

3.4.1 Atualizacao Periodica da Matriz Jacobiana

Uma alternativa ao caso anterior e que e considerada menos radical, consiste em atuali-zar a matriz Jacobiana apos um certo numero de iteracoes. Normalmente essa atualizacaoe feita com maior frequencia no inıcio do processo iterativo onde se verifica uma maiorvariacao na funcao F .

4Esta materia pode ser estuda por exemplo em [32].

73

Page 90: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Metodo de Newton para resolucao de Sistemas nao Lineares de Equacoes

3.4.2 Aproximacao da Matriz Jacobiana por Diferencas Dividi-das

Outra modificacao ao metodo de Newton consiste em substituir a matriz Jacobianapor uma aproximacao por diferencas divididas5 das derivadas parciais, poupando assim ocusto de calcular as n2 derivadas parciais. Por exemplo, utilizando diferencas divididas deprimeira ordem, temos

∂fi∂xj

(xk) =fi(x

k + ejh)− fi(xk)h

,

onde h (real positivo) e o incremento escolhido adequadamente em cada iteracao k e ej eum vetor da base canonica. Com isso, faz-se a avaliacao de n2 funcoes em vez de calcularn2 derivadas parciais que podem ser difıceis de se avaliar em alguns casos.

5Para um estudo mais aprofundado desta materia propomos que consulte [31].

74

Page 91: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Capıtulo 4

Algoritmos para Otimizacao naoLinear de Mınimos Quadrados

Os metodos de minimizacao tratados nos capıtulos anteriores podem ser usados pararesolver problemas de mınimos quadrados nao lineares. No entanto, quando se trata de pro-blemas de mınimos quadrados com resıduos pequenos podemos obter metodos especıficoscom melhor desempenho. Assim, neste capıtulo vamos expor metodos de otimizacao que seaplicam quando a funcao objetivo e uma soma de quadrados, isto e, abordaremos metodosespecıficos para problemas de mınimos quadrados nao lineares sem restricoes.

Como ja referimos anteriormente o problema de mınimos quadrados nao lineares semrestricoes e formulado do seguinte modo:

minx∈Rn

f(x) =1

2‖r(x)‖22 =

1

2

m∑i=1

ri(x)2, (4.1)

onde, m > n, x = [x1 x2 · · ·xn]T e r : Rn → Rm e chamada funcao residual. Nesses tiposde problemas, o objetivo e minimizar a norma Euclidiana da funcao

r : D ⊂ Rn → Rm

x =

x1x2...xn

→r1(x)r2(x)

...rm(x)

= r(x)

sendo r(x) = y −M(x, t) uma funcao nao linear nos parametros x1, x2, . . . , xn.

Considerando que r(x) e duas vezes continuamente diferenciavel, podemos determinara matriz das primeiras derivadas de r(x) que e chamada matriz Jacobiana e e representada

75

Page 92: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

por J(x). Assim temos que J(x) ∈ Rm×n, isto e,

J(x) =

∂r1(x)∂x1

∂r1(x)∂x2

· · · ∂r1(x)∂xn

∂r2(x)∂x1

∂r2(x)∂x2

· · · ∂r2(x)∂xn

......

. . ....

∂rm(x)∂x1

∂rm(x)∂x2

· · · ∂rm(x)∂xn

O gradiente da funcao objetivo f(x) e dado por:

∇f(x) =m∑i=1

ri(x)∇ri(x) = J(x)T r(x) (4.2)

e a matriz Hessiana de f(x) e dada por

∇2f(x) =m∑i=1

[∇ri(x)∇ri(x)T + ri(x)∇2ri(x)]

=m∑i=1

∇ri(x)∇ri(x)T +m∑i=1

ri(x)∇2ri(x)

= J(x)TJ(x) + S(x),

em que

S(x) =m∑i=1

ri(x)∇2ri(x). (4.3)

Segundo [29], o termo J(x)TJ(x) da matriz Hessiana da funcao objetivo f e maisimportante do que o termo S(x), por causa da quase linearidade do modelo perto da solucaox∗ (∇2ri(x) pequeno), ou em casos de pequenos resıduos. Este facto leva a que a maioria dosalgoritmos para o problema de mınimos quadrados explore essa propriedade da Hessiana.De notar que se r(x∗) = 0, entao S(x∗) = 0, de onde resulta que ∇2f(x∗) = J(x∗)TJ(x∗),pelo que numa vizinhanca proxima de x∗ faz sentido desprezar S(x).

4.1 Metodo de Gauss-Newton

O metodo de Gauss-Newton para resolver problemas de mınimos quadrados nao linearesconsiste em modificar o metodo de Newton. Como vimos no Capıtulo 2, no metodo deNewton com pesquisa linear, a direcao de busca dk e obtida resolvendo o sistema linear deequacoes

∇2f(xk)dk = −∇f(xk).

Aplicando o metodo de Newton a resolucao do problema (4.1), temos

[J(xk)TJ(xk) + S(xk)]dk = −J(xk)T r(xk). (4.4)

76

Page 93: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

A direcao de busca do metodo de Gauss-Newton e obtida de (4.4), ignorando o termo S(x)da matriz Hessiana ∇2f(x), isto e, a formula iteradora do Metodo de Gauss-Newton e dadapor

(J(xk)TJ(xk))dk = −J(xk)r(xk). (4.5)

Assim, determinando a solucao do sistema linear de equacoes (4.5), dk, obtem-se o novoponto

xk+1 = xk + dk.

O metodo de Gauss-Newton estara bem definido se gerar iteradas xk em que

|J(xk)TJ(xk)| 6= 0,

isto e, se a caracterıstica da matriz J(xk) for igual a n em cada iteracao. Neste caso ometodo de Gauss-Newton gera passos que sao direcoes de descida para a funcao objetivof . Com efeito, se a caracterıstica de J(xk) for igual a n, tem-se

∇f(xk)Tdk = dTk∇f(xk) = dTk (J(xk)T r(xk)) = −dTk (J(xk)TJ(xk)dk) = −‖J(xk)dk‖22 ≤ 0.

Ora, a desigualdade final e estrita, exceto no caso em que J(xk)dk = 0, o que implica serJ(xk)T r(xk) = ∇f(xk) = 0.

O metodo de Gauss-Newton aplicado ao Problema (4.1) difere do metodo de Newtonomitindo o uso da matriz S(x). O metodo de Newton apresenta taxa de convergencia localquadratica, sob determinas condicoes, assim o metodo de Gauss-Newton apresenta taxa deconvergencia local quadratica para pontos x∗ em que r(x∗) = 0, conforme enunciado peloresultado seguinte descrito em [43, pag. 35].

Teorema 4.1 Seja r : D ⊂ Rn → Rm uma funcao vetorial definida num conjunto abertoD, com m > n. Suponha-se que r e continuamente diferenciavel em D e que a sua matrizJacobiana e continua a Lipschitz em D com constante γ. Seja α > 0 um limite superiorpara a norma J em D.

Seja x∗ ∈ D um ponto tal que r(x∗) = 0 e para o qual J(x∗) tem caracterıstica n. Seja,ainda, β um escalar positivo tal que ‖(J(x∗)TJ(x∗))−1‖ ≤ β.

Nestas condicoes, existe um escalar positivo ε tal que se

‖x0 − x∗‖ ≤ ε ≤ ρ

entao a sucessao {xk} gerada pelo metodo de Gauss-Newton esta bem definida, convergepara x∗ e satisfaz

‖xk+1 − x∗‖ ≤ αβγ‖xk − x∗‖2,ou seja, temos convergencia local quadratica para o metodo de Gauss-Newton quandor(x∗) = 0.

Prova: A prova deste teorema e semelhante a prova do teorema sobre a convergencia dometodo de Newton para sistemas de equacoes nao lineares. Neste caso, o valor de ε e dadopor

ε = min{ρ, 1

2αβγ}.

77

Page 94: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

2

Nos casos em que r(x∗) nao e nulo, a ordem de convergencia do metodo de Gauss-Newton passa a ser linear, desde que se verifique a condicao

‖r(x∗)‖2 <1

βγ.

Este caso (r(x∗) 6= 0) e apresentado por [43, pag. 36] no seguinte resultado.

Teorema 4.2 Seja r : D ⊂ Rn → Rm uma funcao vetorial definida num conjunto abertoD, com m > n. Suponha-se que r e continuamente diferenciavel em D e que a sua matrizJacobiana J e continua a Lipschitz em D com constante γ. Seja α > 0 um limite superiorpara a norma de J em D.

Seja x∗ ∈ D um ponto para o qual J(x∗) tem caracterıstica n. Seja β um escalarpositivo tal que

‖(J(x∗)TJ(x∗))−1‖ ≤ β.

Suponhamos ainda que

‖r(x∗)‖ < 1

βγ.

Nestas condicoes, existe um escalar positivo ε tal que se

‖x0 − x∗‖ ≤ ε

entao a sucessao {xk} gerada pelo metodo de Gauss-Newton esta bem definida, convergepara x∗ e satisfaz

‖xk+1 − x∗‖ ≤ p‖xk − x∗‖,

com

p =1

2+cβγ‖r(x∗)‖

2∈ (0, 1) e c ∈

(1,

1

βγ‖r(x∗)‖

).

A prova deste teorema pode ser vista em [27, pag. 13-15]. Apesar da ordem de convergenciaser linear as operacoes sao menos pesadas computacionalmente porque nao envolvem ocalculo de derivadas de segunda ordem.

Uma propriedade muito importante do metodo de Gauss-Newton e que resolve proble-mas de mınimos quadrados lineares numa so iteracao. O problema de mınimos quadradoslineares e posto do seguinte modo

minx∈Rn

=1

2‖Ax− b‖22 =

1

2

m∑i=1

(Axi − bi)2. (4.6)

Neste caso temos que r(x) = Ax− b e ∇r(x) = A. Assim, J(x) = A. Aplicando o metodode Gauss-Newton a (4.6), temos

(ATA)dk = −AT (Axk − b).

78

Page 95: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

Mas como dk = xk+1 − xk, segue que

ATA(xk+1 − xk) = −AT (Axk − b)ATAxk+1 = ATAxk − ATAxk + AT b

ATAxk+1 = AT b.

Por outro lado, o problema (4.6) admite solucao x∗ se e so se x∗ verificar o sistema deequacoes normais ATAx = AT b e se caracterıstica de A for igual a n, x∗ e solucao unica.Portanto, o metodo de Gauss-Newton encontra a solucao para o problema de mınimosquadrados lineares numa so iteracao.

Algoritmo para o Metodo de Gauss-Newton

Em [36, pag. 44] apresenta-se o seguinte algoritmo para o metodo de Gauss-Newton.1 k ← 02 Enquanto convergencia = falso fazer2.1 Calcular rk e Jk de acordo com

ri = ri(xk)

aij = ∇ri(xk)

sendo rk o vetor cujos elementos sao os ri(xk) e aij os elementos da matriz Jk.

2.2 Resolver o sistema de equacoes

(J(xk)TJ(xk))dk = −J(xk)T r(xk)

2.3 Calcular xk+1 usando a relacao:

xk+1 = xk + dk

2.4 k ← k + 13 Terminar.

Desvantagens do Metodo de Gauss-Newton

Em [36] citam-se algumas dificuldades do metodo de Gauss-Newton, como por exemplo:

� Nao e bem definido se a matriz J(xk) nao tiver caracterıstica completa ao longo dascolunas para algum k;

� Nao apresenta necessariamente convergencia global. O desempenho e melhor local-mente, ou seja quando as iteracoes estao ja muito proximas do otimo.

79

Page 96: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

� Apresenta problemas de convergencia local em problemas acentuadamente nao line-ares ou com grandes resıduos.

Essas dificuldades podem ser ultrapassadas, utilizando algumas tecnicas como por exemplo:introduzir modificacoes a matriz J(xk) de modo a ter caracterıstica sempre igual a n;efetuar a procura unidimensional por forma a encontrar o comprimento do passo αk apercorrer ao longo da direcao dk, uma vez que a direcao do metodo de Gauss-Newtonquando bem definida e sempre uma direcao de descida.

Exemplo 4.1 (Sugerido por [17] pag.255) Implementar o Metodo de Gauss-Newton,com o objetivo de ajustar o melhor possıvel o modelo

M(t;x1, x2) = x1 + x1x2t (4.7)

a funcao f(x) dada pela Tabela 4.1 de tres pontos, no sentido dos mınimos quadrados.

ti −1 0 1f(ti) 1 2 3

Tabela 4.1:

Como aproximacoes iniciais aos parametros usar x0 = [1.5 0.75]T . Parar o processo ite-rativo quando o criterio de paragem for verificado para ε1 = ε2 = 0.5.

Resolucao: Neste caso temos:

f(x) =3∑i=1

(M(x; ti)− f(ti))2 e r(x) =

x1 − x1x2 − 1x1 − 2

x1 + x1x2 − 3

J(x) =

1− x2 −x11 0

1 + x2 x1

.Assim temos que

r(x0) =

−0.625−0.5−0.375

e J(x0) =

0.25 −1.51 0

1.75 1.5

.Para o ponto x0, temos que a soma do quadrado dos resıduos e igual a 0.7813.

Agora para obtermos a direcao d0 devemos resolver o sistema linear de equacoes[0.25 1 1.75−1.5 0 1.5

]0.25 −1.51 0

1.75 1.5

d0 = −[

0.25 1 1.75−1.5 0 1.5

]−0.625−0.5−0.375

.Efetuando os produtos, passamos a ter o sistema[

4.125 2.252.25 4.5

]d0 = −

[−1.31250.3750

].

80

Page 97: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

Com o auxilio do MATLAB obtemos a solucao do sistema, sendo d0 ∼=[

0.5000−0.3333

]. Logo

temos que

x1 = x0 + d0 ∼=[

1.50.75

]+

[0.5000−0.3333

]∼=[2.00000.4167

].

Para o ponto x1 temos agora que a soma dos quadrados dos resıduos e igual a 0.0555.Verificacao do criterio de paragemConsiderando como criterios de paragem ‖xk+1 − xk‖∞ ≤ ε1 ou ‖f(xk+1)‖∞ ≤ ε2,

temos:

‖x1 − x0‖∞ = max{0.5; 0.3333} = 0.5 ≤ ε1

Um dos criterios de paragem foi satisfeito, logo paramos o processo iterativo. Assim, omodelo pedido sera: M(t) = 2 + 0.8334t.

−2 −1 1 2 3 4 5 6 7

−1

1

2

3

4

5

6

0

M(t) = 2 + 0.8334t

E facil de ver que, neste caso, o modelo representa a reta dos mınimos quadrados. Podemoster um ajuste perfeito, ou seja, a reta que passa pelos tres pontos se x1 = 2 e x2 = 0.5,tendo-se assim a soma do quadrado dos resıduos nulo.

Exemplo 4.2 Dada a funcao f(t) definida pela tabela de seis valores, pretende-se calcular

ti −5 −3 −1 1 3 5f(ti) 127 151 379 421 460 426

Tabela 4.2:

o modelo nao linear

M(t;x1, x2, x3) = x1 + x2ex3t

81

Page 98: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

que depende dos parametros x1, x2 e x3, que melhor se ajusta a funcao no sentido dosmınimos quadrados, usando o Metodo de Gauss-Newton. Iniciar o processo iterativo comx0 = [580,−180,−0.16]T e considerar ε1 = ε2 = 10−6.

Resolucao: Para a resolucao deste exercıcio propomos utilizar o rotina lsqnonlin

do MATLAB que e uma rotina para resolver problemas de mınimos quadrados nao lineares.Para isso criamos a function seguinte:function F=myexemp(x)

t=[-5 -3 -1 1 3 5];y=[127 151 379 421 460 426];F=x(1)+x(2).*exp(x(3).*t)-y;end

Agora para que o MATLAB use o metodo de Gauss-Newton temos que definir a seguinteopcao: options = optimset (’LargeScale’,’off’ ,...

’LevenbergMarquardt’,’off’,’TolFun’ ,1e-6);

Finalmente, inserindo a aproximacao inicial>> x0=[580 -180 -0.16];

A minimizacao da funcao e implementada atraves do comando:>> [x, F] = lsqnonlin(@myexem,x0,options)

x =

523.2740 -156.9107 -0.1997

F =

1.3390e+004

Assim, o modelo que melhor se ajusta aos dados da tabela 4.2 e: M(t) = 523.2740 −156.9107e−0.1997t.

Figura 4.1: Ilustracao grafica do Exemplo 4.2

82

Page 99: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

Trata-se de um problema com resıduos grandes como se ve no grafico da Figura 4.1.

Exemplo 4.3 Vamos retomar o Exemplo 1.8 para aplicarmos agora o Metodo de Gauss-Newton. Para isso, vamos usar a rotina gaussn.m programada por [23] e que implementao metodo de Gauss-Newton. Assim, partindo de uma aproximacao inicial x0 = [0.7 1.2]T ecom uma tolerancia de 10−6, a rotina gaussn.m convergiu apos seis iteracoes, e os valoresencontrados foram: α ∼= 0.3497 e β ∼= 0.8003. Para esses valores dos parametros a somado quadrado dos resıduos e 8.3456 × 10−7, enquanto que para os valores encontrados noExemplo 1.8 a soma do quadrado dos resıduos e 3.2221×10−6. Portanto, obtemos melhoresresultados para os parametros α e β para esse modelo.

4.2 Metodo de Levenberg-Marquardt

O Metodo de Levenberg-Marquardt tem como ideia basica a combinacao dos metodosda descida mais rapida e do metodo de Gauss-Newton, aproveitando-se assim a robustezda convergencia global do metodo steepest descent e a eficiencia local do metodo de Gauss-Newton. O metodo foi proposto primeiramente por Levenberg (1944) e continuado depoispor Marquardt (1963) [44].

O Metodo de Levenberg-Marquardt para o problema de mınimos quadrados nao linearesconsiste na modificacao do Metodo de Gauss-Newton quando no decorrer do processoiterativo a matriz do sistema J(xk)TJ(xk) de Gauss-Newton e singular para algum pontoou quando a mesma matriz se torna mal condicionada. Esta modificacao tem uma grandevantagem que e a de tornar o algoritmo resultante num algoritmo global. Esta estrategiaresume-se numa busca, denominada regiao de confianca1 e procura determinar o passo ∆k

mais adequado mediante a resolucao do subproblema

mind

1

2‖J(xk)d+ r(xk)‖22, sujeito a ‖d‖ ≤ ∆k, (4.8)

onde ∆k > 0 e raio da regiao de confianca.Em [29] prova-se que a solucao de (4.8) e o vetor d que satisfaz o sistema linear de

equacoes que origina a formula iteradora do metodo de Levenberg-Marquardt

(J(xk)TJ(xk) + λI)dk = −J(xk)T r(xk), (4.9)

onde λ ≥ 0 e um escalar e I e a matriz identidade.Pode-se constatar que implicitamente a formula iteradora do metodo de Levenberg-

Marquardt e uma escolha entre o metodo de Gauss-Newton e metodo da descida maisrapida ou a mistura dos dois. Com efeito, se λ = 0, temos a direcao de Gauss-Newton

dk = −[J(xk)TJ(xk)]−1J(xk)T r(xk)

1Para um estudo aprofundado desta materia propomos que se consulte [29].

83

Page 100: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

E quando λ� 1, ou seja, muito grande, temos

dk = −1

λJ(xk)T r(xk)

que e uma direcao colinear com a direcao do metodo steepest descent.

O metodo de Levenberg-Marquardt pode apresentar variacoes na sua implementacao,dependendo de como e atualizado o parametro λ. Contudo, a filosofia subjacente em qual-quer implementacao e a de fazer uma escolha do parametro λ de modo que nas iteracoesiniciais domine o metodo da descida mais rapida (λ grande) e vai-se diminuindo progressi-vamente o valor de λ de modo a que nas iteracoes finais se tenha o metodo de Gauss-Newton(λ tende para zero).

De seguida apresentaremos o algoritmo do metodo de Levenberg-Marquardt, propostopor [33, pag. 348], que inclui os procedimentos para a obtencao dos λk. Este algoritmoesta adaptado para o problema de mınimos quadrados.

1. Comecar com um ponto inicial arbitrario x0 e as constantes λ (da ordem de 104), c1(0 < c1 < 1), c2 (c2 > 1), e ε (da ordem de 10−2). Coloque o contador de iteracoesk = 0.

2. Calcular a matriz Jacobiana J(xk).

3. Testar a otimalidade do ponto xk. Se ‖J(xk)T r(xk)‖ ≤ ε, xk e otimo e portanto,parar o processo. Caso contrario, ir para o passo 4.

4. Determinar o novo vetor xk+1 do seguinte modo

xk+1 = xk + dk = xk − [J(xk)TJ(xk) + λkI]−1J(xk)r(xk)

5. Comparar os valores de f(xk+1) e f(xk). Se f(xk+1) < f(xk), ir para o passo 6. Sef(xk+1) ≥ f(xk), ir para o passo 7.

6. Fazer λk+1 = c1λk, k = k + 1 e voltar ao passo 2.

7. Fazer λk = c2λk e voltar ao passo 4.

Este algoritmo pode ser alterado para incluir uma busca linear ao longo da direcao deLevenberg-Marquardt, ou seja, calcular por pesquisa linear α∗k para iterar na forma

xk+1 = xk + α∗kdk.

Esta e so uma alteracao a este metodo. Ha, contudo, muitas variantes na implementacaodo metodo.

84

Page 101: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

4.3 Problemas de Mınimos Quadrados com Resıduos

Grandes

Os metodos de Gauss-Newton e Levenberg-Marquardt abordados nas secoes anterioresbaseiam-se na ideia de que a matriz J(xk)TJ(xk) e uma boa aproximacao da matriz Hes-siana da funcao f do problema (4.1). No entanto, em problemas de grandes resıduos onder(x∗) e grande, essa ideia e invalida, visto que a segunda parte da matriz ∇2f(x) designadapor S(x) e muito significativa para ser ignorada.

Segundo [29], alguns estatısticos nao atribuem importancia a algoritmos para resolucaode problemas com grandes resıduos, argumentando que se os resıduos forem grandes paraa solucao x∗, entao o modelo nao esta a altura de representar as observacoes. Neste caso,eles propoem a construcao de outros modelos, ao inves de resolver o problema de mınimosquadrados. Convem ter em consideracao que tambem muitas vezes o problema de grandesresıduos esta associado a erros humanos em determinadas medicoes. Mesmo assim, aresolucao do problema pelo processo dos mınimos quadrados pode ser util para identificardiscrepancias.

Em [29] cita-se que o desempenho dos metodos de Gauss-Newton e de Levenberg-Marquardt e fraco para problemas de grandes resıduos. Nestes casos, a convergenciaassintotica e apenas linear, portanto mais lenta do que a taxa de convergencia superli-near atingido pelos algoritmos para problemas de otimizacao sem restricoes gerais, como ometodo de Newton ou metodos Quasi-Newton. Assim, em problemas de grandes resıduos,o metodo de Newton e uma boa alternativa se a matriz Hessiana∇2r(x) for facil de calculare os metodos Quasi-Newton tambem irao convergir com uma taxa assintotica superior aode Gauss-Newton ou de Levenberg-Marquardt.

Uma questao que se coloca e a de que nem sempre e possıvel identificar a priori seum problema de mınimos quadrados tem grandes ou pequenos resıduos para a solucaootima x∗. Entao, parece razoavel programar algoritmos hıbridos (ou adaptativos) quese comportam como Gauss-Newton ou Levenberg-Marquardt se os resıduos se tornarempequenos mas comutam o processo para Newton ou Quasi-Newton se os resıduos foremgrandes. Assim, tiram partido das vantagens de cada classe de metodos, adaptando-se oalgoritmo ao problema em causa. Um desses processos e devido a Fletcher e Xu. O processoproposto por eles origina uma sequencia de aproximacoes Bk da matriz ∇2f(x), definidapositiva. Se o passo de Gauss-Newton para xk reduz a funcao f em certa quantia fixa,este passo e dado e substitui-se Bk por J(xk)TJ(xk). Caso contrario, a direcao e calculadausando Bk e procura-se o novo ponto xk+1 efetuando uma pesquisa linear. Em ambos oscasos, aplica-se uma atualizacao da matriz Bk atraves do metodo BFGS para obter Bk+1.Em situacoes de resıduos nulos, o metodo origina sempre passos de Gauss-Newton, levandoa uma convergencia quadratica. Caso contrario, tem-se o metodo BFGS puro.

Uma segunda ideia para combinar o metodo de Gauss-Newton e metodos Quasi-Newtone fazer aproximacoes apenas da segunda parte da matriz Hessiana∇2f(x), ou seja, constroi-se uma sequencia de aproximacoes Sk a matriz S(x) dada por (4.3). Assim, passa-se a ter

∇2f(x) ≈ Bk = J(xk)TJ(xk) + Sk. (4.10)

85

Page 102: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

A matriz Bk e atualizada de modo que a matriz Bk+1 satisfaca a equacao da secante

Bk+1dk = yk

onde dk = xk+1 − xk e yk = ∇f(xk+1)−∇f(xk).

4.3.1 Problemas de Grande Escala

O problema de mınimos quadrados e classificado como um problema de grande escalase o numero de parametros n e a dimensao m da funcao residual forem grandes.

No caso em que n e pequeno e m e grande, pode-se aplicar os algoritmos descritos nasseccoes anteriores, diretamente ou com algumas modificacoes.

Quando n e m sao muito grandes torna-se custoso computar a matriz J(x) para aplicaros metodos de Gauss-Newton ou Levenberg-Marquardt. Por isso, nestes casos, somosconduzidos a implementar variantes do metodo de Gauss-Newton ou Levenberg-Marquardtinexatos2, substituindo a matriz Hessiana ∇2f(x) desses metodos por uma aproximacaoda matriz J(xk)TJ(xk). Evidentemente que efetuando tais aproximacoes deixa-se de ter ataxa superlinear de convergencia desses metodos, exceto no caso em que a aproximacao eexata para a solucao x∗, ou seja, ∇2f(x∗) = J(x∗)TJ(x∗).

Em [29] citam-se ainda outras abordagens para problemas de grandes dimensoes quetomam partido da estrutura especial do problema de mınimos quadrados. Um dessesmetodos e o metodo de Dennis-Gay-Welsch.

4.4 Regressao de Distancias Ortogonais

Ate agora temos assumido que no problema de mınimos quadrados a variavel indepen-dente, ou explicativa, representa valores exatos, ou seja, consideramos que essa variavelestava isenta de erros, e que apenas a variavel dependente (explicada ou observada) estavasujeita a erros. Este procedimento e razoavel para muitos problemas de mınimos quadra-dos mas, no entanto, ha casos em que a variavel explicativa e perturbada por erros (porexemplo quando se faz experiencias em laboratorios pode-se cometer erros relativos aotempo de medicao). Assim, em muitas situacoes se nao forem considerados os erros sobrea variavel explicativa, o modelo vem afetado, nao explicando portanto as observacoes.

Segundo [29] os modelos que levam em conta os erros relativos a variavel independente,isto e, que consideram que a variavel explicativa e tambem uma variavel aleatoria, saoconhecidos na literatura como modelos de erros nas variaveis e os problemas de otimizacaoresultantes, sao chamados problemas de mınimos quadrados totais para modeloslineares e sao designados de regressao de distancia ortogonal quando o modelo e naolinear. Nesses casos, faz-se a minimizacao da distancia ortogonal entre as observacoes e acurva de ajuste, contrariamente a regressao classica que minimiza a distancia vertical.

Sejam ti e yi, representando respectivamente a variavel explicativa e a variavel explicadae seja x = [x1 x2 · · · xn]T o vetor dos parametros. Considerando entao que ambas as

2Para um estudo mais aprofundado, ver por exemplo [29, Cap. 6].

86

Page 103: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

1 2 3 4 5 6 7 8 9

1

2

3

4

5

6

0 x

y

Figura 4.2: Regressao de distancia ortogonal.

variaveis ti e yi sao afetadas respectivamente por erros δi e εi, o modelo representativopode ser escrito como

yi = φ(ti + δi;x) + εi, i = 1, 2, · · · ,m. (4.11)

O problema consiste em determinar os parametros xi, i = 1, 2, . . . , n que permitem mini-mizar a soma do quadrado das distancias ortogonais entre os pontos medidos e o modeloteorico. Assim, o problema e posto como sendo um problema de mınimos quadrados pon-derados, com restricoes

minx,δ,ε1

2

m∑i=1

(w2i ε

2i + z2i δ

2i ) (4.12)

s.a : yi = φ(ti + δi;x) + εi, i = 1, 2, . . . ,m. (4.13)

Os valores wi e zi sao pesos introduzidos para compensar a precisao das medidas que naoe a mesma para todos os pontos. Em [21] sugere-se que se use wi = 1

σ2εi

e zi = 1σ2δi

enquanto

que em [5] propoe-se os valores wi = 1σεi

e zi =σεiσδi

, onde σ2i representa a variancia relativa

ao ponto i.Usando as restricoes (4.13), podemos resolver a equacao em ordem a εi e substituir

depois em (4.12), passando a ter desta forma o problema de mınimos quadrados semrestricoes

minx,δ

1

2

m∑i=1

{w2i [yi − φ(ti + δi;x)]2 + z2i δ

2i }. (4.14)

87

Page 104: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

Redefinindo os resıduos na forma seguinte

r(x, δ) =

{wi[φ(x; ti + δi)− yi], i = 1, 2, . . . ,m

zi−mδi−m, i = m+ 1, . . . , 2m, (4.15)

transformamos (4.14) num problema de mınimos quadrados usual

minx,δ

1

2

2m∑i=1

[r(x, δ)]2, (4.16)

com 2m termos e n+m parametros.A matriz Jacobiana e dada por

J(x, δ) =

∂r1(x,δ)∂x1

· · · ∂r1(x,δ)∂xn

∂r1(x,δ)∂δ1

· · · ∂r1(x,δ)∂δm

∂r2(x,δ)∂x1

· · · ∂r2(x,δ)∂xn

∂r2(x,δ)∂δ1

· · · ∂r2(x,δ)∂δm

.... . .

......

. . ....

∂rm(x,δ)∂x1

· · · ∂rm(x,δ)∂xn

∂rm(x,δ)∂δ1

· · · ∂rm(x,δ)∂δm

∂rm+1(x,δ)∂x1

· · · ∂rm+1(x,δ)∂xn

∂rm+1(x,δ)∂δ1

· · · ∂rm+1(x,δ)∂δm

.... . .

......

. . ....

∂r2m(x,δ)∂x1

· · · ∂r2m(x,δ)∂xn

∂r2m(x,δ)∂δ1

· · · ∂r2m(x,δ)∂δm

. (4.17)

A resolucao deste problema pode ser feito agora, aplicando qualquer um dos metodosabordados neste capıtulo. Apesar deste problema poder ser um problema de grande escala,uma vez que o numero de parametros e o numero de observacoes e bem maior do queno problema original, a sua resolucao pode ser facilitada gracas a estrutura especial dasua matriz Jacobiana (que tem muitos elementos iguais a zero), permitindo uma rapidamanipulacao e facultando assim a aplicacao dos metodos de Gauss-Newton ou Levenberg-Marquardt.

Com efeito, podemos ver que:

∂ri(x, δ)

∂δj= 0, i, j = 1, 2, . . . ,m, i 6= j

e tambem∂ri(x, δ)

∂xi= 0, i = m+ 1, . . . , 2m, j = 1, 2, . . . , n.

Alem disso, e facil constatar que para i, j = 1, 2, . . . ,m, tem-se

∂rm+i(x, δ)

∂δj=

{zi se i = j,

0 se i 6= j.

Entao, podemos particionar a matriz Jacobiana (4.17) em blocos, ficando assim com aseguinte estrutura:

J(x, δ) =

[J B0 Z

], (4.18)

88

Page 105: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

onde J ∈ Rm×n e a matriz das derivadas parciais da funcao wiφ(ti + δi;x) em ordem a x eB e Z ∈ Rm×m sao matrizes diagonais.

A estrutura da matriz (4.18) permite aplicar o algoritmo de Levenberg-Marquardt comalguma facilidade. Assim, considerando os vetores dos parametros e dos resıduos, repre-sentados respectivamente por,

p =

[pxpδ

]e r =

[r1r2

],

podemos aplicar o algoritmo de Levenberg-Marquardt atraves de (4.9), usando a estruturaparticionada [

JT J + λI JTB

BJ B2 + Z2 + λI

] [pxpδ

]= −

[JT r1

Br1 + Zr2

]. (4.19)

Como a sub-matriz da parte inferior direita, B2+Z2+λI, e diagonal, torna-se facil eliminaros pδ do sistema (4.19), passando a ter assim um sistema n × n para ser resolvido paraencontrar o vetor px.

4.5 Comparacao de Algoritmos

Nesta secao apresentaremos alguns exemplos para comparar a performance dos metodosde Gauss-Newton, Levenberg-Marquardt e os metodos Quasi-Newton DFP e BFGS. Estu-dos deste genero aparecem na literatura (ver, por exemplo [18]). Para os metodos de Gauss-Newton e Levenberg-Marquardt usaremos as rotinas em MATLAB gaussn.m e marquardt.m,disponibilizadas em [23], e para os metodos Quasi-Newton usaremos as rotinas dfp.m ebfgs.m referidas e tambem disponibilizadas por [3].

Exemplo 4.4 Pretende-se aproximar os dados da Tabela 4.3 usando uma funcao do tipo

φ(t;x) = x1 + x2e− tx3 .

Determinar os valores dos parametros x1, x2 e x3 correspondentes a melhor aproximacaode mınimos quadrados.

i 1 2 3 4 5 6ti 30.8 92.3 153.8 215.3 276.8 369.1yi 23.3 19.1 16.0 13.4 11.3 9.0

i 7 8 9 10 11 12ti 492.1 651.1 738.2 861.2 984.2 1107.3yi 7.0 5.5 4.6 4.0 3.5 3.1

Tabela 4.3:

89

Page 106: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

Este exercıcio encontra-se resolvido em [28] usando metodos de grau zero, isto e,metodos que nao precisam calcular os gradientes. Tratando-se de um problema de mınimosquadrados nao lineares e sabendo que os metodos que utilizaremos sao metodos iterativos,precisaremos de uma aproximacao inicial para os parametros x1, x2 e x3. Assim, usaremosa mesma aproximacao inicial usada por [28]: x1 = 5, x2 = 10 e x3 = 500.

Usando uma tolerancia 10−6, verificamos que a rotina bfgs.m converge apos 14 iteracoes,sendo os valores encontrados para os parametros os seguintes: x1 = 2.8342, x2 = 22.6729e x3 = 283.8147. Para esses valores dos parametros, a soma do quadrado dos resıduos foide 0.1210.

Com a mesma tolerancia, a rotina dfp.m converge apos 23 iteracoes, sendo os valoresencontrados para os parametros e o quadrado da soma dos desvios iguais aos encontradospela rotina bfgs.m. Neste caso podemos ver uma ligeira vantagem da rotina bfgs.m emrelacao a rotina dfp.m que converge num numero menor de iteracoes.

A rotina gaussn.m convergiu apos a quinta iteracao, com os seguintes valores para osparametros: x1 = 2.8343, x2 = 22.6729 e x3 = 283.8141. A soma do quadrado dos resıduosfoi de 0.1210.

A rotina levmar.m fornece a solucao x = [−0.6736, 23.2379, 496.9218]T apos 1000iteracoes. A soma do quadrado dos resıduos e de 13.7232.

A solucao encontrada pelos metodos de Gauss-Newton e Quasi-Newton coincidem comos melhores resultados obtidos por [28].

Para este exemplo podemos verificar a grande performance do metodo de Gauss-Newtonque converge em poucas iteracoes. Pode-se notar tambem o bom funcionamento dos metodosQuasi-Newton. O metodo de Levenberg-Marquardt foi o que teve pior desempenho, encon-trando resultados nao muito satisfatorios.

Exemplo 4.5 Use o metodo dos mınimos quadrados para determinar o melhor ajuste domodelo

φ(t;x) = e

(−x1t1e

−x2t2

),

aos dados da Tabela 4.4.

i 1 2 3 4 5 6 7t1 0.10 0.20 0.30 0.40 0.50 0.05 0.10t2 100 100 100 100 100 200 200y 0.9800 9830 0.9550 0.9790 0.9930 0.6260 0.5440

8 9 10 11 112 13 14 150.15 0.20 0.25 0.02 0.04 0.06 0.08 0.10200 200 200 300 300 300 300 300

0.4550 0.2256 0.1670 0.5660 0.3170 0.0340 0.0160 0.0660

Tabela 4.4:

Neste caso temos que φ(t;x) e uma funcao a duas variaveis e nao linear nos parametrosx1 e x2. Este exemplo tambem se encontra resolvido em [28]. Para estimar os parametros

90

Page 107: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

x1 e x2 da regressao multipla nao linear, usaremos os valores iniciais dados por [28] quesao: x1 = 750 e x2 = 1200.

Neste exemplo a rotina bfgs.m convergiu apos 12 iteracoes. Os valores encontradospara os parametros foram: x1 = 814.4526 e x2 = 961.2214, com soma do quadrado dosdesvios igual a 0.0398.

A rotina dfp.m so convergiu apos 2075 e com tolerancia 10−5. Os valores encontradospara os parametros foram x1 = 808.5586 e x2 = 959.0245. A soma do quadrado dos desviosfoi 0.0398, igual ao valor encontrado pela rotina bfgs.m.

A rotina gauss.m convergiu em sete iteracoes, sendo os valores encontrados para osparametros os seguintes: x1 = 813.9832 e x2 = 861.1134. A soma do quadrado dos resıduose de 0.0398.

A rotina levmar.m convergiu apos 245 iteracoes, obtendo os seguintes valores para osparametros: x1 = 820.4683 e x2 = 962.8944. A soma do quadrado dos resıduos foi de0.0398.

Para este exemplo verifica-se que o metodo de Gauss-Newton e o mais eficaz e o metodoDFP o menos eficiente, por levar um numero muito elevado de iteracoes para obter aconvergencia. Contudo os resultados encontrados por esse metodo sao bons. O metodo deLevenberg-Marquardt encontrou o mesmo valor para a soma do quadrado dos resıduos masem muito mais iteracoes do que os metodos de Gauss-Newton e BFGS. Pelos diferentesvalores dos parametros encontrados pelas rotinas e tendo ambas encontrado o mesmo valorpara a funcao objetivo, podemos constatar que este problema admite minimizantes globaisdistintos.

Alguns Problemas mais difıceis

De seguida implementaremos dois exemplos de problemas difıceis de mınimos quadra-dos, selecionados de entre catorze problemas apresentados em [42]. Sao problemas comvarios minimizantes locais e o minimizante global e difıcil de ser encontrado por muitosalgoritmos. Ivan Krivy e Josef Tvrdik testaram esses modelos, partindo de aproximacoesiniciais aleatorias para os parametros, em intervalos aceitaveis e depois verificaram se haconvergencia para o minimizante global dado. Para a resolucao, usaram cinco pacotes desoftware da area da Estatıstica, incorporando os metodos de Gauss-Newton, Levenberg-Marquardt, Levenberg-Marquardt modificado e o metodo simplex.

Exemplo 4.6 Encontrar os parametros x1, x2 e x3 de modo a ter um melhor ajuste emtermos de mınimos quadrados do modelo

φ (x1, x2, x3; t) = x3(e−x1t1 + e−x2t2

)aos dados da Tabela 4.5.

Segundo [42], a solucao otima para este exemplo e [13.241, 1.5007, 20.100]T e o valorotimo para a funcao objectivo e 7.471× 10−5.

Partindo de uma aproximacao inicial [10, 5, 25]T , obtemos os seguintes resultados queresumimos na Tabela 4.6.

91

Page 108: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

i 1 2 3 4 5 6t1 0 0.6 0.6 1.4 2.6 3.2t2 0 0.4 1 1.4 1.4 1.6y 42.2 11.0349 4.46137 2.46137 2.45137 1.82343

i 7 8 9 10 11 12t1 0.8 1.6 2.6 4 1.2 2t2 2 2.2 2.2 2.2 2.6 2.6y 01.00094 0.741352 0.741352 0.741352 0.406863 0.406862

i 13 14 15 16 17 18t1 4.6 3.2 1.6 4.2 2 3.2t2 2.8 3 3.2 3.4 3.8 3.8y 0.301411 0.223291 0.165418 0.122545 0.067254 0.067254

i 19 20 21 22 23 · · · · · ·t1 2.8 4.2 5.4 5.6 3.2 · · · · · ·t2 4.2 4.2 5.4 4.6 3.2 · · · · · ·y 0.03691 0.03691 0.027343 0.015006 0.011117 · · · · · ·

Tabela 4.5:

bfgs.m dfp.m gauss.m levmar.m

x1 9.9659 9.9659 13.2409 9.7961x2 3.8151 3.8151 1.5007 1.5057x3 26.6355 26.6355 20.0999 20.0967

Tolerancia 10−2 10−2 10−6 10−6

N° Iteracoes 2852 2852 172 1000f(x) 229.4190 229.4190 7.4815× 10−5 2.5778× 10−3

Tabela 4.6:

Para esta aproximacao inicial, o valor da funcao objetivo e de 190.0697. Isto mostraque as rotinas bfgs.m e dfp.m nao convergiram. A rotina gauss.m foi a que encontroumelhores resultados.

Tomando como aproximacao inicial o vetor [19.0, 4.0, 23.4]T , obtemos os resultadosda Tabela 4.7.

Neste caso, mais uma vez as rotinas bfgs.m e dfp.m nao convergiram. A rotinagauss.m nao arrancou com essa aproximacao inicial. A rotina levmar.m foi a unica queobteve sucesso.

Partindo agora da aproximacao inicial [13.1, 1.6, 21.0]T (que esta muito proxima dasolucao otima) obtemos os resultados da Tabela 4.8.

Com esta aproximacao inicial, continuamos a registar o insucesso dos metodos BFGSe DFP. Na verdade, verificamos que, mesmo partindo da solucao otima esses metodos naoconvergiram. Os metodos de Gauss-Newton e Levenberg-Marquardt tiveram bons desempe-nhos e neste caso o metodo de Gauss-Newton encontrou mesmo a solucao otima.

92

Page 109: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

bfgs.m dfp.m gauss.m levmar.m

x1 19.0000 19.0000 19.0000 18.9996x2 3.7074 3.7074 4.0000 1.5000x3 23.7936 23.7936 23.4000 20.1004

Tolerancia 10−3 10−3 10−6 10−6

N° Iteracoes 585 585 0 1000f(x) 229.4190 229.4190 117.4236 1.2466× 10−4

Tabela 4.7:

bfgs.m dfp.m gauss.m levmar.m

x1 13.1000 13.1000 13.2409 13.1001x2 1.5505 1.5505 1.5007 1.5008x3 20.3252 20.3252 20.0999 20.0999

Tolerancia 10−2 10−3 10−6 10−6

N° Iteracoes 28 28 169 1000f(x) 229.4190 229.4190 7.4815× 10−5 7.5126× 10−5

Tabela 4.8:

Exemplo 4.7 Use a regressao por mınimos quadrados para ajustar os dados da Tabela 4.9ao modelo

φ(x; t) = x1 + x2tx31 + x4t

x52 + x6t

x73 .

A solucao otima deste problema e, segundo [42]

[1.9295, 2.5784, 0.8017, −1.2987, 0.8990, 0.01915, 3.0184]T

e o valor otimo para a funcao objetivo e 1.694× 10−2. Os intervalos para as aproximacoesiniciais considerados por [42] sao: x1 ∈ [−5 5], x2 ∈ [−5 5], x3 ∈ [0 10], x4 ∈ [−5 5],x5 ∈ [0 10], x6 ∈ [−5 5] e x7 ∈ [0 10].

Partindo da aproximacao inicial [3, −1, 6, 2, 4, −0.5, 8]T , constatamos que asrotinas gbgs.m e dfp.m nao funcionaram (na verdade ocorreu um erro de processamento,indicando divisoes por zero). A rotina levmar.m nao convergiu enquanto que a rotinagaussn.m encontrou o otimo apos 69 iteracoes. Os resultados obtidos estao resumidos natabela 4.10.

Tomando como aproximacao inicial o vetor [−2, 4, 8, 3, 9, −3, 1]T , verificamos denovo o mesmo problema para as rotinas bfgs.m e dfp.m. As rotinas gaussn.m e levmar.m

nao convergiram. Os resultados obtidos podem ser vistos na Tabela 4.11.Partindo agora da aproximacao inicial [1.9, 2.5, 0.8, −1.2, 1.0, 0.02, 3]T (proxima da

solucao otima), aferimos que as rotinas dfp.m e gaussn.m encontraram a solucao otima.A rotina levmar.m obteve bons resultados enquanto que a rotina bfgs.m nao convergiu.Os resultados obtidos encontram-se resumidos na Tabela 4.12.

93

Page 110: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

i 1 2 3 4 5 6 7 8t1 6 3 1 2 9 8 5 8t2 7 9 3 10 6 1 1 1t3 8 9 8 2 8 3 5 3y 15.5 13.3 11.2 −3.7 20.6 14.8 12.5 14.8

i 9 10 11 12 13 14 15 16t1 4 9 8 4 8 9 8 2t2 3 2 3 7 6 3 1 2t3 2 4 5 1 7 9 3 10y 6.4 15.8 14.6 2.3 15.9 28 14.8 24

i 17 18 19 20 21 22 23 24t1 8 3 5 3 2 4 5 1t2 9 8 5 8 4 9 8 4t3 6 1 1 1 3 2 3 7y 10.5 −0.2 5.8 −0.2 2.4 0.5 3.4 6.8

Tabela 4.9:

bfgs.m dfp.m gauss.m levmar.m

x1 NaN NaN 1.9295 3.0000x2 NaN NaN 2.5784 -0.9467x3 NaN NaN 0.8017 5.8842x4 NaN NaN -1.2987 2.0005x5 NaN NaN 0.8991 4.0020x6 NaN NaN 0.0192 16.0602x7 NaN NaN 3.0184 -10.6772

Tolerancia 10−6 10−6 10−6 10−6

N° Iteracoes 69 100f(x) 0.0169 6.7870× 1011

Tabela 4.10:

94

Page 111: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Algoritmos para Otimizacao de Mınimos Quadrados

bfgs.m dfp.m gauss.m levmar.m

x1 NaN NaN 53.372877 -2.0000x2 NaN NaN 0.000180 3.8859x3 NaN NaN -20.701629 7.0184x4 NaN NaN -0.000004 -1.4623x5 NaN NaN 5.109440 21.2076x6 NaN NaN -49.316476 -3.0000x7 NaN NaN -0.113925 1.0000

Tolerancia 10−6 10−6 10−6 10−6

N° Iteracoes 6 100f(x) 759.94 1.5553× 1015

Tabela 4.11:

bfgs.m dfp.m gauss.m levmar.m

x1 72.5285 1.9295 1.9295 1.9020x2 -71.4827 2.5784 2.5784 2.5050x3 -0.0910 0.8017 0.8017 0.8134x4 -0.5775 -1.2987 -1.2987 -1.1778x5 1.2738 0.8991 0.8991 0.9406x6 0.0890 0.0192 0.0192 0.0199x7 2.3515 3.0184 3.0184 2.9990

Tolerancia 10−3 10−6 10−6 10−6

N° Iteracoes 144 5530 4 1000f(x) 14.0546 0.0169 0.0169 0.0191

Tabela 4.12:

95

Page 112: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 113: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Conclusoes

Sıntese do Trabalho Apresentado

A principal conclusao desta dissertacao tera de ser o facto de nos termos apercebido deuma vasta area de estudo, muito antiga mas em constante desenvolvimento (ver [45, 22] ebibliografia aı citada) e que tem importantıssimas aplicacoes em variadas areas das cienciase da engenharia.

A tıtulo introdutorio apresentou-se uma revisao acerca da aproximacao linear de mınimosquadrados. Logo a seguir trataram-se os conceitos basicos de optimizacao nao linear semrestricoes. Aflorou-se tambem a resolucao de sistemas de equacoes nao lineares usandometodos de Newton. Dedicou-se o devido espaco para tratar em detalhe os metodos degradiente para resolver problemas de optimizacao de mınimos quadrados sem restricoes.Este estudo segue uma abordagem que apresenta uma fundamentacao teorica dos princi-pais metodos conjugada com a respectiva experimentacao computacional em MATLAB.Os metodos estudados foram:

� Metodo de Newton, incluindo a variante modificada com pesquisa linear.

� Metodos Quasi-Newton nas suas variantes mais conhecidas: DFP e BFGS;

� Metodo de Gauss-Newton;

� Metodo de Levenberg-Marquardt.

Os exemplos apresentados e resolvidos ilustram bem as inumeras aplicacoes nas ciencias ena engenharia dos algoritmos estudados. Alem disso, salienta-se a importancia de dispor deuma grande variedade de algoritmos porque em muitos casos a obtencao do mınimo globalpode ser bastante difıcil. Na verdade, mostrou-se que os problemas de mınimos quadradospodem ter muitos mınimos locais que podem levar a paragem prematura dos algoritmos.Apresentamos bastantes resultados computacionais obtidos usando o MATLAB que nosdeixaram alguma sensibilidade pratica para lidar com este tipo de problemas. As vantagense desvantagens dos metodos foram apercebidas por nos nao so no estudo teorico como noscasos experimentais.

Apresentamos uma abordagem original sobre o caso da existencia e unicidade da solucaopara o problema de mınimos quadrados linear geral, uma vez que nao encontramos respostapara esses problemas na literatura.

97

Page 114: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Conclusoes

Pistas para Trabalho Adicional

Como ja foi dito, dada a vastidao do tema abordado houve que fazer opcoes e escolhaspara limitar a extensao desta dissertacao. Julgamos nao poder terminar esta dissertacaosem antes apontar algumas pistas para trabalho adicional que foram vislumbradas naexecucao do mesmo que conduziu a esta dissertacao.

Este mesmo tema de trabalho (“Non-Linear Least Squares Optimization”), poderia tersido abordado noutras vertentes, se tivessemos dedicado o devido espaco aos seguintestopicos:

� Analise de modelos de regressao nao linear usando a abordagem da Estatıstica o queabriria campo para uma vasta area de estudo;

� Estudo de algoritmos de optimizacao nao linear de ordem zero (derivative-free) ealgoritmos baseados em meta-heurısticas (simulated annealing, tabu search, etc.).Estes metodos podem ser uteis para certas classes de problemas com muitos mınimoslocais. No entanto, perdem eficacia quando o numero de variaveis e grande poistendem a ser muito lentos;

� Metodos algebricos baseados na decomposicao QR e na decomposicao em valoressingulares. Sao metodos que geram uma sequencia de problemas lineares definidos apartir dessas decomposicoes;

� Definicao de problemas de mınimos quadrados com restricoes. Este topico e conside-rado mais avancado por necessitar da teoria de optimizacao nao linear com restricoes.Algoritmos para esta classe especial de problemas podem ser encontrados na litera-tura [38, 20, 26, 1, 15];

� Ajuste de linhas e superfıcies a nuvens de pontos usando o criterio dos mınimosquadrados. Estes problemas tem muitas aplicacoes praticas e podem ser generalizadospara dimensoes mais elevadas;

� Experimentacao dos algoritmos estudados na resolucao de sistemas de equacoes naolineares. Esta e uma area com muitas aplicacoes praticas;

� Aproximacao funcional de mınimos quadrados. Nesta classe de problemas pretende-seencontrar uma funcao φ(x, t) que melhor aproxima uma funcao contınua g(t) definidanum intervalo [a, b] ⊂ R. O criterio dos mınimos quadrados conduz a determinacaodos parametros [x1, x2, . . . , xn]> que minimizam:

f(x1, x2, . . . , xn) =

∫ b

a

[φ(x1, x2, . . . , xn)− g(t)]2 dt;

� Analise da sensibilidade dos resultados aos dados das tabelas de dados experimentais.Na verdade, o criterio dos mınimos quadrados conduz muitas vezes a problemas malcondicionados. Por esse facto se diz que sao metodos de estimacao nao robusta;

98

Page 115: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Conclusoes

� Podıamos ter estudado problemas de resıduos grandes, mınimos quadrados pondera-dos e tambem problemas de distancias ortogonais;

� A programacao dos algoritmos nas suas variantes e a sua aplicacao a ensaios compu-tacionais massivos para efeitos comparativos podia ser explorada usando problemasteste de grande dimensao. Esses ensaios podiam variar aleatoriamente a aproximacaoinicial e comparar a eficiencia e precisao dos diferentes algoritmos.

99

Page 116: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 117: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Apendice A

Matrizes de Hankel

Neste apendice abordaremos uma classe especial de matrizes de Hankel e deduziremoso determinante dessa classe de matrizes a partir da matriz de Vandermonde. Com issoprovaremos que a matriz do sistema (1.12) e sempre invertıvel. Assim, a regressao poli-nomial geral conduz a uma e uma so solucao. Provaremos tambem que o sistema normalrelativo ao caso linear geral (1.22) tem sempre solucao. No entanto, veremos que a solucaopode nao ser unica. Estabeleceremos uma condicao necessaria e suficiente para a solucaoser unica. Basearemos a exposicao em [24], [2] [19] e [35].

Definicao A.1 Seja F um corpo e s0, s1, s2, . . ., s2n uma sequencia de elementos de F .Uma matriz Hn de ordem (n+ 1)× (n+ 1) da forma abaixo indicada e chamada matriz deHankel

Hn =

s0 s1 s2 · · · sns1 s2 s3 · · · sn+1

s2 s3 s4 · · · sn+2...

......

. . ....

sn sn+1 sn+2 · · · s2n

(A.1)

Trata-se de uma matriz simetrica listrada, isto e, as entradas sao constantes ao longo decada linha paralela a diagonal secundaria.

A.1 Caso da regressao linear polinomial quando m = n

Se os elementos da matriz de Hankel forem da forma

sk =n∑i=0

xki (0 ≤ k ≤ 2n)

para alguns numeros x0, x1,. . ., xn∈ F , os numeros s0, s1,. . ., s2n sao chamados somasde Newton dos xi (i = 0, 1, . . . , n). Neste caso, temos uma classe especial de matrizes deHankel. A matriz do sistema de equacoes (1.12) pertence a essa classe especial de matrizes

101

Page 118: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

de Hankel, se considerarmos que m = n, ou seja, no sistema (1.12) o numero de pontos databela e m+ 1 = n+ 1 que e o numero de parametros.

Seja Hn a matriz do sistema de equacoes (1.12). Mostraremos que

detHn =∏

0≤j<i≤n

(xj − xi)2 6= 0 se xi 6= xj, para i 6= j,

ficando assim provado que esse sistema e possıvel e determinado.

E facil verificar que Hn = V Tn Vn, onde

Vn =

1 x0 x20 · · · xn01 x1 x21 · · · xn11 x2 x22 · · · xn2...

......

. . ....

1 xn x2n · · · xnn

(A.2)

e uma matriz (n+ 1)× (n+ 1), dita de Vandermonde.

Proposicao A.1 Se xi 6= xj para i 6= j, entao,

det

1 x0 x20 · · · xn01 x1 x21 · · · xn11 x2 x22 · · · xn2...

......

. . ....

1 xn x2n · · · xnn

=∏

0≤i<j≤n

(xj − xi) 6= 0. (A.3)

Prova: Apresentaremos uma prova por inducao finita sobre n.

� Para n = 1, temos:

detV (x0, x1) =

∣∣∣∣1 x01 x1

∣∣∣∣ = x1 − x0.

Portanto, a propriedade e valida para n = 1.

� Suponhamos que a propriedade e valida para n− 1 e mostremos que e valida para n.

Seja entao:

V (x0, x1, . . . , xn) =

1 x0 x20 · · · xn01 x1 x21 · · · xn11 x2 x22 · · · xn2...

......

. . ....

1 xn x2n · · · xnn

102

Page 119: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

Multiplicando a primeira coluna por x0 e subtraindo o resultado a segunda coluna,multiplicando a segunda coluna por x0 e subtraindo o resultado a terceira coluna eassim sucessivamente, obtemos

detV (x0, x1, . . . , xn) = det

1 0 0 · · · 01 x1 − x0 x1(x1 − x0) · · · xn−11 (x1 − x0)...

......

. . ....

1 xn − x0 xn(xn − x0) · · · xn−1n (xn − x0)

.Pelo Teorema de Laplace1 e sabendo que ao multiplicar uma fila qualquer de umamatriz quadrada M de ordem n por um real k, o determinante da nova matriz M ′

obtida sera o produto de k pelo determinante de M , temos entao

detV (x0, x1, . . . , xn) = (x1 − x0)(x2 − x0) · · · (xn − x0) det

1 x1 x21 · · · xn−11

1 x2 x22 · · · xn−12...

......

. . ....

1 xn x2n · · · xn−1n

.Assim, podemos escrever

detV (x0, x1, . . . , xn) = (x1 − x0)(x2 − x0) · · · (xn − x0) detV (x1, x2, . . . , xn)

=n∏j=1

(xj − x0) detV (x1, x2, . . . , xn).

Mas detV (x1, x2, . . . , xn) e por hipotese de inducao o determinante de Vandermondede ordem n − 1. Assim, efetuando o produto, obtemos o determinante de ordem nde Vandermonde,

detV (x0, x1, . . . , xn) =∏

0≤i<j≤n

(xj − xi).

1Teorema de Laplace: Seja A uma matriz quadrada de ordem n com n ≥ 2 , o determinante deA e dado pela soma dos produtos dos elementos de uma fila (linha ou coluna) qualquer pelos respetivosco-fatores, isto e:

A =

a11 a12 · · · a1na21 a22 · · · a2n...

.... . .

...an1 an2 · · · ann

(A.4)

entao

detA =

n∑j=1

aijAij , sendo i uma linha qualquer da matriz

ou

detA =

n∑i=1

aijAij , sendo j uma coluna qualquer da matriz.

103

Page 120: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

Ora, atendendo a que para o caso do Problema (1.12) xi 6= xj para i 6= j (pontosdistintos), fica provado que detV (x0, x1, . . . , xn) 6= 0.

2

Como Hn = V Tn Vn, temos que detHn = detV T

n detVn = (detVn)2 6= 0, uma vez quedetV T

n = detVn. Assim temos que

detHn =∏

0≤i<j≤n

(xj − xi)2 6= 0.

Portanto fica provado que o sistema de equacoes (1.12) tem uma e uma so solucao no casoespecial em que m = n. E facil de concluir que, neste caso, o polinomio dos mınimosquadrados coincide com o polinomio, de grau menor ou igual de n, que interpola o suporte(xi, yi), i = 0, 1, 2, . . . ,m. O caso polinomial geral sera considerado a seguir.

A.2 Caso da regressao linear polinomial geral (m > n)

A matriz do sistema (1.12) no caso m > n designar-se-a tambem por Hn, ou seja, trata-se tambem de uma matriz de Hankel. E facil de verificar que neste caso, Hn = W TW ,onde W e a seguinte matriz (m+ 1)× (n+ 1):

W =

1 x0 x20 · · · xn01 x1 x21 · · · xn11 x2 x22 · · · xn2...

......

. . ....

1 xm x2m · · · xnm

.Esta matriz retangular contem um bloco (n+ 1)× (n+ 1) que e a matriz de VandermondeVn do tipo (A.2).

Assim, podemos escrever a matriz W da seguinte forma:

W =

[VnX

], com X =

1 xn+1 x2n+1 · · · xnn+1

1 xn+2 x2n+2 · · · xnn+2...

......

. . ....

1 xm x2m · · · xnm

.Como Hn = W TW , entao podemos concluir2 que rank (Hn) = rank (W ). Mas como

W =

[VnX

]2 Veja, por exemplo [2][pag. 13].

104

Page 121: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

onde Vn e uma matriz de Vandermonde com determinante nao nulo, rank (W ) = n + 1 e,portanto, rank (Hn) = n+ 1. Ora, sendo Hn invertıvel o sistema normal (1.12) tem uma euma so solucao no caso m ≥ n. Conclui-se que o polinomio dos mınimos quadrados existesempre e e unico desde que m ≥ n.

A.3 Caso da regressao linear geral

A matriz do sistema (1.22) nao e uma matriz de Hankel. No entanto, as tecnicas usadasneste apendice permitem concluir que esse sistema tem sempre solucao. Permitem tambemestabelecer condicoes necessarias e suficientes para que a solucao seja unica.

Considere-se entao o seguinte conjunto de n+ 1 funcoes reais com domınio R:

C = {h0(x), h1(x), h2(x), . . . , hn(x)} . (A.5)

Fixe-se tambem uma sequencia de (m+ 1) pontos xj ∈ R, j = 0, 1, 2, . . . ,m distintos. Istoquer dizer que xi 6= xj para i 6= j. Considere-se tambem que m > n.

A.3.1 Existencia de solucao

Seja a matriz Z do tipo (m+ 1)× (n+ 1) definida como segue

Z =

h0(x0) h1(x0) h2(x0) · · · hn(x0)h0(x1) h1(x1) h2(x1) · · · hn(x1)h0(x2) h1(x2) h2(x2) · · · hn(x2)

......

.... . .

...h0(xm) h1(xm) h2(xm) · · · hn(xm)

. (A.6)

Considere-se tambem o vector F = [f(x0) f(x1) f(x2), . . . , f(xm)]> ∈ R(m+1).Podemos agora escrever o sistema (1.22), na forma:

Z>Z = Z>F. (A.7)

A matriz aumentada deste sistema e[Z>Z|Z>F

]. O sistema (1.22) sera impossıvel

sse rank([Z>Z|Z>F

])> rank

(Z>Z

). Vamos verificar que essa condicao nao se pode

verificar. Para isso teremos em conta as propriedades:

� Se R ∈ R(k×l) e S ∈ R(l×k), entao

– rank (RS) ≤ min {rank (R) , rank (S)}. Ver [2][pag. 13];

– rank(RTR

)= rank

(RT). Ver [24][pag. 120] e [2][pag. 13].

Resulta entao que

rank([Z>Z|Z>F

])= rank

(Z> [Z|F ]

)≤ rank

(Z>)

= rank(Z>Z

). (A.8)

105

Page 122: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

Conclui-se que o sistema (1.22) e sempre possıvel. Ou seja, a solucao dos mınimos quadra-dos no caso linear existe sempre. Veremos a seguir quando pode ter uma unica solucao ouum numero infinito delas. Ou seja, verificaremos a seguir quando o sistema (1.22) poderaser determinado ou indeterminado.

A.3.2 Condicoes para a unicidade da solucao

Suponha-se agora que nao existem escalares reais αj, j = 1, 2, . . . , n, tais que:h0(x0)h0(x1)h0(x2)

...h0(xm)

= α1

h1(x0)h1(x1)h1(x2)

...h1(xm)

+ α2

h2(x0)h2(x1)h2(x2)

...h2(xm)

+ · · ·+ αn

hn(x0)hn(x1)hn(x2)

...hn(xm)

. (A.9)

Esta condicao e equivalente a dizer que a matriz Z definida por (A.6) tem as colunaslinearmente independentes. Para que Z tenha caracterıstica plena por colunas e necessarioque o conjunto de funcoes C definido por (A.5) seja linearmente independente3. No entanto,essa condicao apesar de necessaria nao e suficiente. Para verificar isso basta ver o contra-exemplo 1.7 no Capıtulo 1. Nesse exemplo, C = {sinx, cosx} e linearmente independentee, contudo,

Z =

sin(π/4) cos(π/4)sin(π/4 + 2π) cos(π/4 + 2π)sin(π/4 + 4π) cos(π/4 + 4π)

=

√2/2√

2/2√2/2

√2/2√

2/2√

2/2

,e uma matriz que nao tem caracterıstica plena por colunas.

Designemos por A a matriz do sistema normal (1.22). Como ja referimos, podemosescrever

A = ZTZ. (A.11)

Se Z tiver caracterıstica plena por colunas, entao rank (A) = n + 1, pelo que e invertıvel.Na verdade, pode mesmo concluir-se que A e definida positiva. Logo, nestas condicoes, osistema (1.22) tem uma e uma so solucao. Ficou provada a proposicao seguinte.

Proposicao A.2 Fixe-se um conjunto de pontos xi, i = 0, 1, 2, . . . ,m distintos e sejam ≥ n. O sistema normal (1.22) tem uma e uma so solucao se e so se a matriz Z definidapor (A.6) tiver caracterıstica plena por colunas. Para que isso aconteca e necessario que oconjunto de funcoes {h0(x), h1(x), . . . , hn(x)} seja linearmente independente.

3 Se o conjunto C e um conjunto de funcoes linearmente independentes, entao nao podemos exprimir umadessas funcoes como combinacao linear das outras. Ou seja, nao existem escalares reais βj , j = 1, 2, . . . , ntais que:

h0(x) = β1h1(x) + β2h2(x) + · · ·+ βnhn(x), ∀x ∈ R. (A.10)

Compare-se esta condicao (para todo o x ∈ R) com a condicao (A.9) que e uma condicao apenas parax ∈ {x0, x1, x2, . . . , xm}.

106

Page 123: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE A. MATRIZES DE HANKEL

A.3.3 Qualificacao das solucoes como minimizantes globais

Tendo agora em conta a discussao tida na seccao 2.3.3, podemos verificar que, emtodos os casos, as solucoes do sistema normal e sempre um ponto de estacionariedade quee um minimizante global da funcao S definida em (1.21). Na verdade, a matriz Hessianada funcao S e semidefinida positiva. Isso decorre de A = ZTZ definida por (A.6) sersemidefinida positiva. Resulta que a funcao S e sempre convexa. O conjunto dos seusminimizantes e convexo, logo conexo.

107

Page 124: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 125: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Apendice B

Ordens de Convergencia

No decorrer da nossa exposicao varias vezes referimos a ordem e razao de convergenciade uma sucessao convergente. Por isso achamos necessario fazer uma breve abordagemsobre esses conceitos muito usados para classificar a eficiencia de algoritmos. Na literaturaencontramos abordagens e notacoes diferentes. Nos aqui basearemos essencialmente em[41, 11, 43, 29, 34].

Definicao B.1 Seja D um subconjunto de Rn e {xk} uma sequencia de pontos pertencentesa D. Diz-se que {xk} converge para um ponto x∗ e escreve-se

limk→∞

xk = x∗

se para qualquer ε > 0, existir um ındice m tal que

‖xk − x∗‖ ≤ ε, ∀ k ≥ m.

Estando estabelecida a convergencia de um dado algoritmo, coloca-se a questao do de-sempenho desse algoritmo. Em princıpio, seria preferıvel um algoritmo cuja implementacaoexige um menor numero de iteracoes para obter o otimo x∗, de acordo com um certo criteriode paragem estabelecido. Infelizmente esse criterio nao permite comparar globalmente al-goritmos, uma vez que o numero de iteracoes depende do tipo de funcoes em causa, daescolha da aproximacao inicial e do custo computacional de cada iteracao para algoritmosdiferenciados. Mesmo assim, e necessario estabelecer criterios de comparacao de algoritmoscom algum significado universal. Para isso devemos analisar a ordem de convergencia, istoe, se xk → x∗, estamos interessados em saber o quao “rapido” isso acontece.

Consideremos o espaco Rn, onde ‖.‖ representa a norma Euclidiana.

Definicao B.2 Seja xk uma sequencia em Rn que converge para x∗. Dizemos que a con-vergencia e linear se existe uma constante real r ∈]0, 1[ tal que

‖xk+1 − x∗‖‖xk − x∗‖

≤ r, para todo k suficientemente grande. (B.1)

A constante r e designada razao de convergencia.

109

Page 126: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE B. ORDENS DE CONVERGENCIA

Quando a convergencia e linear, o erro absoluto relativamente a x∗ decresce a cada iteracao,no mınimo, por um fator constante. Havendo convergencia linear diz-se que a ordem deconvergencia e um.

Definicao B.3 A convergencia de uma sequencia {xk} e dita superlinear se

limk→∞

‖xk+1 − x∗‖‖xk − x∗‖

= 0. (B.2)

Definicao B.4 A convergencia e chamada quadratica se existe um real positivo M tal que

‖xk+1 − x∗‖‖xk − x∗‖2

≤M, para todo k suficientemente grande. (B.3)

De forma analoga definem-se ordens de convergencia tres, quatro, etc, mas essas ordens deconvergencia raramente sao utilizadas em otimizacao.

De um modo geral, diz-se que que a ordem de convergencia e p (com p ≥ 1) se existeuma constante positiva M tal que

‖xk+1 − x∗‖‖xk − x∗‖p

≤M, para todo k suficientemente grande. (B.4)

Por vezes usa-se a designacao q-ordem de convergencia (q-linear, q-superlinear e q-quadratica)para indicar que o tipo de convergencia e definido por quociente entre erros consecutivos.

Toda sequencia que converge quadraticamente tambem converge superlinearmente, epor sua vez, a convergencia superlinear implica a convergencia linear.

Exemplo B.1 Cada uma das sequencias seguintes xk converge para x∗ dado.

� xk = 1k−→ x∗ = 0

� xk = 1 + 10−k −→ x∗ = 1

� xk = 1 +(12

)2k −→ x∗ = 1

{xk+1 = 1

5ln(xk + 1)

x0 = 1−→ x∗ = 0

(a) Prove que a sequencia xk = 1k

nao converge para zero q-linearmente.

(b) Indique a ordem de convergencia para as outras sequencias.

Resolucao:

(a)‖xk+1‖‖xk‖

=k

k + 1−→ 1.

Logo, a sequencia nao converge para zero q-linearmente.

110

Page 127: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

APENDICE B. ORDENS DE CONVERGENCIA

(b)

‖xk+1 − 1‖‖xk − 1‖

=10−k−1

10−k= 10−1.

A sequencia converge q-linearmente para 1, com razao de convergencia r = 10−1.

‖xk+1 − 1‖‖xk − 1‖2

=

(12

)2k+1[(12

)2k]2 = 1,

logo a sequencia converge q-quadraticamente para 1.

‖xk+1‖‖xk‖

=15

ln(xk + 1)

xk−→ 1

5, visto que xk → 0.

A sequencia converge para zero q-linearmente, com razao de convergencia 15.

Alguns autores definem outro tipo de convergencia caracterizada pelo prefixo “r” (raiz). Euma forma mais fraca de convergencia que e usada para caraterizar taxas de convergenciade algoritmos quando a convergencia e nao monotona.

Definicao B.5 Dada uma sucessao em Rn que converge para x∗, diz-se que a convergenciae r-quadratica se existir uma sucessao de numeros reais {αk} que converge q-quadraticamentepara zero, tal que para todo k

‖xk − x∗‖ ≤ αk.

111

Page 128: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos
Page 129: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

Bibliografia

[1] Ben-Israel A. On iterative methods for solving nonlinear least squares problems overconvex sets. Israel Journal of Mathematics, 5(4):211–224, 1967.

[2] Horn R. A. and Johnson C. R. Matrix Analysis. Cambrigde University Press, U.K.,1st edition, 1985.

[3] A. Antoniou and W. Lu. Practical Optimization, Algorithms and Engineering Appli-cations. Springer, New York, 2007.

[4] A. C. Barbero, J. L. H. Pagoaga, and J. R. T. Sanchez. Calculo Numerico, Teorıa yProblemas. Editorial de la Universidad Politecnica de Valencia, Valencia, 2nd edition,2004.

[5] P. T. Boggs and J. E. Rogers. Orthogonal distance regression. Technical report,Applied and Computational Mathematics Division, U.S Department of Commerce,National Institute of Standards and Technology, Gaithersburg, 1990.

[6] S. C. Chapra and R. P. Canale. Metodos Numericos para Engenharia. McGraw-Hill,Av. Brigadeiro Faria Lima, Sao Paulo, 5th edition, 2008.

[7] Jukic D., Sabo K., and Scitovski R. A review of existence criteria for parameterestimation of the Michaelis-Menten regression model. Annals of university of Ferrara,53:281–291, 2007.

[8] Jukic D. and Scitovski R. Existence of optimal solution for exponential model by leastsquares. Journal of Computational and Applied Mathematics, 78:317–328, 1997.

[9] Jukic D. and Scitovski R. Solution of the least-squares problem for logistic function.Journal of Computational and Applied Mathematics, 156:159–177, 2003.

[10] Jukic D. and Scitovski R. Least squares fitting gaussian type curve. Applied Mathe-matics and Computation, 167:286–298, 2005.

[11] J. E. Dennis and R. B. Schnabel. Numerical Methods for Unconstrained Optimizationand Nonlinear Equations. SIAM, New York, 1996.

[12] Demidenko E. Is this the least squares estimate? Biometrika, 87:437–452, 2000.

113

Page 130: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

BIBLIOGRAFIA

[13] Demidenko E. Criteria for global minimum of sum of squares in nonlinear regression.Computational Statistics and Data Analysis, 51:1739–1753, 2006.

[14] Dubeau E. and Youness M. I. R. Existence of optimal weighted least squares estimatefor three-parametric exponential model. Communications in Statistics - Theory andMethods, 37(9):1383–1398, 2008.

[15] Gill P. E. and Murray W. Algorithms for the nonlinear least-squares problem. SIAMJournal of Numerical Analysis, 15(5):977–992, 1978.

[16] J. S. Esteves. Apontamentos de Otimizacao Numerica. Universidade de Aveiro, 2012.Notas de aula.

[17] E. M. Fernandes. Computacao Numerica. Universidade do Minho, Braga, 2nd edition,1997.

[18] Ramsin H and Wedin P. A comparison of some algorithms for the nonlinear leastsquares problem. BIT Numerical Mathematics, 17(1):72–90, 1977.

[19] G. Iezzi and S. Hazzan. Fundamentos de Matematica Elementar. Atual Edicao, SaoPaulo–Brasil, 2nd edition, 1977.

[20] Herskovits J., Veranise D., Soares C. M. M., and Araujo A. Interior point algorithmsfor nonlinear constrained least squares problems. Inverse Problems in Science andEngineering, 12(2):211–223, 2004.

[21] A. Jalid. Nouvelle methode d’estimation des parametres de surface et incertitudesassociees. In 19eme Congres Francais de Mecanique, Douai, France, 2009.

[22] Madsen K., Nielsen H. B., and Tingleff O. Methods for non-linear least squares pro-blems. Informatics and Mathematical Modeling, Technical University of Denmark,Matematiktorvet, Lyngby, Denmark, 2004.

[23] C. T. Kelley. Iterative methods for optimization: Matlab codes. http://www4.ncsu.edu/~ctk/matlab_darts.htm, 1999. [Acedido a 17 de Maio de 2013].

[24] P. Lancaster and M. Tismenetsky. The Theory of Matrices. Academic Press, SanDiego CA, USA, 2nd edition, 1984.

[25] D. G. Luenberger and Y. Ye. Nonlinear Programming. Dept. of Management Scienceand Engineering, Stanford University, Stanford, CA, USA, 3rd edition, 2008.

[26] Nesam M. and Bartels R. H. Constrained nonlinear least squares: An exact penaltyapproach with projected structured quasi-newton updates. ACM Transactions onMathematical Software, 15(3):220–242, 1989.

[27] H. J. Martınez and I. Rivas. El Problema de Mınimos Cuadrados no Lineales: Metodosde Solucion. Universidad de los Andes, Colombia, 2005.

114

Page 131: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

BIBLIOGRAFIA

[28] F. M. Mello and R. C. Guimaraes. Optimizacao Numerica com Aplicacoes na Mo-delacao Hidrologica. Edicoes Sılabo, Lisboa, 2008.

[29] J. Nocedal and S. J. Wright. Numerical Optimization. Springer, New York, 2ndedition, 1999.

[30] Guller O. Foundations of Optimization. Graduate Texts in Mathematics 258. Springer,New York, 2010.

[31] H. Pina. Metodos Numericos. Escolar Editora, Rua do Vale Formoso, 37, Lisboa, 2ndedition, 2010.

[32] A. Quarteroni, R. Sacco, and F. Saleri. Numerical Mathematics. Springer, New York,2nd edition, 2006.

[33] S. S. Rao. Engineering Optimization, Theory and Practice. John Wiley & Sons,Hoboken, United States of America, 4th edition, 2009.

[34] A. A. Ribeiro and E. W. Karas. Um curso de Otimizacao. Universidade de Curitiba,Curitiba, Brasil, 2001.

[35] R. Rodrigues and A. Pereira. Apontamentos de Analise Numerica. Universidade deAveiro, Aveiro, 2010. Notas de aula.

[36] A. C. Santo. Modelacao e Estimacao de Parametros. Universidade do Minho, Braga,2001.

[37] F. M. C. Santos. Fundamentos de Analise Numerica. Edicoes Sılabo, R. Cidade deManchester, 2, Lisboa, 1st edition, 2002.

[38] S. Shan. A Levenberg-Marquardt method for large-scale bound-constrained nonlinearleast-squares. Master thesis in computer science, The University of British Columbia,Vancouver, 2008.

[39] Soares, J. L. C. Metodos de Newton para Optimizacao com Restricoes Simples. De-partamento de Matematica, Faculdade de Ciencias e Tecnologia da Universidade deCoimbra, 1993. Provas de Aptidao Cientıfica.

[40] Carlos Sousa. Apontamentos de Complementos de Matematica. Universidade do Al-garve, Escola Superior de Tecnologia, 2007. Notas de aula.

[41] T. Tchemisova. Otimizacao em Redes e Nao Linear. Universidade de Aveiro, 2008.Notas de aula.

[42] J. Tvrdik and I. Kriv. Nonlinear Regression (14 difficult models). University ofOstrava, Ostrava, Czech Republic, 2000.

115

Page 132: Agostinho Jorge Otimiza˘c~ao N~ao Linear de M …Otimiza˘c~ao N~ao Linear de M nimos Quadrados Disserta˘c~ao apresentada a Universidade de Aveiro para cumprimento dos requisitos

BIBLIOGRAFIA

[43] L. N. Vicente. Apontamentos de Matematica Numerica II. Departamento de Ma-tematica, Faculdade de Ciencias e Tecnologia da Universidade de Coimbra, 2006.Notas de aula.

[44] Marquardt D. W. An algorithm for least-squares estimation of nonlinear parameters.SIAM Journal, 11(2):431–414, 1963.

[45] Yuan Y. Recent advances in numerical methods for nonlinear equations and nonlinearleast squares. Numerical algebra, control and optimization, 1(1):15–34, 2011.

116