problemas de mínimos quadrados: resolução e aplicações

90
Universidade Federal Fluminense Instituto de Ciências Exatas Curso de Matemática Problemas de Mínimos Quadrados: Resolução e Aplicações Ana Beatriz Rodrigues de Andrade Graça Volta Redonda Julho de 2016

Upload: others

Post on 03-Oct-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Problemas de Mínimos Quadrados: Resolução e Aplicações

Universidade Federal Fluminense

Instituto de Ciências Exatas

Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e

Aplicações

Ana Beatriz Rodrigues de Andrade Graça

Volta Redonda

Julho de 2016

Page 2: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 3: Problemas de Mínimos Quadrados: Resolução e Aplicações

Universidade Federal Fluminense

Instituto de Ciências Exatas

Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e

Aplicações

Trabalho de Conclusão de Curso na áreade conhecimento Matemática Aplicada,apresentado ao Curso de Matemática, ICEx, daUniversidade Federal Fluminense, como partedos requisitos necessários à obtenção do títulode Bacharel em Matemática.

Ana Beatriz Rodrigues de Andrade Graça

Orientador: Profa. Dra. Marina Sequeiros Dias de

Freitas

Volta Redonda

Julho de 2016

Page 4: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 5: Problemas de Mínimos Quadrados: Resolução e Aplicações

Aos diversos professores da UFF

e os que participaram da banca da minha monografia,

principalmente a minha professora e orientadora: Marina Sequeiros

que fez a grande diferença para a realização deste trabalho.

A eles, a minha homenagem.

Page 6: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 7: Problemas de Mínimos Quadrados: Resolução e Aplicações

Agradecimentos

Os agradecimentos principais são direcionados a Deus, que iluminou o meu trajeto,com farol alto, durante esse percurso. Deu-me força e coragem para seguir em frente e pisarfundo nas subidas mais ingrimes. Propôs um novo mundo de possibilidades. Ele permitiuque tudo isso acontecesse, não somente nesses anos, como universitária, mas em todos osmomentos de minha vida. À minha família, por sua capacidade de acreditar e investir em mim.À minha mãe, Simone, obrigada pelos seus cuidados, sua imensa dedicação e incentivo. Nashoras de desânimo e cansaço, agradeço pelos conselhos que me deram um gás para continuartrilhando por este caminho sinuoso. Ao meu pai, Ernani, apesar de todas as dificuldades ebloqueios diferenciais, sua presença significou segurança e certeza de que não estou sozinhanessa jornada. Aos dois, obrigada pelo carinho, paciência e capacidade de me trazerem pazna correria acelerada de cada semestre. Em especial, agradeço aos membros da banca: minhaorientadora e vice-chefe do departamento, professora e doutora Marina Sequeiros que dedicouhoras do seu tempo emprestando-me seus ouvidos com paciência e deu-me suporte o tempotodo. Agradeço suas correções, incentivos e amizade; Ao chefe de departamento, professor edoutor Ivan Aguilar, agradeço pela revisão e correção ortográfica, convívio, amizade, conselhose suporte; Ao professor e doutor Honório Joaquim por contagiar a todos com sua alegria, bomhumor, orientações, apoio e amizade. Agradeço aos meus amigos: Aline e Lucas, pelas horasque passamos estudando Análise. O espaço aqui é pouco para agradecer a cada um em particular.Por isso, no geral, agradeço a todos os professores que me proporcionaram o conhecimento e,além disso, manifestaram caráter e afetividade. A todos aqueles que, de alguma forma, estiverame estão próximos de mim, fazendo esta vida valer cada vez mais a pena. Até mesmo os que estãolonge, abasteceram e ainda abastecem meu coração de sentimentos bons com certos aditivos.

Agradeço ao Instituto de Ciências Exatas (ICEx) da Universidade Federal Fluminense(UFF) e a todos que fazem parte corpo docente e discente que, direta ou indiretamente, contribuí-ram para o meu desempenho.

Page 8: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 9: Problemas de Mínimos Quadrados: Resolução e Aplicações

“Celebre as vitórias.Compartilhe o sucesso, mesmo pequenas conquistas, com pessoas queridas.

Grite, chore, encha-se de energia para os desafios seguintes.”

(Buscando meu ‘Eu’ através das mensagens, Maria Elena, 68)

Page 10: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 11: Problemas de Mínimos Quadrados: Resolução e Aplicações

Resumo

O problema de mínimos quadrados é um problema computacional de primordial importância. Ooriginalmente surgiu da necessidade de se ajustar um modelo matemático linear para observaçõesdadas com o propósito de reduzir a influência de erros nas observações. Trata-se de uma técnicade otimização matemática que procura encontrar o melhor ajuste para um conjunto de dadosatravés da minimização da soma dos quadrados da diferença entre os dados observados eos valores estimados (tais diferenças são chamadas resíduos). Este tipo de problema é muitofrequente em ciências experimentais; em problemas geodésicos, como o formulado por Gausspara resolver um problema de demarcação de fronteiras para o governo alemão; problemasestatísticos; processamentos de sinais; fotogrametria; entre outros. Na linguagem da ÁlgebraLinear, o problema de mínimos quadrados pode ser definido como a solução de um sistema deequações Ax = b sobredeterminado, isto é, com mais equações do que incógnitas. Para resolveresse problema, requer-se conhecimento de diferentes áreas, como por exemplo: alguns conceitosde Álgebra Linear; probabilidade; estatística para analisar os dados; ciência da computaçãopara implementação eficiente de algoritmos e programação matemática para formular e resolverproblemas de otimização. Entre as soluções apresentadas para resolver o sistema de equações,foram estudados: o método de equações normais; decomposição em valores singulares e fatoraçãoQR. Para exemplificar, foram feitas aplicações no ajuste de curvas e na área de Estatística, emexemplos de regressão linear simples e múltipla, além de discutir brevemente sobre os problemasde condicionamento e estabilidade.

Palavras-chave: Mínimos Quadrados. Ajuste polinomial. Regressão Linear. Métodos de Fatora-ção Matricial.

Page 12: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 13: Problemas de Mínimos Quadrados: Resolução e Aplicações

Lista de ilustrações

Figura 1 – Uma projeção oblíqua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Figura 2 – Uma projeção ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Figura 3 – Perpendicular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Figura 4 – Formulação do problema de mínimos quadrados em termos da projeçãoortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1. 28

Figura 6 – SVD Reduzido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Figura 7 – SVD Completo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Figura 8 – QR Reduzido (m > n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Figura 9 – QR Completo (m > n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Figura 10 – Restrições para atualizar um banco de dados geodésicos. . . . . . . . . . . 43

Figura 11 – f (x) = x sen xπ5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Figura 12 – Dados sem perturbação - Grau 1 . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 13 – Dados sem perturbação - Grau 2 . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 14 – Dados sem perturbação - Grau 4 . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 15 – Dados sem perturbação - Grau 7 . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 16 – Dados sem perturbação - Grau 8 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 17 – Dados sem perturbação - Grau 11 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 18 – Dados sem perturbação - Grau 12 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 19 – Dados sem perturbação - Grau 15 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 20 – Dados sem perturbação - Grau 17 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 21 – Dados sem perturbação - Grau 18 . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 22 – Dados sem perturbação - Grau 20 . . . . . . . . . . . . . . . . . . . . . . . 47

Figura 23 – Dados sem perturbação - Grau 22 . . . . . . . . . . . . . . . . . . . . . . . 47

Figura 24 – Dados com perturbação gaussiana - Grau 1 . . . . . . . . . . . . . . . . . . 47

Figura 25 – Dados com perturbação gaussiana - Grau 2 . . . . . . . . . . . . . . . . . . 47

Figura 26 – Dados com perturbação gaussiana - Grau 4 . . . . . . . . . . . . . . . . . . 48

Figura 27 – Dados com perturbação gaussiana - Grau 7 . . . . . . . . . . . . . . . . . . 48

Figura 28 – Dados com perturbação gaussiana - Grau 8 . . . . . . . . . . . . . . . . . . 48

Figura 29 – Dados com perturbação gaussiana - Grau 11 . . . . . . . . . . . . . . . . . 48

Figura 30 – Dados com perturbação gaussiana - Grau 12 . . . . . . . . . . . . . . . . . 48

Figura 31 – Dados com perturbação gaussiana - Grau 15 . . . . . . . . . . . . . . . . . 48

Figura 32 – Dados com perturbação gaussiana - Grau 17 . . . . . . . . . . . . . . . . . 49

Figura 33 – Dados com perturbação gaussiana - Grau 18 . . . . . . . . . . . . . . . . . 49

Figura 34 – Dados com perturbação gaussiana - Grau 20 . . . . . . . . . . . . . . . . . 49

Figura 35 – Dados com perturbação gaussiana - Grau 22 . . . . . . . . . . . . . . . . . 49

Page 14: Problemas de Mínimos Quadrados: Resolução e Aplicações

Figura 36 – Reta que melhor se ajusta a esse conjunto de pontos . . . . . . . . . . . . . 55Figura 37 – Plano que melhor se ajusta a esse conjunto de pontos . . . . . . . . . . . . 57

Page 15: Problemas de Mínimos Quadrados: Resolução e Aplicações

Lista de tabelas

Tabela 1 – Dados simulados - função linear . . . . . . . . . . . . . . . . . . . . . . . 61Tabela 2 – Dados simulados - função não linear . . . . . . . . . . . . . . . . . . . . . 62Tabela 3 – Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Tabela 4 – Comparação entre os métodos - Dados reais . . . . . . . . . . . . . . . . . 63

Page 16: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 17: Problemas de Mínimos Quadrados: Resolução e Aplicações

Lista de abreviaturas e siglas

FRP Função de Regressão Populacional

L.D. Linearmente Dependente

L.I. Linearmente Independente

MQO Mínimos Quadrados Ordinários (ou Método dos Mínimos Quadrados )

MAD Mean Absolute Deviation (Desvio Absoluto Médio)

MSD Mean Squared Deviation (Desvio Quadrático Médio)

MSE Mean Squared Error (Erro Quadrático Médio)

ON Ortonormal

SQR Soma dos Quadrados dos Resíduos

SVD Decomposição em Valores Singulares

VA Variável Aleatória

Page 18: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 19: Problemas de Mínimos Quadrados: Resolução e Aplicações

Lista de símbolos

Im(A) Imagem da matriz A

N(A) Espaço Nulo da matriz A

In Matriz Identidade de dimensão n × n

AT Matriz A transposta

A−1 Matriz A inversa

v Vetor Coluna n-dimensional

Page 20: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 21: Problemas de Mínimos Quadrados: Resolução e Aplicações

Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Revisão de Álgebra Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1 Vetores e Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53.2 Normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 Métodos de Fatoração Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 Equações Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Decomposição em Valores Singulares (SVD) . . . . . . . . . . . . . . . . . . 274.3 Fatoração QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5 Métodos de Mínimos Quadrados e Aplicações . . . . . . . . . . . . . . . . . 39

5.1 O Método de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 395.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3 Condicionamento e Estabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 495.4 Regressão Linear Simples e Múltipla . . . . . . . . . . . . . . . . . . . . . . . 52

6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . 65

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Page 22: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 23: Problemas de Mínimos Quadrados: Resolução e Aplicações

1

1 Introdução

Em 1809, Carl Friedrich Gauss (1777-1855) publicou um artigo no Werke, 4, 1-93 1,demonstrando que a melhor maneira de determinar um parâmetro desconhecido de uma equaçãode condições é minimizando a soma dos quadrados dos resíduos (SQR). Mais tarde, este métodofoi chamado de Mínimos Quadrados.

Em termos matriciais, seja A uma matriz de dimensão m × n e um vetor b ∈ Rm. Oobjetivo é encontrar um vetor x ∈ Rn tal que Ax é a melhor aproximação para b, ou seja, obterum x que minimize ||Ax − b||2, onde || · ||2 é norma vetorial euclidiana. Se m = n e A é umamatriz não singular, a resposta é simples: x = A−1b. Mas, se m > n então há mais equações doque variáveis, o problema é conhecido como sobredeterminado e geralmente nenhum x satisfazAx = b exatamente. Ocasionalmente, encontram-se problemas indeterminados, onde m < n.

Neste trabalho serão estudados apenas os problemas mais comuns: os casos sobredeterminados.Para resolver os sistemas lineares Ax = b, são utilizados os seguintes métodos de fatoraçãomatricial: Equações Normais; Decomposição em Valores Singulares (SVD) e QR.

As equações normais são as mais utilizadas (especialmente em Estatística) para calculara solução de mínimos quadrados. O sistema é não singular se A tem posto completo e, nessecaso, existe a solução de mínimos quadrados e é uma solução única. O método padrão de resolvertal sistema é a fatoração de Cholesky, que decompõe uma matriz A em duas outras matrizes L eLT , onde L é uma matriz inferior com elementos positivos na diagonal principal. A solução dessesistema de equações normais dá o resultado desejado para o problema de mínimos quadrados.

A SVD é uma fatoração matricial de grande importância teórica e prática para trataro problema de mínimos quadrados. Essa decomposição, atualmente, também é a principalferramenta em inúmeras áreas de aplicação, tais como processamento de sinal e processamentode imagem, teoria de controle, reconhecimento de padrões, análise de séries temporais, entreoutras.

A Fatoração QR é uma fatoração de uma matriz A em um produto de uma matrizortogonal Q e uma matriz triangular R. Essa é uma das fatorações mais importantes da álgebralinear numérica. Esses três métodos de fatoração de matrizes serão utilizados na resolução dosproblemas de mínimos quadrados que serão vistos nas aplicações apresentadas.

Neste trabalho, também será abordado um pouco sobre o condicionamento de problemasde mínimos quadrados e a estabilidade dos algoritmos. Dentre as aplicações, será exibido oproblema formulado por Gauss, o ajuste polinomial de curvas e a aplicação do método emestatística, conhecido como regressão linear simples e múltipla.

1 https://archive.org/stream/werkecarlf04gausrich# page/n1/mode/2up ou https://archive.org/details/werkecarlf04gausrich

Page 24: Problemas de Mínimos Quadrados: Resolução e Aplicações

2 Capítulo 1. Introdução

As definições e resultados discutidos no decorrer do trabalho são válidos para o conjuntodos números reais e complexos. Quando se considera o caso complexo, há algumas alteraçõesque não serão mencionadas ao longo dos textos. Neste trabalho, o foco é aplicar o problemade mínimos quadrados para casos no conjunto dos reais. Por isso, não serão feitas observaçõessobre números complexos.

Os capítulos são organizados da seguinte maneira: os dois primeiros capítulos foramreservados para introduzir o tema do trabalho e comentar sobre os objetivos. No capítulo 3 éfeita uma revisão de alguns conceitos de álgebra linear, apresentação das principais definiçõese resultados envolvendo matrizes e vetores ortogonais, normas de vetores e de matrizes queserão usados nos capítulos seguintes. No capítulo 4 são apresentados, em detalhes, três métodosde fatoração matricial. São eles: equações normais; SVD e a Fatoração QR. Já no capítulo 5,é introduzida a ideia do método de mínimos quadrados, mostrando como resolvê-los usandoas fatorações aprendidas e, também é dado o passo a passo dessas fatorações. Nesta etapa,discute-se brevemente o condicionamento de problemas de mínimos quadrados e a estabilidadedos algoritmos. Além disso, discutem-se algumas aplicações. Por fim, o capítulo 6 é feita umaanálise do comportamento dos métodos descritos nas seções anteriores. Assim, conclui-se otrabalho expondo os resultados obtidos e encerra-se mostrando os trabalhos futuros.

Uma das principais referências usadas neste texto é [1], utilizado para introduzir conceitosnecessários, juntamente com exemplos e algumas aplicações. Podem-se encontrar definiçõessemelhantes em [2], [3], [4], [5], [6], [7], [8], [9].

Alguns conceitos de básicos Álgebra Linear e outras definições podem ser vistos em[10], [11], [12], [13], [14] e [15], [16].

Para regressão linear, pode-se tomar como referência [17], [18], [19] e [20].

Sobre inferência estatística e definições de probabilidade e estatística básica pode-seconsultar [21] e [22].

Page 25: Problemas de Mínimos Quadrados: Resolução e Aplicações

3

2 Objetivos

O objetivo principal deste trabalho é resolver um sistema de equações Ax = b sobre-determinado (isto é, com mais equações do que incógnitas) usando mínimos quadrados. Pararesolver esse sistema, estudam-se os métodos de equações normais, a SVD e a Fatoração QR.Como aplicações do método, pretende-se estudar o ajuste polinomial de curvas e a regressãolinear simples e múltipla, além de discutir brevemente sobre condicionamento do problema eestabilidade dos algoritmos.

Page 26: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 27: Problemas de Mínimos Quadrados: Resolução e Aplicações

5

3 Revisão de Álgebra Linear

Neste capítulo é feita uma breve revisão de alguns conceitos de Álgebra Linear que serãoindispensáveis no decorrer do trabalho.

Algumas definições e resultados importantes da teoria são introduzidas. Para maisdetalhes, veja [1], [2], [5], juntamente com os livros de Álgebra Linear: [14], [10] e Análise Real:[12].

3.1 Vetores e Matrizes

Produto Interno

As definições a seguir se encontram no livro de Álgebra Linear [10] e do livro AnáliseReal [12].

Um produto interno é uma função que associa a cada par de vetores x, y do espaçovetorial um número real denotado por 〈x, y〉, chamado produto interno de x por y.

Neste trabalho, o produto interno é definido do seguinte modo: considere x, y dois vetorescolunas de Rm, então,

xT y =

m∑i=1

xiyi

Para quaisquer x, y, z pertencentes ao espaço vetorial e α ∈ R um escalar, tem-se aspropriedades a seguir:

Bilinearidade:

〈x, y + z〉 = 〈x, y〉 + 〈x, z〉

〈αx, y〉 = α〈x, y〉

Segue-se que 〈x + y, z〉 = 〈x, z〉 + 〈y, z〉 e 〈x, αy〉 = α〈x, y〉.

Positividade: 〈x, x〉 > 0 se x , 0.

Como 〈0, x〉 = 〈0 + 0, x〉 = 〈0, x〉 + 〈0, x〉, segue-se que 〈0, x〉 = 〈x, 0〉 = 0 para todo x

pertencente ao espaço vetorial.

Resulta da positividade que se 〈x, y〉 = 0 para todo y pertencente ao espaço vetorial,então x = 0. Com efeito, se fosse x , 0 teríamos 〈x, y〉 , 0 pelo menos quando x = y.

Comutatividade (simetria): 〈x, y〉 = 〈y, x〉.

Page 28: Problemas de Mínimos Quadrados: Resolução e Aplicações

6 Capítulo 3. Revisão de Álgebra Linear

Note que se x, y pertencentes ao espaço vetorial são vetores tais que 〈x, z〉 = 〈y, z〉 paratodo z pertencente ao espaço vetorial então x = y. Com efeito, isto implica que 〈x − y, z〉 = 0para todo z pertencente ao espaço vetorial, logo x − y = 0 e x = y.

O comprimento euclidiano de x, denotado por ||x||, é definido como

||x|| =√

xT x =

n∑i=1

|xi|2

1/2

.

O cosseno do ângulo α entre x e y também pode ser expresso em termos do produtointerno:

cos(α) =xT y||x||||y||

, x, y , 0

Vetores Ortogonais

Definição 1. Um par de vetores x e y são ortogonais se xT y = 0. Isto significa que eles formamum ângulo reto entre si, em Rm. Dois conjuntos de vetores X e Y são ortogonais (ou X é ortogonala Y) se todo x ∈ X é ortogonal a todo y ∈ Y .

Um conjunto S de vetores diferentes de zero é ortogonal se os seus elementos sãoortogonais aos pares, isto é, se para x, y ∈ S , x , y ⇒ xT y = 0. Um conjunto de vetores éortonormal (ON) se é ortogonal e, além disso, todo x ∈ S possui ||x|| = 1.

A demonstração do Teorema 1 a seguir pode ser encontrada de duas maneiras diferentesem [13] e [1].

Teorema 1. Os vetores de um conjunto ortogonal S são linearmente independentes.

Demonstração. Se os vetores em S não são independentes, então algum vk ∈ S pode ser expressocomo uma combinação linear de outros membros v1, ..., vn ∈ S ,

vk =

n∑i=1i,k

civi,

desde que vk , 0, vk.vk = ||vk||2 > 0. Usando a bilinearidade de produto interno e a

ortogonalidade de S , calculamos

vTk .vk =

n∑i=1i,k

civTk vi = 0,

o que contradiz a suposição de que os vetores em S são diferentes de zero.

Como corolário do Teorema 1 acima, conclui-se que, se um conjunto ortogonal S ⊆ Rm

contém m vetores, então é uma base para Rm.

Page 29: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.1. Vetores e Matrizes 7

Componentes de um vetor

Produtos internos podem ser usados para decompor vetores arbitrários em componentesortogonais. Por exemplo, sejam {q1, q2, . . . , qn} um conjunto ON e v um vetor arbitrário. Aquantidade qT

j v é um escalar.

Pode-se utilizar esses escalares como coordenadas em uma expansão, obtendo o vetor

r = v − (qT1 v)q1 − (qT

2 v)q2 − · · · − (qTn v)qn (3.1)

Note que este vetor é ortogonal a {q1, q2, . . . , qn}, pois

qTi r = qT

i v − (qT1 v)(qT

i q1) − (qT2 v)(qT

i q2) − · · · − (qTn v)(qT

i qn),

onde qTi q j = 0, para i , j.

Assim,qT

i r = qTi v − (qT

i v)(qTi qi) = 0.

Portanto, v pode ser decomposto em n + 1 componentes ortogonais:

v = r +

m∑i=1

(qTi v)qi = r +

m∑i=1

(qiqTi )v.

Nesta decomposição, r é a parte de v ortogonal ao conjunto de vetores {q1, q2, . . . , qn},

ou, de modo equivalente, ao subespaço gerado por este conjunto de vetores, e (qTi v)qi é a parte

de v na direção de qi.

Se {qi} é uma base para Rm, então n deve ser igual a m e r deve ser o vetor nulo, assim, v

é completamente decomposto em m componentes ortogonais nas direções de qi :

v =

m∑i=1

(qTi v)qi =

m∑i=1

(qiqTi )v.

Posto de uma Matriz

As definições a seguir podem ser encontradas nos livros [10] e [1].

O posto coluna de uma matriz é a dimensão do seu espaço coluna. E, analogamente,pode-se definir o posto linha de uma matriz como sendo a dimensão do espaço gerado por suaslinhas.

O posto linha é sempre igual ao posto coluna1. Assim, esse número será mencionadosimplesmente como o posto de uma matriz.

Pode-se, então, definir o posto de uma matriz como o número máximo de linhas, ou decolunas L.I (Linearmente Independentes) dessa matriz, mesmo quando a matriz é quadrada.1 Esse é um corolário da decomposição em valores singulares, que será discutido na seção 4.2.

Page 30: Problemas de Mínimos Quadrados: Resolução e Aplicações

8 Capítulo 3. Revisão de Álgebra Linear

Uma matriz m × n de posto completo é uma matriz que tem o máximo possível do posto,ou seja: o mínimo de m ou n. Isto significa que uma matriz de posto completo com m ≥ n temque ter n colunas L.I.

Teorema 2. Uma matriz A ∈ Rm×n com m ≥ n tem posto completo se, e somente se, ela não

mapeia dois vetores distintos para um mesmo vetor.

A demonstração do teorema 2 pode ser encontrada em [1].

Multiplicação de Matrizes

As definições e os exemplos a seguir podem ser encontrados em [1].

Seja x = (x j) um vetor coluna de dimensão n e seja A = (ai j) uma matriz de tamanhom × n. O produto de A por x resulta no vetor coluna b = (bi) = Ax, donde b ∈ Rn. Note que

bi =

n∑j=1

ai jx j, i = 1, . . . ,m. (3.2)

• bi é a i-ésima entrada de b,

• ai j corresponde à entrada i, j de A (i-ésima linha, j-ésima coluna),

• x j é a j-ésima entrada de x.

Uma matriz multiplicada por um vetor

Seja A j, j ∈ {1, . . . , n}, a j-ésima coluna de A, um vetor de dimensão m, ou seja, com m

entradas. Dessa forma, a equação (3.2) pode ser rescrita como a combinação linear das colunasde A, isto é:

b = Ax =

n∑j=1

x jA j. (3.3)

A equação (3.3) pode ser apresentada esquematicamente como:

b1

b2...

bm

=

A1 A2 . . . An

x1

x2...

xn

= x1

A1

+ x2

A2

+ · · · + xn

An

Observe que da equação (3.2) para equação (3.3) não aconteceu nada além de uma ligeira

alteração na notação.

Page 31: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.1. Vetores e Matrizes 9

Exemplo 1 (Matriz de Vandermonde). Considere uma sequência de números {x1, x2, . . . , xm}.Se p e q são polinômios de grau < n e α é um escalar, então p + q e αq também são polinômiosde grau < n. Além disso, os valores destes polinômios nos pontos xi satisfazem as propriedadeslineares a seguir:

(p + q)(xi) = p(xi) + q(xi)

(αp)(xi) = α(p(xi)).

Portanto, o mapeamento dos vetores de coeficientes dos polinômios p de grau < n

para vetores (p(x1), p(x2), . . . , p(xm)) de valores polinomiais amostrados é linear. Qualquermapeamento linear pode ser expresso como a multiplicação por uma matriz.

Na verdade, é expresso por uma matriz de Vandermonde de dimensão m × n:

A =

1 x1 x2

1 x31 . . . xn−1

1

1 x2 x22 x3

2 . . . xn−12

......

......

. . ....

1 xm x2m x3

m . . . xn−1m

.

Se c é o vetor coluna dos coeficientes de p,

c =

c0

c1

c2...

cn−1

, p(x) = c0 + c1x + c2x2 + · · · + cn−1xn−1,

então o produto Ac dá os valores polinomiais amostrados. Ou seja, para cada i de 1 atém, tem-se:

(Ac)i = c0 + c1xi + c2x2i + · · · + cn−1xn−1

i = p(xi) (3.4)

Nesse exemplo, está claro que o produto matriz-vetor Ac não precisa ser pensado comom somatórios escalares distintos, cada um dando uma combinação linear diferente das entradasde c, como (3.2) pode sugerir. Ao invés disso, A pode ser vista como uma matriz de colunas,cada uma com valores amostrados de um monômio ,

A =

1 X X2 . . . Xn−1

, (3.5)

e o produto Ac deve ser entendido como a soma de um único vetor na forma (3.3), quefornece uma combinação linear destes monômios, Ac = c0 + c1x + c2x2 + · · · + cn−1xn−1 = p(x).

Page 32: Problemas de Mínimos Quadrados: Resolução e Aplicações

10 Capítulo 3. Revisão de Álgebra Linear

Uma matriz multiplicada por uma matriz

Para o produto de uma matriz A por uma matriz C, B = AC, cada coluna de B é umacombinação linear das colunas de A. Para deduzir este fato, considere inicialmente a fórmulausual para produto de matrizes. Considere a matriz A de dimensão l × m e a matriz C de dimensãom × n. Assim, B necessariamente deve possuir dimensão l × n. Suas entradas são definidas por

bi j =

m∑k=1

aikck j. (3.6)

Em termos de colunas, tem-se:B1 B2 . . . Bn

=

A1 A2 . . . An

C1 C2 . . . Cn

,

onde aik, bi j e ck j são as entradas das matrizes A, B e C, respectivamente.

A equação (3.6) é denotada da seguinte forma:

B j = Ac j =

m∑k=1

ck jAk. (3.7)

Portanto, B j é uma combinação linear das colunas Ak com coeficientes ck j.

Exemplo 2 (Produto Exterior). Este é um produto de um vetor-coluna u, de dimensão m, comum vetor-linha v cuja dimensão é n. O resultado é uma matriz m × n de posto 1.

u

[

v1 v2 . . . vn

]=

v1u v2u . . . vnu

=

v1u1 . . . vnu1...

...

v1um . . . vnun

.As colunas são sempre multiplicadas pelo mesmo vetor, chamado de u, e igualmente, as

linhas são multiplicadas pelo mesmo vetor, denotado por v.

Exemplo 3. Considere B = AU, onde U é uma matriz triangular superior cuja dimensão é n × n

com entradas ui j = 1 se i ≤ j e ui j = 0 se i > j. Pode-se escrever esse produto da seguinte forma:B1 B2 . . . Bn

=

A1 A2 . . . An

1 . . . 1

. . ....

1

.

Page 33: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.1. Vetores e Matrizes 11

Agora, a equação (3.7) é dada por:

B j = Au j =

j∑k=1

Ak. (3.8)

Isto significa que a j−ésima coluna de B é a soma das primeiras j colunas de A.

Núcleo e Imagem de uma matriz

Imagem

Seja A uma matriz m × n, correspondendo a uma aplicação linear de Rn em Rm.

Definição 2. A imagem de A é o espaço

Im(A) = {Au : u ∈ Rn}.

Note que Im(A) ⊂ Rm. Pode-se, também, ver a Im(A) como o espaço das colunas damatriz A, conforme mostra o teorema 3.

Teorema 3. Im(A) é o espaço gerado pelas colunas de A.

Demonstração. Por (3.3) qualquer Ax é uma combinação linear das colunas de A. Por outro lado,qualquer vetor y no espaço gerado pelas colunas de A pode ser escrito como uma combinaçãolinear das colunas, y =

∑nj=1 x jA j. Formando um vetor x com os coeficientes de x j, obtém-se

y = Ax, e, assim, y está na imagem de A. �

A imagem de uma matriz A também pode ser chamada de espaço-coluna de A.

Núcleo

O núcleo de uma matriz A é denotado por N(A).

Para uma transformação linear dada como uma matriz A, o núcleo é simplesmente oconjunto de soluções da equação Ax = 0, onde x e 0 são interpretados como vetores coluna. Adimensão do espaço nulo de A é denominada nulidade de A.

Definição 3. O núcleo de A é o espaço

N(A) = {u : Au = 0}

Note que N(A) ⊂ Rn. Se o produto interno canônico é assumido, pode-se mostrar que onúcleo de A é o espaço dos vetores ortogonais a todas as linhas de A.

Page 34: Problemas de Mínimos Quadrados: Resolução e Aplicações

12 Capítulo 3. Revisão de Álgebra Linear

Matriz Inversa

Considere In a matriz identidade n × n. Tem-se In = [δi j], onde δi j é o símbolo de

Kronecker: δi j = 0 se i , j e δii = 1. Quando não houver ambiguidade, será simplesmente escritoI em vez de In.

Definição 4. Uma matriz A chama-se invertível ou não-singular quando é quadrada de postocompleto. Qualquer matriz A quadrada não-singular possui uma única matriz A−1, chamada ainversa de A, tal que A−1A = AA−1 = I.

O teorema a seguir fornece uma série de condições equivalentes quando a matriz équadrada não-singular.

Teorema 4. Para A ∈ Rm×m

(a) A possui uma inversa A−1,

(b) Im(A) = m,

(c) Im(A) = Rm,

(d) N(A) = {0},

(e) 0 não é um autovalor de A,

(f) 0 não é um valor singular de A,

(g) det(A) , 0.

A demonstração do teorema 4 acima pode ser encontrada facilmente nos livros de ÁlgebraLinear, como por exemplo [10], [14] e [16].

A seguir, enuncia-se o Teorema de Binet, que será utilizado em uma demonstração naseção 4.2 sobre SVD.

Teorema 5 (de Binet). O determinante do produto de duas matrizes quadradas de mesma ordem

é igual ao produto dos determinantes destas matrizes, ou seja, det(AB) = det(A) det(B), onde

A, B são matrizes de ordem n.

Para mais detalhes sobre a demonstração do teorema 5, veja a página 219 do livro [14].

Matriz Simétrica

Definição 5. Uma matriz A ∈ Rn×n é chamada de simétrica se A = AT . E se A = −AT , a matriz éantisimétrica.

Page 35: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.1. Vetores e Matrizes 13

Matriz Transposta

Seja A = (ai j) ∈ Rm×n. A matriz transposta de A é a matriz AT = (a ji), onde AT ∈ Rn×m.

Ou seja:

A =

a1,1 a1,2 . . . a1,n

a2,1 a2,2 . . . a2,n...

.... . .

...

am,1 am,2 . . . am,n

⇔ AT =

a1,1 a2,1 . . . am,1

a1,2 a2,2 . . . am,2...

.... . .

...

a1,n a2,n . . . am,n

Algumas propriedades sobre matrizes simétricas e suas respectivas demonstrações são

dadas. Considere A, B ∈ Rm×n e c ∈ R uma constante qualquer.

1.(AT

)T= A,

2. (A + B)T = AT + BT,

3. (cA)T = cAT,

4. (AB)T = BTAT,

5. (AT)−1 = (A−1)T, se A é uma matriz não singular,

Para facilitar o entendimento das demonstrações a seguir, uma matriz A será denotada daseguinte maneira: A = [ai, j]m,n

i, j=1.

Demonstração.

1. Seja A = [ai, j]m,ni, j=1. Então,

AT = [ai, j]n,mj,i=1e, portanto,

(AT

)T= [ai, j]m,n

i, j=1 = A.

2. Sejam A = [ai, j]m,ni, j=1 e B = [bi, j]m,n

i, j=1. Então,

(A + B)T =([ai, j + bi, j]m,n

i, j=1

)T= [ai, j + bi, j]n,m

j,i=1 = AT + BT.

3. Seja A = [ai, j]m,ni, j=1. Então,

(cA)T =(c[ai, j]m,n

i, j=1

)T=

([cai, j]m,n

i, j=1

)T= [cai, j]n,m

j,i=1 = c[ai, j]n,mj,i=1 = cAT.

Page 36: Problemas de Mínimos Quadrados: Resolução e Aplicações

14 Capítulo 3. Revisão de Álgebra Linear

4. Sejam A = [ai, j]m,ni, j=1 e B = [bi, j]

n,pi, j=1. Então,

(AB)T =([ai, j]m,n

i, j=1[bi, j]n,pi, j=1

)T

=

n∑

k=1

ai,kbk, j

m,p

i, j=1

T

=

n∑k=1

ai,kbk, j

p,m

j,i=1

=

n∑k=1

bk, jai,k

p,m

j,i=1

= [bi, j]p,nj,i=1[ai, j]n,m

j,i

= BTAT

.

5. Se A é uma matriz não singular, então AA−1 = A−1A = I. Daí, segue que:

I = IT =(AA−1

)T= AT

(A−1

)T

e

I = IT =(A−1A

)T=

(A−1

)TAT

ou seja, a inversa de AT é a transposta de A−1.

Matriz Definida Positiva

Definição 6. Chama-se matriz definida positiva a uma matriz A tal que xT Ax > 0 para todox , 0.

Teorema 6. Se A ∈ Rn×n é uma matriz definida positiva então A é invertível.

Demonstração. Supondo que A seja não-invertível, então existe um vetor não-nulo x ∈ Rn talque Ax = 0 e, portanto, xT Ax = 0, o que é uma contradição. �

Matrizes Ortogonais

Para mais detalhes sobre as definições a seguir, veja [1].

Definição 7. Uma matriz quadrada Q ∈ Rm×m é ortogonal se QT = Q−1, isto é, se QT Q = Im.

Page 37: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.1. Vetores e Matrizes 15

Em termos das colunas de Q, o produto pode ser escrito como:Q1T

Q2T

...

QmT

Q1 Q2 . . . Qm

=

1

1. . .

1

.

Em outras palavras, QiT Q j = δi j.

Veja algumas propriedades sobre matrizes ortogonais e suas respectivas demonstrações.Considere A ∈ Rm×m uma matriz quadrada e c ∈ R uma constante qualquer.

1. Se A é uma matriz ortogonal, então det(A) = ±1.

2. A matriz A é ortogonal se, e somente se, suas colunas formam um conjunto ortonormal.

3. A matriz A é ortogonal se, e somente se, suas linhas formam um conjunto ortonormal.

4. A matriz A é ortogonal se, e somente se, sua transposta AT também é.

5. Se A é uma matriz ortogonal, então cA é ortogonal se, e somente se, c = ±1.

Demonstração.

1. Por hipótese, AT = A−1 ⇒ det(AT ) = det(A−1)⇒ det(A) = 1det(A) . Então:

[det(A)]2 = 1⇒ det(A) = ±1.

2. Seja A =

A1 A2 . . . An

uma matriz ortogonal, onde Ai indica a i-ésima coluna de

A.

Por hipótese, AT A = In, donde: ai · a j =

1 , i = j

0 , i , j

isto é, o conjunto formado pelos vetores coluna {A1, A2, . . . , An} é um conjunto ON. Reci-procamente, se as colunas de A formam um conjunto ON de vetores, então por cálculodireto AT A = In.

3. O raciocínio é análogo ao item 2.

4. Imediatamente tem-se:

AT = A−1 ⇔ (AT )T = (A−1)T ⇔ A = (AT )−1.

Page 38: Problemas de Mínimos Quadrados: Resolução e Aplicações

16 Capítulo 3. Revisão de Álgebra Linear

5. Por hipótese, AT = A−1.

Com isso, tem-se: (cA)T = cAT = cA−1.

Porém cA−1 = (cA)−1 se, e somente se, c = ±1.

Multiplicação por uma matriz ortogonal

O processo de multiplicação por uma matriz ortogonal preserva estrutura geométrica nosentido euclidiano, porque produtos internos são preservados. Isto é, para matrizes ortogonais,

(Qx)T (Qy) = xT y, (3.9)

A invariância de produtos internos significa que ângulos entre vetores são preservados,assim como seus comprimentos:

||Qx|| = ||x|| (3.10)

No caso real, que é o que está sendo tratado neste trabalho, a multiplicação por umamatriz ortogonal Q corresponde a uma rotação rígida (se det Q = 1) ou reflexão (se det Q = −1)do espaço vetorial.

3.2 Normas

As noções essenciais de tamanho e distância em um espaço vetorial são obtidas pornormas.

Norma Vetorial

A norma é uma função || · || : Rm → R que atribui um comprimento de valor real paracada vetor. Uma norma deve satisfazer as 3 condições a seguir. Para todos vetores x e y e todosescalares α ∈ R,

1. ||x|| ≥ 0, e ||x|| = 0 se, e somente se, x = 0,

2. ||αx|| = |α|||x||,

3. ||x + y|| ≤ ||x|| + ||y||.

Note que o terceiro item é a desigualdade triangular.

Page 39: Problemas de Mínimos Quadrados: Resolução e Aplicações

3.2. Normas 17

p-normas

A classe mais importante de normais vetorias, a p-norma, é definida abaixo.

||x||1 =

m∑i=1

|xi|

||x||2 =

m∑i=1

|xi|2

1/2

=√

xT x

||x||∞ = max1≤i≤m

|xi|

||x||p =

m∑i=1

|xi|p

1/p

, (1 ≤ p < ∞)

Norma Matricial Induzida pela Norma Vetorial

Pode-se visualizar uma matriz de dimensão m× n como um vetor no espaço de dimensãocorrespondente, basta considerar cada uma das mn entradas da matriz como uma coordenadaindependente. Portanto, qualquer norma neste espaço pode ser utilizada para medir o “tamanho”da matriz. Mas, ao lidar com um espaço de matrizes, algumas normas especiais são mais úteisdo que as normas vetoriais definidas anteriormente. Essas normas serão chamadas de normas

matriciais induzidas.

Sejam || · ||(n) e || · ||(m) as normas vetoriais no domínio e na imagem de A ∈ Rm×n, respecti-vamente. A norma matricial induzida ||A||(m,n) é o menor número c que satisfaz a desigualdadeabaixo para todo x ∈ Rn.

||Ax||(m) ≤ c||x||(n)

Isto é, ||A||(m,n) é o supremo da razão ||Ax||(m)

||x||(n)para todos os vetores x ∈ Rn. Informalmente,

pode-se dizer que é o fator máximo pelo qual A pode “esticar” um vetor x.

Também denota-se || · ||(m,n) como a norma matricial induzida por || · ||(m) e || · ||(n).

Equivalentemente, define-se a norma matricial como:

||A||(m,n) = supx∈Rn

x,0

||Ax||(m)

||x||(n)= sup

x∈Rn

||x||(n)=1

||Ax||(m). (3.11)

Limitando ||AB|| numa Norma Matricial Induzida

Sejam || · ||(l), || · ||(m) e || · ||(n) normas de Rl, Rm e Rn, respectivamente, e seja A uma matrizl × m e B uma matriz m × n. Para todo x ∈ Rn :

||ABx||(l) ≤ ||A||(l,m)||Bx||(m) ≤ ||A||(l,m)||B||(m,n)||x||n.

Portanto, a norma induzida de AB deve satisfazer:

||AB||(l,n) ≤ ||A||(l,m)||B||(m,n).

Page 40: Problemas de Mínimos Quadrados: Resolução e Aplicações

18 Capítulo 3. Revisão de Álgebra Linear

Em geral, essa desigualdade não é uma igualdade, isto é: estritamente menor.

Normas Matriciais Gerais

Como se pode notar, as normas matriciais não precisam ser induzidas pelas normasvetoriais. Em geral, uma norma matricial deve satisfazer as condições de norma vetorial aplicadasno espaço vetorial de dimensão mn de matrizes:

1. ||A|| ≥ 0, e ||A|| = 0 se, e somente se, A = 0,

2. ||αA|| = |α|||A||,

3. ||A + B|| ≤ ||A|| + ||B||.

Uma norma importante é a norma de Hilbert-Schmidt ou norma de Frobenius, definidapor:

||A||F =

m∑i=1

n∑j=1

|ai j|2

12

(3.12)

Esta norma não é induzida pela norma de um vetor.

Note que esta norma é a mesma norma-2 da matriz quando considerada como um vetormn−dimensional. A fórmula da norma de Frobenius pode ser escrita em termos de linhas oucolunas individuais. Por exemplo, se A j é a j−ésima coluna de A, tem-se:

||A||F =

n∑j=1

||A j||22

1/2

= ||A||2

Esta identidade, bem como sua análoga baseada em linhas ao invés de colunas, pode serexpressa compactamente pela equação:

||A||F =√

tr(AT A) =√

tr(AAT ), (3.13)

onde tr(A) denota o traço de A, a soma dos seus elementos na diagonal com A sendo umamatriz quadrada.

Invariância sobre Multiplicação por Matriz Ortogonal

Teorema 7. Para qualquer matriz A ∈ Rm×n e matriz ortogonal Q ∈ Rm×m, vale:

||QA||2 = ||A||2, ||QA||F = ||A||F .

Demonstração. Desde que ||Qx||2 = ||x||2 para todo x, pelo item 3.10, a invariância na norma 2,segue de 3.11. Para a norma de Frobenius pode-se usar 3.13. �

Page 41: Problemas de Mínimos Quadrados: Resolução e Aplicações

19

4 Métodos de Fatoração Matricial

Neste capítulo estudam-se três tipos de decomposição de matrizes. Na sequência, estesmétodos serão utilizados para resolver problemas de mínimos quadrados. Antes, será apresentadoum conceito introdutório sobre projetores e suas particularidades.

Projetores

A definição a seguir pode ser vista com mais detalhes em [1].

Um projetor é uma matriz quadrada P que satisfaz

P2 = P (4.1)

Uma matriz deste tipo também é definida como matriz idempotente. Esta definição incluiprojetores ortogonais e não-ortogonais. Será utilizado o termo “Projetor Oblíquo” para o casoem que o projetor é não-ortogonal.

Note que se v ∈ Im(P), tem-se v = Px para algum x e

Pv = P2x = Px = v.

Figura 1 – Uma projeção oblíqua

Se v < Im(P) então v , Pv e aplicando o projetor ao vetor Pv − v obtém-se:

P(Pv − v) = P2v − Pv = 0,

ou seja, Pv − v ∈ N(P).

Page 42: Problemas de Mínimos Quadrados: Resolução e Aplicações

20 Capítulo 4. Métodos de Fatoração Matricial

Projetores Complementares

Se P é um projetor, I − P também é um projetor:

(I − P)2 = I − 2P + P2 = I − P.

A matriz I − P é chamada de Projetor Complementar a P.

Mostra-se que o projetor I − P projeta no N(P).

De fato, Im(I − P) ⊇ N(P), pois se Pv = 0, temos (I − P)v = v. Também vale queIm(I − P) ⊆ N(P), porque para qualquer v, (I − P)v = v − Pv ∈ N(P). Portanto, para qualquerprojeto P, vale a igualdade

Im(I − P) = N(P).

Como vale para qualquer P, escreve-se P = I − (I − P). Dessa forma, obtém-se:

N(I − P) = Im(P).

Além disso, observe que N(I − P) ∩ N(P) = {0}, pois qualquer vetor v em ambosconjuntos satisfazem v = v − Pv = (I − P)v = 0. Equivalentemente segue que,

Im(P) ∩ N(P) = {0}.

Sejam S 1 e S 2 dois subespaços de Rm tais que S 1 ∩ S 2 = {0} e S 1 + S 2 = Rm, ondeS 1 + S 2 indica a extensão de S 1 e S 2, isto é, o conjunto de vetores s1 + s2 com s1 ∈ S 1 es2 ∈ S 2. (Tal par é chamado de subespaços complementares.) Então existe um projetor P tal queIm(P) = S 1 e N(P) = S 2. Diz-se que P é um projetor sobre S 1 na direção de S 2. Esse projetor eseu complementar podem ser vistos como uma única solução para o seguinte problema:

Dado v, encontre os vetores v1 ∈ S 1 e v2 ∈ S 2 tais que v1 + v2 = v.

O projetor Pv dá v1, e a projeção complementar (I − P)v dá v2. Esses vetores são únicosporque todas as soluções precisam ser da forma

(Pv + v3) + ((I − P)v − v3) = v,

onde está claro que v3 pertence a ambos subespaços S 1 e S 2, isto é, v3 = 0.

Projetores Ortogonais

Um Projetor Ortogonal (Figura 2) é um projetor que projeta sobre um subespaço S 1 nadireção de S 2, onde S 1 e S 2 são ortogonais.

Observação 1. É importante dizer que projetores ortogonais não são matrizes ortogonais.

Existe também uma definição algébrica: Um projetor ortogonal é qualquer projetor que ésimétrico, satisfazendo PT = P e (4.1). É claro que esta definição é equivalente à primeira.

Page 43: Problemas de Mínimos Quadrados: Resolução e Aplicações

21

Figura 2 – Uma projeção ortogonal

Teorema 8. Um projetor P é ortogonal se e somente se P = PT .

Demonstração. (⇐) Seja P um projetor ortogonal. Aqui, será usada a SVD (Veremos estemétodo com mais detalhes na seção 4.2). Suponha que P projeta sobre S 1 na direção de S 2,

onde S 1 ⊥ S 2 e S 1 tem dimensão n. Então um SVD de P pode ser construído da seguintemaneira: seja {q1, q2, . . . , qm} uma base ON para Rm, onde {q1, q2, . . . , qn} é uma base para S 1

e {qn+1, qn+2, . . . , qm} é uma base para S 2. Para j ≤ n, tem-se PQ j = Q j e para j > n tem-sePQ j = 0. Agora, seja Q uma matriz ortogonal na qual as j-ésimas colunas são preenchidas porQ j. Logo, tem-se:

PQ =

Q1 . . . Qn 0 . . .

,

e dessa forma,

QT PQ =

1. . .

10

. . .

= Σ,

onde Σ é uma matriz diagonal com uns nas primeiras n entradas e zeros nas demais.Assim, construi-se uma decomposição em valores singulares de P :

P = QΣQT .

Page 44: Problemas de Mínimos Quadrados: Resolução e Aplicações

22 Capítulo 4. Métodos de Fatoração Matricial

Note que P é simétrico, desde que PT = (QΣQT )T = QΣT QT = QΣQT = P.

(⇒) Suponha que P = PT . Então o produto interno entre um vetor Px ∈ S 1 e um vetor(I − P)y ∈ S 2 é zero, ou seja, xT PT (I − P)y = 0.

Mas,

xT PT (I − P)y = xT (PT − PT P)y = xT (P − PP)y = xT (P − P2)y.

Logo, xT (P − P2)y = 0.

Portanto, o projetor é ortogonal, como queríamos mostrar. �

Projetor com uma Base Arbitrária

Pode-se construir um projetor ortogonal sobre um espaço Rm começando com uma basearbitrária, não necessariamente ortogonal. Suponha que o subespaço é gerado pelos vetores L.I.{a1, . . . , an} e seja A um matriz m × n tal que a j-ésima coluna é A j.

Ao passar de v para sua projeção ortogonal y ∈ Im(A), a diferença y − v tem queser ortogonal com relação a Im(A). Equivalentemente, pode-se dizer que y tem que satisfazerA jT (y− v) = 0 para todo j. Desde que y ∈ Im(A), pode-se definir y = Ax e escrever esta condiçãoda seguinte maneira: A jT (Ax − v) = 0 para cada j, ou equivalentemente, AT (Ax − v) = 0 ouAT Ax = AT v. É fácil mostrar que, como A tem posto máximo então AT A é não-singular. Portanto,

x = (AT A)−1AT v.

Finalmente, a projeção de v, y = Ax, é y = A(AT A)−1AT v. Assim, o projetor ortogonal naIm(A) pode ser expresso pela fórmula a seguir:

P = A(AT A)−1AT .

No caso particular de uma base ON A = Q, obtém-se QQT = I, daí segue que P = QQT .

Page 45: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.1. Equações Normais 23

4.1 Equações Normais

Os conceitos e definições a seguir podem ser encontrados em [7].

Uma das abordagens mais utilizadas (especialmente em Estatística) para calcular asolução de mínimos quadrados é o método de Equações Normais.

Interpretação Geométrica do problema de mínimos quadrados

Seja A uma matriz m × n com m > n. Então A é um mapeamento linear de Rn → Rm.

Im(A) é um subespaço de Rm. Todo vetor u ∈ Im(A) pode ser escrito como u = Ax para algumx ∈ Rn. Seja b ∈ Rm. Devido a || · ||2 ser a norma Euclidiana, ||b − Ax||2 é distância entre ospontos de b e Ax. Está claro que esta distância é a distância minimal se, e somente se, b − Ax forperpendicular a Im(A) (Figura 3). Neste caso, ||b − Ax||2 é a distância do ponto final de b até o“plano” Im(A).

Figura 3 – Perpendicular

Por essa interpretação, é fácil entender que uma solução de problema de mínimosquadrados para o sistema linear Ax = b sempre vai existir. Essa solução existe porque pode-seprojetar b no “plano” Im(A) para obter o vetor u ∈ Im(A), e existe x ∈ Rn tal que u = Ax. Esse x

é a solução. Porque b − Ax é perpendicular a Im(A) e todo vetor em Im(A) é uma combinaçãolinear dos vetores colunas de A, então b − Ax é ortogonal a todas colunas de A, ou seja,

AT (b − Ax) = 0

ouAT Ax = AT b. (4.2)

O sistema de equações (4.2) é chamado de Equações Normais.

Page 46: Problemas de Mínimos Quadrados: Resolução e Aplicações

24 Capítulo 4. Métodos de Fatoração Matricial

Projeção Ortogonal e Equações Normais

A ideia é ilustrar a Figura 4. Nosso objetivo é encontrar o ponto Ax ∈ Im(A) maispróximo de b, de modo que a norma do resíduo r = b − Ax seja minimizada. Geometricamente,fica evidente que Ax = Pb onde P ∈ Rm×m é o projetor ortogonal (como visto anteriormente) quemapeia Rm para Im(A). Em outras palavras, o resíduo r = b − Ax tem que ser, necessariamente

ortogonal a Im(A).

Figura 4 – Formulação do problema de mínimos quadrados em termos da projeção ortogonal.

Teorema 9. Seja uma matriz A ∈ Rm×n (m ≥ n) e b ∈ Rm o vetor dado. Um vetor x minimiza a

norma residual ||r||2 = ||b − Ax||2, resolvendo assim, o problema de mínimos quadrados, se e

somente se r é ortogonal a Im(A), isto é,

AT r = 0,

ou equivalentemente,

AT Ax = AT b,

ou novamente equivalente,

Pb = Ax

onde Pm×m é o projetor ortogonal sobre A.

Então, a solução x para o problema de mínimos quadrados é única e dada por x =

(AT A)−1AT b. A matriz (AT A)−1AT é conhecida como a pseudoinversa de A.

O método padrão de resolver tal sistema é a fatoração de Cholesky.

Page 47: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.1. Equações Normais 25

Fatoração Cholesky

As definições e exemplos discutidos aqui podem ser encontrados em [9].

Antes de definir a fatoração Cholesky, será vista a fatoração LU para melhor entendi-mento.

Fatoração LU

Definição 8. Se A é uma matriz quadrada que pode ser fatorada na forma A = LU, onde L étriangular inferior e U triangular superior, então dizemos que A = LU é uma fatoração LU de A.

Pode-se chamar a fatoração LU de decomposição LU de A ou de decomposição triangu-

lar de A, onde as letras L e U são abreviações das palavras inglesas “lower” (inferior) e “upper”(superior).

A definição da decomposição LU acima, considera A como uma matriz quadrada. Mas,também existe essa decomposição para matrizes retangulares pertencentes a Rm×n. Detalhes epasso a passo sobre a fatoração LU de uma matriz retangular podem ser encontrados em [9].

São exemplos de fatoração LU as decomposições abaixo:

A =

1 23 8

=

1 03 1

. 1 20 2

= L1U1

B =

3 −1 24 3 7−2 1 5

=

3 0 04 13

3 0−2 1

3 6

.

1 −13

23

0 1 10 0 1

= L2U2

C =

2 6 44 4 −1−2 2 5

=

1 0 02 1 0−1 −1 1

.

2 6 40 −8 −90 0 0

= L3U3

Observação 2. Uma matriz quadrada só admitirá a decomposição LU se no seu escalonamentonão for necessária a troca de linhas. Para mais detalhes e passo a passo da decomposição, veja[9]. Outras referências para tal decomposição podem ser encontradas em: [5], [4] e [13].

Depois de observar como é feita a decomposição LU, será discutida a decomposição deinteresse, que é a fatoração de Cholesky.

Definição 9. Chama-se fatoração de Cholesky de uma matriz quadrada A à fatoração A = LLT ,onde L é uma matriz triangular inferior com elementos positivos na diagonal principal.

Claramente, pode-se notar que a diferença entre a fatoração LU e fatoração Choleskyestá na matriz U. Basta considerar U = LT para obter a decomposição desejada e com menos

Page 48: Problemas de Mínimos Quadrados: Resolução e Aplicações

26 Capítulo 4. Métodos de Fatoração Matricial

custo computacional. O que é óbvio, porque bastou encontrar apenas a matriz L e sua transposta.Ou seja, o cálculo da matriz U, neste caso, se reduz ao cálculo de LT .

Veja a seguir dois exemplos de fatoração de Cholesky:

A =

2 −1 0−1 2 −10 −1 2

=

2 0 0

− 1√

2

√32 0

0 −

√23

2√

3

.√

2 − 1√

20

0√

32 −

√23

0 0 2√

3

= L1LT1

B =

4 −2 4 10−2 10 1 −24 1 6 13

10 −2 13 31

=

2 0 0 0−1 3 0 02 1 1 05 1 2 1

.

2 −1 2 50 3 1 10 0 1 20 0 0 1

= L2LT2

Observação 3. Observe que as matrizes A e B acima, são matrizes simétricas. E possuir essapropriedade é uma das condições necessárias para aplicar a fatoração de Cholesky.

Teorema 10. Uma matriz simétrica A é definida positiva se, e somente se, pode ser fatorada

como LLT , onde L é uma matriz triangular inferior com elementos positivos na diagonal.

Para obter mais detalhes e passo a passo sobre a fatoração de Cholesky, a referênciaindicada é [9].

Para resolver o problema de mínimos quadrados utilizando o método de equaçõesnormais, será aplicada a fatoração Cholesky em AT A.

Dessa forma, AT A = LLT tal que

AT A =

a11 a12 · · · a1n

a21 a22 · · · a2n...

.... . .

...

ak1 ak2 · · · akn...

.... . .

...

an1 an2 · · · ann

é uma matriz simétrica e positiva e

LLT =

l11 0 0 0 · · · 0l21 l22 0 0 · · · 0...

...... 0

... 0lk1 lk2 · · · lkk · · · 0...

......

...... 0

ln1 ln2 · · · lnk · · · lnn

.

l11 l21 · · · lk1 · · · ln1

0 l22 · · · lk2 · · · ln2

0...

......

......

0 0 · · · lkk · · · lnk

0...

......

......

0 0 · · · 0 · · · lnn

Depois da decomposição de Cholesky, basta resolver os seguintes sistemas, com os

métodos de soluções para sistemas triangular inferior e triangular superior:

Page 49: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.2. Decomposição em Valores Singulares (SVD) 27

1. Lz = AT b e, em seguida

2. LT xT = z, onde z é um vetor que se obtém resolvendo o primeiro sistema.

Assim, têm-se os valores de x.

A seguir, serão discutidas a decomposição SVD e a fatoração QR.

4.2 Decomposição em Valores Singulares (SVD)

Podemos encontrar mais detalhes sobre SVD em [4], [2], [6], [3], [7] e [23].

Nesta seção será apresentada uma decomposição geral para matrizes m × n, que seráchamada de decomposição em valores singulares (SVD). Essa decomposição lida com aslinhas e colunas de uma forma simétrica e, portanto fornece mais informações sobre a matriz.

O SVD de uma matriz A ∈ Rm×n é uma fatoração matricial de grande importânciateórica e prática para tratar o problema de mínimos quadrados, tendo aplicações em muitas áreasdiferentes, onde sua fatoração é um passo em muitos algoritmos.

Observe que o SVD se aplica a matrizes pertencentes ao conjunto dos números reais e aoconjunto dos números complexos. No entanto, será tratado apenas os casos em que as matrizessão pertencentes ao conjunto dos números reais.

Ideia Geométrica

Mais detalhes sobre o método podem ser encontrados em [1].

A ideia do método baseia-se no fato geométrico de que a imagem da esfera unitária sobqualquer matriz m × n é uma hiperelipse.

Sejam S a esfera Euclidiana usual em Rn, isto é, a esfera unitária na norma-2 e AS aimagem de S sob o mapeamento de A: uma hiperelipse.

Considere o termo “hiperelipse” como sendo uma generalização m-dimensional de umaelipse. Pode-se definir uma hiperelipse em Rm como a superfície obtida quando se “estica” aesfera unitária em Rm por alguns fatores σ1, . . . , σm (podendo ser zero) em algumas direçõesortogonais u1, . . . , um ∈ R

m.

Considere os vetores ui unitários, ou seja, ||ui||2 = 1. Os vetores {σiui} são os semi-eixos principais da hiperelipse, com comprimentos σ1, . . . , σm. Se A tem posto r, então teremosexatamente r dos comprimentos de σi diferentes de zero, e, em particular, se m ≥ n, no máximon deles serão diferentes de zero.

Suponha, por enquanto, que A ∈ Rm×n (m ≥ n) possui posto completo n. Então a imagemAS é uma hiperelipse em Rm.

Page 50: Problemas de Mínimos Quadrados: Resolução e Aplicações

28 Capítulo 4. Métodos de Fatoração Matricial

Primeiro, serão definidos os n valores singulares de A. Denotados como σ1, σ2, . . . , σn,

estes são os comprimentos dos n semi-eixos principais de AS . É convencional assumir que osvalores singulares são numerados em ordem decrescente, σ1 ≥ σ2 ≥ · · · ≥ σn > 0.

Em seguida, definem-se os n vetores singulares a esquerda de A. São vetores unitáriosdenotados por {u1, u2, . . . , un} e numerados para corresponder com os valores singulares. Estessão orientados nas direções dos semi-eixos principais de AS .

Finalmente, definem-se os n vetores singulares a direita de A. Também são vetoresunitários {v1, v2, . . . , vn} ∈ S que são as pré-imagens dos semi-eixos principais de AS . Sãonumerados de modo que Av j = σ ju j.

Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1.

A imagem da esfera unitária em Rn sob um mapeamento A = UΣVT deve ser umahiperelipse em Rm.

Na Figura 5, observe que o mapeamento VT preserva a esfera. Apenas faz uma rotação.Em seguida, a matriz diagonal Σ “estica” a esfera transformando-a em uma hiperelipse alinhada

com a base canônica, onde Σ = diag(2; 1/2) =

2 00 1

2

; e, por fim, o mapeamento U rotaciona

ou reflete a hiperelipse.

Definição Formal

Seja A ∈ Rm×n uma matriz arbitrária. Uma decomposição em valores singulares de A éuma fatoração tal que A = UΣVT , onde:

U ∈ Rm×m é ortogonal,

V ∈ Rn×n é ortogonal,

Page 51: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.2. Decomposição em Valores Singulares (SVD) 29

Σ ∈ Rm×n é diagonal.

Note que U e V são matrizes ortogonais quadradas e Σ possui a mesma forma de A mesmoquando A não é quadrada. As entradas diagonais da matriz Σ são os valores singulares defi-nidos anteriormente. Ou seja, Σ = diag(σ1, σ2, . . . , σn). As colunas de U são compostas poru1, u2, . . . , un e as colunas de V são compostas por v1, v2, . . . , vn, ambos definidos anteriormente.

A seguir mostra-se que toda matriz possui uma fatoração SVD. Portanto, mostra-se quea imagem de uma esfera unitária sob qualquer mapa linear é uma hiperelipse.

Teorema 11 (Existência e Unicidade do SVD). Toda matriz A ∈ Rm×n possui uma decomposição

em valores singulares. Além disso, os valores singulares {σ j} são unicamente determinados, e,

se A é quadrada e os σ j são distintos então os vetores singulares a esquerda e a direita {u j} e

{v j} são unicamente determinados.

Antes da demonstração, veja uma reapresentação geométrica desse teorema. Dada umamatriz A, qualquer, de dimensão m × n, ela pode ser vista como um mapeamento de um vetorx ∈ Rn para um vetor y = Ax ∈ Rm. Desse modo, pode-se escolher um sistema de coordenadasortogonal para Rn (onde os eixos unitários são as colunas de V) e outro sistema de coordenadasortogonal para Rm (onde os eixos unitários são as colunas de U) tal que A é uma matriz diagonal(Σ), isto é, mapeia um vetor x =

n∑i=1βivi ∈ R

n para um vetor y = Ax =n∑

i=1σiβiui ∈ R

m. Em outras

palavras, qualquer matriz é diagonal desde que se escolha o sistema de coordenadas ortogonalapropriado para seu domínio e imagem.

Para demonstrar esse teorema, será feita indução sobre m e, em seguida, indução sobre n.

Demonstração. Assuma que a decomposição em valores singulares existe para matrizes A(m−1)×(n−1).

Será provado que essa decomposição existe para matrizes de dimensão m × n. Suponha queA , 0, pois se A fosse igual a 0, poderia-se tomar Σ = 0 e U e V poderiam ser matrizes ortogonaisquaisquer.

O passo básico ocorre quando n = 1 (desde que m > n). Assim, Am×1 = Um×1Σ1×1V1×1,

com U = A||A||2

, Σ = ||A||2, e V = 1.

Para a indução sobre n, suponha que vale para n−1. E, assim, será provado que vale para n.

Tome v tal que ||v||2 = 1 e ||A||2 = ||Av||2 > 0. Tal v existe pela definição de ||A||2 = max||v||2=1 ||Av||2.

Seja u = Av||Av||2

, tal que u é um vetor unitário. Escolha U e V de modo que U =[

um×1 Um×(n−1)

]é uma matriz ortogonal e possui dimensão m × n, e V =

[vn×1 Vn×(n−1)

]é também uma matriz

Page 52: Problemas de Mínimos Quadrados: Resolução e Aplicações

30 Capítulo 4. Métodos de Fatoração Matricial

ortogonal e possui dimensão n × n. Escreva

UT AV =

uT1×m

UT(n−1)×m

n×m

· Am×n ·[

vn×1 Vn×(n−1)

]n×n

=

uT1×m

UT(n−1)×m

n×m

·[

(Av)m×1 (AV)m×(n−1)

]=

(uT Av)1×1 (uT AV)1×(n−1)

(UT Av)(n−1)×1 (UT AV)(n−1)×(n−1)

n×n

=

σ1×1 01×(n−1)

0(n−1)×1 (UT AV)(n−1)×(n−1)

=

σ 00 A

.As igualdades seguem, pois:

uT Av =(Av)T (Av)||Av||2

=||Av||22||Av||2

= ||Av||2 = ||A||2 ≡ σ;

UT Av = UT u||A||2 = 0;

uT AV = 0.

Note que o último item também é zero, porque caso contrário σ = ||A||2 = ||UT AV ||2 ≥

||[1, 0, . . . , 0]UT AV ||2 = ||[σ|uT AV]||2 > σ, que é uma contradição. Agora pode-se aplicar ahipótese de indução em A para conseguir A = U1Σ1VT

1 , onde U1,Σ1 e V1 possuem dimensões(m − 1) × (n − 1), (n − 1) × (n − 1) e (n − 1) × (n − 1), respectivamente. Logo,

UT AV =

σ 00 A.

=

σ 00 U1Σ1VT

1 .

=

1 00 U1.

. σ 00 Σ1.

. 1 00 V1.

T

ou seja,

A =

U 1 00 U1.

. σ 00 Σ1.

. 1 00 V1.

T

,

que é a decomposição que se queria encontrar.

SVD Reduzido

Foi visto que as equações referentes aos vetores singulares à esquerda e aos vetoressingulares à direita podem ser escritas como:

Av j = σ ju j, 1 ≤ j ≤ n.

Page 53: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.2. Decomposição em Valores Singulares (SVD) 31

Pode-se expressar esse conjunto de equações vetoriais como uma equação matricial, istoé: AV = UΣ. Ou então, mais precisamente, tem-se

A

v1 v2 . . . vn

=

u1 u2 . . . un

σ1

σ2. . .

σn

onde Σ é uma matriz diagonal n × n com entradas reais positivas (Lembre-se de que

assumimos que A possui posto completo n); U é uma matriz m × n com colunas ortonormais; V

é uma matriz n × n com colunas ortonormais.

Assim, V é ortogonal e, portanto, pode-se multiplicar por sua transposta para obter:

A = UΣVT . (4.3)

Esta fatoração é chamada de decomposição em valores singulares reduzido ou SVDreduzido, de A. Essa decomposição está representada esquematicamente na Figura 6.

Figura 6 – SVD Reduzido

SVD Completo

Na maioria das aplicações, o SVD é usado exatamente da forma descrita acima. Noentanto, esta não é a maneira mais comum de se formular um SVD. Com isso, serão introduzidosos termos “reduzido” (com os chapéus nas matriz U e Σ) e “completo” com o objetivo dediferenciar a fatoração (4.3), que vista anteriormente, da fatoração (4.4), que será vista a seguir.

Veja a ideia do SVD completo: As colunas de U são n vetores ortonormais no espaçom-dimensional Rm. Mas, se m = n, eles não formam uma base de Rm, e nem U é uma matrizortogonal. No entanto, adicionando m − n colunas ortonormais, U pode ser estendida para umamatriz ortogonal. Isso será feito de modo arbitrário e o resultado obtido será denotado de U (semchapéu).

Page 54: Problemas de Mínimos Quadrados: Resolução e Aplicações

32 Capítulo 4. Métodos de Fatoração Matricial

Para substituir U por U em (4.3), Σ precisa mudar também. Para que o produto permaneçainalterado, as últimas m − n colunas de U devem ser multiplicadas por zero. Logo, a matriz Σ dedimensão m × n será obtida tomando-se a matriz Σ na parte na superior (bloco n × n) junto comm − n linhas de zeros abaixo. Assim, obtém-se uma nova fatoração, chamada de SVD completode A:

A = UΣVT . (4.4)

onde U e V são matrizes ortogonais e possuem dimensão m×m e m×n, respectivamente. EΣ é uma matriz diagonal com entradas reais positivas e possui dimensão m×n. Essa decomposiçãotambém está representada esquematicamente na Figura 7.

Figura 7 – SVD Completo

As linhas tracejadas indicam as colunas “silenciosas” de U e as linhas de Σ que sãodescartadas na passagem de (4.4) para (4.3).

Uma vez descrito o SVD completo, pode-se descartar a suposição de que A tem postocompleto. Se A não possui posto completo, a fatoração (4.4) continua sendo apropriada, poiso que vai mudar é a quantidade de vetores singulares a esquerda de A. Em vezes de n vetores,haverá apenas r. Para isso, basta construir uma matriz ortogonal U acrescentando m − r colunasortonormais arbitrárias em vez de m− n. Como consequência, a matriz V também vai precisar den − r colunas ortonormais arbitrárias para estender as r colunas determinadas pela geometria. Amatriz Σ precisa ter r entradas diagonais positivas, com as restantes n − r iguais a zero.

Note que, da mesma forma, pode-se usar o SVD reduzido para matrizes que não possuemposto completo. Basta tomar U com dimensão m × n, Σ com n × n e alguns zeros na diagonal, oucomprimir ainda mais a representação de modo que U tenha dimensão m × r e Σ de dimensãor × r com entradas estritamente positivas na diagonal.

Mudança de Base

O método SVD permite dizer que toda matriz é diagonal, desde que se faça uma escolhaadequada para as bases dos espaços domínio e imagem. Veja como funciona esta escolha.

Page 55: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.2. Decomposição em Valores Singulares (SVD) 33

Seja b ∈ Rm arbitrário. Pode-se expandir b na base de vetores singulares à esquerdade A, que são as colunas da matriz U. Do mesmo modo, também pode-se expandir x ∈ Rm nabase de vetores singulares à direita de A (colunas de V). As coordenadas dos vetores para essasexpansões são:

b′ = UT b, x′ = VT x

A relação b = Ax pode ser expressa em termos de b′ e x′. Para isso, basta utilizar aequação (4.4) e as expansões acima. Logo,

b = Ax⇔ b′ = UT b = UT Ax = UT UΣVT x = ΣVT x = Σx′.

Desa forma, b′ = Σx′.

Assim, conclui-se que A se reduz à matriz diagonal Σ quando se expressa a imagem nasbases das colunas de U e o domínio nas colunas de V. E, portanto, o SVD permite afirmar quetoda matriz é diagonal quando se usam as bases apropriadas para o domínio e para imagem.

SVD e Decomposição em Autovalores

Os conceitos a seguir podem ser encontrados em [1]. Para estudos complementares veja[3].

Existem três principais diferenças entre o SVD e a decomposição em autovalores. Aprimeira é que o SVD usa bases diferentes: os vetores singulares à esquerda e os vetoressingulares à direita. Enquanto que a decomposição em autovalores usa somente uma: a base dosautovetores.

A segunda diferença, ainda sobre as bases, é que o SVD utiliza bases ortonormais. Já adecomposição em autovalores geralmente usa uma base que não é ortogonal.

Por fim, a terceira diferença decorre do Teorema 11 sobre existência e unicidade do SVD.Todas a matrizes, até mesmo as matrizes retangulares, possuem uma decomposição em valoressingulares. Mas, nem todas as matrizes possuem uma decomposição em autovalores, incluindoas matrizes quadradas.

Além disso, em aplicações, autovalores tendem a ser relevantes para problemas en-volvendo o comportamento de formas iteradas de A, tais como potências de matrizes Ak ouexponenciais etA, enquanto que vetores singulares tendem a ser relevantes para problemasenvolvendo o comportamento de A em si, ou de sua inversa.

A diagonalização de uma matriz expressando-a em termos de uma nova base tambémpode ser feita com estudo de autovalores. Seja A uma matriz quadrada diagonalizável então A

pode ser expressa como uma matriz diagonal de autovalores Λ, com a condição de que a imageme o domínio estão representados em uma base de autovetores.

Page 56: Problemas de Mínimos Quadrados: Resolução e Aplicações

34 Capítulo 4. Métodos de Fatoração Matricial

Se as colunas de uma matriz C ∈ Rm×m contêm autovetores L.I. de A ∈ Rm×m, a decom-

posição em autovalores de A é dada por:

A = CΛC−1, (4.5)

onde Λ é uma matriz diagonal m × m cujas entradas são o autovalores de A.

Com isso, para b, x ∈ Rm satisfazendo b = Ax, ao definir b′ = C−1b e x′ = C−1x, entãoos novos vetores b′ e x′ necessariamente, satisfazem b′ = Λx′.

Propriedades matriciais via SVD

Suponha que a matriz A possui dimensão m × n. Tome p = min{m, n} e seja r ≤ p aquantidade de valores singulares não nulos da matriz A. Por fim, seja 〈x, y, . . . , z〉 o espaço geradopelos vetores x, y, . . . , z.

Teorema 12. O posto da matriz A é igual a r, justamente o número de valores singulares não

nulos.

Demonstração. Sabe-se que o posto de uma matriz diagonal é dado pelo número de entradas nãonulas. Observe que na decomposição A = UΣVT , as matrizes U e V possuem posto completo.Logo, posto(A) = posto(Σ) = r. �

Teorema 13. O vetores singulares u1, u2, . . . , ur são uma base ortonormal em Im(A), isto é,

Im(A) = 〈u1, u2, . . . , ur〉.

Demonstração. De fato, esta é uma consequência de que a Im(Σ) = 〈e1, e2, . . . , er〉 ⊆ RmeN(Σ) =

〈er+1, er+2 . . . , en〉 ⊆ Rn. �

Teorema 14. O vetores singulares vr+1, vr+2 . . . , vn são uma base ortonormal em N(A), isto é,

N(A) = 〈vr+1, vr+2, . . . , vn〉.

Demonstração. A demonstração a seguir é análoga ao teorema anterior. Isto significa queN(Σ) = 〈er+1, er+2 . . . , en〉 ⊆ R

n. �

Teorema 15. ||A||2 = σ1 e ||A||F =√

(σ1)2 + (σ2)2 + · · · + (σr)2.

Demonstração. Observe que a primeira parte dessa demonstração já foi estabelecida no Teorema11 sobre existência e unicidade da decomposição em valores singulares. Como A = UΣVT ,

onde U e V são matrizes ortogonais, ||A||2 = ||Σ||2 = max{|σ j|} = σ1, pelo teorema 7. Portanto,||A||2 = σ1, Para norma de Frobenius, use o teorema 7 novamente e a equação (3.12) para concluirque ||A||F = ||Σ||F .

Page 57: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.3. Fatoração QR 35

Teorema 16. Seja uma matriz A ∈ Rm×m. Vale que |det(A)| =m∏

i=1

σi,∀A

Demonstração. Usando o Teorema 5 (de Binet) visto na seção anterior, tem-se:

| det(A)| = | det(UΣVT )| = | det(U)|.| det(Σ)|.| det(VT )|.

Como U e VT são matrizes ortogonais,

| det(U)|.| det(Σ)|.| det(VT )| = | det(Σ)| =m∏

i=1

σi.

Portanto, | det(A)| =m∏

i=1

σi.

4.3 Fatoração QR

Os resultados a seguir podem ser vistos em [1], [3] e [4]. Para estudos complementaressobre a fatoração QR, veja [5], [2], [6] e [23].

Em várias aplicações, a fatoração SVD é muito custosa computacionalmente, e com isso,deve-se buscar fatorações mais simples. Dentre elas, a mais importante é a que será descrita aseguir e suas decomposições. A decomposição QR é uma fatoração de uma matriz A em umproduto de uma matriz ortogonal Q e uma matriz triangular R.

Essa fatoração pode ser construída tanto usando transformações adequadas de matrizes(dados conhecidos ou matrizes de Householder) quanto usando o algoritmo de ortogonalizaçãoGram-Schmidt discutido no final deste capítulo.

Também é possível gerar uma versão reduzida do fatoração QR, como será vista a seguir.

Fatoração QR Reduzida

Na maioria das vezes, se está interessado nos espaços coluna de uma matriz A. Considereos sucessivos espaços gerados pelas colunas a1, a2, . . . de A:

〈a1〉 ⊆ 〈a1, a2〉 ⊆ 〈a1, a2, a3〉 ⊆ · · ·

O símbolo 〈· · · 〉 indica o subespaço gerado pelos vetores que estiverem dentro dosparênteses. Logo, 〈a1〉 é o espaço unidimensional gerado por a1, 〈a1, a2〉 é o espaço bidimensionalgerado por a1 e a2 e assim por diante.

Page 58: Problemas de Mínimos Quadrados: Resolução e Aplicações

36 Capítulo 4. Métodos de Fatoração Matricial

A ideia da fatoração QR é construir uma sequência de vetores ON q1, q2, . . . que geramos espaços sucessivos das colunas de uma matriz Am×n(m > n) de posto completo, ou seja, asequência q1, q2, . . . deve satisfazer a seguinte propriedade:

〈q1, q2, . . . , q j〉 = 〈a1, a2, . . . , a j〉, j = 1, . . . , n. (4.6)

Note que, a partir das observações feitas na seção 3.1, o item (4.6) pode ser reescrito,esquematicamente, como a seguir:

A1 A2 . . . An

=

Q1 Q2 . . . Qn

r11 r12 . . . r1n

r22...

. . .

rnn

,

onde as entradas diagonais rkk são diferentes de zero. Desse modo, pode-se escrevera1, . . . , ak como uma combinação linear de q1, . . . , qk. Observe que o bloco superior esquerdok×k da matriz triangular é invertível. Desse modo, pode-se expressar q1, . . . , qk como combinaçãolinear de a1, . . . , ak. Assim, as equações assumem as seguintes formas, fora do esquema matricial:

a1 = r11q1,

a2 = r12q1 + r22q2,

a3 = r13q1 + r23q2 + r33q3,

...

an = r1nq1 + r2nq2 + · · · + rnnqn.

(4.7)

E, por fim, a fórmula matricial é dada por A = QR, onde Q possui dimensão m × n

com colunas ortonormais e R possui dimensão n × n e é uma matriz triangular superior. Logo,obtem-se o seguinte esquema na Figura 8:

Figura 8 – QR Reduzido (m > n)

Essa fatoração chama-se fatoração QR reduzida de A.

Page 59: Problemas de Mínimos Quadrados: Resolução e Aplicações

4.3. Fatoração QR 37

Fatoração QR Completa

Na fatoração QR completa de A ∈ Rm×n (m ≥ n) acrescentam-se m − n colunasortonormais na matriz Q. Portanto, obtém-se uma matriz Q ortogonal de dimensão m ×m. Nesseprocesso, acrescentam-se também, linhas nulas em R para se obter a matriz R de dimensão m× n,

e que continua sendo triangular superior. A representação esquemática pode ser vista na Figura9.

Figura 9 – QR Completo (m > n)

Todas as matrizes possuem uma fatoração QR, e além disso, essa fatoração é única,conforme mostram os teoremas a seguir.

Teorema 17. Toda matriz A ∈ Rm×n (m ≥ n) possui uma fatoração QR completa e portanto

também possui fatoração QR reduzida.

Teorema 18. Cada matriz A ∈ Rm×n (m ≥ n) de posto completo possui uma única fatoração QR

tal que A = QR com r j j > 0.

Essa duas demonstrações podem ser encontradas em [1].

Ortogonalização de Gram-Schmidt

Dados a1, a2, . . . , podem-se construir vetores q1, q2, . . . e entradas ri j por um processode ortogonalização sucessiva. E essa ideia é chamada de Ortogonalização de Gram-Schmidt.

O processo funciona da seguinte maneira: no j-ésimo passo, o objetivo é encontrar umvetor unitário q j ∈ 〈a1, a2, . . . , a j〉 tal que q j é ortogonal a q1, . . . , q j−1. De fato, isso acontece.Por isso vamos considerar a técnica de ortogonalização vista em (3.1). Dessa equação, tem-seque:

v j = a j − (qT1 a j)q1 − (qT

2 a j)q2 − · · · − (qTj−1a j)q j−1 (4.8)

é um vetor que satisfaz o que é exigido, exceto que ele ainda não está normalizado. Aodividir o vetor por ||v j||2, o resultado é o vetor q j desejado.

Page 60: Problemas de Mínimos Quadrados: Resolução e Aplicações

38 Capítulo 4. Métodos de Fatoração Matricial

Tendo essa ideia em mente, pode-se reescrever as equações (4.7) do seguinte modo:

q1 =a1

r11

q2 =a2 − r12q1

r22

q3 =a3 − r13q1 − r23q2

r33...

qn =an −

∑n−1i=1 rinqi

rnn

(4.9)

Da equação (4.8) é evidente que uma definição apropriada para os coeficientes ri j nosnumeradores de (4.9) é:

ri j = qTi a j (i , j). (4.10)

Já os coeficientes r j j nos denominadores são escolhidos para normalização:

|r j j| = ||a j −

j−1∑i=1

ri jqi||2. (4.11)

Observe que o sinal de r j j não é determinado. Arbitrariamente, pode-se escolher r j j > 0,e nesse caso deve-se terminar com uma fatoração A = QR, onde R possui entradas positivas aolongo da diagonal.

Esse processo é facilmente encontrado nos livros de Álgebra Linear e Métodos Numéri-cos, tais como: [16], [5], [6], [13], [15] e [3]. Para mais detalhes sobre o passo a passo do métodode Gram-Schmidt consulte [9] e [23]. O algoritmo do processo de Gram-Schmidt também podeser encontrado em [1].

O método Gram-Schmidt foi apresentado na sua forma clássica, mas existe também aversão modificada do método, que não será estudada neste trabalho. Para fatoração QR, existeoutro método além da ortogonalização de Gram-Schmidt, que é o método da triangulação deHouseholder, que não será tratada neste material. Resumidamente, pode-se dizer que o método deGram-Schmidt fornece uma ortogonalização triangular enquanto que o método de Householderfornece uma triangulação ortogonal. Para mais detalhes sobre esses assuntos consulte [8], [1] e[2].

Page 61: Problemas de Mínimos Quadrados: Resolução e Aplicações

39

5 Métodos de Mínimos Quadrados e Apli-

cações

Neste capítulo é descrito o método dos mínimos quadrados e como as fatorações matrici-ais são usadas para resolver o problema.

5.1 O Método de Mínimos Quadrados

O método de mínimos quadrados ou Mínimos Quadrados Ordinários (MQO) foi desen-volvido por Legendre e Gauss em torno de 1800. Suponha que se tem um problema com m

equações e n incógnitas, onde m > n. Isto é, A ∈ Rm×n e b ∈ Rm. Assim, o problema consiste emencontrar um vetor x ∈ Rn que é a melhor aproximação para b. Em geral, esse problema não temsolução. Vai existir um vetor x adequado somente se b pertence a Im(A).

O vetor residual é definido de forma que

r = b − Ax ∈ Rm

Em geral, o vetor r é diferente de zero. Entretanto, ele pode ser minimizado. E mediro quão pequeno é o tamanho de r envolve escolher uma norma. Se a norma-2 é escolhida, oproblema vai ter a seguinte forma:

Dado A ∈ Rm×n,m ≥ n, b ∈ Rm, encontre x ∈ Rn tal que ||b − Ax||2 é minimizado. (5.1)

Esta é a formulação geral para problemas de mínimos quadrados.

A norma-2 corresponde a distância Euclidiana, logo tem uma interpretação geométricasimples. A escolha dessa norma pode ser justificada por argumentos geométricos e estatísticos, e,como será visto, leva a algoritmos simples. A norma-2 é também escolhida porque a derivada deuma função quadrática, a qual deve ser ajustada para zero para minimização, é linear. Portanto,busca-se um vetor x ∈ Rn tal que o vetor Ax ∈ Rm é o ponto mais próximo na Im(A) do vetor b.

Para resolver o sistema, será exibido o passo a passo de cada método que estudado naseção anterior.

Equações Normais

O modo clássico de resolver os problemas de mínimos quadrados é usando o método deequações normais.

Se A possui posto completo, é quadrada, simétrica e positiva definida, o método padrãode se resolver um sistema de equações de dimensão n é a Fatoração Cholesky. Esse método

Page 62: Problemas de Mínimos Quadrados: Resolução e Aplicações

40 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

constrói uma fatoração AT A = RT R, onde R é uma matriz triangular superior. Note que se podereduzir a equação tal que

RT Rx = AT b.

Basta multiplicar x pela direita em ambos os lados.

A seguir, o algoritmo Mínimos Quadrados via Equações Normais:

1. Forme a matriz AT A e o vetor AT b.

2. Calcule a fatoração Cholesky AT A = RT R.

3. Resolva o sistema triangular inferior RT w = AT b para w.

4. Resolva o sistema triangular superior Rx = w para x.

SVD

Pode-se calcular o SVD da matriz A do seguinte modo:

1. Forme a matriz AT A.

2. Calcule a decomposição em autovalores AT A = VΛVT .

3. Defina Σ uma matriz diagonal não-negativa de dimensão m×n tal que Σ seja a raiz quadradade Λ.

4. Resolva o sistema UΣ = AV para a matriz ortogonal U.

O algoritmo acima mostra como calcular a decomposição em valores singulares reduzidoA = UΣVT . Pode-se escrever o projetor ortogonal P na forma P = UUT , então

y = Pb = UUT b

Com a condição de y ∈ Im(A), o sistema Ax = y possui uma solução exata. Bastacombinar com a fatoração SVD para obter:

UΣVT x = UUT b ⇒ ΣVT x = UT b. (5.2)

A implicação acima resulta da multiplicação por UT pela esquerda em ambos os lados.

O algoritmo Mínimos Quadrados via SVD é este:

1. Calcule o SVD reduzido A = UΣVT .

Page 63: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.1. O Método de Mínimos Quadrados 41

2. Calcule o vetor UT b.

3. Revolva o sitema diagonal Σw = UT b para w.

4. Defina x = Vw.

Nota-se que, enquanto a fatoração QR reduz o problema dos mínimos quadrados paraum sistema de equações triangular, o SVD reduz a um sistema de equações diagonal, o que étrivialmente resolvido. Se A tem posto completo, o sistema diagonal é não singular.

A equação (5.2) pode ser derivada de equações normais. Se AT Ax = AT b, entãoVΣT UT UΣVT x = VΣT UT b, que implica que ΣVT x = UT b.

Fatoração QR

Aqui está outro método clássico, porém mais moderno, para resolver problemas demínimos quadrados. Se tornou popular em meados de 1960. Este método é baseado na fatoraçãoQR reduzida, vista na seção 4.3. Pelo método de ortogonalização de Gram-Schimidt ou pelatriangulação de Householder (que é mais comum), consegue-se construir a fatoração A = QR.

Seja P = QQT , dessa forma obtém-se:

y = Pb = QQT b.

Com a condição y ∈ Im(A), e o sistema Ax = y possuir uma solução exata. Bastacombinar com a fatoração QR para obter:

QRx = QQT b ⇒ Rx = QT b. (5.3)

A implicação acima resulta da multiplicação por QT pela esquerda em ambos lados.

Aqui está o algoritmo Mínimos Quadrados via Fatoração QR:

1. Calcule a fatoração QR reduzida A = QR.

2. Calcule o vetor QT b.

3. Resolva o sistema triangular superior Rx = QT b para x.

Observe que a equação (5.3) também pode ser derivada de equações normais.

De fato, se AT Ax = AT b, então RT QT QRx = RT QT b⇒ Rx = QT b.

Page 64: Problemas de Mínimos Quadrados: Resolução e Aplicações

42 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

5.2 Aplicações

As aplicações do problema de mínimos quadrados são de grande importância e ocorremem muitas áreas de pesquisa aplicada e engenharia, tais como estatística, fotogrametria, proces-samento de sinal e controle. Devido ao grande aumento na capacidade de captura automáticade dados, os problemas de mínimos quadrados de grande porte são atualmente rotineiramenteresolvidos.

Problema de demarcação de fronteiras

O problema de mínimos quadrados foi primeiro apresentado e formulado por Gauss pararesolver um problema prático de demarcação de fronteiras para o governo alemão. Existiam im-portantes razões econômicas e jurídicas para saber exatamente onde as fronteiras se encontravamentre lotes de terra de propriedade de donos diferentes. Topógrafos tentaram estabelecer esseslimites, medindo certos ângulos e distâncias e, em seguida, a triangulação de pontos de referênciaconhecidos. Conforme a população aumentava, se tornava necessário melhorar a precisão dalocalização desses pontos de referência conhecidos, tanto por razões econômicas quanto legais.Assim, pesquisadores mediram muitos ângulos e distâncias entre os pontos de referência e coubea Gauss compreender como tornar essas medições mais precisas e atualizar a base de dadosdesses locais para o governo. Para isso, ele desenvolveu o método de mínimos quadrados.

O problema que Gauss resolveu deve ser periodicamente revisitado. Em 1974, o “TheNational Geodetic Survey (NGS)” dos EUA comprometeu-se a atualizar a base de dados ge-odésico dos EUA, que consistia de cerca de 700.000 pontos. As motivações tinham crescidopara incluir o fornecimento de dados precisos o suficiente para engenheiros civis e planejadoresregionais planejarem projetos de construção e para os geofísicos estudarem o movimento dasplacas tectônicas na crosta terrestre (as quais podem se mover até 5 cm por ano). O correspon-dente problema dos mínimos quadrados foi o maior já resolvido na época: cerca de 2,5 milhõesequações em 400.000 incógnitas. Foi também muito esparso, o que tornou o problema tratávelnos computadores disponíveis em 1978, quando o cálculo foi feito.

Será feita uma breve discussão sobre a formulação do problema. Na verdade, trata-sede um problema não linear que é resolvido através de uma aproximação por uma sequênciade problemas lineares, na qual cada um deles é um problema de mínimos quadrados linear.O banco de dados consiste de uma lista de pontos (pontos de referência), cada um marcadopor localização: latitude, longitude, e possivelmente elevação. Por simplicidade, assuma quea terra é plana e suponha que cada ponto i é rotulado por coordenadas lineares zi = (xi, yi)T .

Para cada ponto é desejável calcular uma correção δzi = (δxi, δyi)T de modo que a localizaçãocorreta z′i = (x′i , y

′i)

T = zi + δzi coincida com as novas medidas, mais precisas. Estas medidasincluem as distâncias entre pares selecionados de pontos e ângulos entre o segmento de linha doponto i até j e de i até k (Veja a figura 10). Para ver como transformar essas novas medições em

Page 65: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.2. Aplicações 43

restrições, considere o triângulo na figura 10. Os cantos são identificados pelas suas localizações(corrigidas), e os ângulos θ e o comprimento L das arestas também são mostrados. A partir dessesdados, é fácil escrever a seguir as restrições com base em identidades trigonométricas simples.Por exemplo, uma medição precisa de θi leva à restrição

cos2 θi =[(z′j − z′i)

T (z′k − z′i)]2

(z′j − z′i)T (z′j − z′i) · (z′k − z′i)T (z′k − z′i)

,

onde cos2 θi é expresso em termos de produtos internos de certos lados do triângulo. Se forassumido que δzi é pequeno comparado com zi, então será possível linearizar esta limitação daseguinte forma: multiplicar através do denominador da fração, multiplicar todas as condiçõespara obter um polinômio de grau 4 em todas as “δ-variáveis” (por exemplo δxi), e desprezartodos os termos que contenham mais de uma δ-variável como fator. Isso gera uma equaçãoem que todas as δ-variáveis aparecem linearmente. Se todas estas restrições lineares de todasas novas medidas de ângulo e distância juntas forem coletados, será obtido um sistema linearsobredeterminado de equações para todas as δ-variáveis. O objetivo é encontrar as menorescorreções, ou seja, os menores valores de δxi, etc., que estão mais próximos de satisfazer essasrestrições. Este é um problema de mínimos quadrados.

Figura 10 – Restrições para atualizar um banco de dados geodésicos.

Ajuste Polinomial por Mínimos Quadrados

Considere a função f (x) = x sen xπ5 . O gráfico dessa função é dado na Figura 11.

Suponha que se tem m pontos distintos x1, x2, . . . , xm ∈ R. A partir da função f edesses pontos, podem-se gerar os dados y1, y2, . . . , ym ∈ R. A relação dos dados {xi}, {yi} com oscoeficientes {ci} pode ser expressa por um sistema quadrado de Vandermonde 1.

Page 66: Problemas de Mínimos Quadrados: Resolução e Aplicações

44 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 11 – f (x) = x sen xπ5

1 x1 x2

1 x31 . . . xm−1

1

1 x2 x22 x3

2 . . . xm−12

......

......

. . ....

1 xm x2m x3

m . . . xm−1m

c0

c1

c2...

cm−1

=

y1

y2

y3...

ym

Para determinar os coeficientes {ci} para um certo conjunto de dados, pode-se resolver

este sistema de equações, na qual está garantido ser não singular, desde que os pontos {xi} sejamdistintos.

Agora, considere um polinômio de grau n − 1: p(x) = c0 + c1x + · · · + cn−1xn−1 paraalgum n < m. Esse polinômio será um ajuste de mínimos quadrados aos dados se ele minimizara soma dos quadrados dos “afastamentos” (ou desvios) a partir dos dados, isto é, se o polinômioescolhido de grau n − 1 minimizar:

m∑i=1

|p(xi) − yi|2

Pode-se dizer que esta soma dos quadrados acima é equivalente ao quadrado da normado resíduo, que é denotada por ||r||22, para o sistema retangular de Vandermonde a seguir:

1 x1 x2

1 x31 . . . xn−1

1

1 x2 x22 x3

2 . . . xn−12

......

......

. . ....

1 xm x2m x3

m . . . xn−1m

c0

c1...

cn−1

y1

y2

y3...

ym

.

Como se pode perceber, os resultados são válidos para m ∈ R. Em particular, foramfeitos testes para m = 23.

Page 67: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.2. Aplicações 45

Foram gerados 23 pontos do seguinte modo: 23 valores igualmente espaçados parax, variando de -13 a 13 e, para cada um desses valores, foi calculado o valor de y usando afunção dada. Em seguida, com estes pontos, foram ajustados polinômios de graus 1 até 22.Para esta aplicação utilizou-se a linguagem Python e o pacote numpy e o método polyfit. Nestemétodo, é feito um ajuste para lidar com problemas de condicionamento. Estes problemas serãomencionados brevemente a seguir.

As figuras (12 à 23) mostram os resultados obtidos quando foram ajustados os 23 pontosde dados, com os polinômios de grau 1, até grau 22.

Figura 12 – Dados sem perturbação - Grau 1Figura 13 – Dados sem perturbação - Grau 2

Figura 14 – Dados sem perturbação - Grau 4 Figura 15 – Dados sem perturbação - Grau 7

Conforme o grau do polinômio aumenta, ocorre um melhor ajuste aos dados e diminuiçãodos resíduos. Pode-se observar que o polinômio de grau 8 apresenta um bom ajuste aos dadoscapturando melhor o comportamento sinuoso da função do que os graus anteriores. Já com ograu 10 verifica-se que o polinômio não acompanha o comportamento da curva original paraos valores extremos. No entanto, o polinômio de grau 12 pode ser considerado como o menorgrau do polinômio encontrado que melhor se ajusta aos dados. Embora os polinômios de grausmaiores, como 17 e 20 pareçam capturar bem o comportamento da função, também precisamde um maior número de parâmetros a serem estimados pelo método e isso pode acarretar umsuper-ajuste aos dados.

Page 68: Problemas de Mínimos Quadrados: Resolução e Aplicações

46 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 16 – Dados sem perturbação - Grau 8 Figura 17 – Dados sem perturbação - Grau 11

Figura 18 – Dados sem perturbação - Grau 12 Figura 19 – Dados sem perturbação - Grau 15

Figura 20 – Dados sem perturbação - Grau 17 Figura 21 – Dados sem perturbação - Grau 18

Page 69: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.2. Aplicações 47

Figura 22 – Dados sem perturbação - Grau 20Figura 23 – Dados sem perturbação - Grau 22

Figura 24 – Dados com perturbação gaussiana -Grau 1 Figura 25 – Dados com perturbação gaussiana -

Grau 2

Em geral em problemas deste tipo, busca-se ajustar polinômios de grau baixo para evitarproblemas de mal condicionamento, isto é, quando o problema se mostra sensível a perturbaçõesnos dados.

Agora, será incluída uma perturbação nos dados para avaliar como o problema lida comessa situação. Ou seja, dados os mesmos xi, foram calculados yi + δi, onde δi > 0 é um númeroreal bem pequeno que foi gerado como um dado vindo de uma distribuição normal padrão. Vejaos novos gráficos nas figuras (de 24 à 35):

Para estes casos, verifica-se que o polinômio de grau 12 apresenta um bom ajuste aosdados e os polinômios de graus maiores apresentam aproximações muito ruins, principalmentenos extremos dos intervalos, evidenciando um mal condicionamento do problema apresentado.

É importante comentar que existe uma alternativa para o ajuste polinomial. Não énecessário ajustar apenas polinômios. Pode-se repetir este mesmo procedimento do exemploanterior para outros tipos de funções. A ideia é simples:

Sejam f1(y), . . . , fn(y) um conjunto de funções independentes, onde o domínio de f é Rk

e a imagem é R. E considere, também, um conjunto de pontos (y1, b1), . . . , (ym, bm) com yi ∈ Rk e

bi ∈ R. Deseja-se encontrar um melhor ajuste a esses pontos de modo que b =∑n

j=1 x j f j(y). Em

Page 70: Problemas de Mínimos Quadrados: Resolução e Aplicações

48 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 26 – Dados com perturbação gaussiana -Grau 4

Figura 27 – Dados com perturbação gaussiana -Grau 7

Figura 28 – Dados com perturbação gaussiana -Grau 8

Figura 29 – Dados com perturbação gaussiana -Grau 11

Figura 30 – Dados com perturbação gaussiana -Grau 12

Figura 31 – Dados com perturbação gaussiana -Grau 15

Page 71: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.3. Condicionamento e Estabilidade 49

Figura 32 – Dados com perturbação gaussiana -Grau 17

Figura 33 – Dados com perturbação gaussiana -Grau 18

Figura 34 – Dados com perturbação gaussiana -Grau 20

Figura 35 – Dados com perturbação gaussiana -Grau 22

outras palavras, deve-se escolher x = [x1, . . . , xn]T que minimize os resíduos ri ≡∑n

j=1 x j f j(y)−bi

para 1 ≤ i ≤ m. Colocando ai j = f j(yi), a equação é escrita como r = Ax − b, onde A é umamatriz de dimensão m × n, x possui dimensão n × 1, enquanto que b e r tem tamanho m × 1.Uma boa escolha de funções básicas fi(y) pode levar a melhores ajustes e sistemas menosmal-condicionados do que quando se usam polinômios.

5.3 Condicionamento e Estabilidade

Nesta seção se discute brevemente sobre condicionamento e estabilidade. Para maisdetalhes, consulte [1]. Em resumo, condicionamento refere-se ao comportamento de um problemamatemático diante de uma perturbação nos dados, já estabilidade refere-se ao comportamento deum algoritmo utilizado para resolver este problema diante de uma perturbação.

Condicionamento de um problema

Um problema pode ser visto como uma função f : X → Y onde X é um espaço vetorialnormado de dados e Y é também um espaço vetorial normado, só que de soluções. Normalmente

Page 72: Problemas de Mínimos Quadrados: Resolução e Aplicações

50 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

f é uma função não linear, mas na maioria das vezes é, pelo menos, contínua. Geralmente, ointeresse do pesquisador está no comportamento de um problema f num determinado pontox ∈ X.

Um problema é bem-condicionado quando o problema possui a propriedade de que todasas pequenas pertubações em x causam apenas pequenas mudanças em f (x). Enquanto que umproblema mal-condicionado é aquele que tem a propriedade de que alguma pequena pertubaçãoem x causa grandes mudanças em f (x). Observe que o significado das palavras “pequenas” e“grandes” na discussão acima varia de acordo com a aplicação. As vezes é mais apropriado mediras pertubações em uma escala absoluta, outras vezes é melhor medi-las em relação à norma doobjeto a ser perturbado. A seguir são definidos número condição absoluto e número condiçãorelativo.

Número Condição Absoluto

Seja δx uma notação para uma pequena perturbação de x, e considere δ f = f (x + δx) −f (x). O Número Condição Absoluto κ = κ(x) de uma problema f em x é definido como:

κ = limδ→0

sup||δx||≤δ

||δ f ||||δx||

. (5.4)

Para a maioria dos problemas, o limite do supremo na equação 5.4 acima pode serinterpretado como um supremo sobre todas as pertubações infinitesimais δx, e para facilitar aleitura, a fórmula é escrita de maneira mais simples:

κ = supδx

||δ f ||||δx||

, (5.5)

onde δx e δ f são entendidos como infinitesimais.

Se f é diferenciável, pode-se avaliar o número de condição por meio da derivada de f .

Seja J(x) uma matriz cujas entradas i, j são as derivadas parciais ∂ fi∂x j

avaliadas em x, conhecidacomo matriz Jacobiana de f em x. A definição da derivada de primeira ordem, fornece δ f ≈

J(x)δx, com igualdade quando ||δx|| → 0. O número condição absoluto se torna:

κ = ||J(x)||, (5.6)

onde ||J(x)|| representa a norma de J(x) induzida pelas normas em X e em Y.

Número Condição Relativo

O Número Condição Relativo κ = κ(x) é definido por

κ = limδ→0

sup||δx||≤δ

||δ f |||| f (x)||||δx||||x||

. (5.7)

Page 73: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.3. Condicionamento e Estabilidade 51

ou, novamente assumindo que δx e δ f são infinitesimais,

κ = supδx

||δ f |||| f (x)||||δx||||x||

, (5.8)

Se f é diferenciável, pode-se expressar esta equação em termos da matriz Jacobiana:

κ =||J(x)|||| f (x)||||x||

. (5.9)

Tanto o número de condição absoluto quanto o número de condição relativo têm suasutilidades, mas o último é mais importante na análise numérica.

Para problemas de mínimos quadrados lineares, os dados são A uma matriz m × n e b

um vetor de dimensão m. A solução é tanto o vetor de coeficientes x ou o ponto correspondentey = Ax. Isto define quatro casos de condicionamento a serem estudados: sensibilidade de y aperturbações em b; sensibilidade de x a perturbações em b; sensibilidade de y a perturbaçõesem A e sensibilidade de x a perturbações em A. Uma discussão detalhada sobre esses problemaspode ser encontrada em [1].

Estabilidade de um problema

Seria muito bom se algoritmos numéricos pudessem fornecer as soluções exatas dosproblemas numéricos. Mas, lembre-se que os problemas são contínuos enquanto que os compu-tadores digitais são discretos, ou seja, isto geralmente não é possível. A noção de estabilidade éa maneira padrão de caracterizar o que é possível. E ser “possível”, em análise numérica, é terideia do que significa obter a “resposta certa”, mesmo que não seja exata.

Se o problema for mal-condicionado, o objetivo de precisão é excessivamente ambicioso.Arredondamento dos dados de entrada é inevitável em um computador digital, e mesmo se todosos cálculos posteriores pudessem ser efetuados perfeitamente, esta perturbação por si só poderialevar a uma mudança significativa no resultado. Em vez de olhar para a precisão em todos oscasos, a maioria da vezes é mais adequado apontar para a estabilidade.

Um algoritmo pode ser definido como um mapeamento f : X → Y entre os espaçosvetoriais X de dados e Y das soluções. Denote a solução calculada para um sistema de equaçõesAx = b por x.

Estabilidade

Diz-se que um algoritmo f para um problema f é estável se para cada x ∈ X,

|| f (x) − f (x)|||| f (x)||

= O(ε máquina ) (5.10)

Page 74: Problemas de Mínimos Quadrados: Resolução e Aplicações

52 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

para algum x com||x − x||||x||

= O(ε máquina ), (5.11)

onde O(ε máquina ) significa a ordem do “epsilon da máquina”.

Estabilidade “Para trás”

Diz-se que um algoritmo f para um problema f é estável para trás se para cada x ∈ X,

f (x) = f (x) (5.12)

para algum x com||x − x||||x||

= O(ε máquina ).

Com relação a estabilidade dos algoritmos para resolver problemas de mínimos quadradospode-se verificar os resultados dados pelos teoremas a seguir.

Teorema 19. A solução do problema de mínimos quadrados de posto máximo (5.1) pela Orto-

gonalização de Gram-Schmidt é estável “para trás”.

Teorema 20. A solução do problema de mínimos quadrados de posto máximo (5.1) através do

método de Equações Normais é instável. A estabilidade pode ser alcançada, no entanto, pela

restrição a uma classe de problemas em que κ(A) é uniformemente limitado superiormente ou(tan θ)η

é uniformemente limitado inferiormente, onde κ(A) = σ1/σn, θ = cos−1 ||y||||b|| e η = ||A||||x||

||Ax|| .1

Teorema 21. A solução do problema de mínimos quadrados de posto máximo (5.1) por SVD é

estável “para trás”.

Detalhes sobre a teoria e os teoremas podem ser obtidos em [1], [8] e [2].

5.4 Regressão Linear Simples e Múltipla

Uma aplicação de MQO em Estatística é em regressão linear. Para explicar o modelode regressão linear, é preciso apresentar algumas definições. Mais detalhes sobre a teoria deregressão, estatística básica e inferência estatística podem ser obtidos em [8], [21] e [22].

Definição 10. Pode-se associar um conjunto de números reais com os resultados de experimentosaleatórios, definindo, assim, uma VA (Variável Aleatória), que transforma os pontos do espaçoamostral em pontos da reta real (isto é, números).

1 Esses números se referem ao número condição do problema de mínimos quadrados, descrevendo a sensibilidadede y e x a perturbações em A e b.

Page 75: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 53

Definição 11. A média amostral é a média aritmética dos valores em uma amostra aleatória

x =x1, x2, . . . , xn

n=

1n

n∑i=1

xi.

Teorema 22. Sejam x1, x2, . . . , xn números quaisquer e considere a média amostral. Então

mina

n∑i=1

(xi − a)2 =

n∑i=1

(xi − x)2

Demonstração.

n∑i=1

(xi − a)2 =

n∑i=1

(xi − a + x − x)2

=

n∑i=1

((xi − x) − (a − x))2

=

n∑i=1

[(xi − x)2 − 2(xi − x)(a − x) + (a − x)2]

=

n∑i=1

[(xi − x)2 − 2(xia − xix − xa − x2) + (a − x)2]

=

n∑i=1

(xi − x)2 − 2n∑

i=1

(xia − xix − xa − x2) +

n∑i=1

(a − x)2

=

n∑i=1

(xi − x)2 − 2[n∑

i=1

xia −n∑

i=1

xix −n∑

i=1

xa −n∑

i=1

x2] +

n∑i=1

(a − x)2

=

n∑i=1

(xi − x)2 −

�����

������

������:0

2[(nx)a − (nx)x − n(xa) + n(x2)] +

n∑i=1

(a − x)2

=

n∑i=1

(xi − x)2 +

n∑i=1

(a − x)2

É fácil verificar que o valor de a que minimiza essa soma é a = x. �

Regressão Linear Simples

Um dos principais propósitos de regressão2 é explorar a dependência de uma variável emoutras. É a ferramenta estatística mais popular.

Dadas duas variáveis aleatórias y e x, que representam uma população, o objetivo é“explicar y em termos de x”, ou em “estudar como y varia com variações em x”. Para isso, não se2 a palavra regressão é usada em estatística para significar uma relação entre variáveis.

Page 76: Problemas de Mínimos Quadrados: Resolução e Aplicações

54 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

pode deixar de considerar outros fatores que também afetam y; qual a relação funcional entre y ex e como se pode estar certo de que se está capturando uma relação entre y e x.

Uma equação simples é:

y = β0 + β1x + ε,

onde y é a variável dependente ou variável explicada ou variável resposta ou regressando ex é a variável independente ou variável explicativa ou variável de controle ou regressor. Asquantidades β0 e β1 são chamadas, respectivamente, o intercepto e a inclinação da regressão esão os parâmetros desconhecidos; já ε é uma VA chamada de termo de erro ou perturbação darelação, representa outros fatores, além de x, que afetam y.

Uma análise de regressão simples trata, efetivamente, todos os fatores, além de x, queafetam y como não observados. Você pode pensar em ε como representando o “não observado”.

É comum supor que E(ε) = 0 (caso contrário basta colocar o excesso em β0). Assim,

EY = β0 + β1x. (5.13)

Em geral, a função que dá EY como função de x é chamada a função de regressãopopulacional (FRP). O principal objetivo da regressão é prever Y a partir do conhecimento de x

usando a relação (5.13).

As inferências se baseiam na relação entre Y e x assumido o conhecimento de x. Assim,pode-se reescrever (5.13) como:

E(Y |x) = β0 + β1x.

Quando se refere a uma regressão que é linear, significa que a esperança condicional deY dado que X = x é uma função linear de x.

Ao escrever E(Y |x) = β0 + β1x implicitamente se assume a hipótese de que a regressãode Y em X é linear.

E(Y |x) ≈ β0 + β1x

é uma aproximação razoável.

Observação 4. Pode ser extremamente improvável que a função verdadeira f (X) seja de fatolinear em X. Em problemas de regressão, f (X) = E(Y |X) tipicamente será não linear e não aditivoem X mas, representar f (X) por um modelo linear é usualmente conveniente e algumas vezesuma aproximação necessária. Conveniente porque um modelo linear é fácil de interpretar e é aaproximação de Taylor de 1a ordem para f (X). Algumas vezes necessário porque se o númerode amostras é pequeno, um modelo linear pode ser tudo que se é capaz de ajustar aos dados sem“overfitting”.

Page 77: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 55

Figura 36 – Reta que melhor se ajusta a esse conjunto de pontos

Solução matemática: mínimos quadrados ordinários

O objetivo é estimar os parâmetros β0 e β1.

Dados: (x1, y1), (x2, y2), . . . , (xn, yn).

Pode-se escrever:

yi = β0 + β1xi + εi,

para cada i. Assim, εi é o termo de erro para a observação i, uma vez que ele contém todos osfatores além de xi, que afetam yi.

Baseado nos dados, definem-se as quantidades a seguir.

Médias amostrais:

x =1n

n∑i=1

xi e y =1n

n∑i=1

yi

Somas de quadrados:

S xx =

n∑i=1

(xi − x)2 e S yy =

n∑i=1

(yi − y)2

Soma dos produtos cruzados:

S xy =

n∑i=1

(xi − x)(yi − y)

Considere o gráfico da figura 36 com 24 pontos de dados. O objetivo é desenhar a partirdessa nuvem de pontos uma reta que se ajusta a todos os pontos.

Page 78: Problemas de Mínimos Quadrados: Resolução e Aplicações

56 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Para qualquer reta y = c + dx, a soma dos quadrados dos resíduos (SQR) é definidacomo:

S QR =

n∑i=1

(yi − (c + dxi))2.

SQR mede a distância vertical de cada ponto de dado para a linha c + dx e então soma osquadrados dessas distâncias. As estimativas de β0 e β1 são definidas como os valores a e b talque a reta a + bx minimiza SQR. Isto é, as estimativas de mínimos quadrados, a e b satisfazem:

minc,d

n∑i=1

(yi − (c + dxi))2 =

n∑i=1

(yi − (a + bxi))2.

Para qualquer valor d fixo, o valor de c que dá o valor mínimo pode ser encontradoescrevendo:

n∑i=1

(yi − (c + dxi))2 =

n∑i=1

((yi − dxi) − c)2

Pelo teorema 22, demonstrado no início desta seção, o valor de c que minimiza essasoma é:

c =1n

n∑i=1

(yi − dxi) = y − dx.

Portanto, para um dado valor de d, o valor mínimo de SQR é:

n∑i=1

((yi − dxi) − (y − dx))2 =

n∑i=1

((yi − y) − d(xi − x))2

=

n∑i=1

((yi − y)2 − 2d(yi − y)(xi − x) + d2(xi − x)2)

=

n∑i=1

(yi − y)2 − 2dn∑

i=1

(yi − y)(xi − x) + d2n∑

i=1

(xi − x)2

= S yy − 2dS xy + d2S xx.

Para obter o valor de d que minimiza SQR, basta derivar a função quadrática em d eigualar a derivada a 0, obtendo assim, o mínimo global:

−2S xy + 2dS xx = 0⇒ 2dS xx = 2S xy

⇒ d =S xy

S xx.

Este valor é de fato um mínimo desde que o coeficiente de d2 é positivo. Portanto, dadosos valores c e d obtidos, a = y − cx e b =

S xy

S xxsão os valores de c e d que minimizam a SQR.

Page 79: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 57

Figura 37 – Plano que melhor se ajusta a esse conjunto de pontos

Regressão Linear Múltipla

Este é o modelo de regressão com duas ou mais variáveis independentes.

Primeiramente, considere o estudo com duas variáveis independentes e então generalizepara k variáveis independentes.

Assume-se uma relação linear entre a variável dependente y e as duas variáveis indepen-dentes x1 e x2, então o valor esperado ou a média populacional de y associada com a i−ésimaobservação pode ser expressa como:

E(yi) = β0 + β1x1i + β2x2i

Ao considerar o valor de uma única observação yi (ao invés de sua esperança), quando x1

é fixado em x1i e x2 está fixado em x2i, então é preciso adicionar o componente de erro, εi, poisuma observação particular yi pode desviar da média de todas as observações em x1i e x2i. Assim,o modelo para yi é:

yi = β0 + β1x1i + β2x2i + εi

Geometricamente, no caso de duas variáveis independentes a equação para o valoresperado de y descreve um plano no espaço euclidiano tridimensional com x1, x2 e y como oseixos coordenados. No caso de n variáveis independentes a equação para o valor esperado de y

descreve um hiperplano no espaço euclidiano de n + 1 dimensões.

Suponha que se tem uma amostra com n observações em y para n valores de x1 e x2,

Page 80: Problemas de Mínimos Quadrados: Resolução e Aplicações

58 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

então a amostra de observações pode ser expressa como:

y1 = β0 + β1x11 + β2x21 + ε1

y2 = β0 + β1x12 + β2x22 + ε2

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .yn = β0 + β1x1n + β2x2n + εn

Usando álgebra matricial, obtem-se:y1

y2...

yn

=

1 x11 x21

1 x12 x22...

......

1 x1n x2n

β0

β1

β2

+

ε1

ε2...

εn

A expressão usando matrizes podem ser expressa de modo mais compacto como:

y = Xβ + ε

Pode ser visto que a variável y pode ser decomposta em um componente determinísticoXβ e um componente aleatório ε.

O objetivo da análise de regressão é estimar os parâmetros β0, β1, β2 e a variância de εi

com base nos dados da amostra. Para isso, é preciso fazer hipóteses sobre o modelo. Assuma queos valores de xi1, xi2 estão fixos em amostragens repetidas e que o único componente aleatório nomodelo é ε. Isto é, a matriz X é fixa, mas o vetor ε é aleatório, o qual fornecerá valores diferentesem amostragens repetidas.

Considere também que cada εi é normalmente distribuído com média zero e a variânciacomum σ2, e os εi são não correlacionados.

A última hipótese é que o posto da matriz X deve ser igual ao número de parâmetrosa serem estimados (três no caso de duas variáveis independentes) e o número de parâmetrosa serem estimados deve ser menor do que o número de observações na amostra. Desde que onúmero de parâmetros a serem estimados deve ser igual ao número de colunas de X, a condiçãodo posto será satisfeita se os vetores colunas formam um conjunto linearmente independente.

Solução por mínimos quadrados para os parâmetros da regressão

Considere o modelo y = Xβ + ε, o objetivo é estimar β a partir da matriz fixa conhecidaX e do vetor associado das observações aleatórias, y. O vetor y é aleatório porque ele é a somado vetor aleatório ε e o vetor fixo Xβ.

A estimativa de β, denotada por β é obtida pela minimização da soma dos quadra-dos dos erros

∑e2. Por álgebra matricial, pode-se representar

∑e2

i como E(eT e) onde eT =

[e1, e2, . . . , en] .

Page 81: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 59

Note que o modelo da população é:

y = Xβ + ε,

enquanto que o modelo baseado na estimação por mínimos quadrados é:

y = Xβ + e,

onde β é o estimador de mínimos quadrados de β e e é o vetor dos resíduos estimados doplano de regressão por mínimos quadrados.

Como β tem probabilidade zero de ser exatamente igual a β, o vetor dos resíduosdeterminados empiricamente e diferirão do vetor da população atual ε.

Dada a equação y = Xβ + e, obtemos e = y − Xβ.

Logo,

eT e = (y − Xβ)T (y − Xβ)

Como X e y são conhecidos, eles são considerados constantes, e o vetor β é consideradocomo uma variável. Busca-se obter um valor particular do vetor β que minimize eT e. Assim,deseja-se encontrar o valor de β tal que:

∂eT e

∂β= 0,

isto é,∂eT e

∂β= 0 = −2XT y + 2XT Xβ,

assim, β deve satisfazer a equação matricial XT Xβ = XT y.

Essa expressão matricial obtida é conhecida como o conjunto de equações normais.

Considere o problema de regressão múltipla com duas variáveis independentes. Suasequações normais são:

1 1 . . . 1

x11 x12 . . . x1n

x21 x22 . . . x2n

1 x11 x21

1 x12 x22...

......

1 x1n x2n

β0

β1

β2

=

1 1 . . . 1

x11 x12 . . . x1n

x21 x22 . . . x2n

y1

y2...

yn

Para resolver essas equações, considere a forma matricial

XT Xβ = XT y.

Page 82: Problemas de Mínimos Quadrados: Resolução e Aplicações

60 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Como XT X é uma matriz quadrada k × k, ela é assumida ser não singular e portantoinversível, assim, pode-se multiplicar ambos os lados das equações normais por (XT X)−1 paraobter:

(XT X)−1(XT X)β = (XT X)−1XT y.

ou seja,

β = (XT X)−1XT y.

O método de mínimos quadrados pode ser usado para qualquer número de variáveisindependentes contínuas.

A seguir, serão exibidas algumas aplicações envolvendo regressão linear múltipla usandodados simulados e dados reais.

Dados simulados: Aproximação de uma função linear

Primeiramente, gera-se um conjunto de dados artificiais da seguinte maneira:

1. São geradas 10 variáveis aleatórias independentes e uniformemente distribuídas no inter-valo [0, 1]. Denotam-se essas VAs, trivialmente, como: X1, X2, . . . , X9 e X10.

2. Obtém-se a variável resposta Y associada ao vetor X = (X1, . . . , X10), usando a seguinteequação:

Y = 2X1 − 4X2 + 20(X3 − 0.5) + 10X4 + 5X5 + ε,

onde ε representa uma pertubação gaussiana.

Em seguida, o conjunto de dados gerados será dividido em dois conjuntos: conjunto de

treino e conjunto de teste, sendo que o primeiro conjunto possui 100 elementos e o segundo10000. O primeiro conjunto de dados será usado para ajustar o modelo e o segundo para verificaro ajuste do modelo para novos dados, já que estes não foram usados na construção do modelo.

Como a função utilizada aqui possui uma estrutura fortemente linear, o esperado é que ométodo de regressão linear múltipla apresente uma boa aproximação da função.

Para essa aplicação usamos o pacote scikit-learn ([18]) da linguagem Python.

O modelo obtido com os dados treino foi:

Y = −9.84 + 1.86X1 − 4.43X2 + 19, 96X3 + 10.45X4 + 4.43X5 + 0.34X6 + 0.045X7 +

0.49X8 − 0.20X9 − 0.03X10

Para medir a qualidade do ajuste feito pela regressão pode-se calcular o coeficiente decorrelação múltipla. Este valor mede o grau de associação linear entre Y e o conjunto de variáveisno modelo. Seu valor varia de 0 a 1 e quanto mais próximo de 1, melhor o ajuste. Para o exemplo,obtemos o valor de 0.98, mostrando que o modelo se ajustou muito bem aos dados.

Page 83: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 61

MSE MADRegressão Linear 1.11 0.84

CART 9.871 2.523MARS 0.996 0.799

Tabela 1 – Dados simulados - função linear

Pode-se comparar o resultado obtido com a regressão múltipla com outras técnicas deregressão, como o método que trabalha com arvores binárias de regressão, conhecido comoCART e o método MARS, que é uma generalização do método CART. Os resultados dessesmétodos foram obtidos do trabalho de [17]. A tabela a seguir mostra os erros MSE (MeanSquared Error) e MAD (Mean Absolute Deviation) para os modelos estudados. O MSE e o MADsão calculados como:

MSE =1n

n∑i=1

(yi − f (xi))2 (5.14)

MAD =1n

n∑i=1

|yi − f (xi)| (5.15)

onde yi é o valor da resposta no conjunto teste e f (xi) é o valor obtido pelo cálculo dafunção ajustada pelo modelo no xi do conjunto teste.

Verifica-se que o modelo capturou bem a associação linear existente entre a variávelresposta e as variáveis explicativas.

Dados simulados: Aproximação de uma função com estrutura não linear

Analogamente, será feito o mesmo procedimento anterior para uma função com estruturanão linear.

Neste exemplo também será gerado um conjunto de dados, porém com uma função nãolinear.

1. São geradas 10 variáveis X1, X2, . . . , X9 e X10 correlacionadas. Essas variáveis foramgeradas como no trabalho de [17].

2. Obtém-se a variável resposta Y associada ao vetor X = (X1, . . . , X10), usando a seguinteequação:

Y = 10 sen(πX1X2) + 20(X3 − 0.5)2 + 10X4 + 5X5 + ε,

onde ε representa a mesma pertubação gaussiana.

Análogo ao exemplo anterior, o conjunto de dados é dividido em dois conjuntos: umconjunto de treino com 100 elementos e um conjunto de teste com 10000 elementos.

Page 84: Problemas de Mínimos Quadrados: Resolução e Aplicações

62 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

MSE MADRegressão Linear 796.72 17.73

CART 273.972 11.820MARS 51.454 5.359

Tabela 2 – Dados simulados - função não linear

Como a função utilizada agora possui uma estrutura fortemente não linear, diferentementedo exemplo anterior, logicamente o esperado é que o método de regressão linear múltipla nãoapresente uma boa aproximação da função.

O modelo obtido com os dados treino foi:

Y = 22.35 + 10.23X1 + 8.40X2 − 11.95X3 + 14.27X4 − 3.34X5 − 34.33X6 − 35.56X7 −

6.24X8 + 2.30X9 − 7.28X10

Neste caso, como esperado, o coeficiente de correlação múltipla obtido foi 0.22, ou seja,obteve-se um valor mais próximo de zero, indicando a inexistência de uma relação linear entre avariável dependente Y e o conjunto de variáveis explicativas X.

O resultado encontrado com a regressão múltipla foi comparado com os métodos CARTe MARS, obtidos do trabalho de Ferreira e são exibidos na tabela a seguir.

Como esperado, o desempenho do método de regressão linear não capturou a estruturanão linear dos dados.

Dados Reais

Previsão dos preços médios das casas em Boston

Os dados estudados a seguir, podem ser encontrados em [24], e são dados para prever opreço médio das casas numa determinada área de Boston. Para obter os dados, efetuaram-se 506censos na área de Boston, registando os valores de 14 variáveis contínuas (entre elas a variávelde previsão MV).

Na tabela a seguir, estão as variáveis utilizadas para regressão linear.

Aplica-se a regressão linear, o CART e o MARS a este domínio. Com a regressão liner,o modelo obtidos com os dados foi:

Y = 30.18−1.95e−01X1+4.41e−02X2+5.21e−02X3+1.89e+00X4−1.50e+01X5+4.76e+00X6+

2.62e−03X7 − 1.30e+00X8 + 4.60e−01X9 − 1.56e−02X108.11e−01X11 − 2.18e−03X12 − 5.32e−01X13

O ajuste do modelo aos dados, medido pelo coeficiente de correlação múltipla foi de 0.72,indicando que existe uma relação linear entre a variável dependente e suas variáveis explicativas.Assim como foi feito com dados simulados, pode-se comparar a regressão linear com os métodosCART e MARS obtidos do trabalho de [17].

Page 85: Problemas de Mínimos Quadrados: Resolução e Aplicações

5.4. Regressão Linear Simples e Múltipla 63

Nome DescriçãoCRIM Taxa criminal

ZN Porcentagem de terrenos divididos em lotesINDUS Porcentagem de negócios não varejistasCHAS 1 se a casa é próxima ao Rio Charles, 0 caso contrárioNOX Concentração de oxido nítrico (partes por cada 10 milhões)RM Número médio de quartosAGE Porcentagem de casas construídas antes de 1940DIS Distância ponderada a 5 centros comerciais de BostonRAD Índice de acessibilidade a estradas nacionaisTAX Taxa de impostos

PTRATIO Proporção professor/alunoB Proporção de negros

LSTAT Proporção de população de baixa posição socialMV Valor médio das casas em milhares de dolares

Tabela 3 – Variáveis Aleatórias

MSE MADRegressão Linear 33.31 4.76

CART 69.354 5.001MARS 41.515 5.405

Tabela 4 – Comparação entre os métodos - Dados reais

Com os resultados obtidos, verifica-se que a regressão linear teve um bom desempenhocomparada aos outros métodos de regressão. Ressalta-se que este modelo é o modelo linear maissimples a ser estudado, fácil de interpretar e barato computacionalmente.

Page 86: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 87: Problemas de Mínimos Quadrados: Resolução e Aplicações

65

6 Conclusões e Trabalhos Futuros

O método de mínimos quadrados tem inúmeras aplicações, é de fácil implementação einterpretação. Para resolver problemas com esta técnica, existem três métodos: equações normais,SVD e QR. O método de equações normais é mais simples de ser implementado do que o SVD eo QR, visto que, quando se usa a fatoração Cholesky em vez da LU, o tempo gasto é menor. OSVD é voltado para problemas de mal condicionamento, geralmente quando a matriz de dadosnão possui posto completo. E quando se quer dados mais precisos pode-se usar a fatoração QR.Utilizando qualquer uma das fatorações aprendidas, podem-se alcançar resultados eficientes.

Uma das aplicações mais utilizadas com o método é no ajuste de curvas. Neste trabalho,foi estudado o ajuste polinomial de curvas, onde se busca um melhor ajuste aos dados pelaminimização dos resíduos. Verifica-se que os resíduos diminuem conforme o grau o polinômioaumenta. Mas, embora esses polinômios de grau maior pareçam capturar bem o comportamentoda curva, eles precisam de um número maior de parâmetros a ser estimados pelo método, e podeacontecer de ocorrer um super-ajuste aos dados. Então busca-se ajustar polinômios de grau baixopara evitar problemas de mal condicionamento e estabilidade. Este ajuste polinomial pode sergeneralizado para os casos em que os polinômios podem ser quaisquer funções independentes,não necessariamente polinômios. E assim, pode-se obter um melhor ajuste.

Como exemplo de uma aplicação em outra área, foi feito o exemplo de regressão linearsimples e múltipla. Neste problema de estatística, busca-se encontrar o melhor ajuste linear a umconjunto de dados. Esse problema é resolvido por MQO. Neste trabalho, foram gerados dadossimulados e dados reais e, o método conseguiu capturar uma estrutura linear nos dados, quandoexistente.

Como trabalhos futuros, pode-se estudar sobre MQO mais elaborados tais como MQOModificados, Generalizados, Métodos diretos para problemas dispersos, Métodos iterativos paraMQO, MQO com bases especiais e MQO não linear. Basta ver [3] para obter mais detalhes.Podem-se estudar outras aplicações, como por exemplo, no ajuste polinomial de curvas utilizandooutras funções além de polinômios.

Page 88: Problemas de Mínimos Quadrados: Resolução e Aplicações
Page 89: Problemas de Mínimos Quadrados: Resolução e Aplicações

67

Referências

1 TREFETHEN, L. N.; Bau, III, D. Numerical Linear Algebra. pub-SIAM:adr: pub-SIAM,1997. Citado 15 vezes nas páginas 2, 5, 6, 7, 8, 14, 19, 27, 33, 35, 37, 38, 49, 51 e 52.

2 DEMMEL, J. W. Applied Numerical Linear Algebra. Philadelphia (Pa.): Society forIndustrial and Applied Mathematics, 1997. Citado 6 vezes nas páginas 2, 5, 27, 35, 38 e 52.

3 BJöRCK, A. Numerical Methods for Least Squares Problems. S.I.A.M.: Society forIndustrial and Applied Mathematics, 1996. Citado 6 vezes nas páginas 2, 27, 33, 35, 38 e 65.

4 ELDEN, L. Matrix Methods in Data Mining and Pattern Recognition. Philadelphia: S.I.A.M.,2007. Citado 4 vezes nas páginas 2, 25, 27 e 35.

5 MALAJOVICH, G. Algebra Linear. UFRJ: UFRJ, 2010. Citado 5 vezes nas páginas 2, 5,25, 35 e 38.

6 QUARTERONI, A.; SACCO, R.; SALERI, F. Numerical Mathematics. Second edition:Springer, 2000. Citado 4 vezes nas páginas 2, 27, 35 e 38.

7 DATTA, B. N. Numerical Linear Algebra and Applications. SIAM: Brooks/Cole Pub., 1995.Citado 3 vezes nas páginas 2, 23 e 27.

8 GOLUB, G. H.; ORTEGA, J. M. Scientific Computing and Differential Equations. AnIntroduction to Numerical Methods. San Diego New York Boston and London Sydney TokyoToronto: Academic Press, 1992. Citado 3 vezes nas páginas 2, 38 e 52.

9 CAMPOS, L. E. da S. Um estudo sobre fatorações de matrizes e a resolução de sistemaslineares. Dissertação (Dissertatação de Mestrado) — Universidade Estadual de Campinas,Campinas - SP - BR, 2008. Citado 4 vezes nas páginas 2, 25, 26 e 38.

10 LIMA, E. L. Álgebra Linear. IMPA: SMB, 2009. Citado 4 vezes nas páginas 2, 5, 7 e 12.

11 LIMA, E. L. Analise Real - Vol. 1. Rio de Janeiro - IMPA: SMB, 2010. Citado na página 2.

12 LIMA, E. L. Analise Real - Vol. 2. Rio de Janeiro - IMPA: SMB, 2013. Citado 2 vezes naspáginas 2 e 5.

13 STRANG, G. Linear Algebra and Its Applications. United States of America: ThomsonBrooks/Cole„ 2006. Citado 4 vezes nas páginas 2, 6, 25 e 38.

14 CALLIOLI, C. A.; COSTA, R. C. F.; DOMINGUES, H. H. Álgebra linear e aplicações.procurar endereco bibtex: procurar tbm, 1990. Citado 3 vezes nas páginas 2, 5 e 12.

15 HEFFERON, J. Linear Algebra. Mathematics, Saint Michael’s College: Colchester,Vermont USA, 2001. Citado 2 vezes nas páginas 2 e 38.

16 HOFFMAN, K.; KUNZE, R. Linear Algebra. PRENTICE-HALL, INC., Englewood Cliffs,New Jersey: United States of America, 1971. Citado 3 vezes nas páginas 2, 12 e 38.

Page 90: Problemas de Mínimos Quadrados: Resolução e Aplicações

68 Referências

17 FERREIRA, M. de F. M. Arvores de Regressão e generalizações - Aplicações. Dissertação(Dissertatação de Mestrado) — Faculdade de Ciências da Universidade do Porto, 1999. Citado3 vezes nas páginas 2, 61 e 62.

18 PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of MachineLearning Research, v. 12, p. 2825–2830, 2011. Citado 2 vezes nas páginas 2 e 60.

19 BREIMAN, L. Bagging Predictors. Berkeley, California: Department of Statistics,University of California, 1992. Citado na página 2.

20 HAMILTON, A. G. A first course in linear algebra. Department of Computing Science,University of Stirling: Cambridge University Press, New York, 1987. Citado na página 2.

21 CASELLA, G.; BERGER, R. L. Statistical Inference. United States of America: Duxbury -Thomson Learning, 2002. Citado 2 vezes nas páginas 2 e 52.

22 DEGROOT, M. H.; SCHERVISH, M. J. Probability and Statistics. Carnegie-MellonUniversity: Pearson Publications„ 2011. Citado 2 vezes nas páginas 2 e 52.

23 MARINELLI, M. F. Método de Quadrados Mínimos. Universidade Federal de SantaCatarina - Florianópolis: Departamento de Matemática Centro de Ciências Físicas e Matemáticas,2002. Citado 3 vezes nas páginas 27, 35 e 38.

24 LICHMAN, M. UCI Machine Learning Repository. 2013. Disponível em: <http://archive.ics.uci.edu/ml>. Citado na página 62.