fernanda gomes da silveirarepositorio.ufla.br/jspui/bitstream/1/1788/1/tese... · 2014. 7. 10. ·...

178
FERNANDA GOMES DA SILVEIRA ABORDAGEM GEOMÉTRICA DO MÉTODO DOS QUADRADOS MÍNIMOS PARCIAIS COM UMA APLICAÇÃO A DADOS DE SELEÇÃO GENÔMICA LAVRAS-MG 2014

Upload: others

Post on 24-Dec-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

FERNANDA GOMES DA SILVEIRA

ABORDAGEM GEOMÉTRICA DO MÉTODODOS QUADRADOS MÍNIMOS PARCIAIS

COM UMA APLICAÇÃO A DADOS DESELEÇÃO GENÔMICA

LAVRAS-MG

2014

Page 2: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

FERNANDA GOMES DA SILVEIRA

ABORDAGEM GEOMÉTRICA DO MÉTODO DOS QUADRADOSMÍNIMOS PARCIAIS COM UMA APLICAÇÃO A DADOS DE SELEÇÃO

GENÔMICA

Tese apresentada à Universidade Federalde Lavras, como parte das exigências doPrograma de Pós-Graduação em Estatísticae Experimentação Agropecuária, área deconcentração em Estatística e Experimen-tação Agropecuária, para a obtenção do tí-tulo de Doutor.

OrientadorDr. Lucas Monteiro Chaves

CoorientadorDr. Fabyano Fonseca e Silva

LAVRAS-MG2014

Page 3: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

Ficha Catalográfica Elaborada pela Coordenadoria de Produtos eServiços da Biblioteca Universitária da UFLA

Silveira, Fernanda Gomes da.Abordagem geométrica do método dos quadrados mínimos

parciais com uma aplicação a dados de seleção genômica /Fernanda Gomes da Silveira. – Lavras : UFLA, 2014.

176 p. : il.

Tese (Doutorado) - Universidade Federal de Lavras, 2014.Orientador: Lucas Monteiro Chaves.Bibliografia.

1. Projeções. 2. Regressão. 3. Componentes principais. 4.Suíno. I. Universidade Federal de Lavras. II. Título.

CDD – 519.536

Page 4: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

FERNANDA GOMES DA SILVEIRA

ABORDAGEM GEOMÉTRICA DO MÉTODO DOS QUADRADOSMÍNIMOS PARCIAIS COM UMA APLICAÇÃO A DADOS DE SELEÇÃO

GENÔMICA

Tese apresentada à Universidade Federalde Lavras, como parte das exigências doPrograma de Pós-Graduação em Estatísticae Experimentação Agropecuária, área deconcentração em Estatística e Experimen-tação Agropecuária, para a obtenção do tí-tulo de Doutor.

APROVADA em 27 de janeiro de 2014.

Dr. Daniel Furtado Ferreira UFLA

Dr. Márcio Balestre UFLA

Dr. André Luís da Costa Paiva IFMG - Campus Bambuí

Dr. Antonio Policarpo Souza Carneiro UFV

Dr. Fabyano Fonseca e Silva UFV

Dr. Lucas Monteiro ChavesOrientador

LAVRAS-MG2014

Page 5: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

Aos meus pais, Geraldo e Maria de Lurdes,

aos meus irmãos Fábio e Renata,

pelo amor incondicional.

DEDICO

Page 6: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

AGRADECIMENTOS

A Deus, pelo dom da vida, por estar sempre me abençoando, me guiando

e dando forças para vencer os obstáculos.

Aos meus pais, Geraldo e Maria de Lurdes pela oportunidade que me pro-

porcionaram nos estudos, pelo apoio e pela compreensão nos momentos em que

não pude estar presente e por serem sempre meu esteio e minha inspiração.

Aos meus irmãos, Fábio e Renata; aos cunhados, Renata e Norton; aos

sobrinhos Lucas e Bernardo, pelo incentivo, força e carinho.

A toda minha querida família pelos constantes incentivos: avós, tios e tias,

primos e primas.

À Universidade Federal de Lavras, pela oportunidade de aprimoramento

acadêmico.

À Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPE-

MIG) e à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CA-

PES), pelo apoio financeiro.

Ao Instituto Federal de Minas Gerais, campus Bambuí, pelo afastamento

que tornou possível minha qualificação.

Ao professor Lucas Monteiro Chaves pela orientação, apoio e dedicação

nestes quatro anos.

Ao professor Fabyano Fonseca e Silva pela co-orientação, amizade, con-

fiança e por estar sempre bem disposto a ajudar.

Aos membros da banca examinadora, pelas críticas e sugestões a este tra-

balho.

Aos professores do Departamento de Ciências Exatas, pelos conhecimen-

tos transmitidos.

Aos funcionários do Departamento de Ciências Exatas, pela prontidão em

Page 7: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

ajudar, em especial a Josi, secretária da Pós-graduação.

Aos professores Paulo Sávio Lopes e Simone Eliza Facioni Guimaraes,

responsáveis pela granja de melhoramento de suínos do DZO-UFV e Laborató-

rio de Biotecnologia Animal da UFV, respectivamente, pela concessão dos dados

utilizados nas aplicações deste trabalho.

Aos colegas do curso de Pós-graduação em Estatística e Experimentação

Agropecuária, pelo convívio.

À amizade das companheiras de repúblicas: Adriana, Alcilene, Isabelle e

Larissa.

À hospedagem e o carinho com que me acolheram em suas casas para que

as viagens se tornassem menos exaustivas: Alice e João Paulo, Fátima e Diego,

Élida e Edna, Luzia e Fábio, Alcilene (Elza, Júlia e Tatiane).

A todos que, direta ou indiretamente, contribuíram para a realização deste

trabalho, muito obrigada!

Page 8: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

“Quanto maior a dificuldade, tanto maior é o mérito em superá-la.”

Henry Ward Beecher

Page 9: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

RESUMO

Quando, em uma regressão múltipla, tem-se relações lineares ou quase co-linearidade entre as covariáveis ou, ainda, quando o número de covariáveis é maiorque o número de observações, o método dos Quadrados Mínimos Ordinários podenão ser adequado. Neste contexto, o método dos Quadrados Mínimos Parciais(PLS) tem se mostrado eficiente. O método consiste em obter a redução de di-mensionalidade, uma vez que a regressão é realizada em relação a componentesrelevantes. O método é abordado na literatura principalmente sob dois aspectos:algorítmico e algébrico. Neste trabalho, uma abordagem geométrica, utilizandoprojeções ortogonais, é apresentada no sentido de explicitar todas as etapas teóri-cas e da construção do algoritmo PLS. No intuito de tornar o texto mais didático,a abordagem geométrica também foi aplicada na teoria da Regressão em Compo-nentes Principais (PCR), uma vez que os métodos PLS e PCR são similares. Umarotina foi desenvolvida usando o software R, visando também a explicitar o passoa passo da construção do algoritmo. Como em qualquer análise de redução dedimensionalidade, um passo importante na aplicação do método PLS é a determi-nação de um número ótimo de componentes. Para tal, foi apresentada a teoria deGraus de Liberdade e o método de Validação Cruzada. Os métodos PCR e PLS,além da regressão tradicional sem redução de dimensionalidade, foram aplicadosem uma análise de seleção genômica em suínos considerando um painel de mar-cadores SNPs de baixa densidade e dois fenótipos relacionados com a qualidadeda carne.

Palavras-chave: Abordagem Geométrica. Quadrados Mínimos Parciais. Regres-são. Seleção Genômica Ampla.

Page 10: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

ABSTRACT

When estimating the coefficients of a multiple regression model, if the vec-tors of predictors are highly correlated, meaning that one can be (almost) a linearcombination of the others, or if the number of predictors is greater than the num-ber of observations, the Ordinary Least Square method may be non-appropriate.In that case, the Partial Least Square (PLS) method has shown to be efficient. Itconsists of obtaining a reduction in dimension by restricting the regression to re-levant components. It is usual the literature to be restricted to two main aspects:algorithmic and algebraic. In this work, a geometric approach, based in orthogonalprojections, is used to explicit all the theory behind the PLS method as well as inthe construction of the PLS algorithm. Aiming to make the text more didactic, thesame approach is applied to the Principal Components Regression (PCR) method,since both PLS and PCR are similar. Also a step by step routine for the PLS al-gorithm was developed using the R software. As in any procedure of reductionof dimensionality, the determination of the optimal number of components is akey step. To do that, we have described and used the Degree of Freedom Methodand the Cross Validation Method. Both the PLS and PCR methods, besides theusual regression with no dimensionality reduction, were applied to a genomic se-lection analysis of pigs, considering a panel of low density SNP markers and twophenotypes related to meat quality.

Keywords: Geometric Approach. Partial Least Squares. Regression. GenomeWide Selection.

Page 11: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

LISTA DE FIGURAS

Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19Figura 1 Transformação linear de Rn em Rm . . . . . . . . . . . . . . . . 24Figura 2 Interpretação geométrica do produto interno . . . . . . . . . . . 25Figura 3 Projetor ortogonal de um vetor aleatório Y sobre um subespaço W 26Figura 4 Representação geométrica para o modelo linear de Gauss-Markov 32Figura 5 Representação geométrica do vetor residual . . . . . . . . . . . 33Figura 6 Representação gráfica do núcleo e da imagem de X e X′ . . . . . 34Figura 7 Modelo de Gauss-Markov quando X não é injetiva . . . . . . . . 36Figura 8 Representação geométrica da obtenção do componente principal 55Figura 9 Representação geométrica da curva parametrizada pelo compri-

mento do arco sobre a esfera de raio unitário, centrada na origemdo espaço Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Figura 10 Representação geométrica da maximização da var (Xβ ·Y) res-trito a β′β = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Figura 11 Representação geométrica dos autovetores γ1,γ2, ...,γp da ma-triz X′X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Figura 12 Subespaço Wm gerado pelos m-primeiros autovetores da matrizX′X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Figura 13 Projeção ortogonal de Y no subespaço Wm definindo o parâme-tro de regressão βPCR . . . . . . . . . . . . . . . . . . . . . . . 62

Figura 14 Representação da função injetiva f entre os conjuntos A e B eda função g como uma projeção na Imf . . . . . . . . . . . . . 62

Figura 15 Representação da composição de uma função h sobrejetiva comuma função f injetiva, definindo uma bijeção h ◦ f . . . . . . . 63

Figura 16 Representação dos vetores ξ1,ξ2, ..., ξm como imagem dos auto-vetores γ1,γ2, ...,γm pela matriz X . . . . . . . . . . . . . . . 64

Figura 17 Representação da transformação linear Ξm : Rm → Rn em queΞmei = ξi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Figura 18 Representação do parâmetro βPCR como a projeção ortogonaldo vetor βOLS no subespaço gerado por {γ1,γ2, ...,γm} . . . . 68

Figura 19 Projeção do vetor de dados Y no subespaço gerado pelos m pri-meiros componentes principais . . . . . . . . . . . . . . . . . . 69

Figura 20 Representação geomética do algoritmo PLS Populacional comduas iterações . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Figura 21 Representação de X′Y como uma transformação linear de Rk

em Rp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Page 12: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

Figura 22 Representação geométrica das sequências de vetores un = YY′

XX′un−1, cn = Y′XX′Ycn−1, tn = XX′YY′tn−1 e wn =X′YY′Xwn−1 . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Figura 23 Representação da matriz de covariáveis Xn×p como uma trans-formação do espaço de parâmetros Rp no espaço dos dados Rn . 105

Figura 24 Representação das colunas de X como imagem dos vetores canô-nicos ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Figura 25 Representação das variáveis centradas através da projeção orto-gonal no subespaço gerado pelo vetor 1 . . . . . . . . . . . . . . 106

Figura 26 Projeção ortogonal do vetor U1 em cada um dos vetores V1j . . 107Figura 27 Projeção ortogonal do vetor U1 em cada um dos vetores V1j . . 107Figura 28 Construção do vetor T1 como média ponderada dos vetores U1j 108Figura 29 Construção dos vetores U2 e V2j através da projeção dos vetores

U1 e V1j, respectivamente, em T1 . . . . . . . . . . . . . . . . 109Figura 30 Construção dos vetores U2j como projeção do vetor U2 nos ve-

tores V2j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110Figura 31 Construção do vetor T2 como média ponderada dos vetores U2j 110Figura 32 Componentes ortogonais T1 e T2 . . . . . . . . . . . . . . . . 111Figura 33 Representação geométrica dos componentes como imagem da

transformação linear T do Rm para o Rn . . . . . . . . . . . . . 113Figura 34 Projeção do vetor de dados Y no subespaço ImT gerado pelos

componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Figura 35 Representação geomética das transformações lineares T, R e X . 114Figura 36 Vetor βPLS como projeção oblíqua do vetor βOLS . . . . . . . . 116Figura 37 Representação de uma curva gerada por valores dos graus liber-

dade, DoF, em função do número de componentes m . . . . . . 123Figura 38 Representação de uma curva gerada por valores de erro quadrá-

tico médio em função do número de componentes m . . . . . . . 124Figura 39 Como a transformação L deforma uma esfera em um elipsóide . 143Figura 40 Representação geométrica do método das potências . . . . . . . 145Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Figura 1 Determinação do número ótimo de componentes na análise PLS

utilizando a teoria de graus de liberdade (a) e validação cruzada(b) para a variável pH da carne suína aos 45 min após o abate . . 165

Figura 2 Determinação do número ótimo de componentes na análise PLSutilizando a teoria de graus de liberdade (a) e validação cruzada(b) para a variável pH da carne suína 24 horas após o abate . . . 165

Page 13: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

Figura 3 Capacidades preditivas obtidas pelos métodos PLS, PCR e OLS(regressão múltipla tradicional) para as características de pH45

(a) e pHu (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166Figura 4 Manhattan plot (efeitos estimados dos SNPs ao longo das posi-

ções genômicas) para as características pH da carne suína aos 45min (a) e 24 horas (b) após o abate . . . . . . . . . . . . . . . . 168

Figura 5 Densidade de QTLs reportados na região intermediária do cro-mossomo SSC4 proveniente da base de dados PigQTLdb. . . . . 170

Page 14: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

LISTA DE TABELAS

Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Tabela 1 Identificação dos SNPs reportados como sendo os mais relevan-

tes para os fenótipos pH45 (45 min após o abate) e pHu (24 horasapós o abate) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Page 15: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

SUMÁRIO

INTRODUÇÃO GERAL . . . . . . . . . . . . . . . . . . . . . . 15CAPÍTULO 1 Abordagem Geométrica da Regressão por Qua-drados Mínimos Parciais . . . . . . . . . . . . . . . . . . . . . . 19

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . 232.1 Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . 292.2.1 As equações normais e os estimadores de quadrados mínimos . . 322.2.2 Propriedades dos estimadores de quadrados mínimos . . . . . . 372.3 Regressão Estatística . . . . . . . . . . . . . . . . . . . . . . . . 392.4 Componentes Principais . . . . . . . . . . . . . . . . . . . . . . 492.5 Regressão por Componentes Principais . . . . . . . . . . . . . . 492.6 Regressão por Quadrados Mínimos Parciais . . . . . . . . . . . 503 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . 513.1 Componentes Principais . . . . . . . . . . . . . . . . . . . . . . 513.2 Regressão por Componentes Principais . . . . . . . . . . . . . . 513.3 Regressão por Quadrados Mínimos Parciais . . . . . . . . . . . 523.4 Determinação do número ótimo de componentes . . . . . . . . . 533.5 Exemplo Didático . . . . . . . . . . . . . . . . . . . . . . . . . . 544 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.1 Componentes Principais . . . . . . . . . . . . . . . . . . . . . . 554.2 Regressão por Componentes Principais: uma abordagem geo-

métrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3 Regressão por Quadrados Mínimos Parciais: uma abordagem

geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 744.3.1 PLS Populacional . . . . . . . . . . . . . . . . . . . . . . . . . . 744.3.2 PLS Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.3.2.1 Componentes com covariância máxima . . . . . . . . . . . . . . 884.3.2.2 O algoritmo PLS Multivariado . . . . . . . . . . . . . . . . . . . 924.3.2.3 Regressão em PLS . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.3.3 Uma alternativa ao algoritmo PLS . . . . . . . . . . . . . . . . . 1054.4 Determinação do número ótimo de componentes (variáveis la-

tentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164.4.1 Graus de Liberdade e seleção de modelos . . . . . . . . . . . . . 1174.4.2 Validação Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 1244.5 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Page 16: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 137APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140CAPÍTULO 2 Quadrados Mínimos Parciais aplicado à seleçãogenômica para qualidade de carne em suínos . . . . . . . . . . . 152

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . 1542 MATERIAL E MÉTODOS . . . . . . . . . . . . . . . . . . . . . 1572.1 Descrição dos dados utilizados . . . . . . . . . . . . . . . . . . . 1572.2 Quadrados Mínimos Parciais - PLS . . . . . . . . . . . . . . . . 1582.3 Número ótimo de componentes (variáveis latentes) no PLS . . . 1612.4 Capacidade Preditiva . . . . . . . . . . . . . . . . . . . . . . . . 1623 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . 1644 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 172APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Page 17: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

16

INTRODUÇÃO GERAL

O método mais utilizado para obter equações de predição é o método dos

quadrados mínimos. Contudo, quando existem fortes relações lineares entre as

covariáveis, ou quando o número de covariáveis é maior que o número de observa-

ções em uma regressão múltipla, tem-se um problema denominado multicolinea-

ridade. Nesta situação, as estimativas dos coeficientes de regressão por quadrados

mínimos, tendem a ser instáveis, geralmente com grandes erros-padrão, podendo

resultar em inferências errôneas (GARTHWAITE, 1994).

Uma forma de contornar o problema da multicolinearidade é a aplica-

ção de métodos de redução de dimensão nas covariáveis. Dentre estes métodos

destaca-se o método dos Quadrados Mínimos Parciais (Partial Least Squares -

PLS). Este método foi introduzido por Wold em 1975, sendo considerado útil para

a construção de equações de predições em situações nas quais se tem um grande

número de variáveis explicativas e um número relativamente pequeno de dados

amostrais (HOSKULDSSON, 1988). Resumidamente, a ideia geral do PLS é for-

mar componentes, isto é, combinações lineares, que capturem a maior quantidade

de informação possível disposta nas variáveis explicativas X1, . . . ,Xp para pre-

dizer as variáveis respostas Y1, . . . ,Yk. O método PLS apresenta similaridades

com o tradicional método de Regressão via Componentes Principais (Principal

Components Regression - PCR). A maior diferença é dada pelo fato do PCR levar

em consideração, na construção dos componentes, apenas as variáveis explica-

tivas, enquanto que o PLS também leva em consideração as variáveis respostas

(GARTHWAITE, 1994).

Muitos estudos são encontrados na literatura com aplicações utilizando

o método PLS, mas são raras as referências em que se aborda a teoria do PLS,

Page 18: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

17

em especial a abordagem geométrica. Assim, trabalhos contemplando esta teoria

geométrica são úteis para o entendimento e desenvolvimento do método.

Como em qualquer análise de redução de dimensionalidade, um passo im-

portante na execução do PLS é a determinação do número ótimo de componentes.

No entanto, isso tem sido uma lacuna na aplicação dessa teoria. Metodologias

como a teoria de graus de liberdade (Degrees of Freedom - DoF) e validação cru-

zada (Cross Validation - CV) foram propostas (KRÄMER; SUGIYAMA, 2011),

porém, até o momento, não há relatos da comparação de tais metodologias na

aplicação de dados.

A título de ilustração, considere a grande contribuição da genética mole-

cular no melhoramento animal. A utilização direta das informações de DNA no

processo de identificação de animais geneticamente superiores, denominado Sele-

ção Genômica Ampla (Genome Wide Selection - GWS) consiste da análise de um

grande número de marcadores de Polimorfismo de Nucleotídeo Único (Single Nu-

cleotide Polymorphisms - SNP) amplamente distribuídos no genoma (MEUWIS-

SEN; HAYES; GODDARD, 2001). Porém, a utilização dessas informações é um

desafio, uma vez que, geralmente, o número de marcadores é muito maior que o

número de animais genotipados (alta dimensionalidade) e tais marcadores são al-

tamente correlacionados (multicolinearidade). Assim, o sucesso da seleção genô-

mica ampla deve-se à escolha de metodologias que contornem essas adversidades.

Dentre estas, o PLS apresenta-se como uma alternativa interessante que merece

ser investigada.

Diante do exposto, objetivou-se, no capítulo 1, apresentar uma abordagem

geométrica à teoria do PLS (populacional e amostral) e do PCR. E no capítulo

2, objetivou-se aplicar os métodos PCR e PLS, além da regressão tradicional sem

redução de dimensionalidade, em uma análise de seleção genômica em suínos

Page 19: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

considerando um painel de marcadores SNPs de baixa densidade e dois fenótipos

relacionados com a qualidade da carne (pH medido aos 45 min e às 24 horas após

o abate). Além disso, objetivou-se, ainda, testar dois diferentes métodos de de-

terminação do número ótimo de componentes na análise PLS, a teoria de graus de

liberdade e a validação cruzada, bem como sua influência na performance preditiva

do método.

Page 20: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

19

CAPÍTULO 1

Abordagem Geométrica da Regressão por Quadrados Mínimos Parciais

RESUMO

A abordagem geométrica do método dos Quadrados Mínimos Parciais(PLS) é natural e intuitiva. Esta abordagem explicita as relações existentes entre osmétodos de regressão PLS, Quadrados Mínimos Ordinários (OLS) e ComponentesPrincipais (PCR). Em termos de projeções ortogonais, são explicadas, neste capí-tulo, as etapas da construção dos algoritmos PLS, populacional e amostral, bemcomo as construções relativas à regressão em componentes principais. Uma rotinafoi desenvolvida no software R e aplicada a um exemplo didático, explicitandoo passo a passo do algoritmo PLS. A teoria dos Graus de Liberdade é apresen-tada como uma alternativa ao método da Validação Cruzada, uma vez que estavem sendo proposta para determinar o número de componentes a ser utilizado naregressão.

Palavras-chave: Componentes Principais. Projeções. Redução de dimensionali-dade. Vetores Aleatórios.

Page 21: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

20

ABSTRACT

The geometric approach to the Partial Least Square (PLS) Method is natu-ral and intuitive. It makes clear the similarities among the PLS, the Ordinary LeastSquare (OLS) and the Principal Components (PCR) regression methods. In thischapter we use the orthogonal projections to explain the step by step constructionof the PLS algorithm, for sample and for population, as well as the PCR. A routinewas developed in the software R and applied in a didactic example. The Degreesof Freedom theory is presented as an alternative to the Cross Validation method,since it has been proposed to choose the number of components to be used in theregression.

Keywords: Principal Components. Projections. Dimensionality Reduction. Ran-dom Vectors.

Page 22: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

21

1 INTRODUÇÃO

A álgebra linear é talvez a área da matemática mais acessível. Uma razão

que pode justificar tal fato é a sua natureza dupla, isto é, álgebra, com toda a sua

abstração e elegância, e geometria, com todo o seu apelo intuitivo. Vetores, ân-

gulos, subespaços vetoriais são conceitos geométricos e de fácil visualização. A

álgebra é, também, a área da matemática com maior aplicabilidade em estatística,

como modelos lineares e estatística multivariada. O uso de transformações lineares

ortogonais, diagonalização de matrizes simétricas e diagonalização de formas qua-

dráticas, são essenciais e de uso constante. Esses resultados de álgebra linear são

encontrados em praticamente todos os livros utilizados nos cursos de graduação

em matemática, engenharias e estatística.

A teoria da regressão é uma área ampla e muito importante da estatística,

e, apesar de existirem muitas referências sobre o assunto, pouco se encontra na

literatura sobre sua abordagem geométrica. O fato interessante a ser observado é

que a abordagem feita pelos autores estatísticos, em geral, é totalmente algébrica,

extremamente analítica e abstrata. Desse modo, a utilização de uma abordagem

geométrica poderá dar uma contribuição ao entendimento de vários conceitos na

teoria da regressão.

Dentre os métodos de regressão, a regressão via componentes principais

e a regressão via método dos quadrados mínimos parciais, têm destaque pela sua

aplicabilidade, em especial esta última, que vem sendo muito utilizada em áreas

como quimiometria e genética. No entanto, apesar de ser recorrente o uso do

método PLS em trabalhos encontrados na literatura, muito se discute sobre sua

aplicação, mas muito pouco se encontra sobre sua teoria.

O objetivo deste capítulo é apresentar a teoria da regressão em compo-

Page 23: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

22

nentes principais e o método dos quadrados mínimos parciais, sob o ponto de vista

geométrico, e a teoria dos Graus de Liberdade e Validação Cruzada, que vêm sendo

propostas para determinar o número de componentes, tomando como referências

os artigos: Helland (1990), Hoskuldsson (1988), Garthwaite (1994), Phatak e Jong

(1997) e Krämer e Sugiyama (2011).

Page 24: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

23

2 REFERENCIAL TEÓRICO

2.1 Vetores Aleatórios

Quando se quer medir vários aspectos aleatórios de um fenômeno, ou

mesmo fazer medidas repetidas de algum deles, tem-se a teoria das variáveis ale-

atórias multidimensionais, Y = (Y1, . . . ,Yn) , em que cada coordenada é uma

variável aleatória unidimensional. O exemplo mais usual é quando se tem uma

amostra aleatória simples Y = (Y1, . . . ,Yn) . Neste caso Y representa medidas

repetidas independentes de uma mesma grandeza populacional. Outra situação

é quando se tem uma variável multidimensional propriamente dita, isto é, a me-

dida de várias características de um fenômeno aleatório. Pode-se também ter uma

amostra de tais variáveis. Portanto, as coordenadas podem estar relacionadas a

valores de característica ou valores obtidos por repetição.

Os valores que Y = (Y1, ...,Yn) assume podem ser vistos como vetores

no espaço Rn, e, portanto, podem também ser apropriadamente denominados de

vetores aleatórios. Neste trabalho, as variáveis aleatórias multidimensionais serão

vistas como vetores aleatórios e estudam-se suas projeções em subespaços vetori-

ais, utilizando-se uma abordagem inteiramente geométrica.

Quando uma base do espaço vetorial é escolhida será usada a notação Rn.

Caso o espaço vetorial seja abstrato, isto é, sem uma escolha particular de base,

será utilizada a notação V. Uma vez fixadas bases no domínio e no contradomínio,

uma transformação linear pode ser representada por uma matriz. Dessa forma, não

será feita distinção entre os conceitos de transformações lineares e de matrizes.

Uma situação usual em estatística é a transformação linear de dados, como

mudanças de escalas, por exemplo, ou o procedimento de se trabalhar com a mé-

Page 25: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

24

dia amostral. Tais procedimentos, em termos de álgebra linear consistem em apli-

car transformações lineares, fazer projeções ortogonais, calcular ângulos, etc. Da

mesma forma, todos estes procedimentos podem ser aplicados em vetores aleató-

rios.

Considere transformações lineares: L : Rn → Rm, conforme na Figura 1.

Figura 1 Transformação linear de Rn em Rm

Considere L como uma matriz Lm×n e L′ sua transposta. Em termos de

produto de matrizes, tem-se que a transformação linear pode ser dada por:

Lm×nYn×1 =

x11 x12 . . . x1n

x21 x22 . . . x2n

......

. . ....

xm1 xm2 . . . xmn

Y1

Y2

...

Yn

.

O produto interno do vetor aleatório Y com um vetor x′ = (x1, x2, ..., xn)

é dado por x ·Y = x1Y1+...+xnYn. Em termos de matrizes, se x é considerado

Page 26: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

25

uma matriz n × 1, ou seja, x =

x1

x2

...

xn

, então x ·Y pode ser expresso como o

produto de matrizes

x′Y =[

x1 x2 . . . xn

]

Y1

Y2

...

Yn

.

As seguintes notações serão usadas indistintamente: x ·Y = x′Y =< x,Y > .

O produto interno é dado por x ·Y = ‖x‖ ‖Y‖ cos θ. Geometricamente,

x · Y significa o tamanho do vetor x vezes o tamanho do vetor aleatório obtido

pela projeção do vetor Y no subespaço unidimensional gerado pelo vetor x (Figura

2).

cos θ =‖PxY‖‖Y‖

⇒ ‖PxY‖ = ‖Y‖ cos θ,

x ·Y = ‖x‖ ‖Y‖ cos θ = ‖x‖ ‖PxY‖ .

Figura 2 Interpretação geométrica do produto interno

Page 27: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

26

A esperança de um vetor aleatório é o vetor dado pela esperança de cada

componente, denominado E(Y) = β, em que β é um vetor p× 1. Outra caracte-

rística fundamental de um vetor aleatório é sua matriz de variâncias e covariâncias,

cov (Y) = Σ = E((Y − E (Y)) (Y − E (Y))′

), em que Σ é uma matriz posi-

tiva definida p× p.

Alguns teoremas importantes envolvendo projetores ortogonais de um ve-

tor aleatório Y são apresentados a seguir. Deve ser observado que, sendo Y um

vetor aleatório em um espaço vetorial V, a sua projeção ortogonal em um subes-

paço W, d-dimensional, de V, denotada por PW (Y) , também é um vetor aleatório

que depende, obviamente, de Y (Figura 3). O vetor PW (Y) pode ser expresso,

em relação a uma base ortogonal {u1, . . . , ud} de W, por

PWY=

(Y · u1

u1 · u1

)u1+

(Y · u2

u2 · u2

)u2+ . . .+

(Y · ud

ud · ud

)ud.

Figura 3 Projetor ortogonal de um vetor aleatório Y sobre um subespaço W

Um fato importante sobre projetores é sua caracterização como matrizes.

Uma matriz quadrada tal que A2 = A é chamada matriz de projeção ou proje-

Page 28: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

27

tor. Tem-se que um projetor A restrito à ImA é a identidade, ou seja, A (Ax) =

A2x = Ax, ∀x ∈ Rn. I − A também é um projetor, pois (I−A)2 = I − 2A +

A2 = I−A, em que I é a matriz identidade.

Tem-se que: KerA = Im(I−A) e ImA = Ker(I−A).

Demonstração.

A((I−A)x) = A(x−Ax) = Ax−A2x = Ax−Ax = 0

⇒ Im(I−A) ⊂ KerA e

x ∈ KerA⇒ (I−A)x = x−Ax = x− 0 ⇒ x ∈ Im(I−A)

⇒ KerA ⊂ Im(I−A),

logo, KerA = Im(I−A).

y ∈ Ker (I−A)⇒ 0 = (I−A) y = y −Ay⇒ Ay = y⇒ y ∈ ImA

⇒ Ker (I−A) ⊂ ImA e

y ∈ ImA⇒ y = Ax⇒ (I−A) y = (I−A) Ax = Ax−A2x

= Ax−Ax = 0⇒ y ∈ Ker (I−A)

⇒ ImA ⊂ Ker (I−A) ,

logo, ImA = Ker(I−A).

Uma matriz de projeção A é dita um projetor ortogonal se Av − v é

perpendicular ao subespaço ImA.

Page 29: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

28

Proposição 1. Uma matriz de projeção An×n é simétrica se, e somente se, é um

projetor ortogonal, isto é,

〈Av,w〉 = 〈v,Aw〉 ⇔ 〈Av − v,Aw〉 = 0, ∀v,w ∈ Rn.

Demonstração. (⇒) Se A é simétrica (A′ = A), então:

〈v −Av,Aw〉 = 〈v,Aw〉 − 〈Av,Aw〉 = 〈v,Aw〉 −⟨v,A2w

⟩= 〈v,Aw〉 − 〈v,Aw〉 = 0, ∀v,w ∈ Rn.

Logo, A é um projetor ortogonal.

(⇐) Se A é um projetor ortogonal, Av−v é perpendicular à imagem de A,

isto é, 〈Av − v,Aw〉 = 0⇒ 〈Av,Aw〉 = 〈v,Aw〉 , da mesma forma Aw−w

é perpendicular a Av, isto é, 〈Aw −w,Av〉 = 0 ⇒ 〈Aw,Av〉 = 〈w,Av〉 ,

portanto, 〈Av,w〉 = 〈v,Aw〉 . Logo, A é simétrica.

Teorema 1. Se Y ∈ V é vetor aleatório n-dimensional com E (Y) = τ , cov (Y)

= Σ e W um subespaço d-dimensional de V. Então:

• E (x ·Y) = x · E (Y) = x · τ

• var (x ·Y) = x′Σx

• cov (x ·Y, z ·Y) = x′Σz

• Se x é um autovetor de Σ relativo ao autovalor ξ então var (x ·Y) =

‖x‖2ξ.

• Sejam x, z autovetores relativos aos autovalores ξ e η.

Page 30: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

29

Se ξ = η, então cov (x ·Y, z ·Y) = (x · z)ξ.

Se ξ 6= η, então cov (x ·Y, z ·Y) = 0.

• Se W é um subespaço d-dimensional do subespaço dos autovetores relativos

ao autovalor ξ, tem-se:

E (PWY) = PWE (Y) = PWτ

E(‖PWY‖2

)= ‖PWτ‖2 + dξ.

Para o caso em que cov (Y) = σ2I, tem-se:

• var (x ·Y) = σ2x′x

• cov (x ·Y, z ·Y) = σ2x′z

• E(‖PWY‖2

)= ‖PWτ‖2 + dσ2

Corolário 1. Se x e z são vetores ortogonais então x ·Y e z ·Y são variáveis

aleatórias não correlacionadas.

As demonstrações destes resultados encontram-se em Adão (2011).

2.2 Regressão Linear Múltipla

Considere observações (Y1,Y2, . . .,Yn) não correlacionadas, tais que:

E (Yi) = xi1β1+xi2β2+ . . .+xipβp e var (Yi) = σ2,

para i = 1, 2, . . .,n, em que β1,β2, . . .,βp e σ2 são parâmetros desconhecidos.

Page 31: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

30

Tem-se, portanto, o sistema:

E (Y1) = x11β1 + x12β2 + · · ·+ x1pβp

E (Y2) = x21β1 + x22β2 + · · ·+ x2pβp...

E (Yn) = xn1β1 + xn2β2 + · · ·+ xnpβp.

Representando matricialmente este sistema de equações, tem-se:

Y =

Y1

Y2

...

Yn

e β =

β1

β2...

βp

E (Y1)

E (Y2)...

E (Yn)

=

x11 x12 . . . x1p

x21 x22 . . . x2p

......

. . ....

xn1 xn2 . . . xnp

β1

β2...

βp

,

isto é, denominando o vetor de médias por E (Y) = τ o problema de se estimar

o vetor τ é equivalente a se obter o vetor β tal que τ =Xβ, em que X = (xij)

é uma matriz de coeficientes conhecidos que depende do delineamento subjacente

à obtenção dos dados. Como casos extremos, tem-se o caso em que os yi são ob-

servações independentes de uma mesma população, ou, utilizando a linguagem da

estatística experimental, todos os yi são respostas de um mesmo tratamento, neste

caso, E (Y) = τ é um vetor com coordenadas iguais e a matriz X é uma matriz

n× 1 com entradas iguais a 1. A outra situação ocorre quando os yi são observa-

ções independentes de n populações diferentes (p = n), ou, utilizando a linguagem

Page 32: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

31

da estatística experimental, os yi são respostas relativas a n tratamentos diferen-

tes. Neste caso, E (Y) = τ é um vetor com todas as coordenadas possivelmente

diferentes e a matriz X é uma matriz n× n.

É claro que os valores observados no vetor de respostas Y são, em razão

da aleatoriedade que envolve todo experimento, diferentes dos valores esperados

E (Y) .Note que os valores esperados não são conhecidos, mas sabe-se, por exem-

plo, que a repetição de um tratamento deveria ter a mesma resposta e tal fato não

acontece em razão dos fatores aleatórios que ocorrem em todo experimento.

Desse modo, pode-se considerar uma variável aleatória ε, tal que

ε = Y − E (Y)⇒ Y = E (Y) + ε.

O vetor ε é denominado vetor de erros ou vetor de resíduos, uma vez que

mede a diferença entre o valor efetivamente observado e o valor desconhecido

esperado. Considerando que os componentes do vetor de erros ε sejam indepen-

dentes e igualmente distribuídos, tem-se que:

E (ε) = E (Y − E (Y)) = E (Y)− E (E (Y)) = E (Y)− E (Y) = 0,

cov (ε) = cov (Y − E (Y)) = cov (Y) = σ2In,

em que cov (·) é a matriz de variâncias e covariâncias e In é a matriz identidade de

ordem n.

O problema que se quer resolver é: como estimar os parâmetros desconhe-

cidos βj com base nas observações yi?

A equação Y = Xβ + ε é a chamada equação do modelo linear geral. A

razão do nome é que o modelo é linear em seus parâmetros βj. O modelo linear

geral é a equação do modelo, sob as condições E (ε) = 0 e cov (ε) = σ2In.

Page 33: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

32

Geometricamente, o modelo linear de Gauss-Markov pode ser descrito

como na Figura 4.

Figura 4 Representação geométrica para o modelo linear de Gauss-Markov

Seja Rn o espaço dos dados, Rp o espaço dos parâmetros, e ImX = {v =

Xβ, β ∈ Rp} o subespaço formado pelos vetores que são imagem da transfor-

mação linear X, isto é, o subespaço vetorial gerado pelas colunas da matriz X. O

subespaço dos vetores que são levados no vetor nulo por X, é denominado kernel

da transformação linear X, KerX. Em geral, n é maior que p, pois o número de

dados geralmente é maior que o número de parâmetros.

2.2.1 As equações normais e os estimadores de quadrados mínimos

No modelo linear geral: Y = Xβ + ε ou ε = Y −Xβ, o estimador de

quadrados mínimos de β é o vetor β que minimiza a soma de quadrados dos erros,

isto é, o valor do vetor de parâmetros que faz a norma do vetor ε, ‖ε‖ , ser a menor

possível, ou de forma equivalente, que faz a norma ao quadrado, ‖ε‖2, a menor

possível.

Page 34: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

33

Tal problema pode ser resolvido por considerações geométricas de forma

bastante simples, sem o uso de cálculo diferencial. A solução é o vetor obtido

pela diferença entre o vetor observado Y e a projeção deste vetor no subespaço

ImX uma vez que a projeção ortogonal minimiza a distância de um ponto a um

subespaço vetorial (Figura 5).

Figura 5 Representação geométrica do vetor residual

O problema, então, torna-se: como obter o projetor ortogonal no subes-

paço ImX. Projetar ortogonalmente em um subespaço é equivalente a obter o su-

bespaço complementar ortogonal deste subespaço. Tem-se, portanto, que se obter

o subespaço ImX⊥. Uma maneira de se obter tal subespaço é trabalhar com a

matriz transposta X′.

A transposta de X é uma transformação linear X′ : Rn → Rp, tal que,

para x ∈ Rp e y ∈ Rn quaisquer, tem-se 〈Xx,y〉 = 〈x,X′y〉 .

〈Xx,y〉 = (Xx)′y = x′X′y = 〈x,X′y〉 . Se x ∈ KerX então, para

todo y ∈ Rn, 〈Xx,y〉 = 〈0,y〉 = 〈x,X′y〉 = 0 e, consequentemente, KerX é

perpendicular à ImX′. Da mesma forma segue que KerX′ é perpendicular à ImX.

Page 35: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

34

Temos então a configuração geométrica essencial, mostrada na Figura 6.

Figura 6 Representação gráfica do núcleo e da imagem de X e X′

Primeiramente vamos considerar o caso mais simples em que KerX =

{0}.Neste caso, a matriz X′X é inversível e define um operador X′X : Rp → Rp.

A ideia é definir a matriz P = X(X′X)−1X′. Como

P2 = X(X′X

)−1X′X

(X′X

)−1X′ = X

(X′X

)−1X′ = P,

tem-se que P é um projetor, e como

P′ =(X(X′X

)−1X′)′

= X(X′X

)−1X′ = P,

segue que P é um projetor ortogonal, e a projeção é no subespaço ImX.

Segue deste fato que o estimador de quadrados mínimos é dado pelo único

vetor β que é levado por X no vetor PImXY =(X(X′X)−1X′

)Y, isto é,

o estimador é obtido resolvendo-se a equação Xβ = X(X′X)−1X′Y. Nova-

mente, utilizando que a transformação X é injetiva, a equação pode ser simpli-

ficada aplicando-se o operador X′ em ambos os lados da igualdade obtendo-se

Page 36: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

35

X′Xβ = X′X(X′X)−1X′Y ⇒ X′Xβ = X′Y, que são as chamadas equações

normais do modelo linear, com solução da forma βOLS = (X′X)−1X′Y, em

que OLS significa Quadrados Mínimos Ordinários (Ordinary Least Square), ou,

simplesmente, β.

Quando X não é injetiva, o projetor ortogonal é dado por PImX = X

(X′X)−X′ em que (X′X)− é uma inversa generalizada de X′X. Geralmente se

utiliza da inversa generalizada de Moore-Penrose. Note que fica então provado

que o sistema de equações normais sempre admite solução. O problema agora é

que quando X não é injetiva existem infinitos vetores β em Rp que são levados

por X em PImXY =(X(X′X)−X′

)Y, pois se w ∈ KerX, X(β + w) = Xβ,

ou seja, como o núcleo de X contém infinitos elementos, então existem infinitos

vetores que são levados na mesma imagem e, portanto, têm-se infinitas estimativas

de quadrados mínimos.

Mesmo neste caso de não injetividade de X, isto é, mesmo quando X não

tem posto coluna completo, os vetores que são as soluções da equação Xβ =

X(X′X)−X′Y são os mesmos vetores que são soluções do sistema obtido apli-

cando-se X′ em ambos os lados da igualdade. Tal fato ocorre, pois como a ImX é

perpendicular ao KerX′, X′ restrita à ImX é injetiva.

No caso de posto incompleto, escolhendo-se uma inversa generalizada de

Quadrados Mínimos (RAO, 2002) fica definido uma pré-imagem, isto é, β também

pode ser expresso explicitamente como função de Y da forma (Figura 7):

Xβ = X(X′X

)−X′Y ⇒ X′Xβ = X′X

(X′X

)−X′Y ⇒ β =

(X′X

)−X′Y.

Ocorre que, para o caso da matriz do delineamento X não ser de posto

completo, havendo infinitas estimativas (soluções) de quadrados mínimos para os

parâmetros β, é um complicante na teoria. As propriedades e a construção geo-

Page 37: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

36

Figura 7 Modelo de Gauss-Markov quando X não é injetiva

métrica das inversas generalizadas podem ser vistas em Guimarães (2010).

De uma maneira geral, se o interesse é estimar a combinação linear en-

tre os efeitos dos tratamentos, tem-se x1τ1+...+xnτn= 〈x, τ 〉 . Como 〈x, τ 〉 =

〈x,Xβ〉 = 〈X′x,β〉 , uma combinação linear entre os efeitos dos tratamentos

pode ser, de maneira equivalente, descrita como uma combinação linear dos pa-

râmetros. Uma maneira de se estimar tais combinações lineares é tomar um es-

timador de quadrados mínimos de β e fazer o produto interno⟨β,X′x

⟩. Tal

procedimento, para estar bem definido, não pode depender de qual estimativa de

quadrados mínimos, isto é,⟨β,X′x

⟩tem que ser o mesmo valor, qualquer que

seja β. Para que isto ocorra, o vetor X′x tem que ser ortogonal ao KerX. Como

tal fato é verdadeiro, pois ImX′ é ortogonal ao KerX, o procedimento pode sem-

pre ser feito. De uma maneira geral, uma combinação linear 〈β,v〉 é estimável

no sentido dos quadrados mínimos se v for perpendicular ao espaço KerX. Caso

contrário, 〈β,v〉 é dito não estimável, nome não muito adequado, pois não é es-

timável via quadrados mínimos. Mas a expressão quadrados mínimos relativa à

combinação linear 〈β,v〉 também não é muito adequada, pois não foi feito ne-

Page 38: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

37

nhum procedimento de se minimizar quadrados em relação ao valor 〈β,v〉 .

2.2.2 Propriedades dos estimadores de quadrados mínimos

No caso de posto completo, β = (X′X)−1X′Y. Assim:

• Não viesado:

E(β)

= E((

X′X)−1

X′Y)

=(X′X

)−1X′E (Y)

=(X′X

)−1X′τ =

(X′X

)−1X′Xβ = β,

e, portanto, é um estimador não viesado.

• cov(β)

= cov(

(X′X)−1X′Y)

= (X′X)−1X′cov (Y) X(X′X)−1.

Se cov (Y) = σ2I, então,

cov(β)

= σ2(X′X

)−1X′X

(X′X

)−1= σ2

(X′X

)−1.

No caso de posto incompleto, β = (X′X)−X′Y. Assim:

• Viesado:

E(β) = E((

X′X)−

X′Y)

=(X′X

)−X′E (Y)

=(X′X

)−X′τ =

(X′X

)−X′Xβ,

logo, é um estimador viesado.

• cov(β)

= cov(

(X′X)−X′Y)

= (X′X)−X′cov (Y) X(X′X)−.

Page 39: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

38

Se cov(Y) = σ2I, então,

cov(β)

= σ2(X′X

)−X′X

(X′X

)−= σ2

(X′X

)−.

• Seja a combinação linear dos parâmetros, 〈r,β〉 . Se⟨r, β

⟩é estimador de

quadrados mínimos de 〈r,β〉 , então:

– No caso de posto completo e cov (Y) = σ2I:

E(⟨

r, β⟩)

=⟨r,E

(β)⟩

= 〈r,β〉 , que é não viesado, e

cov(⟨

r, β⟩)

= r′cov(β)

r = σ2r′(X′X)−1r.

– No caso de posto incompleto e cov (Y) = σ2I:

E(⟨

r, β⟩)

=⟨r,E

(β)⟩

=⟨r, (X′X)−X′Xβ

⟩, que é viesado, e

cov(⟨

r, β⟩)

= r′cov(β)

r = σ2r′(X′X)−r.

Se 〈l,β〉 é outra combinação linear dos parâmetros, a covariância entre os

estimadores é dada por:

– No caso de posto completo e cov (Y) = σ2I:

cov(⟨

r, β⟩,⟨l, β⟩)

= σ2r′(X′X)−1l.

– No caso de posto incompleto e cov (Y) = σ2I:

cov(⟨

r, β⟩,⟨l, β⟩)

= σ2r′(X′X)−l.

A vantagem de se estimar combinações lineares dos parâmetros utilizando

o estimador de quadrados mínimos segue da proposição:

Page 40: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

39

Proposição 2. Entre todos os estimadores não viesados de 〈r,β〉 dados por com-

binações lineares dos dados, o de menor variância é⟨r, β

⟩.

Demonstração. Seja 〈l,Y〉 um estimador não viesado de 〈r,β〉 . Então E (〈l,Y〉)

= 〈r,β〉 . Mas E (〈l,Y〉) = 〈l,E (Y)〉 = 〈l,Xβ〉 = 〈X′l,β〉 e, portanto, 〈r,β〉

= 〈X′l,β〉 . Como β é desconhecido, esta igualdade tem que ser válida para todo

β e, portanto, r = X′l. Como var (l′Y) = ‖l‖2 σ2, temos que obter l de norma

mínima na pré-imagem de r por X′. Vamos projetar ortogonalmente l em Im X,

isto é, Pl. Logo l = Pl + (l−Pl)⇒ ‖l‖2 ≥ ‖Pl‖2 e X′l = X′Pl.

Assim, E (〈l−Pl,Y〉) = 〈l−Pl,E(Y)〉 = 〈l−Pl,Xβ〉 = 0 ⇒

〈l,Xβ〉 = 〈Pl,Xβ〉 .

Como 〈Pl,Y〉 = 〈l,PY〉 =⟨l,Xβ

⟩=⟨X′l, β

⟩=⟨r, β

⟩, o estima-

dor de menor variância para 〈r,β〉 é a combinação linear dos dados expressa por⟨r, β

⟩.

2.3 Regressão Estatística

Uma das situações mais comuns em estatística é quando se tem variáveis

aleatórias Y1, . . . ,Yk e X1, . . . ,Xp com uma distribuição conjunta

fY1,...,Yk,X1,...,Xp (y1, . . . , yk, x1, . . . , xp)

e, por alguma razão, as variáveis X1, . . . ,Xp podem ser amostradas, mas as va-

riáveis Yi não. Após a observação das variáveis Xi, o conhecimento sobre as

variáveis Yi aumenta pois podemos calcular a função densidade de probabilidade

condicional

fY1,...,Yk|X1,...,Xp(y1, . . . , yk; x1, . . . , xp) .

Page 41: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

40

Como, em geral, a densidade de probabilidade conjunta é desconhecida, a den-

sidade de probabilidade condicional não pode ser calculada. As variáveis obser-

váveis Xi são denominadas variáveis preditoras e as variáveis Yi de variáveis de

interesse ou respostas.

Considere a situação mais simples em que se tem apenas uma variável de

interesse Y. Seja

E (Y|X1=x1, . . . ,Xp=xp)

=

∫· · ·∫

yfY|X1,...,Xp(y; x1, . . . , xp) dy = M (x1, . . . , xp) .

Pode-se, agora, considerar a variável aleatória

M (X1, . . . ,Xp) = E (Y|X1, . . . ,Xp) .

Esta variável é a melhor variável aleatória para predizer Y, no sentido de

apresentar a menor esperança do quadrado do erro, isto é, se f(X1, . . . , Xp) é uma

função qualquer das variáveis X1, . . . ,Xp, então:

Proposição 3. E[(Y − f (X1, . . . ,Xp))2

]≥ E

[(Y −M (X1, . . . ,Xp))2

].

Demonstração.

E(

(Y − f (X1, . . . ,Xp))2)

=E(

(Y −M (X1, . . . ,Xp) + M (X1, . . . ,Xp)− f (X1, . . . ,Xp))2)

=E(

(Y −M (X1, . . . ,Xp))2)

+ E(

(M (X1, . . . ,Xp)− f (X1, . . . ,Xp))2)

+ 2E ((Y −M (X1, . . . ,Xp)) (M (X1, . . . ,Xp)− f (X1, . . . ,Xp))) .

Page 42: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

41

Tem-se que

E [(Y −M (X1, . . . ,Xm)) (M (X1, . . . ,Xm)− f (X1, . . . ,Xm))] = 0.

Para tal, considere a notação simplificada E [(Y −M) (M− f)] :

E [(Y −M) (M− f)]

=

∫ ∫(y −m) (m− f) fY,X (y,x) dydx

=

∫ ∫(y −m) (m− f) fY|X (y|x) fX (x) dydx

=

∫ (∫(y −m) fY|X (y|x) dy

)(m− f) fX (x) dx

=

∫ (∫(y − E (y|x)) fY|X (y|x) dy

)(m− f) fX (x) dx

=

∫ (∫yfY|X (y|x) dy −

∫E (y|x) fY|X (y|x) dy

)(m− f) fX (x) dx

=

∫ (E (y|x)− E (y|x)

∫fY|X (y|x) dy

)(m− f) fX (x) dx

=

∫(E (y|x)− E (y|x)) (m− f) fX (x) dx

=

∫(0) (m− f) fX (x) dx = 0

Logo, E(

(Y − f (X1, . . . ,Xp))2)≥ E

((Y −M (X1, . . . ,Xp))2

).

A variável E (Y|X1, . . . ,Xp) = M (X1, . . . ,Xp) é o preditor de menor

erro quadrático médio, denominada função de regressão.

Page 43: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

42

Exemplo : Caso Normal

Seja x uma variável aleatória multidimensional e y uma variável aleatória

unidimensional. Suponha que:

x

y

∼ N 0

0

, Σ σ

σ′ σ2y

em que, x =

x1

...

xp

, σ = cov (x, y) =

cov (x1, y)

...

cov (xp, y)

e Σ = cov (x) .

Dada uma matriz particionada A =

A11 A12

A21 A22

, sua inversa é dada

por (RAO, 2002):

A−1 =

(A11 −A12A

−122 A21

)−1 −A−111 A12

(A22 −A21A

−111 A12

)−1

−A−122 A21

(A11 −A12A

−122 A21

)−1 (A22 −A21A

−111 A12

)−1

ou ainda,

A−1 =

(A11 −A12A

−122 A21

)−1 −(A11 −A12A

−122 A21

)−1A12A

−122

−(A22 −A21A

−111 A12

)−1A21A

−111

(A22 −A21A

−111 A12

)−1

.

Assim, a inversa da matriz

Σ σ

σ′ σ2y

é:

(Σ− σσ′

σ2y

)−1

− Σ−1σσ2y−σ′Σ−1σ

−σ′σ2y

(Σ− σσ′

σ2y

)−11

σ2y−σ′Σ−1σ

=

(Σ− σσ′

σ2y

)−1

−(Σ− σσ′

σ2y

)−1 σσ2y

− σ′Σ−1

σ2y−σ′Σ−1σ

1σ2y−σ′Σ−1σ

.

Na distribuição conjunta das variáveis x e y, o expoente da exponencial

Page 44: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

43

é:

[x′ y′

](

Σ− σσ′σ2y

)−1

− Σ−1σσ2y−σ′Σ−1σ

−σ′σ2y

(Σ− σσ′

σ2y

)−11

σ2y−σ′Σ−1σ

x

y

=

[x′(

Σ− σσ′σ2y

)−1

− y′σ′

σ2y

(Σ− σσ′

σ2y

)−1

−x′ Σ−1σσ2y−σ′Σ−1σ + y′ 1

σ2y−σ′Σ−1σ

] x

y

=

x′

(Σ−

σσ′

σ2y

)−1

− y′σ′

σ2y

(Σ−

σσ′

σ2y

)−1x +

(−x′

Σ−1σ

σ2y − σ′Σ−1σ

+ y′1

σ2y − σ′Σ−1σ

)y

= x′

(Σ−

σσ′

σ2y

)−1

x− y′σ′

σ2y

(Σ−

σσ′

σ2y

)−1

x− x′Σ−1σ

σ2y − σ′Σ−1σ

y + y′1

σ2y − σ′Σ−1σ

y

= x′

(Σ−

σσ′

σ2y

)−1

x− y′σ′

σ2y

(Σ−

σσ′

σ2y

)−1

x− x′

(Σ−

σσ′

σ2y

)−1σ

σ2y

y + y′1

σ2y − σ′Σ−1σ

y

= x′

(Σ−

σσ′

σ2y

)−1

x− 2x′

(Σ−

σσ′

σ2y

)−1σ

σ2y

y + y′1

σ2y − σ′Σ−1σ

y.

Fazendo,

C=

(Σ− σσ

σ2y

)−1e H =

σ

σ2y,

a expressão anterior fica da forma:

x′Cx− 2x′CHy + y′(H′CH + B)y.

Logo, a marginal da variável x é dada por (Apêndice A):

fX (x) ∝ exp(

x′(

C−CH(H′CH + B

)−1H′C

)x

)

= exp

(x′((

Σ−σσ′

σ2y

)−1

−(

Σ−σσ′

σ2y

)−1σ

σ2y

(σ2y − σ

′Σ−1

σ) σ′

σ2y

(Σ−

σσ′

σ2y

)−1)x

)

= exp

x′

(Σ−σσ′

σ2y

)−1

−Σ−1σ(

σ2y − σ′Σ−1σ

) (σ2y − σ

′Σ−1

σ) σ′Σ−1(

σ2y − σ′Σ−1σ

)x

= exp

x′

(Σ−σσ′

σ2y

)−1

−Σ−1σσ′Σ−1(σ2y − σ′Σ−1σ

)x

Page 45: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

44

e a distribuição condicional fica da forma:

f (y|x) =f (y,x)

f (x)

∝exp

(x′(Σ− σσ′

σ2y

)−1

x− 2x′(Σ− σσ′

σ2y

)−1 σσ2yy + y′ 1

σ2y−σ′Σ−1σ y

)exp

(x′((

Σ− σσ′σ2y

)−1

− Σ−1σσ′Σ−1

(σ2y−σ′Σ−1σ)

)x

)=exp

((x′(

Σ− σσ′

σ2y

)−1

x− 2x′(

Σ− σσ′

σ2y

)−1σ

σ2y

y + y′1

σ2y − σ′Σ−1σ

y

)

(x′(

Σ− σσ′

σ2y

)−1

x− x′Σ−1σσ′Σ−1(σ2y − σ′Σ−1σ

)x))

=exp

(−2x′

(Σ− σσ′

σ2y

)−1σ

σ2y

y + y′1

σ2y − σ′Σ−1σ

y+x′Σ−1σσ′Σ−1(σ2y − σ′Σ−1σ

)x)

=exp

(−2x′ Σ−1σ

σ2y − σ′Σ−1σ

y + y′1

σ2y − σ′Σ−1σ

y+x′Σ−1σσ′Σ−1

σ2y − σ′Σ−1σ

x

).

Comparando a expressão anterior com a forma geral (y − w)′ 1a (y − w) ,

em relação ao termo cruzado, em que w é a média da distribuição y, tem-se:

2w′ 1ay = 2x′ Σ−1σσ2y−σ′Σ−1σy

⇒ w′ = x′Σ−1σ e a = σ2y − σ′Σ−1σ.

De onde segue que:

f (y|x) ∝ exp((

y − σ′Σ−1x)′ 1

σ2y − σ′Σ−1σ(y − x′Σ−1σ

)).

Logo, Y = µy + β′ (x− µx) com β = Σ−1σ.

Portanto, para o caso normal, a função de regressão é linear.

Uma questão importante para distribuições em geral é obter, entre todas as

funções lineares nas covariáveis, α+ β′x, aquela que minimiza o erro quadrático

médio E((

y −(α+ β′x

))2). Assim:

Page 46: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

45

E((

y −(α+ β′x

))2)=E

(y2 − 2

(α+ β′x

)y +

(α+ β′x

)2)=E

(y2)− 2E

((α+ β′x

)y)

+ E((α+ β′x

)2)=E

(y2)− 2

(E (αy) + E

(β′xy

))+ E

((α+ β′x

)2)=E

(y2)− 2αE (y)− 2E

((β′x)

y)

+ E(α2 + 2αβ′x +

(β′x)2)

=E(y2)− 2αE (y)− 2β′E (xy) + α2 + 2αβ′E (x) + E

((β′x)2)

=E(y2)− 2αE (y)− 2β′E (xy) + α2 + 2αβ′E (x) + E

((β′x)2)

−(

E(β′x)2)

+(

E(β′x)2)

=E(y2)− 2αE (y)− 2β′E (xy) +

(α+ β′E (x)

)2+ var

(β′x)

=E(y2)− 2αE (y)− 2β′E (xy) +

(α+ β′E (x)

)2+ β′cov(x)β.

Derivando em relação a α e igualando a zero, obtém-se:

− 2E (y) + 2(α+ β′E (x)

)= 0

⇒ α∗ = E (y)− β′E (x) .

Derivando em relação a β e igualando a zero, obtém-se:

− 2E (xy) + 2(α+ β′E (x)

)E (x) + 2cov(x)β

=− 2E (xy) + 2E (y) E (x) + 2cov(x)β = 0

Page 47: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

46

cov(x)β =E (xy)− E (y) E (x)

cov(x)β∗ =cov (y,x)

β∗ = (cov(x))−1 cov (y,x)

β∗ =Σ−1σ.

Esta combinação linear, α∗+β∗′x, tem covariância máxima com y, em re-

lação a qualquer outra combinação linear α+ β′x, comβ′cov (x)β = β∗′cov (x)

β∗.

Demonstração.

β∗′cov (x)β∗ =

((cov (x))−1cov (y,x)

)′cov (x)

((cov (x))−1cov (y,x)

)=(cov (y,x))

′(cov (x))−1cov (x) (cov (x))−1cov (y,x)

=(cov (y,x))′(cov (x))−1cov (y,x)

=σ′Σ−1σ,

e cov(y, α+ β′x

)= cov

(y,β′x

)= β′cov (y,x) = β′σ.

Assim, tem-se que maximizar β′σ, com a restrição β′cov (x)β = β∗′

cov (x)β∗ = σ′Σ−1σ.

A lagrangiana é dada por:

H (β, λ) = β′σ + λ(β′cov (x)β − σ′(cov (x))−1σ

).

Page 48: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

47

Derivando e igualando a zero, obtém-se

dH

dλ= 0⇒β′cov (x)β = σ′(cov (x))−1σ (1)

dH

dβ= 0⇒σ + λ (2cov (x)β) = 0. (2)

Segue que

σ = −2λcov (x)β ⇒ β = −(cov (x))−1σ

2λ. (3)

Substituindo (3) na equação (1), tem-se

(−(cov (x))−1σ

)′cov (x)

(−(cov (x))−1σ

)= σ′(cov (x))−1σ

⇒ 1

4λ2σ′(cov (x))−1σ = σ′(cov (x))−1σ

⇒ 1

4λ2= 1⇒ 4λ2 = 1⇒ λ = ±1

2.

Logo,

β =− (cov (x))−1σ

2λ= −(cov (x))−1σ

2(±1

2

)=± (cov (x))−1σ = ±Σ−1σ = ±β∗.

O valor máximo ocorre quando o sinal é positivo, assim, β = β∗.

Segue, então, que o melhor preditor linear (Best Linear Predictor - BLP)

de menor erro quadrático médio é dado por:

Page 49: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

48

α∗ + x′β∗ = E (y)− β∗′E (x) + β∗′x

= E (y) + β∗′(x− E (x)) .

Neste caso, o EQM do preditor é:

E

((y −

(E (y) + β∗

′(x− E (x))

))2)=E

((y − E (y))2 − 2 (y − E (y))β∗

′(x− E (x)) +

(β∗′(x− E (x))

)2)=E(y − E (y))2 − 2E

((y − E (y))β∗

′(x− E (x))

)+ E

(β∗′(x− E (x))

)2=var (y)− 2β∗

′cov (y,x) + β∗

′cov (x)β∗

=var (y)− 2(

(cov (x))−1cov (y,x))′

cov (y,x)

+(

(cov (x))−1cov (y,x))′

cov (x)(

(cov (x))−1cov (y,x))

=var (y)−(

(cov (x))−1cov (y,x))′

cov (y,x)

=σ2y −(Σ−1σ

)′σ.

Observação: β∗ é um vetor paramétrico, não é uma estimativa. O interes-

sante é que este vetor paramétrico depende das variâncias e covariâncias e não da

forma específica da distribuição populacional fy,x (y,x) .

Page 50: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

49

2.4 Componentes Principais

A análise de componentes principais (Principal Component Analysis -

PCA) pode ser aplicada como um método de redução de dimensionalidade, vi-

sando a solucionar eventuais problemas de multicolinearidade da matriz X e a ne-

cessidade de um número excessivo de amostras para a construção de um modelo

viável, sem acarretar na perda significativa de informações presentes nos dados

(OTTO, 1999).

O PCA pode ser feito com base em autovalores e autovetores de uma ma-

triz de covariância. Os elementos dos autovetores são os coeficientes requeridos

para a combinação linear das variáveis originais e são conhecidos como loadings.

Os elementos individuais das novas variáveis são derivados das variáveis explica-

tivas e são conhecidos como os scores. A variância total dos dados originais é dada

pela soma de suas variâncias individuais e os autovalores representam a variância

associada a cada componente principal.

2.5 Regressão por Componentes Principais

A regressão via componentes principais (Principal Components Regres-

sion - PCR) foi introduzida por Kendall (1957) e Hotelling (1957). Este método

faz uso dos procedimentos empregados na análise de componentes principais vi-

sando a contornar os problemas apresentados pela regressão linear múltipla.

A metodologia do método PCR consiste, basicamente, em eliminar com-

ponentes que não contribuam na explicação da variância presente nos dados, o que

reduz a dimensionalidade dos dados originais. Após a escolha do número ótimo

de componentes a serem utilizados, os coeficientes podem ser determinados por

Page 51: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

50

meio do método dos quadrados mínimos ordinários.

Como em qualquer regressão múltipla, a escolha do número de variáveis

a serem incluídas no modelo é de extrema importância, tendo em vista evitar a

perda de informações relevantes. Segundo Roggo et al. (2007), cada componente

descreve uma fração da variação total contida nos dados, tornando possível a de-

terminação do número ótimo de componentes a serem incluídos na regressão.

2.6 Regressão por Quadrados Mínimos Parciais

Quadrados Mínimos Parciais (Partial Least Squares - PLS) foi introdu-

zido por Wold em 1975, sendo considerado útil para a construção de equações de

predições em situações nas quais se tem um grande número de variáveis explica-

tivas e um número relativamente pequeno de dados amostrais (HOSKULDSSON,

1988). Resumidamente, a ideia geral do PLS é formar componentes que captu-

rem a maior quantidade de informação possível disposta nas variáveis explicativas

(X1, . . . ,Xp) para predizer as variáveis respostas (Y1, . . . ,Yk). O método PLS

apresenta similaridades com o método de Regressão via Componentes Principais,

sendo a maior diferença entre eles dada pelo fato do PCR levar em consideração

apenas as variáveis explicativas na construção dos componentes, enquanto que o

PLS também leva em consideração as variáveis respostas.

Page 52: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

51

3 METODOLOGIA

3.1 Componentes Principais

Foi feita uma abordagem da obtenção dos Componentes Principais por

meio do cálculo diferencial, além do tradicional método multiplicadores de La-

grange. Geometricamente, objetivou-se encontrar a direção de maior variabilidade

do vetor aleatório X (covariáveis).

3.2 Regressão por Componentes Principais

A regressão em componentes principais é colocada neste trabalho em ra-

zão das semelhanças com o PLS. Na linha deste trabalho, a exposição da teoria do

PCR foi bastante geométrica e, portanto, diferente da abordagem usual na litera-

tura.

Os componentes são obtidos pelas direções no subespaço gerado pelas

observações das covariáveis que fornecem a maior variabilidade dos dados. Na

construção dos componentes, utiliza-se apenas as covariáveis, e estes componentes

representam as novas variáveis a serem utilizadas na regressão. Os coeficientes da

regressão podem ser estimados pelo método dos quadrados mínimos.

Geometricamente, foi demonstrado que os componentes são representados

como imagem dos autovetores da matriz X′X. Obtendo o subespaço gerado por

estes componentes, a regressão é feita pela projeção do vetor de dados neste subes-

paço. Também é demonstrado que o vetor de coeficientes estimado via Regressão

em Componentes Principais, βPCR, é um estimador de encolhimento.

Page 53: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

52

3.3 Regressão por Quadrados Mínimos Parciais

Uma ferramenta para resolver problemas de regressão nos quais as variá-

veis preditoras (ou covariáveis) apresentam um alto nível de colinearidade é o uso

da teoria dos Quadrados Mínimos Parciais. Neste caso, a matriz das covariáveis X

pode ser de posto incompleto. Outra situação, muito comum em aplicações na área

de química, ocorre quando o número de covariáveis é muito maior que o número

de observações. Em ambas as situações, as equações normais para obtenção do es-

timador de quadrados mínimos admitem infinitas soluções. Para a escolha de uma

estimativa em particular, um método possível é o uso de inversas generalizadas.

No entanto, a escolha desta inversa é, de certa forma, arbitrária, gerando situa-

ções indesejáveis para as equações de predição obtidas. No método de regressão

utilizando PLS, uma estimativa única para o parâmetro de regressão é obtida.

O método é semelhante ao de Regressão em Componentes Principais, mas

enquanto este só depende da matriz das covariáveis X, o método PLS depende

também do vetor de dados Y. A ideia básica é regredir o vetor de dados Y em cada

um dos vetores das covariáveis e, através de escolha de pesos, obter combinações

lineares destas regressões. Desta forma, o vetor de dados Y é explicado em ter-

mos de um número menor de vetores. A escolha destas combinações lineares é

justificada estatisticamente, pela maximização de covariâncias.

A estimativa do vetor de parâmetros através do método PLS, βPLS, admite

uma expressão como uma transformação linear da estimativa βOLS, invariante em

relação ao βOLS escolhido. O método possui uma natureza geométrica sendo ob-

tido por meio de projeções oblíquas, diferentemente do método dos quadrados

mínimos, que utiliza projeções ortogonais.

A literatura referente ao método PLS, apesar de abundante, é em sua mai-

Page 54: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

53

oria, aplicada em problemas oriundos da Quimiometria e Genética, por exemplo.

Poucas referências existem relativas à parte teórica do método. Em geral, os arti-

gos se restringem a apresentar os algoritmos básicos utilizados pelo método. As

referências mais acessíveis relacionadas à teoria geométrica e algébrica do PLS

e à descrição dos algoritmos são os artigos Helland (1990), Hoskuldsson (1988),

Garthwaite (1994) e Phatak e Jong (1997). Sendo assim, o texto que segue dis-

cute o método PLS e suas propriedades, essencialmente, sob o ponto de vista dos

autores destes quatro artigos, apresentando, sempre que possível, uma abordagem

geométrica. Além disso, é feito um paralelo entre os algoritmos para o PLS popu-

lacional e amostral.

3.4 Determinação do número ótimo de componentes

Uma questão a ser abordada é o número de componentes que deve ser

utilizado na regressão em PLS e, para isto, é necessário utilizar alguns conceitos de

seleção de modelos. Dentre os métodos propostos na literatura, são abordados os

conceitos de Graus de Liberdade (Degrees of Freedom - DoF) e Validação Cruzada

(Cross Validation - CV).

São apresentadas as definições do DoF para modelos de regressão linear

e não linear, bem como a demonstração para uma cota inferior do DoF quando

m = 1. Ainda, dois gráficos ilustram como o DoF e o Erro Quadrático Médio

(EQM - utilizado na validação cruzada) se comportam em função do número de

componentes. Os gráficos foram gerados no software R (R Core Team, 2013), por

meio das funções pls.model e pls.cv do pacote plsdof, respectivamente, para DoF

e CV.

Page 55: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

54

3.5 Exemplo Didático

Foi elaborada uma rotina no software R (Apêndice D) com o objetivo de

explicitar passo a passo os resultados do algoritmo PLS (HOSKULDSSON, 1988).

Um exemplo didático foi apresentado para ilustrar tal rotina.

Inicialmente, gerou-se uma matriz de covariâncias, 5× 5, da forma

Σ σ

σ′ σ2y

, em que σ = cov (X,Y) , Σ = cov (X) e σ2y = var(Y).

Utilizando esta matriz de covariâncias, gerou-se de uma Normal Multiva-

riada, uma matriz de covariáveis X, com 4 covariáveis, e um vetor para a variável

de interesse Y, ambos com n = 6 observações.

Obtidos X e Y, implementou-se o algoritmo PLS para a construção dos

componentes. Para efeito de comparação, estimou-se o vetor de parâmetros β

pela regressão por Quadrados Mínimos Ordinários, βOLS, que só depende de X

e de Y, e pela regressão por Quadrados Mínimos Parciais, βPLS, utilizando os m

componentes obtidos no algoritmo, com m = 1, 2, 3 e 4.

Uma vez obtidos os parâmetros da regressão, gerou-se um novo valor para

cada uma das quatro covariáveis (Xp), e um novo valor para a variável de interesse

(Yp), a fim de fazer predição. Com os novos valores de Xp e com os vetores βOLS

e βPLS, encontrou-se o valor predito para Yp (Yp = Xpβ), denominados Yp,OLS

e Yp,PLS.

Page 56: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

55

4 RESULTADOS

4.1 Componentes Principais

A teoria de componentes principais está relacionada ao problema básico:

dado um vetor aleatório Z, encontrar a direção em que este vetor apresenta a maior

variação. Geometricamente, o problema pode ser descrito como: dada uma direção

a ∈ Rn, ‖a‖ = 1, projeta-se Z na linha definida por a (Figura 8) obtendo-se um

vetor aleatório totalmente descrito por sua norma a · Z = ‖Z‖ cos θ que define

uma variável aleatória unidimensional, Y. A variância desta é a variabilidade do

vetor Z na direção de a. Nas condições do Teorema 1, tem-se:

var (Y) = var (a · Z) = a′Σa.

Figura 8 Representação geométrica da obtenção do componente principal

É necessário, então, maximizar var (a · Z) = a′Σa com a restrição ‖a‖=

1. Serão apresentados dois métodos de maximização: utilizando multiplicadores

de Lagrange e Cálculo Diferencial.

Page 57: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

56

Utilizando multiplicadores de Lagrange, tem-se:

H(a, λ) = a′Σa− λ(‖a‖2 − 1

)∂H

∂a= 2Σa− 2λa= 0⇒ Σa = λa.

Portanto, os pontos críticos, a, são os autovetores da matriz Σ.

Uma outra demonstração pode ser feita através do cálculo diferencial: seja

a (t) = (a1 (t) , . . . ,an (t)) uma curva parametrizada com ‖a (t)‖ = 1, isto é, uma

curva sobre a esfera de raio unitário, centrada na origem do espaço Rn. Vamos

também supor que esta curva esteja parametrizada pelo comprimento do arco, isto

é,∥∥dadt (t)

∥∥ = 1. Definindo a função f (a (t)) = a′ (t) Σa (t), o que se quer obter

são os pontos críticos de f.

Derivando e igualando a zero,

df

dt(0) =

df

da(a (0))

da

dt(0) = 0

Como dfda (a (0)) = 2Σa (0) tem-se

2 (Σa (0))′da

dt(0) = 0

e segue, portanto, que o vetor dadt (0) é perpendicular ao vetor Σa (0).

Como tal fato tem que ser verdade para qualquer curva que passa em a (0)

significa que Σa (0) é um vetor perpendicular ao espaço tangente da esfera em

a (0). Neste caso Σa (0) tem que ser um múltiplo de a (0) e, portanto, Σa (0) =

λa (0). Assim, os pontos críticos de f são justamente os autovetores de Σ.

A natureza dos pontos críticos pode ser estudada obtendo-se a derivada

Page 58: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

57

segunda:

f ′ (t) = 2a′ (t) Σda

dt(t)

f ′′ (t) = 2da′

dt(t) Σ

(da

dt(t)

)+2a′ (t) Σ

d2a

dt2(t)

f ′′ (0) = 2da′

dt(0) Σ

(da

dt(0)

)+2a′ (0) Σ

d2a

dt2(0) .

Como∥∥dadt (t)

∥∥= 1 (parametrizado pelo comprimento do arco), tem-se:

1 =

(da

dt(t)

)′(da

dt(t)

)⇒ 0 = 2

(d2a

dt2

)′da

dt(t) .

Logo, d2adt2

(0) é paralelo a a (0) e, portanto, também é um autovetor de Σ, isto é,

Σ

(d2a

dt2(0)

)= λ

(d2a

dt2(0)

)= λka (0) ,

em que k é negativo (note que d2adt2

(t) é a aceleração centrípeta). Assim,

f ′′ (0) = 2

(da

dt(0)

)′Σ

(da

dt(0)

)+2λk‖a (0)‖2

= 2

(da

dt(0)

)′Σ

(da

dt(0)

)+2λk,

e(dadt (0)

)′Σ(dadt (0)

)≥ 0 pois Σ é positiva semidefinida. Os autovalores de Σ

são positivos pelo mesmo motivo. A curva a (t) pode ser sempre pensada como

a (t) = cos (t) i + sen (t) j⇒ d2a

dt2(t) = −cos (t) i− sen (t) j = −a (t) .

Dessa forma, k= −1, e temos f ′′ (0) = 2(dadt (0)

)′Σ(dadt (0)

)−λ.

Page 59: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

58

Portanto, a (0) é um ponto de máximo se

d2f

dt2(a (t))

∣∣∣∣t=0

< 0⇒(

da

dt(0)

)′Σ

(da

dt(0)

)< λ,

para todo vetor dadt (0) no espaço tangente da esfera Sn em a(0) (Figura 9).

Figura 9 Representação geométrica da curva parametrizada pelo comprimento doarco sobre a esfera de raio unitário, centrada na origem do espaço Rn

Obtidos os autovetores a de Σ, as componentes principais Y são obtidas

como as combinações lineares a · Z. Onde conclui-se que para o maior autovalor

se tem o máximo, para o menor autovalor o mínimo, e os outros pontos críticos

são selas.

Page 60: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

59

4.2 Regressão por Componentes Principais: uma abordagem geométrica

Esta seção tem como referência o artigo Phatak e Jong (1997).

Para o problema de regressão em que se tem o modelo Y = Xβ+ε, a ideia

básica é obter a direção, no subespaço ImX, que fornece a maior variabilidade de

Y.

Neste caso, o problema de multiplicadores de Lagrange, agora, é mais

complicado uma vez que se têm duas restrições (‖β‖ = 1 e subespaço ImX).

No entanto, pode-se modificar o problema para maximizar var (Xβ ·Y) restrito a

β′β = 1, isto é, maximizar (Xβ)′Σ (Xβ), restrito a ‖β‖ = 1, ou seja, β′X′Σ

Xβ, restrito a ‖β‖ = 1, como mostrado na Figura 10.

Figura 10 Representação geométrica da maximização da var (Xβ ·Y) restrito aβ′β = 1

Este problema é semelhante ao anteriormente feito, com a direção de

maior variação dada agora no espaço paramétrico. As direções são dadas pelos

autovetores de X′ΣX. O caso mais simples ocorre quando Σ = σ2I, e então, as

direções são dadas pelos autovetores de X′X.

Sejam γ1,γ2, ...,γp os autovetores e λ1, λ2, ..., λp os respectivos autova-

Page 61: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

60

lores, da matriz X′X. Assim, X′Xγi = λiγi com γ′iγi = 1 e γ

′iγj = 0 para

i 6= j : 1, ...,p (Figura 11).

Figura 11 Representação geométrica dos autovetores γ1,γ2, ...,γp da matrizX′X

Note que,

var (Xγi ·Y) = (Xγi)′ (σ2I) (Xγi) = σ2γ

′iX′Xγi = σ2γ

′i (λiγi) = σ2λi.

Os vetores Xγ1,Xγ2, . . . ,Xγp são ortogonais, pois:

XX′ (Xγi) = X(X′X

)γi = Xλiγi = λi (Xγi) .

Assim, os Xγi são autovetores de XX′, portanto, ortogonais.

Ordenando os autovalores λ1 > λ2 > ... > λp, definem-se como compo-

nentes principais as direções dadas por Xγ1,Xγ2,Xγ3, .... Como estas direções

apresentam uma ordem decrescente de variação do vetor aleatório Y, elas “expli-

cam” bem o vetor Y. A ideia, então, é formar os subespaços (Figura 12):

W1 = span {Xγ1}

W2 = span {Xγ1,Xγ2}

Page 62: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

61

W3 = span {Xγ1,Xγ2,Xγ3}...

Wm = span {Xγ1,Xγ2,Xγ3, ...,Xγm}

ImX = span{Xγ1,Xγ2,Xγ3, ...,Xγp

}.

Figura 12 Subespaço Wm gerado pelos m-primeiros autovetores da matriz X′X

Como estas direções explicam a variabilidade de Y, a ideia é projetar Y or-

togonalmente no subespaço Wm, isto é, regredir Y aos m-primeiros componentes

principais. A projeção define, então, o parâmetro de regressão denominado βPCR,

cujas equações normais são dadas por PWmY = XβPCR. Geometricamente, fica

como representado na Figura 13.

O triângulo retângulo formado pelos vetores PImXY, PWmY e pelo ve-

tor dado pela diferença entre eles, garante que ‖PWmY‖ ≤ ‖PImXY‖ e, apesar

deste fato não implicar em∥∥∥βPCR

∥∥∥ <∥∥∥β∥∥∥ , o procedimento da regressão em

componentes principais é claramente conservador, no sentido que fornece esti-

mativas menores para o vetor de parâmetros β. De fato, será demonstrado que∥∥∥βPCR

∥∥∥ < ∥∥∥β∥∥∥. Resta então, obter expressões matriciais para as equações nor-

Page 63: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

62

Figura 13 Projeção ortogonal de Y no subespaço Wm definindo o parâmetro deregressão βPCR

mais, isto é, expressar o projetor PWm matricialmente.

A construção será heurística baseada no argumento: seja f : A → B

uma função injetiva entre os conjuntos A e B . O que se quer é uma aplicação

g : B → B que seja uma projeção em Imf , isto é, g (f (x)) = f (x), ∀x ∈ A e

g (g (y)) = g (y), ∀y ∈ B, como mostra a Figura 14.

Figura 14 Representação da função injetiva f entre os conjuntos A e B e da fun-ção g como uma projeção na Imf

A ideia básica é que a composição de uma função injetiva com uma so-

brejetiva define uma bijeção. Seja h : B → A uma função sobrejetiva tal que h

Page 64: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

63

restrita à imagem de f seja injetiva, h ◦ f : A → A é uma bijeção (Figura 15).

Define-se então,

g = f ◦ (h ◦ f)−1 ◦ h. (4)

Figura 15 Representação da composição de uma função h sobrejetiva com umafunção f injetiva, definindo uma bijeção h ◦ f

g ◦ g =(f ◦ (h ◦ f)−1 ◦ h

)◦(f ◦ (h ◦ f)−1 ◦ h

)= f ◦ (h ◦ f)−1 ◦ (h ◦ f) ◦ (h ◦ f)−1 ◦ h

= f ◦ (h ◦ f)−1 ◦ h = g e

g (f (x)) = f ◦ (h ◦ f)−1 ◦ h (f (x))

= f ◦ (h ◦ f)−1 (h ◦ f) (x) = f (x) .

Portanto, g é uma projeção em Imf , como procurado. Basta agora fa-

zer a construção de g utilizando as funções lineares convenientes para se obter a

projeção linear em Wm.

Sejam ξ1 = Xγ1, ξ2 = Xγ2, ..., ξm = Xγm, como na Figura 16.

Page 65: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

64

Figura 16 Representação dos vetores ξ1,ξ2, ..., ξm como imagem dos autovetoresγ1,γ2, ...,γm pela matriz X

Seja Ξm a matriz n×m cujas colunas são os vetores ξi,

Ξm= [ξ1,ξ2, ..., ξm] .

A matriz Ξm define uma transformação linear Ξm : Rm → Rn tal que Ξmei = ξi,

em que ei são os vetores canônicos. Desta forma, Ξm é injetiva de posto m e a

imagem de Ξm é o subespaço Wm (Figura 17).

Considere agora Ξ′m : Rn → Rm a transformação linear definida pela

matriz transposta de Ξm,

Ξ′m=

ξ′1

ξ′2

...

ξ′m

.

Como o posto linha é igual ao posto coluna, tem-se que Ξ′m é uma aplica-

Page 66: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

65

Figura 17 Representação da transformação linear Ξm : Rm → Rn em queΞmei = ξi

ção sobrejetiva. Ξ′m restrito à ImX deve ser injetiva. De fato,

ξ′1

ξ′2

...

ξi

...

ξ′m

[ξi] =

0

0...

‖ξi‖2

...

0

.

Podemos, então, definir o projetor

PWm = Ξm

(Ξ′mΞm

)−1Ξ′m,

de acordo com a equação (4). De onde seguem as equações normais do estimador

Page 67: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

66

de componentes principais, βPCR :

XβPCR = PWmY = Ξm

(Ξ′mΞm

)−1Ξ′mY.

Pode-se obter uma relação entre os estimadores βPCR e βOLS. Seja Γm a

matriz p×m definida por Γm = [γ1,γ2, ...,γm]. Tem-se que:

XΓm = X [γ1,γ2, ...,γm] = [Xγ1,Xγ2, ...,Xγm] = Ξm.

Substituindo Ξm = XΓm na definição de βPCR,

XβPCR = XΓm

(Ξ′mΞm

)−1Γ′mX′Y

= XΓm

(Ξ′mΞm

)−1Γ′m(X′X)(X′X)−1X′Y

= XΓm

(Ξ′mΞm

)−1(XΓm)′X(X′X)−1X′Y

= XΓm

(Ξ′mΞm

)−1(XΓm)′XβOLS.

Como os ξi são ortogonais, Ξ′mΞm = Λm é uma matriz diagonal

Λm =

‖ξ1‖

2 0 0

0. . . 0

0 0 ‖ξm‖2

.

Assim,

XΓm

(Ξ′mΞm

)−1(XΓm)′

= XΓmΛ−1m (XΓm)′

Page 68: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

67

= [ξ1, ξ2, ..., ξm]

‖ξ1‖

−2 0 0

0. . . 0

0 0 ‖ξm‖−2

ξ′1

ξ′2

...

ξ′m

= [ξ1, ξ2, ..., ξm]

ξ′1

/‖ξ1‖

2

ξ′2

/‖ξ2‖

2

...

ξ′m

/‖ξm‖

2

.

Portanto, XβPCR = [ξ1, ξ2, ..., ξm]

ξ′1

/‖ξ1‖

2

ξ′2

/‖ξ2‖

2

...

ξ′m

/‖ξm‖

2

XβOLS.

Utilizando a decomposição de X da forma:

X = ξ1γ′1 + ξ2γ

′2 + ...+ ξpγ

′p,

[ξ1, ξ2, ..., ξm]

ξ′1

/‖ξ1‖

2

ξ′2

/‖ξ2‖

2

...

ξ′m

/‖ξm‖

2

(ξ1γ

′1 + ξ2γ

′2 + ...+ ξpγ

′p

)βOLS

= [ξ1, ξ2, ..., ξm]

p∑

i=1

ξ′1

/‖ξ1‖

2

ξ′2

/‖ξ2‖

2

...

ξ′m

/‖ξm‖

2

ξiγ

′i

βOLS

Page 69: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

68

= [ξ1, ξ2, ..., ξm]

{p∑

i=1

ξ′i

‖ξi‖2 ξiγ

′i

}βOLS

= [ξ1, ξ2, ..., ξm] Γ′mβOLS

= XΓmΓ′mβOLS.

Logo, XβPCR = X(ΓmΓ

′m

)βOLS ⇒ βPCR =

(ΓmΓ

′m

)βOLS. Como

os vetores γi são ortonormais, Γ′mΓm = Im e βPCR = Γm

(Γ′mΓm

)−1Γ′m βOLS,

portanto, βPCR é obtido como a projeção ortogonal do vetor βOLS no subespaço

gerado por {γ1,γ2, ...,γm} , como observado na Figura 18.

Figura 18 Representação do parâmetro βPCR como a projeção ortogonal do vetorβOLS no subespaço gerado por {γ1,γ2, ...,γm}

Em particular, fica demonstrado que∥∥∥βPCR

∥∥∥ < ∥∥∥βOLS

∥∥∥, logo, βPCR é

um estimador de encolhimento.

Outra maneira mais geométrica de se ver esta relação é: considerando{γ1,γ2, ...,γp

}como base no domínio e

{ξ1, ξ2, ..., ξp

}como base no contra-

Page 70: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

69

domínio. A transformação linear X se expressa como a matriz identidade

X

(p∑

i=1

aiγi

)=

p∑i=1

aiξi.

Projetar Y ortogonalmente na ImX e depois projetar ortogonalmente em

Wm é o mesmo que projetar ortogonalmente Y em Wm. A demonstração desse

fato segue da aplicação do Teorema de Pitágoras nos vários triângulos retângulos

da Figura 19.

Figura 19 Projeção do vetor de dados Y no subespaço gerado pelos m primeiroscomponentes principais

Portanto, se XβOLS = PImXY ⇒ X (∑aiγi) =

∑aiξi, projetar

PImXY em Wm é simplesmente tomar as m primeiras coordenadas, PWmY =m∑i=1

aiξi e XβPCR = PWmY implica que βPCR =m∑i=1

aiγi e assim, βPCR é a

projeção de βOLS no subespaço gerado por {γ1,γ2, ...,γm} .

A matriz de variâncias e covariâncias de βPCR é:

Page 71: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

70

cov(βPCR

)= cov

(ΓmΓ

′mβOLS

)= ΓmΓ

′mcov

(βOLS

)ΓmΓ

′m

= σ2ΓmΓ′m

(X′X

)−1ΓmΓ

′m.

Matricialmente, tem-se:

[γ1,γ2, . . . ,γm]

γ′1

γ′2

...

γ′m

(X′X

)−1[γ1,γ2, . . . ,γm]

γ′1

γ′2

...

γ′m

= [γ1,γ2, . . . ,γm]

γ′1

γ′2

...

γ′m

[

1

λ1γ1,

1

λ2γ2, . . . ,

1

λmγm

]γ′1

γ′2

...

γ′m

= [γ1,γ2, . . . ,γm]

1/λ1 0 0

0. . . 0

0 0 1/λm

γ′1

γ′2

...

γ′m

=

[γ1

λ1,γ2

λ2, . . . ,

γm

λm

]γ′1

γ′2

...

γ′m

.

Page 72: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

71

Essa matriz possui γi como autovetores, pois,

[γ1

λ1,γ2

λ2, . . . ,

γm

λm

]γ′1

γ′2

...

γ′m

(γi)

=

[γ1

λ1,γ2

λ2, . . . ,

γm

λm

]

γ′1

γ′2

...

γ′m

(γi)

=

[γ1

λ1,γ2

λ2, . . . ,

γm

λm

]

0

1...

0

=1

λiγi

e, portanto, a variância total de βPCR ém∑i=1

1λi.

Para o caso em que cov (Y) = Σ, o estimador de menor variância é dado

pelo estimador de Gauss-Markov (PEREIRA, 2013):

βGM =(X′Σ−1X

)−1X′Σ−1Y

XβGM =X(X′Σ−1X

)−1X′Σ−1Y.

Assim, Y é dado pela projeção de Y, em que X(X′Σ−1X

)−1X′Σ−1 é o projetor.

No caso usual, em que cov (Y) = σ2I, as projeções nos subespaços Wm

que definem βPCR,m são ortogonais, e quando m = p, βPCR = βOLS. Por-

tanto, no caso cov (Y) = Σ, é natural utilizar a mesma projeção. O projetor

X(X′Σ−1X

)−1X′Σ−1 é idempotente, mas não é simétrico, logo, não é um pro-

Page 73: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

72

jetor ortogonal. No entanto, em relação ao produto interno 〈〈x,y〉〉 = x′Σ−1y,

esse projetor é simétrico. Assim, o projetor X(X′Σ−1X

)−1X′Σ−1 é ortogonal

em relação ao produto interno 〈〈x,y〉〉 = x′Σ−1y.

Deseja-se então, maximizar a variância da projeção de Y na direção de

Xβ, isto é, maximizar var (〈〈Xβ,Y〉〉) , restrito a β′β = 1 :

var((Xβ)′Σ−1Y

)=var

(β′X′Σ−1Y

)=β′X′Σ−1cov (Y) Σ−1Xβ

=β′X′Σ−1ΣΣ−1Xβ

=β′X′Σ−1Xβ.

Sejam γi autovetores de X′Σ−1X :

X′Σ−1X (γi) = λiγi e γ′iγi = 1.

Os vetores Xγi são ortogonais, pois

〈〈Xγi,Xγj〉〉 = (Xγi)′Σ−1Xγj = γ

′iX′Σ−1Xγi

=γ′i

(λjγj

)= λjγ

′iγj = 0.

Definindo o subespaço Wm = span {Xγ1,Xγ2,Xγ3, ...,Xγm} , tem-

se:

XβPCR,m = PWmY,

em que PWm é a projeção ortogonal, em relação ao produto interno 〈〈 , 〉〉, no

subespaço gerado por Xγ1,Xγ2,Xγ3, ...,Xγm.

Da mesma forma, como feito para o caso em que cov (Y) = σ2I, obtém-

Page 74: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

73

se:

PWm = Ξm

(Ξ′mΣ−1Ξm

)−1Ξ′mΣ−1.

Como Ξm = XΓm, segue que

XβPCR,m =XΓm

(Γ′mX′Σ−1XΓm

)−1Γ′mX′Σ−1Y

=XΓm

(Γ′mX′Σ−1XΓm

)−1Γ′m

(X′Σ−1X

) (X′Σ−1X

)−1X′Σ−1Y

=XΓm

(Γ′mX′Σ−1XΓm

)−1Γ′m

(X′Σ−1X

)βGM.

Logo,

βPCR,m = Γm

(Γ′mX′Σ−1XΓm

)−1Γ′m

(X′Σ−1X

)βGM.

Observe que, se m = p, Γp é uma matriz p× p ortogonal. Assim:

βPCR,p =Γp

(Γ′pX′Σ−1XΓp

)−1Γ′p

(X′Σ−1X

)βGM

=Γp(Γp)−1(X′Σ−1X

)−1(Γ′p

)−1Γ′p

(X′Σ−1X

)βGM

=βGM.

Page 75: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

74

4.3 Regressão por Quadrados Mínimos Parciais: uma abordagem geomé-

trica

4.3.1 PLS Populacional

Esta seção tem como referência o artigo Helland (1990).

Seja uma situação em que se quer predizer uma variável aleatória y a partir

de p variáveis aleatórias x1, · · · , xp :

E

x

y

=

0

0

e cov

x

y

=

Σ σ

σ′ σ2y

,

em que, x =

x1

...

xp

, σ = cov (x, y) =

cov (x1, y)

...

cov (xp, y)

e Σ = cov (x) .

Uma pergunta interessante: Qual é o vetor η ∈ Rp que define a direção

de maior covariância com a variável y? Isto é: se Z =

x

y

, deseja-se o vetor η

em Rp, ‖η‖ = 1, que, ao se projetar o vetor aleatório Z na direção de η, fornece a

maior covariância com ep+1 · Z = y. Tem-se, então, o problema de maximização

max cov‖η‖=1

(ep+1 · Z,η∗ · Z) , em que η∗ =

η0

. Utilizando o Teorema 1 sobre

Page 76: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

75

vetores aleatórios, tem-se:

cov

ep+1 · Z,

η0

· Z =

⟨ 0

1

,

Σ σ

σ′ σ2y

η0

=

⟨ 0

1

, Ση

σ′η

⟩ = σ′η = ‖η‖ ‖σ‖ cos θ = ‖σ‖ cos θ

Para se ter covariância máxima, o ângulo deve ser zero (cos 0 = 1). Logo,

η deve estar na mesma direção de σ. Assim, a direção que fornece a covariância

máxima é dada pelo próprio vetor de covariâncias σ. A projeção de Z em σ é

σ′Z = σ′x.

A ideia é, como uma primeira aproximação, substituir a variável aleató-

ria de interesse y por um múltiplo da variável aleatória preditora σ′x. Usando

como critério de predição o Erro Quadrático Médio (EQM), devemos minimizar a

expressão E[(y − α (σ′x))2

]:

E[(y − α (σ′x))2

]= E

[y2]− 2αE [y (σ′x)] + α2E

[(σ′x)2

]= σ2y − 2αcov (y,σ′x) + α2var (σ′x)

Derivando e igualando a zero, obtém-se:

−2cov (y,σ′x) + 2αvar (σ′x) = 0

α = cov(y,σ′x)var(σ′x)

Note que, a escala da variável y é diferente das escalas das variáveis xi, e

com esta ponderação pela var (σ′x), este problema fica minimizado.

Assim, a variável que prediz y com menor erro quadrático médio é a va-

Page 77: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

76

riável cov(y,σ′x)var(σ′x) σ

′x.

Denominando q1 = cov(

y, σ′xvar(σ′x)

), tem-se:

cov(

y, σ′xvar(σ′x)

)= cov

ep+1 ·

x

y

, σ

var(σ′x)

0

· x

y

=

⟨ep+1,

Σ σ

σ′ σ2y

σvar(σ′x)

0

⟩= σ′σ

var(σ′x) = σ′σσ′cov(x)σ = σ′σ

σ′Σσ .

Assim, a parte de y que não foi explicada por cov(y,σ′x)var(σ′x) σ

′x, denominada

por f1, é dada por:

f1 = y − cov (y,σ′x)

var (σ′x)σ′x = y − σ′σ

var (σ′x)σ′x = y − σ′σ

σ′Σσσ′x.

No sentido de se obter uma sequência de variáveis preditoras, considera-se

como primeira variável preditora de y, apenas a variável σ′xvar(σ′x) . Assim, o vetor

de correlações σ = cov (x, y) , renomeado por w1, pode ser substituído pelo vetor

cov(x, σ′x

var(σ′x)

). Denomina-se este vetor por:

p1 =cov (x,σ′x)

var (σ′x)=

cov(x1,σ′x)var(σ′x)

...cov(xp,σ′x)var(σ′x)

.

Page 78: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

77

A i-ésima coordenada do vetor p1 é dada por:

xi = ei · Z

σ′x = (σ, 0) · Z

cov (xi,σ′x) = cov (ei · Z,σ · Z)

=

⟨ei,

Σ σ

σ′ σ2y

σ0

⟩ =

⟨ei,

Σσ

σ′σ

=p∑

j=1cov (xi, xj)σj =

p∑j=1

cov (xi, xj) cov (xj, y)

⇒ cov(

xi,σ′x

var(σ′x)

)= 1

var(σ′x)

p∑j=1

cov (xi, xj) cov (xj, y).

Ou ainda,

cov(

xi,σ′x

var(σ′x)

)= cov

(xi,

p∑j=1

xjcov(xj,y)var(σ′x)

)=

p∑j=1

cov

(xi,xj

cov(xj,y)var(σ′x)

)=

p∑j=1

cov(xj,y)var(σ′x) cov (xi,xj)

=p∑

j=1

cov(xi,xj)var(σ′x) σj = 1

var(σ′x)(Σσ)i.

Logo, p1 = Σσvar(σ′x) .

A componente de x perpendicular ao vetor σ não foi utilizada na predição

de y. Deve-se então, encontrar α tal que x− αp1 seja perpendicular à σ :

〈σ,x− αp1〉 = 〈σ,x〉 − α 〈σ,p1〉

⇒ 〈σ,x〉 − α⟨σ, Σσ

var(σ′x)

⟩= 0

⇒ 〈σ,x〉 − α σ′Σσvar(σ′x) = 0

⇒ σ′x− α = 0

⇒ α = σ′x.

Page 79: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

78

Desta forma, denominando t1 = σ′x, tem-se o vetor e1 = x − t1p1,

e1⊥σ. Note que, a preditora de y pode ser reescrita como t1var(t1)

e

e1 = x− (σ′x) Σσvar(σ′x) .

O processo agora é repetido, substituindo-se y por sua parte não explicada

f1 e x por sua componente ainda não utilizada e1. A direção de maior covariância

entre f1 e os vetores aleatórios no subespaço perpendicular a σ, é dada pelo vetor

w2 :

w2 = cov (e1, f1) = cov

(e1, y −

σ′σ

var (σ′x)σ′x

)= cov (e1, y)− σ′σ

var (σ′x)cov

(e1,σ

′x) e1⊥σ= cov (e1, y)

= cov (x− p1t1, y) = cov (x, y)− cov (p1t1, y)

= σ − p1cov(σ′x, y

)= σ − Σσ

σ′Σσσ′σ.

Definindo t2 = e1′w2, a variável preditora de f1 será t2

var(t2). Calculando-

se a covariância entre f1 e seu preditor t2var(t2)

, temos a grandeza q2, dada por

q2 =cov (f1, t2)

var (t2).

Desta forma, a parte não explicada de f1 será dada por f2 = f1 − q2t2.

Define-se agora, o vetor dado pela covariância entre o vetor aleatório e1 e

a variável preditora de f1, t2var(t2)

, denominado p2 :

p2 =cov (e1, t2)

var (t2).

Novamente, a componente do vetor e1 que não foi utilizada para explicar

Page 80: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

79

f1 será dada pelo vetor e2 = e1 − p2t2.

Resumindo:

Para a = 1:

w1 = cov (x, y) = σ

t1 = x′w1 = σ′x

p1 = cov

(x,

t1var (t1)

)= cov

(x,

σ′x

var (σ′x)

)=

Σσ

σ′Σσ

q1 = cov

(y,

t1var (t1)

)= cov

(y,

σ′x

var (σ′x)

)=

σ′σ

σ′Σσ

e1 = x− p1t1 = x− Σσ

σ′Σσσ′x

f1 = y − q1t1 = y − σ′σ

σ′Σσσ′x

Para a = 2:

t2 = e1′w2 = x′

(σ − σ′σ

σ′ΣσΣσ

)= x′σ − σ′σ

σ′Σσx′Σσ

var (t2) =

(σ − ‖σ‖

2

σ′ΣσΣσ

)′Σ

(σ − ‖σ‖

2

σ′ΣσΣσ

)

w2 = cov (e1, f1) = σ − Σσ

σ′Σσσ′σ

p2 =cov (e1, t2)

var (t2)=

cov (x, t2)

var (t2)

= cov

(x,x′σ − σ′σ

σ′Σσx′Σσ

)= Σσ − σ′σ

σ′ΣσΣ2σ

q2 =cov (f1, t2)

var (t2)

e2 = e1 − p2t2

f2 = f1 − q2t2

Page 81: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

80

Um algoritmo para a predição da variável aleatória de interesse y, em ter-

mos das covariáveis fica, então, definido.

Algoritmo para o PLS Populacional (HELLAND, 1990):

1. Defina os valores iniciais para x residual (ea) e y residual (fa) :

e0 = x− µx

f0 = y − µy

Para a = 1, 2, · · · , execute os passos (2)− (4) abaixo:

2. Introduza scores t como combinações lineares do x residual a partir do úl-

timo passo; para fazer os scores mais relacionados com y, use covariâncias

com y residual como coeficiente/pesos (w) :

wa = cov (ea−1, fa−1)

ta = ea−1′wa

3. Determine x loadings (pa) e y loading (qa) por quadrados mínimos:

pa =cov (ea−1, ta)

var (ta)

qa =cov (fa−1,ta)

var (ta)

4. Encontre novos resíduos:

ea = ea−1 − pata

fa = fa−1 − qata

Page 82: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

81

Deve-se observar que os vetores w1,w2, · · ·wA e p1,p2, · · ·pA são veto-

res populacionais. Além disso, qa são grandezas populacionais, isto é, fixada uma

determinada população, os números qa ficam determinados. Portanto, as grande-

zas aleatórias são os vetores ea, os pesos ta e as variáveis fa. Duas iterações do

algoritmo estão descritas na Figura 20.

Figura 20 Representação geomética do algoritmo PLS Populacional com duas ite-rações

Da construção geométrica do algoritmo, seguem os seguintes fatos funda-

mentais:

1. Os vetores w1,w2, · · ·wA são ortogonais.

2. As variáveis aleatórias t1, t2, · · · tA são não correlacionadas. Para o caso

em que Σ = I, este fato segue diretamente da construção geométrica, pois

Page 83: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

82

as variáveis t1, t2, · · · tA são obtidas por projeções nos vetores wi, que são

ortogonais.

3. O vetor aleatório ea é não correlacionado à variável ta, pois ta é obtida por

uma projeção em wa e o vetor ea é perpendicular ao vetor wa. De fato,

temos mais do que isso: como ea é perpendicular a wa, por construção,

e wa é perpendicular a w1,w2, · · ·wa−1, temos que ea é perpendicular a

todos eles, w1,w2, · · ·wa, implicando então, que ea é não correlacionado às

variáveis t1, t2, · · · ta. Da mesma forma, este resultado segue da construção

geométrica se Σ = I.

Estas propriedades podem ser demonstradas algebricamente (HOSKUL-

DSSON, 1988).

As propriedades 2 e 3 permitem as seguintes simplificações no algoritmo:

wa = cov (ea−1, fa−1) = cov (ea−1, fa−2 − qa−1ta−1)

= cov (ea−1, fa−2)− qa−1cov (ea−1, ta−1)

P.3= cov (ea−1, fa−2) = cov (ea−1, fa−3 − qa−2ta−2)

= cov (ea−1, fa−3)− qa−2cov (ea−1, ta−2)

P.3= cov (ea−1, fa−3) = · · · = cov (ea−1, y)

Logo, wa = cov (ea−1, fa−1) = cov (ea−1, y) .

Page 84: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

83

cov (ea−1, ta) = cov (ea−2 − pa−1ta−1, ta)

= cov (ea−2, ta)− cov (ta−1, ta) pa−1

P.2= cov (ea−2, ta) = cov (ea−3 − pa−2ta−2, ta)

= cov (ea−3, ta)− cov (ta−2, ta) pa−2

P.2= cov (ea−3, ta) = · · · = cov (x, ta)

Logo, pa = cov(ea−1,ta)var(ta)

= cov(x,ta)var(ta)

.

cov (fa−1,ta) = cov (fa−2 − qa−1ta−1,ta)

= cov (fa−2,ta)− qa−1cov (ta−1,ta)

P.2= cov (fa−2,ta) = cov (fa−3 − qa−2ta−2,ta)

= cov (fa−3,ta)− qa−2cov (ta−2,ta)

P.2= cov (fa−3,ta) = · · · = cov (y,ta)

Logo, qa = cov(fa−1,ta)var(ta)

= cov(y,ta)var(ta)

.

Portanto, ea−1 pode ser substituído por x na definição de pa, e fa−1 pode

ser substituído por y nas definições de wa e qa, nos passos 2 e 3 do algoritmo.

Assim, tem-se que o algoritmo fica da forma:

e0 = x− µx

f0 = y − µy

ta = ea−1′wa

Page 85: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

84

wa = cov (ea−1, y)

pa =cov (x, ta)

var (ta)

qa =cov (y,ta)

var (ta)

ea = ea−1 − pata

fa = fa−1 − qata.

Apesar do algoritmo nessa versão ser mais simples, como o objetivo é a

motivação para se obter o algoritmo para o caso amostral, a primeira versão é a

mais útil.

No passo A do algoritmo, obtemos a representação:

p1t1 + p2t2 + p3t3 + · · ·+ pAtA

= (e0 − e1) + (e1 − e2) + (e2 − e3) + · · ·+ (eA−1 − eA)

= e0 − eA = (x− µx)− eA,

logo, x = µx + p1t1 + · · ·+ pAtA + eA.

q1t1 + q2t2 + q3t3 + · · ·+ qAtA

= (f0 − f1) + (f1 − f2) + (f2 − f3) + · · ·+ (fA−1 − fA)

= f0 − fA = (y − µy)− fA,

logo, y = µy + q1t1 + · · ·+ qAtA + fA.

Temos então, um preditor para a variável resposta y, dado por

yA,PLS = µy + q1t1 + · · · qAtA.

Este preditor é, de fato, um preditor linear, pois utilizando a segunda versão do

Page 86: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

85

algoritmo, tem-se:

yA,PLS = µy + β′

A,PLS(x− µx)

em que (HELLAND, 1990),

βA,PLS = WA

(WA

′ΣWA

)−1WA

′σ.

Explicitando essas matrizes:

WA = [w1, . . . ,wA]

Σ (WA) = Σ [w1, . . . ,wA] = [Σw1, . . . ,ΣwA]

WA′ΣWA =

w1′

...

wA′

[Σw1, . . . ,ΣwA] =

w1′Σw1 · · · w1

′ΣwA

.... . .

...

wA′Σw1 · · · wA

′ΣwA

.

Casos particulares:

1o Caso: Se wi′Σwj = 0, ∀i 6= j, temos uma matriz diagonal e poderemos

calcular a inversa:

(WA

′ΣWA

)−1=

1w1′Σw1

0 · · · 0

0 1w2′Σw2

· · · 0...

.... . .

...

0 0 · · · 1wA′ΣwA

WA′σ =

w1′

...

wA′

σ =

w1′σ

...

wA′σ

Page 87: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

86

(WA

′ΣWA

)−1WA

′σ =

w1′σ

w1′Σw1...

wA′σ

wA′ΣwA

WA

(WA

′ΣWA

)−1WA

′σ = [w1, . . . ,wA]

w1′σ

w1′Σw1...

wA′σ

wA′ΣwA

=

[(w1′σ

w1′Σw1

)w1 + · · ·+

(wA′σ

wA′ΣwA

)wA

].

2o Caso: Se o número de passos A do algoritmo é igual a n, A = n, a

matriz WA é quadrada e inversível, assim,

βA,PLS = WA

(WA

′ΣWA

)−1WA

′σ,

βn,PLS = WAWA−1Σ−1

(WA

′)−1WA′σ = Σ−1σ,

que é o mesmo coeficiente do melhor preditor linear, no caso em que

x

y

tem

distribuição Normal.

3o Caso: O preditor para apenas 1 passo, fica da forma:

YA,PLS = µy + q1t1 = µy +‖σ‖2

σ′Σσx′σ = µy +

‖σ‖2

σ′Σσσ′ (x− µx) .

Page 88: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

87

4.3.2 PLS Amostral

Esta seção tem como referência o artigo Hoskuldsson (1988).

Sejam duas matrizes Xn×p e Yn×k, centradas na média, em que p é o

número de covariáveis, k o número de variáveis respostas e n o número de obser-

vações (repetições):

X=

x11 x12 · · · x1p

x21 x22 · · · x2p

......

. . ....

xn1 xn2 · · · xnp

, Y=

y11 y12 · · · y1k

y21 y22 · · · y2k

......

. . ....

yn1 yn2 · · · ynk

.

A matriz de covariâncias amostrais, a menos de uma constante, é dada por

X′Y :

X′Y =

x11 x21 · · · xn1

x12 x22 · · · xn2

......

. . ....

x1p x2p · · · xnp

y11 y12 · · · y1k

y21 y22 · · · y2k

......

. . ....

yn1 yn2 · · · ynk

=

cov (x1,y1) cov (x1,y2) · · · cov (x1,yk)

cov (x2,y1) cov (x2,y2) · · · cov (x2,yk)...

.... . .

...

cov (xp,y1) cov (xp,y2) · · · cov (xp,yk)

.

Observe que as colunas da matriz X′Y, a menos de uma constante, esti-

mam os vetores σj = cov (X,Yj) com j = 1, . . . , k.

Page 89: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

88

4.3.2.1 Componentes com covariância máxima

Considere dois componentes f e g definidos pelas colunas das matrizes X

e Y:

f = Xd, ‖d‖ = 1

g = Ye, ‖e‖ = 1.

Note que,

f = Xd =

x11 x12 · · · x1p

x21 x22 · · · x2p

......

. . ....

xn1 xn2 · · · xnp

d1

d2

...

dp

= d1

x11

x21

...

xn1

+ · · ·+ dp

x1p

x2p

...

xnp

,

logo, f = Xd é uma combinação linear das colunas de X, isto é, é um vetor

definido como uma média ponderada das realizações de todas as covariáveis. Da

mesma forma, g = Ye é uma combinação linear das colunas de Y.

A covariância amostral entre os dois componentes é dada por:

cov (f ,g) =f ′g

n.

Uma boa escolha para f e g será aquela que fornecer covariância máxima.

Aqui, a covariância deve ser máxima em valor absoluto, visto que a covariância

pode ser positiva ou negativa.

Para obter os vetores que realizam essa maximização da covariância, é

necessário fazer a decomposição em valores singulares (Apêndice B) da matriz de

covariâncias amostrais X′Y. Para tal, considere X′Y como uma transformação

linear de Rk em Rp, k < p. Existe uma base {v1,v2, . . . ,vk} em Rk, e uma base

Page 90: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

89

{z1, z2, . . . , zp} em Rp, ambas ortonormais, tais que X′Y (vi) = aizi, sendo a

ordem dos vetores nas bases definida por a21 ≥ a22 ≥ · · · ≥ a2k, conforme mostra a

Figura 21. Desta forma, tem-se a igualdade de matrizes X′Y =k∑

i=1aizivi

′, pois

(k∑

i=1

aizivi′

)(vj) =

k∑i=1

(aizivi′) (vj) =

k∑i=1

(aizi) (vi′vj) = ajzj = X′Y (vj) .

Figura 21 Representação de X′Y como uma transformação linear de Rk em Rp

O problema da maximização, max (f ′g) , ‖d‖ = ‖e‖ = 1, pode ser

colocado da forma:

Page 91: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

90

max(f ′g)

= max((Xd)′ (Ye)

)= max

(d′X′Ye

)= max

(d′(X′Y

)e)

= max

(d′

(k∑

i=1

aizivi′

)e

)

= max

(k∑

i=1

ai(d′(zivi

′) e))

= max

(k∑

i=1

ai(d′zi

) (vi′e)).

Assim, os vetores d e e que realizam essa maximização são os vetores

d = z1 e e = v1, pois,

(k∑

i=1

ai(z1′zi) (

vi′v1

))= a1.

Demonstração. Objetiva-se maximizar (ou minimizar) a expressão:

max((Xd)′ (Ye)

)= max

(d′(X′Y

)e)

= max

(d′

(k∑

i=1

aiziv′i

)e

)

= max

k∑j=1

djzj

′ ( k∑i=1

aiziv′i

)(k∑

s=1

esvs

)

= max∑j,i,s

djaiesz′j

(ziv

′i

)vs

= max∑j,i,s

djaies

(z′jzi

)(v′ivs

)= max

∑i

diaiei

(z′izi

)(v′ivi

)= max‖d‖=‖e‖=1

∑i

diaiei

Page 92: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

91

Assim, obtém-se a função lagrangiana com duas restrições, ‖d‖ = ‖e‖= 1 :

H (d1, . . . ,dk, e1, . . . , ek, λ, α) =∑

diaiei+λ

(∑d2i − 1

)+ α

(∑e2i − 1

).

De onde segue o sistema de equações:

∂H∂dj

= ajej + 2λdj = 0

∂H∂el

= aldl + 2αel = 0∑d2i = 1∑

e2i = 1

Multiplicando a 1a equação por dj e a 2a equação por ej, tem-se:

djajej + 2λd2j = 0

ejajdj + 2αe2j = 0

Igualando as duas equações, segue que:

λd2j = αe2j ⇒ λ

∑d2j = α

∑e2j ⇒ λ = α⇒ dj = |ej| .

Assim, volta-se ao problema da maximização, mas agora com apenas uma

restrição:

max‖d‖=1

∑aid

2i .

Dada a função lagrangiana:

H (d1, . . . ,dk, λ) =∑

aid2i +λ

(∑d2i − 1

),

Page 93: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

92

segue que∂H

∂dj= 2ajdj + 2λdj = 0.

Logo, ajdj = λdj.

Supondo todos os ai diferentes entre si, ai 6= aj para i 6= j, a solução

consiste em todos os dj serem zero, exceto um deles que deve ser 1, pois ‖d‖ = 1.

Assim, o máximo ocorre para i = 1, pois a1 é maior que os outros. Logo,

max‖d‖=‖e‖=1

(d′(X′Y

)e)

= a1.

Portanto, foram obtidos os vetores de correlação máxima f = Xz1 e g =

Yv1. O algoritmo PLS é justamente um processo iterativo para se obter outros

pares de componentes que também maximizam a covariância com mais restrições

(em ordem decrescente de magnitude).

4.3.2.2 O algoritmo PLS Multivariado

No sentido de melhor explicar os passos do algoritmo, seu desenvolvi-

mento será paralelamente relacionado ao algoritmo PLS Populacional, anterior-

mente descrito. Com o objetivo de simplificar a notação, todo vetor da forma aa′a

receberá o mesmo nome a.

O algoritmo inicia-se da seguinte forma: tome o vetor u como a primeira

coluna da matriz de respostas Y, isto é, y1. Faça uu′u e seja w = X′u

u′u . Logo, w é

uma combinação linear das linhas da matriz X, ou seja, é um vetor de covariâncias

Page 94: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

93

amostrais entre a primeira variável resposta e as covariáveis:

w = X′u =

x11 x21 · · · xn1

x12 x22 · · · xn2

......

. . ....

x1p x2p · · · xnp

y11

y21

...

yn1

= y11

x11

x12

...

x1p

+ · · ·+ yn1

xn1

xn2

...

xnp

=

cov (x1,y1)

cov (x2,y1)...

cov (xp,y1)

.

Observe que w = X′uu′u é o equivalente amostral do vetor w1 = σ =

cov (x, y) , no algoritmo PLS populacional univariado, com y = y1.

Normalize w e seja t = Xw :

t = Xw =

x11 x12 · · · x1p

x21 x22 · · · x2p

......

. . ....

xn1 xn2 · · · xnp

cov (x1,y1)

cov (x2,y1)...

cov (xp,y1)

=

p∑i=1

x1icov (xi,y1)

p∑i=1

x2icov (xi,y1)

...p∑

i=1

xnicov (xi,y1)

.

Veja que, a i-ésima entrada de t corresponde a uma estimativa da variável

t = σ′x = (cov (x, y))′ x, com y = y1.

Page 95: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

94

Em seguida, faça c = Y′tt′t :

c = Y′t =

y11 y21 · · · yn1

y12 y22 · · · yn2

......

. . ....

y1k y2k · · · ynk

p∑i=1

x1icov (xi,y1)

p∑i=1

x2icov (xi,y1)

...p∑

i=1xnicov (xi,y1)

=

n∑j=1

p∑i=1

yj1xjicov (xi,y1)

n∑j=1

p∑i=1

yj2xjicov (xi,y1)

...n∑

j=1

p∑i=1

yjkxjicov (xi,y1)

.

Fazendo correspondência com o PLS populacional, a i-ésima entrada do

vetor c é uma estimativa do parâmetro q1 = cov (y,σ′x) = cov (y, t1), com

y = y1.

Normalize c e tome u = Yc :

u = Yc =

y11 y12 · · · y1k

y21 y22 · · · y2k

......

. . ....

yn1 yn2 · · · ynk

n∑j=1

p∑i=1

yj1xjicov (xi,y1)

n∑j=1

p∑i=1

yj2xjicov (xi,y1)

...n∑

j=1

p∑i=1

yjkxjicov (xi,y1)

Page 96: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

95

=

k∑l=1

n∑j=1

p∑i=1

y1lyj1xjicov (xi,y1)

k∑l=1

n∑j=1

p∑i=1

y2lyj1xjicov (xi,y1)

...k∑

l=1

n∑j=1

p∑i=1

ynlyj1xjicov (xi,y1)

.

Este vetor não tem uma interpretação em termos do PLS populacional.

Nesta etapa, o algoritmo define um loop obtendo sequências de veto-

res un = YY′XX′un−1, cn = Y′XX′Ycn−1, tn = XX′YY′tn−1 e wn =

X′YY′Xwn−1. Essas sequências são convergentes em razão de uma série de pro-

priedades de álgebra linear, relativas ao diagrama da Figura 22.

Figura 22 Representação geométrica das sequências de vetores un = YY′

XX′un−1, cn = Y′XX′Ycn−1, tn = XX′YY′tn−1 e wn =X′YY′Xwn−1

Page 97: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

96

Observe que:

X′YY′X =

(k∑

i=1aiziv

′i

)(k∑

j=1ajvjz

′j

)=

k∑i=1

k∑j=1

aiajziv′ivjz

′j =

k∑i=1

a2i ziz′i .

A partir dessa decomposição, os autovalores de X′YY′X são a21 ≥ a22 ≥

· · · ≥ a2k, com respectivos autovetores z1, z2, . . . , zk, pois:

X′YY′X (zj) =

k∑i=1

a2i ziz′izj = a2j zj.

• As matrizes X′YY′X, YY′XX′, Y′XX′Y e XX′YY′ possuem os mes-

mos autovalores, pois:

se r é um autovetor da matriz X′YY′X, então

XX′YY′ (Xr) = X(X′YY′X

)r = X (λr) = λ (Xr) .

Se r é um autovetor da matriz XX′YY′, então

Y′XX′Y(Y′r

)= Y′

(XX′YY′

)r = Y′ (λr) = λ

(Y′r

).

Se r é um autovetor da matriz Y′XX′Y, então

YY′XX′ (Yr) = Y(Y′XX′Y

)r = Y (λr) = λ (Yr) .

Portanto, o maior autovalor para todas as matrizes é dado por a21.

• Aplicando o método das potências (Apêndice C) para o cálculo do autove-

tor relativo ao maior autovalor às sequências un = YY′XX′un−1, cn =

Y′XX′Ycn−1, tn = XX′YY′tn−1, e wn = X′YY′Xwn−1, obtém-se

Page 98: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

97

os vetores limites das sequências u = lim un, c = lim cn, t = lim tn e

w = lim wn. Assim:

YY′XX′u = a21u

Y′XX′Yc = a21c

XX′YY′t = a21t

X′YY′Xw = a21w.

Ocorrendo a convergência pela aplicação de algum critério de parada, fi-

cam definidos os vetores w e c, relativos ao maior autovalor a21. Pelo problema

de maximização das componentes com maior covariância, os vetores relativos ao

maior autovalor são dados explicitamente a partir da decomposição em valores

singulares X′Y, isto é, w = z1 e c = v1. Portanto, as componentes com maior

covariância são dadas por t = Xw e u = Yc.

O próximo passo do algoritmo é definido por: primeiramente se calcula a

covariância amostral entre as componentes t = Xw e u = Yc, dada por b = u′tt′t .

Como o vetor t é a combinação linear das colunas de X que possue maior

covariância com uma combinação linear das colunas de Y, a ideia agora é obter

uma nova matriz X de tal forma que as colunas desta nova matriz X sejam orto-

gonais ao vetor t. A projeção ortogonal no subespaço ortogonal ao vetor t é dada

por I− tt′

t′t . Veja:

(I− tt′

t′t

)(I− tt′

t′t

)= I− tt′

t′t− tt′

t′t+

tt′tt′

t′t= I− tt′

t′t.

Page 99: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

98

Portanto, a nova matriz X é dada por:

(I− tt′

t′t

)X.

Assim, (I− tt′

t′t

)X = X− tt′

t′tX = X− t

t′X

t′t= X− tp′,

em que p = X′tt′t .

O vetor p representa o vetor de covariâncias amostrais entre as covariáveis

dadas pelas colunas de X e o vetor de estimativas das variáveis preditoras t, e a

nova matriz X representa as componentes das covariáveis que não foram utilizadas

na predição, sendo denominada matriz residual e que será utilizada na próxima

iteração do algoritmo.

Uma construção semelhante é feita para a matriz Y. O melhor preditor

das variáveis respostas y =

y1

y2

...

yk

é o vetor cov (t,y) =

cov (t,y1)

cov (t,y2)...

cov (t,yk)

, que é

estimado pelo vetor c, em que,

ck×1 =Y′t

t′t=

Y′1

Y′2

...

Y′k

k×n

t1

t2...

tn

n×1

=

Y′1t

t′t

Y′2t

t′t...

Y′kt

t′t

k×1

.

Page 100: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

99

Segue que,

tc′ =

t1

t2...

tn

n×1

[Y′1t

t′t,Y′2t

t′t, . . . ,

Y′kt

t′t

]1×k

=

[Y′1t

t′tt,

Y′2t

t′tt, . . . ,

Y′kt

t′tt

]n×k

.

As colunas da matriz tc′ representam a parte que o vetor t explica de Y.

Tem-se, portanto, duas fontes de explicação da variável Y, a saber, a parte de t

que explica u, que é uma combinação linear das colunas de Y, e a parte de t que

explica Y. Portanto, a quantidade de informação que o vetor t tem do vetor u e

dos vetores coluna da matriz Y é obtida pelo produto b t′Yit′t .

Assim, ponderando a quantidade de informação pelo produto, a parte não

explicada de Y é a nova matriz Y, dada pela diferença:

Y − bt

(tY′

t′t

)= Y − btc′.

Obtidas as novas matrizes X e Y, o processo é repetido, ficando o algo-

ritmo da forma:

Algoritmo para o PLS Amostral (HOSKULDSSON, 1988):

1. Seja u a primeira coluna de Y

2. w = X′uu′u

3. Normalize w

4. t = Xw

5. c = Y′tt′t

Page 101: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

100

6. Normalize c

7. u = Yc

8. Se houver convergência vá para o passo 9, caso contrário, volte ao passo 2

9. X-loadings: p = X′tt′t

10. Y-loadings: q = Y′uu′u

11. Regressão (u sobre t): b = u′tt′t

12. Matrizes Residuais: X← X− tp′ e Y ← Y − btc′

Realizadas A iterações deste algoritmo, obtêm-se os vetores:

w1,w2, . . . ,wA,

t1, t2, . . . , tA,

c1, c2, . . . , cA,

u1,u2, . . . ,uA,

p1,p2, . . . ,pA.

• É importante observar que da construção do algoritmo segue que a sequên-

cia dos vetores de componentes t1, t2, . . . , tA, formam uma sequência de

vetores ortogonais.

• Os vetores w1,w2, . . . ,wA, são vetores mutuamente ortogonais.

Page 102: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

101

Demonstração. Do algoritmo, sabe-se que:

X2 =

(I− t1t

′1

t′1t1

)X1

X3 =

(I− t2t

′2

t′2t2

)X2 =

(I− t2t

′2

t′2t2

)(I− t1t

′1

t′1t1

)X1

...

Xj =

(I−

tj−1t′j−1

t′j−1tj−1

)Xj−1

=

(I−

tj−1t′j−1

t′j−1tj−1

)(I−

tj−2t′j−2

t′j−2tj−2

). . .

(I− t1t

′1

t′1t1

)X1.

Assim, para i < j, tem-se:

Xj = Z

(I− tit

′i

t′iti

)Xi,

em que Z é o produto de matrizes(

I− tkt′k

t′ktk

), k = i + 1, . . . , j.

De onde segue que, para i < j :

Xjwi = Z

(Xi −

tit′i

t′iti

Xi

)wi = Z

(Xiwi −

tit′i

t′iti

Xiwi

)

= Z

(ti −

tit′i

t′iti

ti

)= Z (ti − ti) = 0.

Sabendo que X′jYjY

′jXjwj = ajwj, obtém-se:

w′jwi =

(X′jYjY

′jXjwj

aj

)′wi =

w′jX′jYjY

′jXj

ajwi

Page 103: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

102

=w′jX′jYjY

′j

aj(Xjwi) = 0.

• Os vetores wi são ortogonais aos vetores pj, para i < j.

Demonstração.

w′ipj = w

′i

X′jtj

t′jtj

= w′iX′j

tj

t′jtj

= (Xjwi)′ tj

t′jtj

= 0.

• A sequência de vetores p1,p2, . . . ,pA, também é uma sequência de vetores

ortogonais.

4.3.2.3 Regressão em PLS

Uma das questões mais importantes em análise de regressão é reduzir o

número de variáveis independentes. Uma situação típica em que é vantajosa a se-

leção de variáveis é que a variância dos coeficientes de regressão aumenta quando

novas variáveis são introduzidas no modelo (HOSKULDSSON, 1988). A regres-

são PLS pode ser vista como um bom método de análise de regressão porque os

componentes são selecionados de modo que eles descrevem as variáveis respos-

tas. A principal característica é que o método PLS é capaz de reduzir o número

de variáveis, em termos de componentes, durante o processo de estimação. Vamos

considerar aqui, a regressão via método PLS.

Page 104: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

103

Um modelo de regressão linear pode ser escrito como:

Yn×k = Xn×pβp×k + en×k,

em que β é o vetor dos coeficientes de regressão, X é a matriz do delineamento e

e é a matriz residual.

Sendo obtidos os vetores t1, t2, . . . , tA, em A iterações, a matriz do deli-

neamento X pode ser decomposta da forma

Xn×p =A∑i=1

tip′i + X0,

onde X0 é a matriz residual do processo.

Note que se o número de iterações A é igual ao posto de X, então X0 = 0.

Desprezando a matriz residual X0, tem-se

Xn×p =

A∑i=1

tip′i = Tn×AP

′A×p

com Tn×A = (t1, t2, . . . , tA) em que ti é a i-ésima coluna de T e Pn×A =

(p1,p2, . . . ,pA) em que pi é a i-ésima coluna de P.

Como os vetores pi são ortonormais, multiplica-se a igualdade Xn×p =

Tn×AP′A×p por Pp×A, obtendo

Xn×pPp×A = Tn×AP′A×pPp×A = Tn×AIA×A = Tn×A.

Observe que P é uma inversa generalizada à direita de P′. De fato, qualquer in-

versa generalizada poderia ser utilizada (JONG, 1993).

Page 105: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

104

Assim, T = XP, e a equação de regressão pode ser escrita como

Yn×k = Xn×pPp×AP′A×pβp×k + en×k = Tn×A

(βPLS,A

)A×k + en×k,

com T a nova matriz de covariáveis, denominada matriz de componentes PLS, e

βPLS,A = P′β a nova matriz de parâmetros de regressão, denominada matriz de

parâmetros PLS.

Com os novos parâmetros PLS, temos um problema de regressão usual,

porém, agora, com o número de parâmetros muito menor que o problema original.

O vetor de parâmetros, βPLS,A, é estimado pelo método dos quadrados mínimos,

isto é, (βPLS,A

)A×k

=(T′T

)−1A×A T

′A×nYn×k. (5)

Obtidas as estimativas dos coeficientes de regressão, a equação de predi-

ção para novos valores x0 das covariáveis, retornando às variáveis originais não

centradas, fica da forma:

y − µy = (t− µt)′ βPLS,A = (x0 − µx)′PβPLS,A. (6)

Page 106: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

105

4.3.3 Uma alternativa ao algoritmo PLS

Esta seção tem como referências os artigos Garthwaite (1994) e Phatak e

Jong (1997), e será utilizada a mesma notação. A descrição deste algoritmo é feita

para apenas uma resposta, k = 1.

Como anteriormente exposto, a matriz de covariáveis Xn×p, é considerada

como uma transformação do espaço dos parâmetros Rp no espaço dos dados Rn,

e o vetor da variável resposta é Yn×1, conforme Figura 23.

Figura 23 Representação da matriz de covariáveis Xn×p como uma transformaçãodo espaço de parâmetros Rp no espaço dos dados Rn

A matriz X aplicada ao vetor canônico ei = (0, ..., 0, 1, 0, ..., 0) tem como

imagem a i-ésima coluna de X, denotada por Xi (Figura 24).

Como é usual, utilizam-se variáveis centradas na média:

U1 = Y − Y e V1j=Xj−Xj para j = 1, ...,p,

sendo Y′ = (y, y, ..., y)′ e 1′ = (1, 1, ..., 1)′, vetores linha n-dimensionais. Ob-

serve, como na Figura 25, que os vetores Y − Y e Xj−Xj são ortogonais ao

Page 107: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

106

Figura 24 Representação das colunas de X como imagem dos vetores canônicosei

subespaço gerado pelo vetor 1.

Figura 25 Representação das variáveis centradas através da projeção ortogonal nosubespaço gerado pelo vetor 1

Page 108: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

107

A ideia é regredir o vetor U1 em cada um dos vetores V1j (Figuras 26 e

27). Tal procedimento é uma forma de medir o quanto de informação o vetor da

covariável Xj explica o vetor de dados, obtendo-se o vetor U1j =u′1v1j

v1j′v1j

v1j.

Figura 26 Projeção ortogonal do vetor U1 em cada um dos vetores V1j

Figura 27 Projeção ortogonal do vetor U1 em cada um dos vetores V1j

Uma maneira de se coletarem todas estas informações sobre o vetor de

dados é através de uma média ponderada dos vetores U1j, utilizando pesos apro-

Page 109: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

108

priadamente escolhidos, w1j ≥ 0 ep∑

j=1w1j = 1, como na Figura 28.

T1 =

p∑j=1

w1jU1j. (7)

Uma escolha usual para os pesos é a média simples, w1j = 1/p.

Figura 28 Construção do vetor T1 como média ponderada dos vetores U1j

A quantidade de informação que T1 contém do vetor de dados U1 é obtida

pela regressão do vetor U1 em T1, PT1U1=u′1t1

t′1t1

t1. A parte não explicada é

definida pelo vetor de resíduo U2=U1−PT1U1. Novamente, regride-se V1j em

T1, PT1V1j=v′1jt1

t′1t1

t1, e toma-se os vetores de resíduos V2j=V1j−PT1V1j, que

são uma medida do quanto o vetor T1 não explica as covariáveis, conforme Figura

29.

Procede-se a regressão do vetor U2 nos vetores V2j, que são denotados

por U2j=PV2jU2=b2jV2j=

U′2V2j

V′2jV2j

V2j (Figura 30).

Page 110: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

109

Figura 29 Construção dos vetores U2 e V2j através da projeção dos vetores U1 eV1j, respectivamente, em T1

Utilizando pesos w2j, encontramos o vetor T2 fazendo a média ponderada

dos vetores U2j (Figura 31).

Observe que, por construção, os vetores T1 e T2 são ortogonais (Figura

32).

O procedimento pode ser repetido para a construção de outros vetores

T3,T4, ...,Tm.

Suponha que Ti (i ≥ 1) tenha sido construído a partir das variáveis Ui e

Vij com j = 1, ...,p. Para obter o componente Ti+1, as variáveis V(i+1)j e U(i+1)

devem ser determinadas. Com este propósito, é feita uma regressão entre Vij e Ti

e V(i+1)j fica definido por:

V(i+1)j=Vij−v′ijti

t′iti

ti,

Page 111: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

110

Figura 30 Construção dos vetores U2j como projeção do vetor U2 nos vetoresV2j

Figura 31 Construção do vetor T2 como média ponderada dos vetores U2j

Page 112: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

111

Figura 32 Componentes ortogonais T1 e T2

sendo ti o vetor de valores de Ti, v(i+1)j os resíduos da regressão ev′ijti

t′iti, o coefi-

ciente da regressão entre Vij e Ti.

De forma análoga, U(i+1)=Ui−u′iti

t′iti

ti e u(i+1) são os resíduos da regres-

são entre Ui e Ti. Assim, a j-ésima regressão entre Ui+1 e V(i+1)j resulta num

coeficiente de regressão dado por:

b(i+1)j=u′

(i+1)v(i+1)j

v′(i+1)jv(i+1)j

.

Analogamente à equação 7, define-se T(i+1) como sendo:

T(i+1)=

p∑j=1

w(i+1)jb(i+1)jV(i+1)j.

Os vetores T1,T2, ...,Tm são ortogonais e, portanto, como vetores alea-

tórios, são não correlacionados (no caso em que cov(Y) = σ2I).

Construídos os vetores T1,T2, ...,Tm fica definido na ImX, um subespa-

Page 113: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

112

ço m-dimensional, ImT. Projeta-se ortogonalmente o vetor Y no subespaço ImT

obtendo-se YPLS = PImTY. O processo de estimação do βPLS é o usual utili-

zando o método dos quadrados mínimos, isto é, βPLS é obtido como uma solução

particular, bem determinada, das equações normais XβPLS = PImTY. Uma vez

obtida a estimativa βPLS, a equação de predição fica da forma:

y − y = β′

PLS

t1...

tm

.

Para obter a expressão matricial das equações normais que definem o βPLS

e também obter uma relação linear entre βPLS e βOLS, foi utilizada uma formali-

zação do método em termos de matrizes, isto é, transformações lineares.

Suponha que m componentes t1,t2, ..., tm tenham sido construídos. Con-

sidere a matriz Tn×m, cujas colunas são definidas pelos vetores ti, T = [t1,t2, ...,

tm]. T define uma transformação linear do Rm para o Rn, tal que Tei = ti, con-

forme Figura 33.

A imagem de T, ImT, é um subespaço da imagem de X gerado pelos

vetores t1,t2, ...tm. Portanto, a projeção ortogonal sobre a ImT, é dada pela matriz

T(T′T)−1T′, e a projeção do vetor de dados Y na ImT é dada por:

ymPLS = Tm

(T′mTm

)−1T′my, (8)

conforme Figura 34.

Seja o vetor ri definido como uma solução qualquer da equação Xri = ti,

i=1,...,m. Da mesma forma, pode-se definir a matriz Rp×m, cujas colunas são os

vetores ri , i=1,...,m, Rm = [r1, r2, ..., rm]. Assim, Rei = ri.

Como Tei = ti e XRei = ti, tem-se que Tei = XRei. Logo, T = XR

Page 114: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

113

Figura 33 Representação geométrica dos componentes como imagem da transfor-mação linear T do Rm para o Rn

Figura 34 Projeção do vetor de dados Y no subespaço ImT gerado pelos compo-nentes

e obtém-se o diagrama comutativo da Figura 35.

A matriz T é claramente uma aplicação linear injetiva, pois, suas colu-

nas são linearmente independentes. Assim, restrita à imagem de R, segue que X

também é uma aplicação injetiva. Vetorialmente, ImR ∩KerX = {0}.

Page 115: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

114

Figura 35 Representação geomética das transformações lineares T, R e X

Substituindo T por XR e X′y por X′XβOLS, na equação (8), obtemos:

ymPLS = XRm

(R′mX′XRm

)−1R′mX′XβOLS.

Observe que a substituição de X′y por X′XβOLS é verdadeira em relação

a qualquer βOLS escolhido.

Utilizando o fato de X ser injetiva quando restrita à imagem de R, temos

que βPLS está bem definido e é dado por:

βmPLS = Rm

(R′mX′XRm

)−1R′mX′XβOLS. (9)

A escolha particular dos vetores ri, não afeta a estimativa de βPLS, pois

Page 116: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

115

se A é uma transformação linear inversível, A : Rm → Rm, a mudança de co-

ordenadas R = RA é tal que, substituindo na equação (9), é obtida a mesma

estimativa:

βmPLS = Rm

(R′mX′XRm

)−1R′mX′XβOLS

= RmA(A′R

′mX′XRmA

)−1A′R

′mX′XβOLS

= RmA(A′)−1(

R′mX′XRm

)−1(A)−1A′R

′mX′XβOLS

= Rm

(R′mX′XRm

)−1R′mX′XβOLS.

Este fato reflete que apenas o subespaço gerado pelos vetores ri é impor-

tante, e não uma escolha particular da base.

É possível obter uma relação linear entre βPLS e βOLS que possui uma

interpretação geométrica muito interessante. Observe que:

(Rm

(R′mX′XRm

)−1R′mX′X

)(Rm

(R′mX′XRm

)−1R′mX′X

)= Rm

(R′mX′XRm

)−1 (R′mX′XRm

)(R′mX′XRm

)−1R′mX′X

= Rm

(R′mX′XRm

)−1IR′mX′X

= Rm

(R′mX′XRm

)−1R′mX′X.

Logo, essa transformação é um projetor. Como ela não é simétrica, esse projetor

não é um projetor ortogonal e, sim, um projetor oblíquo, portanto, como todo

projetor, a projeção se dá ao longo do kernel (Figura 36).

Como as matrizes R e X′X são injetivas, R′mX′XRm é inversível e essas

transformações não têm kernel, portanto, o kernel da transformação

Rm

(R′mX′XRm

)−1R′mX′X,

Page 117: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

116

Figura 36 Vetor βPLS como projeção oblíqua do vetor βOLS

é exatamente o kernel de R′m. Note também que, o kernel de X está contido no

kernel de R′mX′X.

4.4 Determinação do número ótimo de componentes (variáveis latentes)

Um fator fundamental na utilização do PLS é a escolha do número ótimo

de componentes a serem utilizados no modelo. Não existe uma regra formal para

determinar esse número, porém, na literatura, um critério de decisão utilizado

para a metodologia PCR é adotar uma percentagem da variação total explicada

que se deseja obter e usar o número de componentes que atinja esse valor pré-

determinado. Essa abordagem empírica vem sendo usada na prática, geralmente

fixando uma porcentagem de 70% (AZEVEDO, 2012). Porém, por se tratar de um

enfoque empírico, alternativas provenientes de derivações teóricas ou de recur-

sos computacionais intensivos são mais adequadas, como por exemplo as teorias

Graus de Liberdade e Validação Cruzada.

Page 118: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

117

4.4.1 Graus de Liberdade e seleção de modelos

Esta seção tem como referência o artigo Krämer e Sugiyama (2011).

Em regressão, o Grau de Liberdade quantifica a complexidade intrínseca

de um modelo. Para modelos de Regressão Linear, em que os valores ajustados

são funções lineares dos dados, y, isto é, yλ = Hλy com Hλ ∈ Rn×n, em que

H é uma matriz de projeção (hat-matrix), o grau de liberdade é definido como o

traço da matriz de projeção:

DoF (λ) = tr (Hλ) . (10)

Observe que o traço de H é igual à dimensão do subespaço definido pelo

modelo (em geral, o subespaço gerado pelos vetores colunas da matriz de cova-

riáveis). No caso em que a matriz de covariáveis é de posto completo, o DoF é

exatamente igual ao número de parâmetros. Como exemplo, essa definição aplica-

se à Regressão de Componentes Principais.

Na regressão PLS, tem-se, conforme a equação (8), que

ymPLS = y + Tm

(T′mTm

)−1T′my = y + PTy.

Como as componentes dependem não somente das covariáveis, mas também dos

dados, a regressão PLS não é linear. Portanto, a definição (10) não pode ser apli-

cada. É necessário, então, usar uma generalização proposta por Efron (2004).

Page 119: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

118

Definição 4.1. Faça fλ ser uma estimativa da verdadeira função de regressão f,

parametrizada por λ. Defina o vetor de valores ajustados como yλ =

(fλ (x1) ,

. . . , fλ (xn)

)′. Os graus de liberdade são

DoF (λ) = E

(tr

(∂yλ∂y

)).

Assumindo X fixada e a esperança E tomada com relação a y1, . . . yn.

Neste sentido, o grau de liberdade é uma medida da sensibilidade dos va-

lores ajustados como função dos dados.

Para o caso PLS, o DoF fica definido como:

DoF (m) = 1 + E

(tr

(∂PTy

∂y

)).

A constante 1 corresponde à estimação do intercepto, uma vez que a matriz X foi

considerada centrada, e m é o número de componentes utilizados no modelo.

Um estimador não viesado para o Grau de Liberdade da regressão PLS

com m componentes latentes, T = (t1, t2, . . . , tm) , é dado por:

ˆDoF (m) = 1 + tr

(∂PTy

∂y

).

Uma conjectura importante, afirma que DoF(m) ≥ m + 1 (FRANK; FRI-

EDMAN, 1993; MARTENS; NAES, 1989). Para exemplificar, será calculado ex-

plicitamente uma cota inferior para o DoF quando m = 1.

Seja S = 1n−1X′X ∈ Rp×p a matriz de covariância amostral do grupo X,

e s = 1n−1X′y ∈ Rp, a covariância amostral entre os grupos X e Y.

Page 120: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

119

Teorema 2. Se o maior autovalor λmax da matriz de covariância amostral S sa-

tisfaz

λmax ≤1

2tr (S) ,

então

ˆDoF (m = 1) ≥ 1 +tr (S)

λmax.

Demonstração. Sabendo que o primeiro componente é definido por t1 = Xs,

tem-se:

t1‖t1‖

=t1√t1′t1

=Xs√

(Xs)′Xs=

Xs√s′X′Xs

=Xs√s′Ss

,

de onde segue que a projeção de y no primeiro componente t1, é dada por:

(y · t1‖t1‖

)t1‖t1‖

=

(y · Xs√

s′Ss

)Xs√s′Ss

=(y′X) s√

s′Ss

Xs√s′Ss

=s′s√s′Ss

Xs√s′Ss

=s′s

s′SsXs.

Assim,

y1 = y +s′s

s′SsXs. (11)

Calculando a derivada de (11) em relação a y e sendo a derivada de uma

forma quadrática dada por ∂∂y (y′Ay) = 2 (Ay)′ , tem-se:

∂y(y) =

1/n · · · 1/n...

. . ....

1/n · · · 1/n

⇒ tr

(∂

∂y(y)

)=

1

nn = 1, (12)

Page 121: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

120

e,

∂Pt1y

∂y=∂

∂y

(s′s

s′SsXs

)=∂

∂y

(y′XX′y

y′XX′XX′yXX′y

)=

(y′XX′y

y′XX′XX′y

)∂

∂y

(XX′y

)+

∂y

(y′XX′y

y′XX′XX′y

)(XX′y

)=

(y′XX′y

y′XX′XX′y

)XX′ +

((y′XX′XX′y) (2XX′y)′ − (y′XX′y) (2XX′XX′y)′

(y′XX′XX′y)2

)XX′y

=

(y′XX′y

y′XX′XX′y

)XX′ +

(2 (y′XX′XX′y)y′XX′ − 2 (y′XX′y)y′XX′XX′

(y′XX′XX′y)2

)XX′y

=

(y′XX′y

y′XX′XX′y

)XX′ + 2

(y′XX′

(y′XX′XX′y)−

(y′XX′y)y′XX′XX′

(y′XX′XX′y)2

)XX′y

=

(y′XX′y

y′XX′XX′y

)XX′ + 2

(y′XX′XX′y

(y′XX′XX′y)−

(y′XX′y)y′XX′XX′XX′y

(y′XX′XX′y)2

)

=

(y′XX′y

y′XX′XX′y

)XX′ + 2

(1−

(y′XX′y)

(y′XX′XX′y)

(y′XX′XX′XX′y)

(y′XX′XX′y)

)=

s′s

s′SsXX′ + 2

(1−

s′s

s′Ss

s′S2s

s′Ss

).

Usando tr(AB) = tr(BA), segue que:

DoF (m = 1) =1 + tr

(∂PTy

∂y

)=1 + tr

(s′s

s′SsXX′ + 2

(1− s′s

s′Ss

s′S2s

s′Ss

))=1 +

s′s

s′Sstr(X′X

)+ 2− 2

s′s

s′Ss

s′S2s

s′Ss

=3 +s′s

s′Ss

(tr (S)− 2

s′S2s

s′Ss

).

Note que a constante 1 da fórmula é exatamente a derivada do vetor y,

calculada em (12).

Afirmação: s′S2ss′Ss ≤ λmax.

Page 122: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

121

Seja A uma matriz ortogonal, A′A = AA′ =I, que diagonaliza S :

ASA′ =

λ1

. . .

λp

= Λ.

Tem-se que A também diagonaliza S2. Note que

Sv = λv⇒ SSv = λSv⇒ S2v = λ2v,

logo,

AS2A′ =ASA′ASA′ = ΛΛ

=

λ1

. . .

λp

λ1. . .

λp

=

λ21

. . .

λ2p

.

Fazendo s = A′w, em que w = As, tem-se:

s′S2s

s′Ss=

w′AS2A′w

w′ASA′w=

w′Λ2w

w′Λw

=

∑λ2i w

2i∑

λiw2i

=λ2max

λmax

∑(λi

λmax

)2w2

i∑ λiλmax

w2i

.

Page 123: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

122

Como λiλmax

≤ 1⇒(

λiλmax

)2≤ λi

λmax, segue que

s′S2s

s′Ss≤ λmax.

Portanto,

tr (S)− 2s′S2s

s′Ss≥ tr (S)− 2λmax.

Além disso, s′ss′Ss ≥

1λmax

.

Novamente, fazendo s = A′w,

s′s

s′Ss=

w′AA′w

w′ASA′w=

w′w

w′Λw

=

∑w2

i∑λiw2

i

=1

λmax

∑w2

i∑ λiλmax

w2i

.

Como λiλmax

≤ 1, segue que:

s′s

s′Ss≥ 1

λmax.

Assim,

DoF (m = 1) ≥3 +s′s

s′Ss(tr (S)− 2λmax)

≥3 +1

λmax(tr (S)− 2λmax)

=1 +tr (S)

λmax.

Observe que tr(S) é igual a soma dos autovalores e, portanto, tr(S)λmax> 1.

Logo, ˆDoF (m = 1) ≥ 2 e, DoF (m = 1) ≥ 2, mostrando que a conjectura é

Page 124: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

123

verdadeira para m = 1.

Pode-se utilizar o conceito de Grau de Liberdade para determinar um nú-

mero adequado de componentes a ser utilizado na regressão, determinando o DoF

para cada valor de m. Se para um acréscimo em m tem-se um acréscimo considerá-

vel no valor do DoF, esse valor de m é justificado. Porém, se para um acréscimo em

m, o acrésimo no valor do DoF é pequeno, o princípio da parcimônia recomenda

que esse acréscimo na complexidade do modelo é desnecessário. Traçando-se o

gráfico DoF em função do número de componentes, o número adequado de com-

ponentes ocorre quando a curva tende a se estabilizar em um valor constante, como

ilustrado na Figura 37.

Figura 37 Representação de uma curva gerada por valores dos graus liberdade,DoF, em função do número de componentes m

Page 125: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

124

4.4.2 Validação Cruzada

Uma forma mais prática de se determinar o número de componentes, é por

meio da validação cruzada (PÉREZ-CABAL et al., 2012). Este método consiste

em dividir o conjunto de dados originais em N subconjuntos (folds), e realizar N

análises, de forma que em cada uma delas um dos subconjuntos é retirado a fim

de ser utilizado como recurso para validar a análise realizada. Assim, os valores

preditos pelas equações estimadas em cada análise podem ser diretamente com-

parados com os valores observados que foram retirados. No contexto de PLSR, o

número ótimo de componentes será aquele que fornecer o menor erro quadrático

entre o conjunto de valores observados e preditos, como ilustra a Figura 38.

Figura 38 Representação de uma curva gerada por valores de erro quadrático mé-dio em função do número de componentes m

Page 126: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

125

4.5 Exemplo

Matriz de covariâncias simulada conforme a seção 3.5:

6.2810455 8.194268 0.3211009 5.693020 20.811639

8.1942679 10.856983 1.0961611 7.626992 27.924481

0.3211009 1.096161 4.5260950 7.049471 6.085769

5.6930197 7.626992 7.0494713 25.766833 26.599556

20.8116386 27.924481 6.0857694 26.599556 77.622607

Autovalores e autovetores da matriz de covariâncias:

$values

1.043224e+02 1.758224e+01 2.610955e+00 5.375069e-01

4.210175e-04

$vectors

-0.227191 0.178466 -0.292529 -0.457806 0.788272

-0.304403 0.223537 -0.140214 -0.695880 -0.594524

-0.080458 -0.327128 0.851982 -0.371038 0.151556

-0.342879 -0.865085 -0.362872 -0.015131 -0.046416

-0.855384 0.250587 0.192913 0.410200 0.006555

Page 127: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

126

Matriz de correlação:

1.00000000 0.9922922 0.06022318 0.4475032 0.9425322

0.99229225 1.0000000 0.15637163 0.4560035 0.9619144

0.06022318 0.1563716 1.00000000 0.6527760 0.3246830

0.44750325 0.4560035 0.65277602 1.0000000 0.5947710

0.94253219 0.9619144 0.32468300 0.5947710 1.0000000

Matriz de covariáveis X6×4:

0.9391754 2.0814841 4.776478 8.597991

2.1972739 4.1631504 5.466290 6.725786

3.5575236 5.4117197 3.282917 6.600031

-0.8903883 0.1328435 5.472369 4.877636

-0.5096611 0.2326990 3.388711 0.957349

1.9463446 3.6372080 5.319583 7.467699

Vetor da variável resposta Y6×1:

7.820750

11.335945

16.909518

3.731732

-1.821228

9.446128

Page 128: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

127

Vetor de parâmetros estimado via OLS, βOLS :

-42.710500

33.456902

-9.939255

3.077167

Vetor de respostas estimado via OLS, YOLS :

8.510179

11.804963

16.795406

3.091492

-1.182066

8.667023

Utilizando 1 componente: m = 1

Vetor dos componentes:

9.723363

9.813350

9.514253

6.064935

2.297160

10.018880

Page 129: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

128

Vetor de parâmetros estimado via PLS, βPLS, em função dos componen-

tes:

1.088373

Vetor de parâmetros estimado via PLS, βPLS, em função das covariáveis

originais:

0.2557785

0.4469298

0.5175329

0.8071838

Vetor de respostas estimado via PLS, YPLS, em função dos componentes:

10.582641

10.680581

10.355052

6.600909

2.500166

10.904274

Vetor de respostas estimado via PLS, YPLS, em função das covariáveis

originais:

10.582641

10.680581

10.355052

6.600909

2.500166

10.904274

Page 130: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

129

Utilizando 2 componentes: m = 2

Matriz dos componentes:

9.723363 -1.1645658

9.813350 0.5490979

9.514253 3.2962070

6.064935 -3.6298704

2.297160 -2.0393287

10.018880 0.1271250

Vetor de parâmetros estimado via PLS, βPLS, em função dos componen-

tes:

1.088373

1.480342

Vetor de parâmetros estimado via PLS, βPLS, em função das covariáveis

originais:

1.0619346

1.3092326

-0.3592859

0.6364624

Page 131: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

130

Vetor de respostas estimado via PLS, YPLS, em função dos componentes:

8.8586862

11.4934339

15.2345645

1.2274611

-0.5187373

11.0924624

Vetor de respostas estimado via PLS, YPLS, em função das covariáveis

originais:

7.4786659

10.1006417

13.8842227

0.3666752

-0.8447693

9.6704998

Page 132: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

131

Utilizando 3 componentes: m = 3

Matriz dos componentes:

9.723363 -1.1645658 -1.52574743

9.813350 0.5490979 0.79694695

9.514253 3.2962070 0.28010446

6.064935 -3.6298704 0.13097361

2.297160 -2.0393287 1.30889216

10.018880 0.1271250 0.05475768

Vetor de parâmetros estimado via PLS, βPLS, em função dos componen-

tes:

1.08837257

1.48034155

0.09640233

Vetor de parâmetros estimado via PLS, βPLS, em função das covariáveis

originais:

1.0341975

1.3699283

-0.3146987

0.5830576

Page 133: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

132

Vetor de respostas estimado via PLS, YPLS, em função dos componentes:

8.711601

11.570261

15.261567

1.240087

-0.392557

11.097741

Vetor de respostas estimado via PLS, YPLS, em função das covariáveis

originais:

7.3327488

10.1769183

13.9079179

0.3829437

-0.7165427

9.6756510

Page 134: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

133

Utilizando 4 componentes: m = 4

Matriz dos componentes:

9.723363 -1.1645658 -1.52574743 -0.004186004

9.813350 0.5490979 0.79694695 0.004877645

9.514253 3.2962070 0.28010446 0.031876755

6.064935 -3.6298704 0.13097361 0.038476500

2.297160 -2.0393287 1.30889216 -0.016407845

10.018880 0.1271250 0.05475768 -0.050515983

Vetor de parâmetros estimado via PLS, βPLS, em função dos componen-

tes:

1.08837257

1.48034155

0.09640233

48.11779953

Vetor de parâmetros estimado via PLS, βPLS, em função das covariáveis

originais:

-35.14784

16.25217

-22.32000

17.91708

Page 135: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

134

Vetor de respostas estimado via PLS, YPLS, em função dos componentes:

8.510179

11.804963

16.795406

3.091492

-1.182066

8.667023

Vetor de respostas estimado via PLS, YPLS, em função das covariáveis

originais:

48.258491

-11.070420

7.891424

-1.296101

-36.787790

5.768917

Page 136: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

135

Novos valores de Xp e Yp gerados a fim de fazer predição:

Xp

3.289261 5.040320 3.607594 8.119808

Yp

12.87691

Valores preditos para Yp (Yp) via OLS e PLS:

OLS 17.23269

PLS 10.81509 - 1 componente

PLS 15.09155 - 2 componentes

PLS 15.01617 - 3 componentes

PLS 37.04379 - 4 componentes

Page 137: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

136

5 CONCLUSÕES

A abordagem geométrica apresentou-se como uma maneira eficiente e in-

tuitiva para explicitar os passos teóricos da teoria e do algoritmo do método dos

Quadrados Mínimos Parciais. Além disso, permite uma abordagem unificada das

teorias de regressão em Quadrados Mínimos Ordinários, Componentes Principais

e Quadrados Mínimos Parciais.

Page 138: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

137

REFERÊNCIAS

ADÃO, A. S. Introdução à teoria geométrica dos delineamentosexperimentais. 2011. 78 f. Dissertação (Mestrado em Estatística eExperimentação Agropecuária) - Universidade Federal de Lavras, Lavras, MG,2011.

AZEVEDO, C. F. Métodos de redução de dimensionalidade aplicados naseleção genômica para características de carcaça em suínos. 2012. 50 f.Dissertação (Mestrado em Estatística Aplicada e Biometria) - UniversidadeFederal de Viçosa, Viçosa, MG, 2012.

EFRON, B. The Estimation of Prediction Error: covariance penalties andcross-validation. Journal of the American Statistical Association, [s.l.], v. 99,n. 467, p. 619-632, set. 2004.

FERREIRA, D. F. Estatística Multivariada. Lavras: Ed. UFLA, 2008. 662 p.

FRANK, I.; FRIEDMAN, J. A Statistical View of Some ChemometricsRegression Tools. Technometrics, [s.l.], v. 35, n. 2, p. 109-135, maio 1993.

GARTHWAITE, P. H. An Interpretation of Partial Least Squares. Journal of theAmerican Statistical Association, [s.l.], v. 89, n. 425, p. 122-127, mar. 1994.

GUIMARÃES, P. H. S. Uma abordagem geométrica da Teoria de InversasGeneralizadas. 2010. 67 f. Dissertação (Mestrado em Estatística eExperimentação Agropecuária) - Universidade Federal de Lavras, Lavras, MG,2010.

HELLAND, I. S. Partial Least Squares Regression and Statistical Models.Scandinavian Journal of Statistics, [s.l.], v. 17, n. 2, p. 97-114, 1990.

HOSKULDSSON, A. PLS Regression Methods. Journal of Chemometrics,[s.l.], v. 2, p. 211-228, 1988.

Page 139: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

138

HOTELLING, H. The relations of the newer multivariate statistical methods tofactor analysis. British Journal of Mathematical and Statistical Psychology,[s.l.], v. 10, n. 2, p. 69-79, nov. 1957.

JONG, S. SIMPLS: an alternative approach to partial least squares regression.Chemometrics and Intelligent Laboratory Systems, [s.l.], v. 18, p. 251-263,1993.

KALMAN, D. A Singularly Valuable Decomposition: the SVD of a Matrix. TheCollege Mathematics Journal, [s.l.], v. 27, n. 1, p. 2-23, jan. 1996.

KENDALL, M. G. A Course in Multivariate Analysis. London: Griffin, 1957.

KRÄMER, N.; SUGIYAMA, M. The Degrees of Freedom of Partial LeastSquares Regression. Journal of the American Statistical Association, [s.l.], v.106, n. 494, p. 697-705, fev. 2011.

MARTENS, H.; NAES, T. Multivariate Calibration. New York: Wiley, 1989.

MEUWISSEN, T. H. E.; HAYES, B. J.; GODDARD, M. E. Prediction of totalgenetic value using genome wide densemarker maps. Genetics, [s.l.], v. 157, p.1819-1829, abr. 2001.

OTTO, M. Chemometrics. Weinheim: Wiley, 1999. 328 p.

PEREIRA, L. S. Abordagem geométrica à teoria dos modelos deGauss-Markov. 2013. 130 f. Dissertação (Mestrado em Estatística eExperimentação Agropecuária) - Universidade Federal de Lavras, Lavras, MG,2013.

PÉREZ-CABAL, M. A. et al. Accuracy of genome-enabled prediction in a dairycattle population using different cross-validation layouts. Frontiers in Genetics -Livestock Genomics, [s.l.], v. 3, p. 1-7, fev. 2012.

PHATAK, A.; JONG, S. The geometry of partial least squares. Journal of theChemometrics, [s.l.], v. 11, n. 4, p. 311-338, jul. 1997.

Page 140: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

139

R DEVELOPMENT CORE TEAM. R: a language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, 2013. Disponívelem: <http://www.R-project.org.>. Acesso em: 14 nov. 2013.

RAO, C. R. Linear Statistical Inference and Its Applications. New York:Wiley, 2002. 625 p.

ROGGO, Y. et al. A review of near infrared spectroscopy and chemometrics inharmaceutical technologies. Journal of Pharmaceutical and BiomedicalAnalysis, [s.l.], v. 44, n. 3, p. 683-700, jul. 2007.

WOLD, H. Path models with Latent Variables: the NIPALS Approach. In: H. B.et al. (Ed.). Quantitative Sociology: international Perspectives on Mathematicaland Statistical Modeling. [New York]: Academic Press, 1975. p. 307-357.

Page 141: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

140

APÊNDICES

APÊNDICE A - Completamento de Quadrados

Deseja-se o completamento de quadrados em y para o seguinte termo:

x′Cx− 2x′CHy + y′(H′CH + B)y.

Ou seja, deseja-se determinar w tal que:

(y − w)′(H′CH + B

)(y − w) + g(x) = x′Cx−2x′CHy + y′(H′CH + B)y,

em que g(x) é uma função que não depende de y.

Tem-se que:

(y − w)′(H′CH + B

)(y − w)

= y′(H′CH + B

)y − 2w′

(H′CH + B

)y + w′

(H′CH + B

)w.

Observe que, x′CHy = w′(H′CH + B)y. Logo,

w =(H′CH + B

)−1H′Cx.

Portanto,

x′Cx− 2x′CHy + y′(H′CH + B)y

=x′Cx + y′(H′CH + B

)y − 2w′

(H′CH + B

)y

=x′Cx + y′(H′CH + B

)y − 2w′

(H′CH + B

)y

Page 142: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

141

+ w′(H′CH + B

)w − w′

(H′CH + B

)w

= (y − w)′(H′CH + B

)(y − w) + x′Cx− w′

(H′CH + B

)w.

Assim, a distribuição marginal de X é dada por:

fX (x) ∝exp(x′Cx− w′

(H′CH + B

)w)

∝exp(

x′Cx− x′CH(H′CH + B

)−1 (H′CH + B

(H′CH + B

)−1H′Cx

)∝exp

(x′Cx− x′CH

(H′CH + B

)−1H′Cx

)∝exp

(x′(C−CH

(H′CH + B

)−1H′C

)x).

Page 143: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

142

APÊNDICE B - Decomposição em Valores Singulares

Teorema 3. (Decomposição Espectral ou de Jordan). Seja L uma transformação

linear, L : Rn → Rn, simétrica. Então, existe uma base ortonormal de autovetores

{v1,v2, . . . ,vn} , tal que L (vi) = λivi, com λi autovalores de L. De forma

equivalente, para toda matriz simétrica Ln×n existe uma decomposição da forma

L = VDV′, em que D é a matriz diagonal formada pelos autovalores λi de L,

e Vn×n = [v1,v2, . . . ,vn] é a matriz ortogonal formada pelos autovetores de L

em suas colunas.

Esse teorema pode ser generalizado da forma:

Teorema 4. (Decomposição em valores singulares). Seja L uma transforma-

ção linear, L : Rm → Rn, de posto r. Então existe uma base ortonormal de

Rn, {v1,v2, . . . ,vn} , e uma base ortonormal de Rm, {u1,u2, . . . ,um} , tal que

L (vi) = σiui e L′ (ui) = σivi, i = 1, . . . , r e σi = 0, para i ≥ r + 1. De forma

equivalente, toda matriz Ln×m de posto r pode ser decomposta em L = VDU′,

em que Dr×r é a matriz diagonal formada pelos valores singulares σi de L, e

Vn×r = [v1,v2, . . . ,vn] e Um×r = [u1,u2, . . . ,um] são matrizes ortonormais

por coluna.

O teorema da decomposição em valores singulares admite a seguinte in-

terpretação geométrica (KALMAN, 1996):

Seja Ln×m, de posto r, e seja v um vetor na esfera unitária de Rn, isto

é, v =n∑

i=1xivi e ‖v‖2 = x2

1 + . . . + x2n = 1. Então, existem bases tais que

Page 144: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

143

L (vi) = σiui. Logo, para i = 1, . . . , r,

Lv = L

(r∑

i=1

xivi

)=

r∑i=1

xiL (vi) =r∑

i=1

xiσiui.

Fazendo yi = xiσi, segue que:

y21

σ21+ . . .+

y2r

σ2r=

x21σ

21

σ21+ . . .+

x2rσ

2r

σ2r= x2

1 + . . .+ x2r ≤ 1.

Portanto, a imagem pela transformação L da esfera unitária no Rn é um

elipsóide, como pode ser observado pela Figura 39. Este elipsóide será sólido se o

posto da transformação for menor que n.

Figura 39 Como a transformação L deforma uma esfera em um elipsóide

Page 145: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

144

APÊNDICE C - Método das Potências

O Método das Potências, ou Power Method, é um método para obtenção

dos autovalores e autovetores de uma matriz. Sejam x1,x2, . . . ,xn os autovetores

de uma matriz An×n, associados aos autovalores λ1, λ2, · · · , λn, respectivamente,

em que λ1 ≥ λ2 ≥ · · · ≥ λn. Como os autovetores formam uma base ortonormal,

pode-se obter um vetor arbitrário v(0) como uma combinação linear dos vetores

desta base:

v(0) = c1x1 + c2x2 + . . .+ cnxn, (13)

em que c1, c2, . . . , cn são constantes reais.

Pré-multiplicando por A ambos os lados da igualdade (13), e utilizando

que Axi = λixi, tem-se:

Av(0) =A (c1x1 + c2x2 + . . .+ cnxn)

=c1Ax1 + c2Ax2 + . . .+ cnAxn

=c1λ1x1 + c2λ2x2 + . . .+ cnλnxn.

Repetindo o processo k vezes, obtém-se:

A2v(0) =c1λ21x1 + c2λ

22x2 + . . .+ cnλ

2nxn

...

Akv(0) =c1λk1x1 + c2λ

k2x2 + . . .+ cnλ

knxn

=λk1

(c1x1 + c2

λk2λk1

x2 + . . .+ cnλknλk1

xn

).

Page 146: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

145

Como λ1 é o autovalor dominante,(λiλ1

)k→ 0 quando k→∞, logo,

Akv(0) ≈ c1λk1x1,

para k suficientemente grande (Figura 40).

Figura 40 Representação geométrica do método das potências

O método das potências normaliza os produtos Av(k−1) para evitar over-

flow ou underflow (FERREIRA, 2008).

Page 147: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

146

APÊNDICE D - Rotina Computacional para Algoritmo PLS

Rotina utilizada no Exemplo mostrando o passo

a passo do Algoritmo Amostral PLS:

library(MBESS)

library(MASS)

library(Matrix)

# gerando uma matriz de covariâncias

RandomSigma <- function(p = 5, df = 10)

{

T <- diag(sqrt(rgamma(c(rep(1, p)), df/2, 1/2)))

T[lower.tri(T)] <- 0.98*rgamma((p * (p - 1)/2),

df/2, 1/2)

Sigma <- T %*% t(T)

return(Sigma)

}

p <- 5

df <- 2

Sigma <- RandomSigma(p, df)

Sigma

eigen(Sigma)

Rho <- diag(diag(Sigma)^-0.5) %*% Sigma %*%

diag(diag(Sigma)^-0.5)

Page 148: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

147

Rho

nxy=nrow(Sigma)

nxy

# vetor de médias populacional de X e Y

mpXY=as.matrix(c(1,2,3,4,5))

mpXY

# gerando X e Y de uma normal multivariada

XY=mvrnorm(6,mpXY,Sigma)

XY

n = dim(XY)[1]

n

X = as.matrix(XY[1:n,1:4])

X

m = dim(X)[2]

m

X1=sum(X[1:n,1])/n # média da covariável X1

X1

X2=sum(X[1:n,2])/n # média da covariável X2

X2

X3=sum(X[1:n,3])/n # média da covariável X3

X3

X4=sum(X[1:n,4])/n # média da covariável X4

Page 149: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

148

X4

maX=(c(X1,X2,X3,X4)) # vetor de médias amostrais de X

maX

Y = as.matrix(XY[1:n,5])

Y

k = dim(Y)[2]

k

maY=sum(Y[1:n,1])/n # vetor de médias amostrais de Y

maY

# simulação PLS

nc = 4 # variando o no de componentes

# os vetores armazenados

T = U = matrix(0,n,nc)

C = matrix(0,k,nc)

P = W = matrix(0,m,nc)

Cont = matrix(0,1,nc)

# O algoritmo:

contnumbcomp = 1 # contador do no componentes

Page 150: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

149

u = as.matrix(Y[,1]) # passo 1 - o chute inicial

while (contnumbcomp<=nc){

flag = 0 # indicador de convergência

cont = 0

while (flag<1){

cont = cont + 1

w = t(X)%*%u/((t(u)%*%u)[1,1]) # passo 2

w = w/sqrt((t(w)%*%w)[1,1]) # passo 3

t = X%*%w # passo 4

c = t(Y)%*%t/((t(t)%*%t)[1,1]) # passo 5

c = c/sqrt((t(c)%*%c)[1,1]) # passo 6

if (max(sqrt((u - Y%*%c)^2)) > 0.0001) u = Y%*%c

else flag = 1 # passos 7 e 8

}

p = t(X)%*%t/((t(t)%*%t)[1,1]) # passo 9

q = t(Y)%*%u/((t(u)%*%u)[1,1]) # passo 10

Cont[1,contnumbcomp] = cont

W[1:m,contnumbcomp] = w

T[1:n,contnumbcomp] = t

C[1:k,contnumbcomp] = c

U[1:n,contnumbcomp] = u

P[1:m,contnumbcomp] = w

b = (t(u)%*%t)[1]/((t(t)%*%t)[1]) # passo 11

X = X - t%*%t(p) # passo 12

Y = Y - b*(t%*%t(c)) # passo 12

contnumbcomp = contnumbcomp + 1

Page 151: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

150

}

# chamando as matrizes de dados X e Y novamente:

X = as.matrix(XY[1:n,1:4])

X

Y = as.matrix(XY[1:n,5])

Y

# estimando via OLS

beta_ols=solve(t(X)%*%X)%*%t(X)%*%Y

beta_ols

y_ols=X%*%beta_ols

y_ols

# estimando via PLS

beta_pls_T=solve(t(T)%*%T)%*%t(T)%*%Y

beta_pls_T

beta_pls_X=P%*%beta_pls_T

beta_pls_X

y_pls=T%*%beta_pls_T

y_pls

y_pls=X%*%P%*%beta_pls_T

y_pls

Page 152: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

151

# gerando novas matrizes de dados X e Y para predição

XYp=mvrnorm(1,mpXY,Sigma)

XYp

Xp = XYp[1:4]

Xpcentrado=Xp-maX

Yp = XYp[5]

Yp

# Eq. de predição: y = ym + (x-xm)beta

y_pls=maY+Xpcentrado%*%P%*%beta_pls_T

y_pls

y_ols=maY+Xpcentrado%*%beta_ols

y_ols

# verificando ortonormalidade de T

t1 = as.matrix(T[1:n,1])

t2 = as.matrix(T[1:n,2])

t3 = as.matrix(T[1:n,3])

t(t1)%*%t2

t(t1)%*%t3

t(t2)%*%t3

Page 153: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

152

CAPÍTULO 2

Quadrados Mínimos Parciais aplicado à seleção genômica para qualidadede carne em suínos

RESUMO

A principal contribuição da genética molecular no melhoramento animalé a utilização direta das informações de DNA no processo de identificação de ani-mais geneticamente superiores. No âmbito da seleção genômica, uma vez que onúmero de marcadores é geralmente muito maior que o número de animais ge-notipados e tais marcadores são altamente correlacionados, métodos estatísticosbaseados na redução de dimensionalidade apresentam grande aplicabilidade. Den-tre esses métodos, destacam-se a Regressão em Componentes Principais (PCR)e os Quadrados Mínimos Parciais (PLS). Para a aplicação de tais métodos, a de-terminação do número ótimo de componentes a ser utilizado ainda se caracterizacomo uma questão relevante, no entanto, metodologias como a teoria de grausde liberdade (DoF) e a validação cruzada (CV) têm sido propostas. Diante doexposto, objetivou-se aplicar os métodos PCR e PLS, além da regressão tradicio-nal, sem redução de dimensionalidade, em uma análise de seleção genômica emsuínos, considerando um painel de marcadores SNPs de baixa densidade e doisfenótipos relacionados à qualidade da carne (pH medido aos 45 min e às 24 horasapós o abate). Objetivou-se, ainda, testar as teorias DoF e CV na determinação donúmero ótimo de componentes na análise PLS, e sua influência na performancepreditiva do método. Os resultados mostraram que a metodologia PLS é efici-ente para a seleção genômica por possibilitar predições satisfatórias para o pH dacarne suína utilizando apenas informações genotípicas, além de identificar uma re-gião relevante no cromossomo 4. Os métodos DoF e CV foram compatíveis paraa determinação do número ótimo de componentes na análise PLS, sendo este deeficiência superior ao PCR e à regressão múltipla tradicional.

Palavras-chave: Graus de Liberdade. Marcadores SNPs. pH. Validação Cruzada.

Page 154: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

153

ABSTRACT

The main contribution of molecular genetics in animal breeding is the di-rect use of DNA information in the identification process of genetically superioranimals. Within the genomic selection, since the number of markers is generallymuch larger than the number of genotyped animals and such markers are highlycorrelated, statistical methods based on dimensionality reduction have wide appli-cability. Among these methods the Principal Components Regression (PCR) andPartial Least Squares (PLS) are highlighted. To further the application of suchmethods, determining the optimal number of components to be used is characteri-zed as a relevant issue, however, methodologies such as the theory of degrees offreedom (DoF) and cross-validation (CV) have been proposed. Given these facts,we sought to apply PCR and PLS methods, beyond traditional regression withoutdimensionality reduction , in an analysis of genomic selection in pigs consideringa panel of low-density SNP markers and two phenotypes related to meat quality(pH measured at 45 minutes and at 24 hours after slaughter). We still aimed to testthe DoF and CV theories to determine the optimal number of components in thePLS analysis , and its influence on the predictive performance of the method. Theresults showed that the PLS method is efficient for genomic selection for enablingsatisfactory predictions for swine meat pH using only genotypic information, andfor identifying an important region on chromosome 4. The DoF and CV methodswere compatible for determining the optimal number of components in the PLSanalysis, and this method demonstrated itself as being more efficient than PCRand traditional multiple regression.

Keywords: Degrees of Freedom. SNPs Markers. pH. Cross Validation.

Page 155: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

154

1 INTRODUÇÃO

A partir do início do século XXI, os avanços biotecnológicos na área de

automação do processo de genotipagem permitiram o desenvolvimento de novas

classes de marcadores moleculares (JENKINS; GIBSON, 2002), dentre os quais

se destacam os SNPs (Single Nucleotide Polymorphisms). Diante da abundân-

cia destes marcadores, Meuwissen; Hayes; Goddard (2001) idealizaram a seleção

genômica ampla (Genome Wide Selection - GWS). A principal contribuição da ge-

nética molecular no melhoramento animal é a utilização direta das informações de

DNA no processo de identificação de animais geneticamente superiores.

Devido à alta densidade dos marcadores SNPs no genoma, é possível as-

sumir que alguns deles estejam em desequilíbrio de ligação com locos de caracte-

rísticas quantitativas (Quantitative Trait Loci - QTL), possibilitando sua utilização

direta na estimação do valor genético genômico de indivíduos sujeitos a seleção,

inclusive de indivíduos que ainda não foram fenotipados. No âmbito da seleção

genômica, uma vez que o número de marcadores é geralmente muito maior que o

número de animais genotipados (alta dimensionalidade) e tais marcadores são al-

tamente correlacionados (multicolinearidade devida ao desequilíbrio de ligação),

métodos estatísticos baseados na redução de dimensionalidade apresentam grande

aplicabilidade.

Dentre estes métodos destacam-se a regressão em Componentes Princi-

pais (Principal Components Regression - PCR) e os Quadrados Mínimos Parciais

(Partial Least Squares - PLS), os quais são recomendados para situações em que

se tem mais covariáveis do que observações (HOSKULDSSON, 1988) e também

alta correlação entre as covariáveis, uma vez que garantem que a correlação en-

tre qualquer par de variáveis latentes, ou componentes (combinações lineares das

Page 156: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

155

covariáveis), seja igual a zero. A principal diferença entre estes dois métodos é

que o PCR leva em consideração apenas as variáveis explicativas na construção

dos componentes, enquanto que o PLS também leva em consideração as variáveis

respostas (GARTHWAITE, 1994).

Embora o PLS apresente uma vantagem teórica sobre o PCR por conside-

rar a variável resposta no processo de formação dos componentes, a determinação

do número ótimo de tais componentes ainda se caracteriza como um problema re-

levante para a aplicação do referido método, uma vez que diferentes números de

componentes podem levar a diferentes resultados. Metodologias como a teoria de

graus de liberdade (Degrees of Freedom - DoF), a qual é baseada em uma sofis-

ticada teoria estatística (KRÄMER; SUGIYAMA, 2011); e a validação cruzada

(Cross Validation - CV), a qual é de caráter empírico, têm sido propostas. Porém,

até o momento, comparações entre essas metodologias sob o enfoque de predição

genômica ainda não foram reportadas na literatura e merecem ser averiguadas.

Atualmente, fenótipos relacionados com a qualidade da carne são relevan-

tes para a seleção genômica em suínos e, dentre estes, destacam-se as medidas

de pH, como o pH inicial (45 minutos após o abate) e o pH último (24 horas após

abate). A importância de tais fenótipos diz respeito ao fato dos mesmos estarem di-

retamente relacionados com a retenção de água, maciez, suculência e aparência da

carne, que por sua vez relacionam-se com a aceitabilidade e a palatabilidade (BE-

NEVENUTO JUNIOR, 2001). Além disso, como são fenótipos avaliados após o

abate, a identificação de indivíduos superiores destinados a seleção pode ser reali-

zada precocemente por meio de painéis de marcadores SNPs identificados a partir

de análises estatísticas específicas como PCR e PLS.

Diante do exposto, objetivou-se aplicar os métodos PCR e PLS, além da

regressão tradicional sem redução de dimensionalidade, em uma análise de sele-

Page 157: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

156

ção genômica em suínos, considerando um painel de marcadores SNPs de baixa

densidade e dois fenótipos relacionados com a qualidade da carne (pH medido aos

45 min e às 24 horas após o abate). Além disso, objetivou-se, ainda, testar dois

diferentes métodos de determinação do número ótimo de componentes na análise

PLS, a teoria de graus de liberdade e a validação cruzada, bem como sua influência

na performance preditiva do método.

Page 158: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

157

2 MATERIAL E MÉTODOS

2.1 Descrição dos dados utilizados

Os dados utilizados no presente estudo são provenientes da Granja de Me-

lhoramento de Suínos do Departamento de Zootecnia (DZO) da Universidade Fe-

deral de Viçosa (UFV), em Viçosa, Minas Gerais, Brasil. Neste experimento, a

população F2 foi composta de 345 suínos provenientes do cruzamento de dois var-

rões da raça local brasileira Piau, com 18 fêmeas de linhagem desenvolvida na

UFV, pelo acasalamento de animais de linha comercial (Landrace x Large White

x Pietrain).

Os detalhes dos procedimentos utilizados, cuja extração do DNA foi rea-

lizada no Laboratório de Biotecnologia Animal do Departamento de Zootecnia da

Universidade Federal de Viçosa, podem ser encontrados em Peixoto et al. (2006).

A genotipagem foi realizada via tecnologia Golden Gate/Vera Code R, no Labo-

ratório de Genética Animal (LGA), Embrapa Recursos Genéticos e Biotecnologia

(CENARGEN), Brasília, DF, conforme descrito por Hidalgo et al. (2013). Os

marcadores SNPs utilizados estão distribuídos da seguinte forma nos cromosso-

mos da espécie Sus scrofa domesticus: SSC1 (56), SSC4 (54), SSC7 (59), SSC8

(31), SSC17 (25) e SSCX (12), totalizando, assim, 237 marcadores.

Os dados fenotípicos (características de qualidade de carne) de 345 indi-

víduos foram mensurados após o abate (realizado aproximadamente aos 105 dias

de idade dos animais) e, dentre estas características, optou-se por aquelas relacio-

nadas com o pH da carne post-mortem (pH aos 45 minutos, pH45, e às 24 horas,

pHu). Estas medidas de pH foram realizadas pela inserção de um eletrodo de vi-

dro (DIGIMED, DME-CV1), acoplado a um pHmetro DIGIMED DM-20, previa-

Page 159: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

158

mente calibrado, no músculo Longissimus dorsi, retirado da região imediatamente

posterior à última costela do animal.

2.2 Quadrados Mínimos Parciais - PLS

A metodologia do PLS consiste em formar componentes ti, (i = 1, . . . ,m),

que capturem a maior quantidade de informação possível disposta nas variáveis

explicativas X1, . . . ,Xp, neste caso, os marcadores SNPs (os quais assumem os

valores 0, 1 e 2, respectivamente aos genótipos aa, aA e AA), visando a predizer a

variável dependente Y, neste caso, os dois fenótipos considerados (pH45 e pHu).

Sob esse enfoque, a equação de regressão é expressa por:

y = β0 + β1t1 + β2t2 + . . .+ βmtm, (1)

em que ti é o vetor coluna que compõe a matriz de componentes T e βi é a

estimativa dos coeficientes da regressão entre Y e T, ∀i = 1, . . . ,m.

A correlação de qualquer par de componentes é igual a 0, isto é: cor(ti, ti′)

= 0,∀i 6= i′. Assim, o método PLS reduz o número de termos na equação de

regressão, uma vez que o número de componentes na equação (1) geralmente é

menor que o número de variáveis X.

Para simplificar os cálculos, utilizam-se variáveis centradas de Y e Xj

denotadas respectivamente por U1 e V1j, em que:

U1 = Y − Y e V1j = Xj − Xj para j = 1, . . . ,p,

sendo seus vetores de valores dados por u1 = y−y1 e v1j=xj−xj1, em que 1 é

um vetor coluna n-dimensional, 1′ = (1, 1, ..., 1)′.

Page 160: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

159

Os componentes são determinados de forma sequencial, sendo que pri-

meiramente é realizada uma regressão de U1 em função de V11,V12 e, assim por

diante, até V1p. Tais regressões são independentes, portanto, no desenvolvimento

do método PLS, as correlações entre os V1j são ignoradas.

As equações de regressão resultantes do método dos quadrados mínimos

ordinários para j = 1, . . . ,p, são iguais a:

U1j =u′1v1j

v1jv1jv1j.

Segundo Garthwaite (1994), geralmente define-se T1 como uma média

ponderada, dada por:

T1 =

p∑j=1

w1jU1j, (2)

em que w1j é um peso apropriadamente escolhido, com w1j ≥ 0 ep∑

j=1w1j = 1.

Como o componente T1 é uma média ponderada dos U1j,T1 não contém

todas as informações existentes em Xj. A informação de Xj ausente em T1 pode

ser estimada pelos resíduos obtidos na regressão entre V1j e T1.De modo análogo,

a variabilidade em Y que não está sendo explicada por T1 pode ser estimada pelos

resíduos obtidos na regressão entre U1 e T1. Estes resíduos são denotados por V2j

para V1j e por U2 para U1.

O segundo componente, T2, é construído do mesmo modo que T1, porém

substituindo U1 e V1j por U2 e V2j, respectivamente. Desta forma, o procedi-

mento se estende analogamente para os componentes T2, . . . ,Tm.

Generalizando, suponha que Ti seja construído a partir das variáveis Ui

e Vij com j = 1, . . . ,p. Para obter o componente Ti+1, as variáveis V(i+1)j, e

U(i+1)j, devem ser determinadas. Com este propósito, é feita uma regressão entre

Page 161: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

160

Vij e Ti e, assim, V(i+1)j é definido por:

V(i+1)j=Vij−v′ijti

t′iti

ti

sendo ti o vetor de valores de Ti, V(i+1)j os resíduos da regressão ev′ijti

t′iti

o coefi-

ciente da regressão entre Vij e Ti.

De forma análoga, U(i+1)=Ui−uitititi

ti e u(i+1) são os resíduos da regres-

são entre Ui e Ti. Assim, a j-ésima regressão entre Ui+1 e V(i+1)j resulta num

coeficiente de regressão dado por:

b(i+1)j=u′

(i+1)v(i+1)j

v′(i+1)jv(i+1)j

.

Analogamente à equação 2, define-se T(i+1) como sendo:

T(i+1)=

p∑j=1

w(i+1)jb(i+1)jV(i+1)j.

O método é repetido a fim de obter T1,T2, ...,Tm e, após a obtenção dos

m componentes, os coeficientes da equação de regressão (1) são determinados por

meio do método dos quadrados mínimos ordinários.

Conforme já relatado, a principal característica do método PLS é que a

correlação entre qualquer par de componentes é igual a 0, e isso se deve ao fato

dos resíduos provenientes da regressão não serem correlacionados com o regres-

sor, ou seja, V(i+1)j é não correlacionado com Ti. Assim, como cada componente

T(i+1), . . . ,Tm é uma combinação linear de V(i+1)j, os componentes são não

correlacionados com Ti. Essa característica é de suma importância para a sele-

ção genômica ampla, pois o método PLS torna-se uma alternativa eficiente para

Page 162: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

161

se obter preditores apesar da multicolinearidade presente nos dados de marcadores

(covariáveis Xj). Além disso, os coeficientes da equação de regressão (1) podem

ser estimados por uma simples regressão feita entre Y e Ti.Ainda, adicionando-se

componentes à equação, os componentes anteriores não têm seus coeficientes alte-

rados. Deve-se ressaltar que, após os coeficientes da equação (1) serem estimados,

é possível expressar o modelo em relação a Xj, ao invés dos componentes Ti, ou

seja, expressar o modelo em termos de suas variáveis originais e com interpretação

biológica.

A necessidade dessa descrição detalhada do método PLS é justificada pelo

fato desta teoria ser pouco difundida na área de genética e melhoramento. Por ou-

tro lado, a teoria do PCR é amplamente utilizada e já dispõe de vasta literatura

abordando aspectos teóricos (ver Capítulo 1) e aplicações na referida área (AZE-

VEDO et al., 2013), portanto, sua descrição aprofundada não é destacada no pre-

sente trabalho. Quanto ao método da regressão múltipla tradicional, isto é, sem

redução de dimensionalidade, vale ressaltar que em situações nas quais o número

de marcadores é maior que o número de observações fenotípicas, a aplicação da

mesma só é possível via utilização de inversas generalizadas, como a inversa de

Moore-Penrose.

2.3 Número ótimo de componentes (variáveis latentes) no PLS

Os graus de liberdade (DoF) quantificam a complexidade intrínseca de

um método de regressão (VAN DER VOET, 1999). Segundo Krämer e Sugiyama

(2011), a complexidade da análise PLS depende da colinearidade das variáveis pre-

ditoras, de forma que, quanto maior a colinearidade, menor é a complexidade e,

portanto, menor o DoF (menor o número de componentes). Estes autores apresen-

Page 163: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

162

tam uma estimativa não-viesada dos DoF para PLS com m componentes latentes,

T = (t1, t2, . . . , tm) , a qual é dada por:

DoF (m) = 1 + tr

(∂PTy

∂y

). (3)

O termo constante 1 corresponde à estimativa do intercepto β0, que con-

some um grau de liberdade. Para calcular o traço da derivada em (3) de forma

explícita é necessário usar um algoritmo baseado na decomposição ortonormal de

Lanczos (LANCZOS, 1950) de X. Para y e m fixos, a decomposição é única (EL-

DÉN, 2004).

Uma forma mais prática de se determinar o número de componentes é por

meio da validação cruzada. Esse método consiste em dividir o conjunto de dados

originais em N subconjuntos (folds), e realizar N análises, de forma que em cada

uma delas um dos subconjuntos é retirado a fim de ser utilizado como recurso

para validar a análise realizada. Assim, os valores preditos pelas equações estima-

das em cada análise podem ser diretamente comparados com os valores retirados

(observados). No contexto de PLS, o número ótimo de componentes será aquele

que fornecer a maior correlação entre o conjunto de valores observados e preditos.

Embora esse método seja teoricamente mais simples, o mesmo é mais complexo

sob o ponto de vista computacional.

2.4 Capacidade Preditiva

A população original de 345 indivíduos foi fracionada em duas diferen-

tes populações, (N = 2): população de treinamento e população de validação. A

fim de separar os grupos levando em consideração o menor parentesco, utilizou-se

o programa RENUMF90 para prover informações de parentesco que permitiram

Page 164: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

163

compor dois grupos com maior parentesco dentro de cada grupo e menor paren-

tesco entre cada grupo. A população de treinamento, contendo 175 indivíduos, foi

utilizada para estimar os efeitos dos marcadores SNPs, considerando os métodos

PLS, PCR e regressão múltipla tradicional (sem redução de dimensionalidade). A

população de validação, contendo 170 indivíduos, não foi utilizada para estimar os

efeitos de marcadores, mas sim, para avaliar o potencial preditivo de cada um dos

métodos. Dessa forma, os valores preditos para os fenótipos da população de vali-

dação (Yp) foram obtidos da seguinte forma: Yp = Xpβ, sendo Xp os genótipos

dos marcadores SNPs dos indivíduos da população de validação e β o vetor de

estimativas dos efeitos de marcadores provenientes da população de treinamento.

A correlação entre o vetor de fenótipos predito e observado na população

de validação é denominada de capacidade preditiva. Sob o ponto de vista prático,

essa grandeza permite calcular a eficiência da seleção dos indivíduos da popula-

ção de validação utilizando apenas informações genotípicas (Xp) e um vetor de

estimativas (β) proveniente da população de treinamento. Em outras palavras, a

capacidade preditiva quantifica a habilidade de se predizer o mérito genético dos

indivíduos da população de validação sem a necessidade de se utilizar fenótipos

desta população.

Considerando os fenótipos pH45 e pHu do presente estudo, nota-se que,

realmente, a seleção genômica constitui uma ferramenta importante para o me-

lhoramento genético de características de qualidade de carne em suínos, pois se

a capacidade preditiva for alta, é possível predizer a qualidade de carne e, assim,

identificar os animais superiores, sem a necessidade de abate.

Em posse da escolha do melhor método (PLS, PCR e regressão múltipla

tradicional) por meio da capacidade preditiva, os efeitos dos marcadores (em va-

lor absoluto) estimados por este método foram utilizados para a construção dos

Page 165: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

164

gráficos Manhattan plot, nos quais cada ponto representa um marcador SNP com

sua exata localização no genoma (eixo X mostrando sua localização no cromos-

somo) e a magnitude de seu efeito (eixo Y). Estes gráficos são importantes para

identificar possíveis regiões cromossômicas (QTLs) diretamente associadas com

as características de interesse.

Todas as análises foram realizadas no software R (R DEVELOPMENT

CORE TEAM, 2013) por meio das funções pcr, pls.model e pls.cv do pacote pls-

dof.

3 RESULTADOS E DISCUSSÃO

As Figuras 1 e 2 mostram, respectivamente, os resultados da análise de

determinação do número ótimo de componentes no PLS para as variáveis pH45 e

pHu. Por meio destas figuras nota-se que ambos os métodos, DoF e CV, propor-

cionaram o mesmo número ótimo, o qual pode ser resumido em 30 componentes.

Esse valor foi escolhido devido ao fato de se observar a estabilização das curvas a

partir deste número de componentes. Ao utilizar números de componentes acima

deste valor, tem-se um aumento na complexidade do modelo, mas sua performance

permanece inalterada.

Os resultados obtidos na análise de determinação do número de compo-

nentes concordam com aqueles mostrados por Krämer e Sugiyama (2011), os quais

simularam vários cenários envolvendo diferentes números de componentes e ob-

servaram alta concordância entre os métodos DoF e CV quanto à escolha do nú-

mero ótimo de componentes. Porém, da mesma forma que constatado no pre-

sente trabalho, o método CV, por necessitar de maior demanda computacional, é

mais oneroso em relação ao tempo de computação e, portanto, em termos práti-

Page 166: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

165

Figura 1 Determinação do número ótimo de componentes na análise PLS utili-zando a teoria de graus de liberdade (a) e validação cruzada (b) para avariável pH da carne suína aos 45 min após o abate

Figura 2 Determinação do número ótimo de componentes na análise PLS utili-zando a teoria de graus de liberdade (a) e validação cruzada (b) para avariável pH da carne suína 24 horas após o abate

cos, recomenda-se o método DoF. Além disso, sob o ponto de vista estatístico, tal

método deve ser exaltado devido ao seu maior embasamento teórico em relação ao

CV que, por sua vez, pode ser caracterizado como um método empírico baseado

em esforço computacional.

As capacidades preditivas obtidas pelos métodos de redução dimensional

Page 167: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

166

(PLS e PCR) e Quadrados Mínimos Ordinários (Ordinary Least Square - OLS),

para as características de pH45 e pHu, são apresentadas na Figura 3. Devido ao

fato da análise de número ótimo de componentes no PLS ter mostrado resultados

consistentes (DoF e CV indicando 30 componentes), esse mesmo número tam-

bém foi utilizado na análise PCR a fim de proporcionar uma situação na qual tais

métodos sejam diretamente comparáveis.

Figura 3 Capacidades preditivas obtidas pelos métodos PLS, PCR e OLS (regres-são múltipla tradicional) para as características de pH45 (a) e pHu (b)

Nota-se na Figura 3 que o método PLS mostrou-se mais eficiente para

ambas as características, seguido pelo método PCR e, por fim, o método OLS.

Nota-se, ainda, que essas diferenças na capacidade preditiva são estatisticamente

significativas devido ao fato dos intervalos de confiança de 95% para a correlação

não se sobreporem.

De forma geral, embora os métodos PLS e PCR sejam semelhantes no que

diz respeito à condição de correlação nula entre os componentes e à possibilidade

de serem empregados em situações envolvendo número de variáveis maior que o

número de observações, como na presente situação (175 observações individuais e

237 marcadores), observou-se uma nítida vantagem do método PLS em relação a

Page 168: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

167

sua performance preditiva. Certamente, essa vantagem deve-se ao fato do método

PLS levar em consideração a variável resposta no processo de composição dos

componentes, enquanto o método PCR considera apenas as próprias covariáveis.

O fraco desempenho do método OLS pode estar associado à não correção dos pro-

blemas de multicolinearidade e à utilização de uma matriz inversa generalizada

(Moore-Penrose), no caso n < p, a qual pode, em alguns casos, levar a proble-

mas de sobreparametrização (overfitting) se comparada com as inversas clássicas

utilizadas nos métodos PLS e PCR.

Ainda em relação a Figura 3, vale ressaltar que os valores de capacidade

preditiva obtidos pelo método PLS para os fenótipos pH45 e pHu, os quais foram

respectivamente 0,85 e 0,84, realmente comprovam a eficiência da seleção para a

análise de características de qualidade de carne em suínos. Até o momento, não

há relatos na literatura de valores de acurácia de seleção genômica para pH de

carne suína, fato este que impossibilita a comparação direta dos resultados obtidos

no presente trabalho com outros relatos científicos. Porém, de forma geral, estes

valores acima de 80% permitem inferir que seja possível identificar animais ge-

neticamente superiores para pH da carne sem a necessidade de abatê-los, ou seja,

utilizando apenas suas informações genotípicas. Tal fato representa um grande

avanço tecnológico na área de melhoramento de suínos, pois além de reduzir o

intervalo de geração por não necessitar que o animal atinja a idade de abate para

inferir sobre seu mérito genético, também é possível evitar que bons animais sejam

abatidos e, assim, não destinados à reprodução, por não se conhecer de antemão o

mérito de tais animais.

Além da análise preditiva inerente à seleção genômica, também é de inte-

resse a identificação de marcadores SNPs mais relevantes para cada característica,

pois nas regiões cromossômicas destes marcadores é possível inferir sobre a pre-

Page 169: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

168

sença de QTLs e/ou genes de efeito maior que podem vir a ser utilizados para fins

de seleção. Para tanto, faz-se necessário identificar tais marcadores e suas posi-

ções específicas em cada cromossomo, o que pode ser facilmente implementado

por análises gráficas como os Manhattan plots apresentados na Figura 4.

Figura 4 Manhattan plot (efeitos estimados dos SNPs ao longo das posiçõesgenômicas) para as características pH da carne suína aos 45 min (a) e24 horas (b) após o abate

De acordo com a Figura 4, nota-se que para ambos os fenótipos (pH45 e

Page 170: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

169

Tabela 1 Identificação dos SNPs reportados como sendo os mais relevantes paraos fenótipos pH45 (45 min após o abate) e pHu (24 horas após o abate)

Fenótipo SNP chr pos_Mbp EfeitoALGA0026103 4 75,55577 -0,17937ALGA0026237 4 80,01721 0,157341

pH45 ALGA0026100 4 75,53339 0,150047ALGA0026241 4 80,13745 0,138221ALGA0026109 4 75,57379 0,114538ALGA0026103 4 75,55577 -0,11968ALGA0026237 4 80,01721 0,108745

pHu ALGA0026109 4 75,57379 0,095448ALGA0026241 4 80,13745 0,089195ALGA0026100 4 75,53339 0,050324

pHu) detectou-se uma região sugestiva de QTL no cromossomo 4, pois é visível a

alta influência dos SNPs localizados nessa região sobre os fenótipos em questão.

Por meio destes gráficos é possível concluir que a mesma região cromossômica

controla o pH da carne suína em diferentes tempos. Para um maior detalhamento

dessa região, tem-se informações complementares na Tabela 1. Nessa, observa-se

que os SNPs mais relevantes para pH45 são os mesmos para pHu, os quais situam-

se em torno da região entre 75 e 80 Mbp do cromossomo SSC4.

Essa região realmente apresenta influência sobre o pH da carne suína, uma

vez que várias outras pesquisas têm reportado QTLs nessa mesma região cromos-

sômica. Tal afirmação é comprovada por meio da Figura 5, proveniente da base de

dados PigQTLdb (NATIONAL ANIMAL GENOME RESEARCH PROGRAM,

2014), na qual verifica-se alta densidade de QTLs relatados por várias pesquisas

científicas. Dentre essas, destacam-se os resultados encontrados por Stratz et al.

(2012) e Ma et al. (2013), que também utilizaram populações F2 envolvendo li-

nhas comerciais e identificaram QTLs para pH45 nas posições 79,5 e 88,26 Mbp,

Page 171: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

170

respectivamente. Também destacam-se os resultados obtidos por Wimmers et al.

(2006) e Ponsuksili et al. (2010), os quais reportaram QTLs para pHu nas re-

giões 82 e 67 Mbp, respectivamente. Nesses trabalhos foram utilizadas diferentes

populações derivadas da raça Duroc.

Figura 5 Densidade de QTLs reportados na região intermediária do cromossomoSSC4 proveniente da base de dados PigQTLdb.

Em resumo, embora a comprovação da importância desta região do SSC4

para o pH da carne seja interessante para pesquisas científicas na área de gené-

tica suína, ainda são necessárias pesquisas complementares a fim de identificar os

genes de efeito maior nesta região. Dessa forma, uma vez constatada a presença

desses genes e, compreendidos seus mecanismos de atuação, estes podem ser dire-

tamente empregados com objetivos de seleção por meio de genotipagens específi-

cas para os mesmos, as quais permitem inferir sobre o pH da carne, simplesmente

por meio dos genótipos observados para estes genes.

Page 172: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

171

4 CONCLUSÕES

• A metodologia Quadrados Mínimos Parciais é eficiente para a seleção genô-

mica por possibilitar predições satisfatórias (capacidade preditiva acima de

80%) do pH da carne suína, utilizando apenas informações genotípicas ba-

seadas em marcadores SNPs.

• Os métodos Graus de Liberdade e Validação Cruzada foram equivalentes na

determinação do número ótimo de componentes na análise por Quadrados

Mínimos Parciais.

• O método da Regressão em Componentes Principais apresenta vantagens so-

bre a regressão múltipla tradicional em relação à predição genômica, porém,

este é de eficiência inferior ao método Quadrados Mínimos Parciais.

• A análise Quadrados Mínimos Parciais possibilitou identificar uma região

(em torno de 70 e 80 Mbp) relevante no cromossomo 4 para o controle ge-

nético do pH da carne suína.

Page 173: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

172

REFERÊNCIAS

AZEVEDO, C. F. et al. Regressão via componentes independentes aplicada àseleção genômica para características de carcaça em suínos. PesquisaAgropecuária Brasileira, Brasília, v. 48, n. 6, p. 619-626, jun. 2013.

BENEVENUTO JUNIOR, A. A. Avaliação de rendimento de carcaça e dequalidade da carne de suínos comerciais, nativos e cruzados. 2001. 94 f.Dissertação (Mestrado em Ciência e Tecnologia de Alimentos) - UniversidadeFederal de Viçosa, Viçosa, MG, 2001.

ELDÉN, L. Partial least-squares vs. Lanczos bidiagonalization–I: analysis of aprojection method for multiple regression. Computational Statistics and DataAnalysis, [s.l.], v. 46, n. 1, p. 11-31, 2004.

GARTHWAITE, P. H. An Interpretation of Partial Least Squares. Journal of theAmerican Statistical Association, [s.l.], v. 89, n. 425, p. 122-127, mar. 1994.

HIDALGO, A. M. et al. Fine mapping and single nucleotide polymorphismeffects estimation on pig chromosomes 1, 4, 7, 8, 17 and X. Genetics andMolecular Biology, [s.l.], v. 36, n. 4, p. 511-519, dez. 2013.

HOSKULDSSON, A. PLS Regression Methods. Journal of Chemometrics,[s.l.], v. 2, p. 211-228, 1988.

JENKINS, S.; GIBSON, N. High-throughput SNP genotyping. Comparativeand Functional Genomics, [s.l.], v. 3, n. 1, p. 57-66, fev. 2002.

KRÄMER, N.; SUGIYAMA, M. The Degrees of Freedom of Partial LeastSquares Regression. Journal of the American Statistical Association, [s.l.], v.106, n. 494, p. 697-705, fev. 2011.

LANCZOS, C. An Iteration Method for the Solution of the Eigenvalue Problemof Linear Differential and Integral Operators. Journal of Research of the

Page 174: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

173

National Bureau of Standards, [s.l.], v. 45, n. 4, p. 225-280, out. 1950.

MA, J. et al. Genome-Wide Association Study of Meat Quality Traits in a WhiteDuroc × Erhualian F2 Intercross and Chinese Sutai Pigs. PLOS ONE, [s.l.], v. 8,n. 5, p. 1-11, maio 2013.

MEUWISSEN, T. H. E.; HAYES, B. J.; GODDARD, M. E. Prediction of totalgenetic value using genome wide dense marker maps. Genetics, [s.l.], v. 157, p.1819-1829, abr. 2001.

NATIONAL ANIMAL GENOME RESEARCH PROGRAM. PigQTLdb.Disponível em: <http://www.animalgenome.org/QTLdb/>. Acesso em: 8 jan.2014.

PEIXOTO, J. O. et al. Associations of leptin gene polymorphisms withproduction traits in pigs. Journal of Animal Breeding and Genetics, [s.l.], v.123, n. 6, p. 378-383, dez. 2006.

PONSUKSILI, S. et al. Identification of expression QTL (eQTL) of genesexpressed in porcine M. longissimus dorsi and associated with meat quality traits.BMC Genomics, [s.l.], v. 11, n. 572, p. 1-14, 2010.

R DEVELOPMENT CORE TEAM. R: a language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, 2013. Disponívelem: <http://www.R-project.org.>. Acesso em: 14 nov. 2013.

STRATZ, P. et al. A two-step approach to map quantitative trait loci for meatquality in connected porcine F2 crosses considering main and epistatic effects.Animal Genetics, [s.l.], v. 44, p. 14-23, 2012.

VAN DER VOET, H. Pseudo-degrees of freedom for complex predictive models:the example of partial least squares. Journal of Chemometrics, [s.l.], v. 13, n. 3,p. 195-208, jul. 1999.

WIMMERS, K. et al. QTL for microstructural and biophysical muscle propertiesand body composition in pigs. BMC Genetics, [s.l.], v. 7, n. 15, p. 1-14, mar.

Page 175: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

174

2006.

Page 176: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

175

APÊNDICE

APÊNDICE A - Rotina Computacional usada na análise dos dados

memory.limit(size = 100000 )

dados=read.csv("all_gws_2013.csv",h=T,sep=";")

snp=as.matrix(dados[,-(1:13)])

ph45=as.matrix(dados[,2])

snp0=as.matrix(snp[-(176:345),])

ph450=as.matrix(ph45[-(176:345)])

snp1=as.matrix(snp[(176:345),])

ph451=as.matrix(ph45[(176:345)])

library("plsdof")

# Regressão Múltipla Tradicional

beta_ols=ginv(t(snp0)%*%snp0)%*%t(snp0)%*%ph450

gbv_ols=snp1%*%beta_ols

cor.test(gbv_ols,ph451)

Page 177: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

176

# Regressão em Componentes Principais

pcr=pcr(snp0,ph450,m=30)

coef=pcr$coefficients[,30] #manhattan-plot

coef=as.matrix(coef)

max(coef)

gbv_pcr=snp1%*%coef

cor.test(gbv_pcr,ph451)

# Quadrados Mínimos Parciais: DoF

pls=pls.model(snp0,ph450,100,compute.DoF=TRUE,

compute.jacobian=TRUE)

a=information.criteria(pls$RSS, pls$DoF, pls$yhat,

pls$sigmahat, nrow(snp),criterion="bic")

plot(a$DoF)

as.matrix(a$DoF)

coef=pls$coefficients[,30] #manhattan-plot

coef=as.matrix(coef)

max(coef)

gbv_dof=snp1%*%coef

cor.test(gbv_dof,ph451)

Page 178: FERNANDA GOMES DA SILVEIRArepositorio.ufla.br/jspui/bitstream/1/1788/1/TESE... · 2014. 7. 10. · Figura 6 Representação gráfica do núcleo e da imagem de X e X0. . . . . 34

177

# Quadrados Mínimos Parciais: CV

pls_cv=pls.cv(snp,ph45,m=100)

plot(pls_cv$cv.error)