an alise de dados longitudinais - docs.ufpr.br

207
An´ alise de dados longitudinais Vers˜ ao parcial preliminar mar¸ co 2011 Julio M. Singer Juvˆ encio S. Nobre Francisco Marcelo M. Rocha Departamento de Estat´ ıstica Universidade de S˜ao Paulo Caixa Postal 66281 ao Paulo, SP 05314-970 Brasil

Upload: others

Post on 04-Nov-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An alise de dados longitudinais - docs.ufpr.br

Analise de dados longitudinais

Versao parcial preliminar

marco 2011

Julio M. Singer

Juvencio S. Nobre

Francisco Marcelo M. Rocha

Departamento de EstatısticaUniversidade de Sao Paulo

Caixa Postal 66281Sao Paulo, SP 05314-970

Brasil

Page 2: An alise de dados longitudinais - docs.ufpr.br
Page 3: An alise de dados longitudinais - docs.ufpr.br

Conteudo

1 Introducao 1

1.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3 Analise descritiva e medidas resumo . . . . . . . . . . . . 24

2 Modelos lineares para dados gaussianos 31

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Modelos para a estrutura de covariancia . . . . . . . . . 33

2.3 Inferencia por maxima verossimilhanca . . . . . . . . . . 37

2.4 Solucao das equacoes de estimacao . . . . . . . . . . . . 47

2.5 Estrategias de analise . . . . . . . . . . . . . . . . . . . . 55

2.6 Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.7 Notas de capıtulo . . . . . . . . . . . . . . . . . . . . . . 57

2.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3 Analise de dados 59

3.1 Estudos pre-teste/pos-teste . . . . . . . . . . . . . . . . . 59

3.2 Analise de perfis . . . . . . . . . . . . . . . . . . . . . . . 71

3.2.1 Uma estrategia para analise de perfis . . . . . . . 76

A Matrizes e espacos vetoriais 85

A.1 Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

A.1.1 Operacoes basicas . . . . . . . . . . . . . . . . . . 86

Page 4: An alise de dados longitudinais - docs.ufpr.br

CONTEUDO CONTEUDO

A.1.2 Tipos especiais de matrizes . . . . . . . . . . . . . 88

A.1.3 Submatrizes e matrizes particionadas . . . . . . . 90

A.1.4 Independencia linear e espaco-coluna . . . . . . . 91

A.1.5 Determinante de uma matriz . . . . . . . . . . . . 92

A.1.6 Inversao de matrizes . . . . . . . . . . . . . . . . 93

A.1.7 Traco de uma matriz . . . . . . . . . . . . . . . . 95

A.1.8 Soma direta e produto de Kronecker . . . . . . . 96

A.1.9 Operadores vec e vech . . . . . . . . . . . . . . . 98

A.2 Topicos de Algebra Linear . . . . . . . . . . . . . . . . . 99

A.3 Formas lineares, bilineares e quadraticas . . . . . . . . . 105

A.4 Decomposicao de matrizes . . . . . . . . . . . . . . . . . 107

A.5 Derivadas de vetores e matrizes . . . . . . . . . . . . . . 108

A.6 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 117

B Regressao 121

B.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . 121

B.2 Metodo de mınimos quadrados . . . . . . . . . . . . . . . 133

B.3 Metodo de maxima verossimilhanca . . . . . . . . . . . . 139

B.4 Particao da soma de quadrados . . . . . . . . . . . . . . 140

B.5 Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 141

B.5.1 Analise de Resıduos . . . . . . . . . . . . . . . . . 143

B.5.2 Analise da suposicao de normalidade . . . . . . . 147

B.5.3 Analise de sensibilidade . . . . . . . . . . . . . . 151

B.5.4 Analise da suposicao de correlacao nula . . . . . . 159

B.6 Parametrizacao de modelos lineares . . . . . . . . . . . . 170

B.7 Regressao logıstica . . . . . . . . . . . . . . . . . . . . . 175

B.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Bibliografia 187

Singer & Nobre & Rocha - marco/2011

Page 5: An alise de dados longitudinais - docs.ufpr.br

Capıtulo 1

Introducao

Neste capıtulo caracterizamos estudos com estrutura longitudinal con-trastando-os com outros tipos, identificamos os conceitos que permeiamessa modalidade de investigacao, introduzimos uma notacao apropriadapara a descricao dos dados coletados sob esse molde, descrevemos diversosexemplos, identificando suas peculiaridades dentro desse contexto e final-mente consideramos alguns metodos basicos para sua analise. Mais es-pecificamente, na Secao 1.1 ocupamo-nos da mencionada caracterizacao,salientando a dependencia entre as observacoes que distingue esse tipode estudo e damos os primeiros passos no estabelecimento da notacaoempregada no texto. Na Secao 1.2 descrevemos um conjunto de ex-emplos com complexidade crescente, apontando suas particularidades erelacionando-as com os conceitos descritos na secao anterior. Finalmentena Secao 1.3, apresentamos algumas tecnicas simples para a descricao eanalise de dados longitudinais.

1.1 Conceitos basicos

Em muitas situacoes praticas, ha interesse em modelar o comportamentode uma ou mais variaveis respostas medidas nas unidades de uma oumais populacoes ao longo de alguma dimensao ordenada. Um exemplosimples envolve a modelagem da variacao diaria da pressao sanguıneade indivıduos normais ou hipertensos durante um certo perıodo. Numcampo diferente, um estudo cujo objetivo e estimar as concentracoes departıculas em suspensao a diferentes distancias de uma fonte poluidora

Page 6: An alise de dados longitudinais - docs.ufpr.br

2 1.1 CONCEITOS BASICOS

constitui um segundo exemplo. Com objetivo simplificador, referir-nos-emos a essa escala ordenada ao longo da qual se fazem as medidas repeti-das como tempo. Embora o caso geral possa envolver multiplas variaveisrespostas, concentraremos nossa atencao no caso univariado.

Neste contexto, podemos identificar duas grandes estrategias paracoleta de dados. A primeira envolve uma unica observacao (realizadanum instante especificado) da variavel resposta para cada elemento (pa-cientes, por exemplo) de uma amostra de cada populacao de interesse (deindivıduos normais ou hipertensos, por exemplo). A segunda estrategiaenvolve duas ou mais observacoes (realizadas em instantes diferentes)da variavel resposta em cada unidade amostral sob investigacao. Noprimeiro caso, dizemos que o estudo tem um planejamento transversale no segundo, referimo-nos ao planejamento como longitudinal. EmBioestatıstica, esta ultima forma de coleta de dados tambem e conhecidacomo coorte ao passo que em outros campos do conhecimento, comoSociologia, Economia ou Administracao, ela e cognominada painel.

Convem esclarecer que os problemas nos quais temos interesse diferemdaqueles usualmente conhecidos sob a denominacao de series de tempoou series cronologicas na medida em que nestes, em geral, uma unicaunidade amostral e avaliada em muitos (200 ou mais, por exemplo) in-stantes enquanto que naqueles, varias (5 ou mais, por exemplo) unidadesamostrais sao observadas em poucas (2 a 20, por exemplo) ocasioes. Paracontrastar os dois tipos de estudo podemos considerar de um lado, ainvestigacao sobre o regime diario de chuvas numa determinada regiaonos ultimos 50 anos e de outro, a pesquisa sobre os padroes mensais decrescimento de recem-nascidos no primeiro ano de vida. Leitores inter-essados em analise de series cronologicas podem consultar Morettin &Toloi (2006), entre outros.

Estudos longitudinais constituem um caso especial daqueles conheci-dos sob a denominacao de medidas repetidas, que englobam os plane-jamentos do tipo split-plot e com intercambio (crossover). Planeja-mento do tipo split-plot envolvem dois fatores; as unidades experimen-tais (whole-plots) sao aleatoriamente alocadas aos diferentes nıveis doprimeiro fator e os nıveis do segundo fator sao aplicados a unidades ob-servacionais (split-plots). Num estudo para avaliar o efeito da temper-atura e do tipo de materia prima na consistencia de um tipo de bolo, asunidades experimentais (whole-plots) sao bandejas e as unidades observa-cionais (split-plots) sao bolos com tamanho padronizado. As bandejas sao

Singer & Nobre & Rocha - marco/2011

Page 7: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 3

aleatoriamente tratadas sob os diferentes nıveis do fator Temperatura eos diferentes nıveis do fator Materia prima sao aleatoriamente atribuıdosaos bolos de cada bandeja. O caso mais simples de planejamento comintercambio (dois tratamentos em dois perıodos) envolve dois grupos deunidades experimentais; o primeiro e submetido a um tratamento A noprimeiro perıodo e a um tratamento B no segundo perıodo; para asunidades experimentais do segundo grupo, a ordem dos tratamentos einvertida (tratamento B no primeiro perıodo e tratamento A no segundoperıodo). Tanto no caso de experimentos do tipo split-plot quanto nocaso de experimentos com intercambio, os tratamentos intraunidades ex-perimentais sao alocados aleatoriamente as unidades observacionais. Acaracterıstica que distingue os estudos longitudinais e a dimensao or-denada ao longo da qual as medidas intraunidades experimentais saorepetidas. A analise de dados longitudinais tem uma longa historia naliteratura estatıstica e tem sido objeto de inumeros textos, dentre os quaisdestacamos Goldstein (1979), Duncan & Kalton (1987), Crowder & Hand(1990), Jones (1993), Lindsey (1999), Diggle, Heagerty, Liang & Zeger(2002), Baltagi (1995), Vonesh & Chinchilli (1997), Bruner, Domhof &Langer (2002), Molenberghs & Verbeke (2000) e Molenberghs & Verbeke(2005), entre outros. O leitor interessado em planejamentos do tipo split-plot ou em planejamentos com intercambio podera consultar Cochran &Cox (1992), Cox (1992) ou Ratkowsky, Aldredge & Evans (1992), porexemplo.

Estudos longitudinais tem interesse especial quando o objetivo e avaliarmudancas globais ou individuais ao longo do tempo. pode ser interpre-tado como o efeito do tratamento k, Em primeiro lugar, eles permitemque a variavel resposta seja observada em unidades amostrais sob nıveisconstantes de outras covariaveis que podem influencia-la. No exemplodescrito acima, variacoes temporais na pressao sanguınea medida numesquema longitudinal deveriam estar (pelo menos parcialmente) livresda influencia dos habitos de vida dos pacientes selecionados; isso naoaconteceria num estudo transversal, em que as flutuacoes cronologicasda pressao sao avaliadas com base em diferentes indivıduos. Esta carac-terıstica e de especial interesse nos casos em que a variabilidade inter-indivıduos e maior do que a variabilidade intra-indivıduos. Em segundolugar, planejamentos longitudinais proveem informacoes sobre variacoesindividuais nos nıveis da variavel resposta. Finalmente, e importante no-tar que alguns parametros dos modelos estatısticos subjacentes podemser estimados de forma mais eficiente sob planejamentos longitudinais do

Singer & Nobre & Rocha - marco/2011

Page 8: An alise de dados longitudinais - docs.ufpr.br

4 1.1 CONCEITOS BASICOS

que sob planejamentos transversais com o mesmo numero de observacoes.

Consideremos, por exemplo, uma situacao em que o interesse recai nacomparacao das medias de uma certa variavel resposta sob duas condicoesdiferentes, por exemplo, na comparacao das frequencias cardıacas mediasde indivıduos em condicoes normais e sob estresse. Sejam X e Y , respec-tivamente essas frequencias cardıacas e suponhamos que ambas seguemdistribuicoes normais com uma variancia comum σ2.

Num contexto transversal, a comparacao de interesse seria baseadanos dados de duas amostras independentes de indivıduos com n unidadesamostrais cada, digamos (X1, . . . , Xn) e (Y1, . . . , Yn). A estatıstica ade-quada seria t = (X − Y )/s

√2/n em que X e Y denotam as medias

amostrais de X e Y , respectivamente e s2 representa a variancia amostralcombinada (pooled).

Num contexto longitudinal, a comparacao seria baseada na observacaoda resposta nas mesmas n unidades amostrais, antes X e depois Y de elasserem submetidas ao estımulo estressante. Para essa finalidade, utilizar-se-ia a conhecida estatıstica t-pareada, td = (X − Y )/sd

√1/n em que s2

d

denota a variancia amostral de D = X−Y, uma estimativa nao-enviesadada variancia 2σ2 − 2σXY , com σXY representando a covariancia entre Xe Y. Quando σXY e positiva, esperamos que o denominador de td sejamenor que o de t e, consequentemente, que o teste correspondente sejamais poderoso para detectar diferencas entre as respostas medias daspopulacoes sob investigacao.

1

A maior desvantagem dos estudos longitudinais esta relacionada comseu custo, pois em muitas situacoes exige-se um grande esforco paragarantir a observacao das unidades amostrais nos instantes pre-determinadose em outras, o perıodo de observacao pode ser muito longo. Em muitosensaios clınicos, por exemplo, e necessario acompanhar os pacientes comextremo cuidado para que cumpram o protocolo experimental e nao aban-donem o estudo. Os aspectos tecnicos tambem podem ser consideradoscomo uma desvantagem, pois a analise estatıstica de dados obtidos sobesse tipo de planejamento e, em geral, mais difıcil que a analise de dadosobtidos sob esquemas transversais.

1

Na realidade o teste t pareado pode ser empregado em situacoes mais gerais emque X e Y tem variancias σ2

X e σ2Y , respectivamente, nao necessariamente iguais.

Nesse caso s2d e um estimador nao-enviesado da variancia de D = X − Y , nomeada-mente σ2

X + σ2Y − 2σXY .

Singer & Nobre & Rocha - marco/2011

Page 9: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 5

Essencialmente, os problemas com que nos deparamos no contexto deestudos longitudinais sao similares aqueles com que nos defrontamos emestudos transversais. Para dados com distribuicoes normais, eles podemser classificados como problemas de Analise de Variancia (ANOVA) ouAnalise de Regressao (linear ou nao linear). A diferenca basica entreeles reside numa possıvel dependencia (estatıstica) entre as observacoesintraunidades amostrais, presente apenas nos dados provenientes de es-tudos longitudinais. A consequencia pratica desse tipo de dependenciareflete-se as vezes num fenomeno conhecido como trilhamento (track-ing), segundo o qual, unidades amostrais com nıveis de resposta maisaltos (ou mais baixos) no inıcio da coleta de observacoes tendem a man-ter suas posicoes relativas ao longo de todo o estudo. O esforco adicionalrequerido na analise de dados longitudinais relativamente aquele exigidoem estudos transversais concentra-se praticamente na modelagem dessaestrutura de dependencia estatıstica.

Em estudos longitudinais, os dados associados a cada unidade amostralpodem ser expressos na forma de um vetor cujos elementos sao os val-ores da variavel resposta (pressao sanguınea, por exemplo) em cada in-stante de observacao e de uma matriz cujos elementos correspondemaos valores das variaveis explicativas (ou independentes) que podem teruma natureza classificatoria (tratamento, genero, por exemplo) ou nao(tempo, temperatura, etc.). Dentre essas, algumas podem variar entreunidades amostrais (tratamento, genero, por exemplo) e outras podemtem variacao intraunidades amostrais (habitos tabagistas, exposicao apoluentes etc.); estas sao cognominadas covariaveis dependentes dotempo (time dependent covariates).

O vetor com as pi respostas para a i-esima unidade amostral (i =1, . . . , n) e conhecido como perfil individual de resposta (individualresponse profile) e pode ser expresso como

yi = (yi1, . . . , yipi)> (1.1.1)

em que yik denota o valor de variavel resposta para a i-esima unidadeamostral no k-esimo instante de observacao, (k = 1, . . . , pi) e a> denotao vetor a com os elementos transpostos. A matriz pi×m com os valoresdas variaveis explicativas pode ser expressa como

Xi = (xi1, . . . ,xim) (1.1.2)

em que xij = (xij1, . . . , xijpi)> com xijk representando o valor da j-esima

Singer & Nobre & Rocha - marco/2011

Page 10: An alise de dados longitudinais - docs.ufpr.br

6 1.1 CONCEITOS BASICOS

variavel independente (j = 1, . . . ,m) para a i-esima unidade amostralobservada no k-esimo instante (k = 1, . . . , pi).

Quando o esquema de coleta de dados determina que todas as unidadesamostrais devem ser observadas nos mesmos instantes (igualmente espacadosou nao), dizemos que o planejamento e balanceado com relacao aotempo. Se, por outro lado, o planejamento determina que conjun-tos diferentes de unidades amostrais sejam observados em conjuntos deinstantes diferentes (como nos chamados planejamentos encadeados(linked) ou mais geralmente transversais mistos segundo a nomenclaturaapresentada por Rao & Rao (1966) ou permite que os dados sejam cole-tados irregularmente ao longo do tempo, ele e dito desbalanceado comrelacao ao tempo. Tanto neste caso, quanto naqueles planejados deforma balanceada mas para os quais existem observacoes omissas, osdados sao ditos desbalanceados com relacao ao tempo. Um resumo dosprincipais conceitos empregados em pesquisas sobre dados longitudinaisbem como uma tentativa de padronizacao da terminologia correspondentepode ser encontrado em Helms (1992).

Para efeito de analise, dados de estudos longitudinais devem ser dis-postos de forma a conter uma indicacao da unidade amostral a que osvalores das variaveis respostas e variaveis explicativas estao associados.Na Tabela 1.1.1 apresentamos um paradigma para a disposicao de umconjunto de dados em que as diferentes unidades amostrais sao obser-vadas em conjuntos de instantes de tempo possivelmente diferentes. Emcada unidade amostral tanto a resposta (Y ) quanto as variaveis explica-tivas (X, W , V e Z) sao observadas em cada instante. As variaveis X,W e V representam caracterısticas fixas da unidade amostral e por issosao covariaveis independentes do tempo ao passo que a variavel Z e umaco variavel dependente do tempo pois seus valores nao sao constantesao longo do tempo. Num estudo clınico, por exemplo, X e W pode-riam representar o sexo e o tipo de droga administrado aos participantes,caracterizando fatores no sentido usual de ANOVA. A variavel V pode-ria corresponder a idade dos pacientes, caracterizando uma covariavel noespırito de Analise de Covariancia (ANCOVA). A variavel Z, por sua vez,poderia indicar a quantidade de gordura animal ingerida pelos partici-pantes entre instantes consecutivos avaliacao, justificando a classificacaoacima designada.

Singer & Nobre & Rocha - marco/2011

Page 11: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 7

Tabela 1.1.1: Uma estrutura para disposicao de dados longitudinais

Unidade Covariaveisamostral Resposta Tempo X W V Z

1 y11 t11 x1 w1 v1 z11

1 y12 t12 x1 w1 v1 z12

. . . . . . .1 y1p1 t1p1 x1 w1 v1 z1p1

2 y21 t21 x2 w2 v2 z21

2 y22 t22 x2 w2 v2 z22

. . . . . . .2 y2p2 t2p2 x2 w2 v2 z2p2

. . . . . . .n yn1 tn1 xn wn vn zn1

n yn2 tn2 xn wn vn zn2

. . . . . . .n ynpn tnpn xn wn vn znpn

Neste caso, admitindo que os fatores X e W tenham dois nıveis cadae que tanto V quanto Z sejam variaveis contınuas, as matrizes (1.1.2)seriam dadas por

Xi =

ti1 xi wi vi zi1ti2 xi wi vi zi2...

......

......

tipi xi wi vi zipi

.

Quando os fatores X e W tem mais do que dois nıveis podemos repre-senta-los por meio do acrescimo de colunas a matriz Xi. Com objetivoscomputacionais, e comum concatenar os perfis de resposta e as matrizesde variaveis explicativas individuais, respectivamente, na forma de umvetor com dimensao (

∑ni=1 pi × 1)

y = (y>1 , . . . ,y>n )>

e de uma matriz com dimensao (n∑n

i=1 pi × 5)

X = (X>1 , . . . ,X>n )>.

Quando os dados sao balanceados em relacao ao tempo e nao hacovariaveis contınuas nem covariaveis dependentes do tempo, tambem

Singer & Nobre & Rocha - marco/2011

Page 12: An alise de dados longitudinais - docs.ufpr.br

8 1.1 CONCEITOS BASICOS

e possıvel apresenta-los no formato da Tabela 1.1.2 para facilitar certotipo de analises classicas que discutiremos adiante. Para efeito de sim-plificacao, assumimos que o fator X tem m nıveis e que o fator W temapenas 2 nıveis. Na tabela, yhijk corresponde ao valor da variavel respostapara j-esima unidade amostral submetida ao h-esimo nıvel do fator X,i-esimo nıvel do fator W no tempo k, h = 1, . . . ,m, i = 1, 2 j = 1, . . . , nhie k = 1, . . . , p.

Neste caso, e comum dispor os perfis de resposta

yhij = (yhij1, yhij2, . . . , yhijp)>

na forma de uma matriz com dimensao (n×p) em que n = 2m∑m

h=1

∑2i=1 nhi

dada por

Y = (y111,y112, . . . ,y11n11 , . . . ,ym21,ym22, . . . ,ym2nm2)>.

As matrizes individuais de variaveis explicativas sao geralmente agru-padas na forma de uma matriz com dimensao n×2m dada, por exemplo,por

X = diag(X1,X2, . . . ,Xm)

com

Xh =

(1nh1 0nh11nh2 0nh2

).

A forma mais simples de analise de dados longitudinais envolve ouso de tecnicas de ANOVA parametrica ou nao parametrica tendo comovariavel resposta algum tipo de medida resumo uni ou bivariada doperfil de respostas (que e essencialmente multivariado). Exemplos tıpicosdessas medidas resumo sao a area sob a curva ou o desfecho (end-point). Esse enfoque incorpora a estrutura de correlacao intraunidadesamostrais da mesma forma que as diferencas consideradas em problemasanalisados por meio de testes t pareados o fazem. Ele e util quando oobjetivo e a comparacao das populacoes sob investigacao com respeitoa alguma caracterıstica da distribuicao da variavel resposta e nao incluiuma avaliacao de seu comportamento longitudinal. O leitor podera con-sultar Rowell & Walters (1976) ou Bryant & Gillings (1985) para umarevisao de estrategias de analise que empregam esse enfoque. Algumasdelas serao revistas na Secao 1.3.

Singer & Nobre & Rocha - marco/2011

Page 13: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 9

Tabela 1.1.2: Uma estrutura para disposicao de dados longitudinais bal-anceados em relacao ao tempo

Fatores Unidade Instantes de avaliacaoX W amostral 1 2 . . . p

1 1 1 y1111 y1112 . . . y111p

1 1 2 y1121 y1122 . . . y112p

. . . . . . .1 1 n11 y11n111 y11n112 . . . y11n11p

1 2 1 y1211 y1212 . . . y121p

1 2 2 y1221 y1222 . . . y122p

. . . . . . .1 2 n12 y12n121 y12n122 . . . y12n12p

. . . . . . .2 1 1 y2111 y2112 . . . y211p

2 1 2 y2121 y2122 . . . y212p

. . . . . . .2 1 n21 y21n211 y21n212 . . . y21n21p

2 2 1 y2211 y2212 . . . y221p

2 2 2 y2221 y2222 . . . y222p

. . . . . . .2 2 n22 y22n221 y22n222 . . . y22n22p

. . . . . . .m 1 1 ym111 ym112 . . . ym11p

m 1 2 ym121 ym122 . . . ym12p

. . . . . . .m 1 nm1 ym1nm11 ym1nm12 . . . ym1nm1p

m 2 1 ym211 ym212 . . . ym21p

m 2 2 ym221 ym222 . . . ym22p

. . . . . . .m 2 nm2 ym2nm21 ym2nm22 . . . ym2nm2p

Alternativamente, modelos lineares ou nao lineares podem ser em-pregados para avaliar a relacao entre a variavel resposta e as variaveisexplicativas. Esses modelos podem ser classificados como populacionaismedios (population-averaged) ou individuais (subject-specific). Mod-elos populacionais medios sao aqueles em que a atencao esta focada novalor esperado da resposta (entre todos os indivıduos da populacao) e

Singer & Nobre & Rocha - marco/2011

Page 14: An alise de dados longitudinais - docs.ufpr.br

10 1.1 CONCEITOS BASICOS

modelos individuais sao aqueles em que o interesse recai nas respostas decada indivıduo. O leitor podera consultar Zeger, Liang & Albert (1988)para detalhes sobre o assunto, embora as diferencas entre as duas classespossa ser esclarecida com os exemplos apresentados na proxima secao.

Sob outra perspectiva, modelos para dados longitudinais podem serclassificados como condicionais ou incondicionais. Os primeiros saoaqueles em que o valor esperado da variavel resposta, E(yik), e expressoexclusivamente em termos das variaveis explicativas xi1k, . . . , ximk. Se,entre elas o tempo e tomado como uma variavel discreta que indica aordem em que a resposta e observada em cada unidade amostral sob umplanejamento balanceado (possivelmente com dados omissos), os modeloscorrespondentes sao conhecidos como modelos de perfis e sao equiva-lentes aqueles costumeiramente considerados em ANOVA ou ANCOVA.Nos casos em que o tempo e encarado como uma variavel contınua, i.e.,em que o interesse recai na sua relacao funcional com a variavel resposta,os modelos correspondentes sao designados modelos de crescimentoou curvas de crescimento. Modelos condicionais, por outro lado, saoaqueles em que a relacao entre a variavel resposta e as variaveis explica-tivas num certo instante e condicionada a valores previos da resposta.

Duas abordagens distintas podem ser consideradas para o processode geracao desses modelos. A primeira e essencialmente orientada pelosdados e considera funcoes polinomiais para descrever a relacao entre avariavel resposta e as variaveis explicativas. Talvez seja este o enfoquemais comumente empregado na pratica, principalmente em razao da sim-plicidade das tecnicas utilizadas na analise. Apesar de que em muitoscasos esse tipo de modelos nao incorpora o verdadeiro mecanismo ger-ador dos dados, eles podem ser satisfatorios dentro de certos limites.No que tange aos parametros de localizacao (ou de regressao), esse en-foque nao difere muito daquele usualmente adotado na analise de dadoscom estrutura transversal; o componente distintivo e obtido por meio dorelaxamento da suposicao de independencia para as observacoes intrau-nidades amostrais. Um exemplo tıpico envolve a relacao linear entre umamedida anatomica (distancia entre a fissura pterigomaxilar e o centro daglandula pituitaria) e idade (com quatro nıveis: 8, 10, 12 e 14 anos) decriancas de ambos os sexos num estudo ortodontico descrito no artigoclassico de Potthoff & Roy (1964). Nao fosse pelo fato de as medidasserem tomadas em cada crianca aos 8, 10, 12 e 14 anos, o planejamentoassociado a esse estudo seria classif,icado como cruzado com dois fatores

Singer & Nobre & Rocha - marco/2011

Page 15: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 11

(sexo e idade) e poderia ser analisado por intermedio de uma ANOVA.

A segunda e fundamentada em consideracoes teoricas sobre o fenomenoinvestigado e geralmente produz modelos baseados em equacoes diferen-ciais estocasticas. Modelos gerados por esse tipo de enfoque sao usual-mente nao lineares e os parametros correspondentes (frequentemente daordem de dois ou tres) descrevem caracterısticas importantes do objetode estudo, como taxas de crescimento ou assıntotas. Eles sao conhecidoscomo modelos mecanısticos; um exemplo tıpico e aquele baseado noprocesso de Ornstein-Uhlenbeck que envolve solucoes de equacoes dotipo

dYi(t)/dt = −αYi(t) + σdBi(t)/dt (1.1.1)

em que Yi(t) representa a resposta para a i-esima unidade amostralno tempo t, α e uma constante positiva e Bi(t) representa um movi-mento browniano com variancia infinitesimal σ2. Segundo este modelo,a taxa de variacao da resposta e proporcional ao valor da resposta emcada instante. O leitor interessado podera consultar Izeman & Williams(1989), Dwyer (1992), Davidian & Giltinian (1995) ou Vonesh & Chin-chilli (1997), para maiores detalhes.

Por muitos anos, quase todos o desenvolvimento de tecnicas estatısticaspara a analise de dados longitudinais teve seu foco na orbita de mod-elos univariados para respostas contınuas, com especial concentracaonaqueles cuja distribuicao subjacente e gaussiana. A facilidade do trata-mento matematico aliada a propriedade de que a dependencia entre asobservacoes intraunidades amostrais pode ser facilmente modelada pormeio dos momentos de segunda ordem (variancias e covariancias) talvezsejam as maiores razoes para isso. Alem disso, esse momentos de segundaordem, em muitos casos, podem ser modelados independentemente dosmomentos de primeira ordem facilitando a analise. Mais recentemente,metodos estatısticos baseados nos modelos lineares generalizadostem sido considerados para a analise de dados com distribuicao na famıliaexponencial, modelos lineares elıpticos vem sendo empregados paradados com distribuicao elıptica e modelos lineares assimetricos paradados com distribuicoes assimetricas .

Singer & Nobre & Rocha - marco/2011

Page 16: An alise de dados longitudinais - docs.ufpr.br

12 1.2 EXEMPLOS

1.2 Exemplos

A estrutura mais simples para estudos com medidas repetidas e aquelacorrespondente a dados usualmente analisados por intermedio do bemconhecido teste t-pareado. Essencialmente, esse tipo de estudos envolvemedidas de alguma resposta de interesse nas mesmas unidades amostraissob duas condicoes diferentes, e.g., tratamento com placebo ou com drogaativa em ensaios clınicos. Quando essas duas condicoes de avaliacao saoordenadas no tempo, e.g., antes e depois de uma certa intervencao, pode-se classificar o estudo como longitudinal.

Exemplo 1.2.1: Os dados da Tabela 1.2.1 foram extraıdos de umestudo realizado na Faculdade de Medicina da Universidade de Sao Pauloem que um dos objetivos era avaliar o efeito da ingestao de sodio napressao arterial de pacientes hipertensos. Mais detalhes sobre o estudopodem ser encontrados em Singer & Magalhaes (1998).

Tabela 1.2.1: Pressao arterial sistolica (mm Hg)

Baixo teor Alto teor Baixo teor Alto teorPaciente de sodio de sodio Paciente de sodio de sodio

1 138 143 11 156 1512 147 154 12 117 1163 146 147 13 157 1544 154 147 14 143 1495 142 157 15 127 1266 156 158 16 134 1387 134 164 17 112 1158 146 156 18 144 1599 143 151 19 117 12410 175 182 20 128 125

Este e um estudo com medidas repetidas, planejamento balanceadoem relacao ao “tempo” e dados completos. Ha apenas um nıvel (hiperten-sos) para o unico fator (tratamento) interunidades de investigacao e doisnıveis (baixo teor de sodio e alto teor de sodio) associados ao unico fa-tor (tipo de dieta) intraunidades de investigacao. Embora sua estruturaseja similar a de um estudo longitudinal com as mesmas caracterısticas,convem lembrar que a medida realizada com a dieta de alto teor de sodio

Singer & Nobre & Rocha - marco/2011

Page 17: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 13

poderia ter sido avaliada antes daquela com baixo teor de sodio. Essapermutabilidade das condicoes de avaliacao obviamente nao e possıvelem estudos longitudinais. Embora isso nao tenha implicacoes nos ca-sos em que existem apenas duas condicoes de avaliacao, em casos maisgerais, essa permutabilidade pode tornar certos modelos (uniforme, porexemplo) para a estrutura de covariancia mais aceitaveis que outros (au-torregressivo, por exemplo).

Exemplo 1.2.2: Os dados apresentados na Tabela 1.2.2 sao oriun-dos de um estudo realizado na Escola de Educacao Fısica e Esporte daUniversidade de Sao Paulo cujo objetivo era avaliar o efeito de um pro-grama de treinamento no desempenho de idosos relativamente a certasatividades fısicas controlando o genero (m=masculino, f=feminino). Emparticular, focamos nossa atencao no menor tempo (s) gasto para calcarmeia no pe de preferencia em duas tentativas. Detalhes podem ser obti-dos em Elian & Okaze (1998).

Este e um estudo longitudinal (pois as medidas sao realizadas deforma nao permutavel) com planejamento similar aquele do Exemplo1.2.1. As diferencas residem na existencia de dois nıveis (masculino efeminino) para o unico fator interunidades de investigacao (genero) e dedados omissos, o que permite dizer que os dados sao desbalanceados emrelacao ao tempo.

Exemplo 1.2.3: Na Tabela 1.2.3 apresentamos dados de um estudorealizado no Laboratorio Experimental de Poluicao Atmosferica da Fac-uldade de Medicina da Universidade de Sao Paulo para avaliar os efeitosde agentes oxidantes no sistema respiratorio e analisado em Singer &Andrade (2000). Espera-se que a exposicao a maiores concentracoes deagentes oxidantes possa causar danos crescentes as celulas ciliares e excre-toras de muco, que constituem a principal defesa do sistema respiratoriocontra agentes externos. Cinquenta e seis palatos de sapos foram equi-tativamente e aleatoriamente alocados a um de seis grupos; cada grupode 8 palatos foi imerso por 35 minutos numa solucao de peroxido dehidrogenio numa concentracao especificada, nomeadamente 0, 1, 8, 16,32 ou 64 µM. A velocidade de transporte mucociliar (mm/s), foi ob-servada a cada cinco minutos apos a imersao. A variavel resposta deinteresse e a velocidade de transporte mucociliar relativa, definida comoo quociente entre a velocidade de transporte mucociliar num determinadoinstante e aquela obtida antes da intervencao experimental.

Este estudo generaliza aquele apresentado no Exemplo 1.2.2 em duas

Singer & Nobre & Rocha - marco/2011

Page 18: An alise de dados longitudinais - docs.ufpr.br

14 1.2 EXEMPLOS

direcoes: o numero de nıveis do unico fator (concentracao peroxido dehidrogenio) interunidades de investigacao e 6 em vez de 2 e o numero denıveis do unico fator (tempo apos imersao na solucao oxidante) intrau-nidades de investigacao e 7 em vez de 2. Ele e um estudo longitudinalcom planejamento balanceado em relacao ao tempo e com omissao dedados.

Tabela 1.2.2: Tempo gasto para calcar meia (s)

Treinamento TreinamentoGenero Antes Depois Genero Antes Depois

m 6.02 4.99 f 6.77 4.97m 5.30 5.37 f 4.80 3.89m 8.56 5.85 f 4.44m 5.15 5.64 f 6.87 8.59m 4.96 6.29 f 9.86 7.99m 11.03 10.39 f 3.93m 9.20 6.77 f 7.54 3.77m 10.00 5.53 f 6.34 5.04m 9.99 8.74 f 4.72 3.88m 5.63 f 6.04 5.11m 8.47 f 8.12 6.64m 6.96 6.66 f 10.38 7.26f 4.54 8.33 f 8.01 7.79f 5.86 5.41 f 6.39 4.95f 5.28 4.40 f 8.87 8.08f 6.47 5.74 f 6.48 4.08f 5.89 7.45 f 6.98 7.51f 4.93 4.96 f 8.41f 5.51 5.76 f 15.84 9.68f 4.81

Singer & Nobre & Rocha - marco/2011

Page 19: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 15

Tabela 1.2.3: Velocidade de transporte mucociliar relativa

Concentracao Tempo (min)de H2O2 (µM) 5 10 15 20 25 30 35

0 1.24 1.21 1.16 1.08 1.08 0.870 1.47 0.91 1.21 1.35 1.26 1.180 1.14 0.90 0.81 1.00 1.05 0.930 0.84 1.02 0.86 0.98 0.98 1.070 0.96 1.19 1.33 1.37 1.22 1.410 0.84 0.89 0.81 0.84 1.05 0.951 1.12 1.22 1.14 1.22 1.46 1.76 1.721 1.07 1.36 1.49 1.49 1.46 1.39 1.461 0.84 0.75 0.58 0.59 0.52 0.43 0.571 1.77 1.28 1.32 1.53 1.30 1.32 1.441 0.92 1.16 1.06 1.28 0.97 1.28 1.241 1.27 1.42 1.45 1.59 1.55 1.42 1.531 1.05 1.09 0.98 1.28 0.98 1.30 1.331 0.88 1.02 0.82 0.74 0.75 0.75 0.711 1.13 1.24 1.13 1.10 1.17 0.86 1.061 0.89 0.84 0.93 1.02 0.93 0.89 0.868 0.81 1.18 0.99 1.08 1.00 1.09 1.098 1.69 1.62 1.36 1.60 2.00 1.60 1.868 0.89 0.85 0.88 0.82 0.95 1.09 1.188 1.10 1.57 1.32 1.56 1.83 1.83 1.868 1.84 2.36 2.25 2.25 2.05 2.08 2.138 1.25 1.22 0.88 0.73 0.66 0.58 0.578 0.90 1.05 0.90 0.88 0.86 0.85 0.928 1.12 1.06 0.99 0.92 0.91 1.01 1.008 1.43 1.25 1.19 1.12 1.13 1.12 1.188 1.26 1.24 1.20 1.13 1.03 1.08 1.1316 0.88 0.73 0.61 0.58 0.61 0.48 0.5216 0.87 0.69 0.50 0.42 0.38 0.38 0.4416 1.43 0.98 0.70 0.54 0.43 0.41 0.4316 1.30 1.00 0.67 0.68 0.53 0.67 0.6216 0.92 0.86 0.88 0.85 0.79 0.66 0.8216 1.21 1.01 0.75 0.79 0.69 0.70 0.8216 0.68 0.86 0.86 0.59 0.57 0.61 0.6616 0.75 0.74 0.96 0.87 1.00 0.90 1.1416 0.97 0.84 0.71 0.83 0.67 0.73 0.7216 1.08 1.12 0.86 1.02 0.85 0.90 0.89

Singer & Nobre & Rocha - marco/2011

Page 20: An alise de dados longitudinais - docs.ufpr.br

16 1.2 EXEMPLOS

Tabela 1.2.3: Velocidade de transporte mucociliar relativa

Concentracao Tempo (min)de H2O2 (µM) 5 10 15 20 25 30 35

32 0.97 0.67 0.49 0.46 0.38 0.35 0.2932 0.60 0.54 0.71 0.33 0.29 0.27 0.3632 1.37 0.83 0.65 0.56 0.41 0.35 0.4032 1.45 1.43 0.99 0.92 0.58 0.51 0.4632 0.92 0.58 0.39 0.24 0.23 0.29 0.2332 1.12 0.96 0.80 0.71 0.80 0.90 1.0032 0.79 0.84 0.75 0.69 0.53 0.53 0.6532 1.02 1.08 0.92 0.79 0.64 0.62 0.5732 0.83 0.66 0.55 0.54 0.48 0.45 0.5432 0.72 0.48 0.63 0.57 0.63 0.53 0.5464 0.12 0.09 0.22 0.11 0.16 0.11 0.0964 0.48 0.48 0.48 0.41 0.33 0.39 0.3064 0.20 0.47 0.27 0.34 0.26 0.30 0.4464 0.79 0.74 0.86 0.63 0.67 0.86 0.9264 0.38 0.66 0.94 0.84 0.82 0.88 0.8964 0.94 0.84 0.64 0.53 0.48 0.50 0.5064 0.17 0.54 0.67 0.66 0.66 0.81 0.9664 0.96 1.01 1.23 0.93 0.87 0.81 0.8164 0.62 0.90 0.81 0.86 0.66 0.84 0.7864 0.23 0.40 0.25 0.16 0.27 0.27 0.47

Exemplo 1.2.4: Os dados da Tabela 1.2.4 sao provenientes de umestudo realizado na Faculdade de Odontologia da Universidade de SaoPaulo para avaliar o efeito do uso contınuo de uma solucao para bochechono pH da placa bacteriana dentaria. O pH da placa dentaria retirada de21 voluntarios antes e depois de um perıodo de uso de uma solucao parabochecho foi avaliado ao longo de 60 minutos apos a adicao de sacaroseao meio em que as unidades experimentais foram colocadas. Detalhespodem ser obtidos em Grande, Oliveira, Singer, Santos & Nicolau (1998).

Este tambem e um estudo balanceado com relacao ao tempo e comdados completos. A diferenca basica entre estes estudos e aqueles apre-sentados anteriormente deve-se a existencia de dois fatores intraunidadesde investigacao: perıodo de avaliacao com dois nıveis (antes e depois douso da solucao para bochecho) e tempo apos a adicao de sacarose com 7nıveis (0, 5, 10, 15, 30, 45 e 60 minutos).

Singer & Nobre & Rocha - marco/2011

Page 21: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 17

Tabela 1.2.4: pH da placa bacteriana dentaria

Tempo (min)Voluntario Perıodo 0 5 10 15 30 45 60

1 Antes 6.3 6.2 6.0 5.8 5.5 5.3 5.12 Antes 6.7 6.5 6.4 6.4 6.2 6.2 5.93 Antes 6.3 6.3 6.2 6.3 5.9 5.7 5.54 Antes 6.2 6.1 5.9 5.8 5.6 5.4 5.25 Antes 6.6 6.5 6.5 6.4 6.2 6.1 5.96 Antes 6.2 5.8 5.7 5.5 5.2 5.1 5.07 Antes 6.4 6.3 6.2 6.1 6.0 5.9 5.88 Antes 6.5 6.3 6.1 6.0 5.9 5.7 5.59 Antes 6.4 6.3 6.3 6.2 6.1 6.1 6.010 Antes 6.4 6.2 6.1 5.9 5.8 5.7 5.511 Antes 6.2 6.1 5.9 5.9 5.7 5.6 5.412 Antes 6.2 5.9 5.7 5.5 5.2 5.1 5.013 Antes 6.5 6.3 6.1 6.0 5.9 5.7 5.614 Antes 6.3 6.0 5.7 5.6 5.2 5.1 4.915 Antes 6.5 6.0 6.3 6.2 6.1 5.9 5.916 Antes 6.5 6.2 6.2 6.0 5.9 5.7 5.717 Antes 6.3 6.2 6.1 5.9 5.8 5.7 5.618 Antes 6.5 6.3 6.2 6.0 5.8 5.7 5.719 Antes 6.7 6.6 6.5 6.3 6.2 6.1 6.120 Antes 6.6 6.1 5.8 5.6 5.4 5.3 5.321 Antes 6.6 6.4 6.3 6.3 6.3 6.2 6.2

Singer & Nobre & Rocha - marco/2011

Page 22: An alise de dados longitudinais - docs.ufpr.br

18 1.2 EXEMPLOS

Tabela 1.2.4: pH da placa bacteriana dentaria

Tempo (min)Voluntario Perıodo 0 5 10 15 30 45 60

1 Depois 6.4 6.3 6.1 5.9 5.6 5.4 5.22 Depois 6.3 6.1 6.0 5.9 5.7 5.5 5.33 Depois 6.4 6.1 5.9 5.8 5.4 5.1 5.04 Depois 6.3 6.0 5.9 5.8 5.4 5.2 5.15 Depois 6.2 6.1 6.0 5.9 5.7 5.4 5.36 Depois 6.3 6.0 5.9 5.8 5.5 5.3 5.27 Depois 6.4 6.2 6.0 5.9 5.6 5.3 5.18 Depois 6.7 6.3 6.2 6.1 5.8 5.6 5.49 Depois 6.3 6.1 6.0 5.9 5.7 5.5 5.310 Depois 6.3 5.9 5.6 5.5 5.2 5.0 4.911 Depois 6.3 6.2 6.1 6.0 5.8 5.6 5.512 Depois 6.4 6.0 5.8 5.6 5.2 5.0 4.913 Depois 6.4 6.2 6.0 5.8 5.5 5.3 5.214 Depois 6.5 6.4 6.3 6.1 6.0 5.7 5.715 Depois 6.3 6.0 5.7 5.6 5.3 5.1 5.016 Depois 6.3 6.0 5.9 5.7 5.4 5.2 5.017 Depois 6.4 5.9 5.7 5.5 5.2 5.5 4.918 Depois 6.3 6.0 5.8 5.7 5.4 5.2 5.119 Depois 5.9 5.8 5.6 5.5 5.4 5.2 5.120 Depois 6.4 6.0 5.7 5.5 5.1 4.8 4.721 Depois 6.4 6.2 6.0 5.9 5.6 5.5 5.4

Exemplo 1.2.5: Os dados da Tabela 1.2.5 provem de um estudorealizado na Faculdade de Odontologia da Universidade de Sao Paulocujo principal interesse era avaliar o efeito da irradiacao de “laser” namicrodureza media do esmalte dentario de dentes expostos a desafios car-iogenicos. Tres blocos de esmalte dentario foram confeccionados a partirde cada um de 32 terceiros molares humanos extraıdos por indicacaoortodontica, totalizando 96 blocos. Esses blocos foram alocados aleato-riamente a um de tres tratamentos de forma balanceada (32 blocos portratamento), a saber: Controle extra bucal (controle), Controle textitinsitu (esmalte) e Laser (laser). Os blocos submetidos aos tratamentosLaser e Controle in situ foram colocados em aparelhos intra-bucais dev-idamente fabricados para cada um de oito voluntarios e usados durante28 dias consecutivos para sofrerem a acao de agentes cariogenicos. Du-

Singer & Nobre & Rocha - marco/2011

Page 23: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 19

rante esse tempo, os blocos submetidos ao tratamento Controle extrabucal nao sofreram acao de agentes cariogenicos. Apos esse perıodo, osblocos dos tres tratamentos foram recolhidos e medidas da microdurezaem diferentes profundidades (10, 20, 40, 60, 120 e 180µm) em cada blocoforam observadas em triplicata. Para efeito do estudo, trabalhou-se comas medias das triplicatas. Mais detalhes podem ser encontrados em Ko-rytnicki, Mayer, Daronch, Singer & Grande (2006).

Este tambem e um estudo longitudinal em que a dimensao ao longoda qual as observacoes sao realizadas e a profundidade. No entanto,ele tambem tem outra dimensao que o caracteriza como um estudo commedidas repetidas, pois tanto os tres nıveis do fator Tratamentos (laser,controle e esmalte) quanto os blocos (dentes) sao alocados intraunidadesexperimentais (voluntarios).

Singer & Nobre & Rocha - marco/2011

Page 24: An alise de dados longitudinais - docs.ufpr.br

20 1.2 EXEMPLOS

Tabela 1.2.5: Microdureza do esmalte dentario (em KHN)

Profundidades (µm)Voluntario Dente Tratamento 10 20 40 60 80 120 180

1 1 laser 239 304 282 300 308 330 3181 1 controle 162 135 166 207 290 289 2661 1 esmalte 271 297 301 302 304 313 3141 2 laser 275 331 310 268 272 316 3671 2 controle 193 168 178 196 275 317 3301 2 esmalte 288 295 302 308 309 310 3021 3 laser 196 301 296 286 256 318 3181 3 controle 159 165 165 255 295 308 3191 3 esmalte 289 296 319 318 302 316 3241 4 laser 251 339 285 299 317 297 2991 4 controle 189 175 162 218 293 273 2871 4 esmalte 280 311 305 311 308 296 3132 5 laser 265 335 292 308 284 294 3112 5 controle 164 202 199 241 287 333 3012 5 esmalte 289 301 304 311 309 317 3222 6 laser 268 337 300 290 311 311 3092 6 controle 175 191 151 234 285 317 3072 6 esmalte 325 305 316 309 308 322 3122 7 laser 246 307 323 270 278 319 3102 7 controle 178 193 172 264 298 310 3102 7 esmalte 282 273 297 305 305 309 3182 8 laser 266 347 326 298 290 300 3392 8 controle 170 192 159 216 317 301 3112 8 esmalte 289 288 292 290 299 298 325. . . . . . . . . .8 29 laser 242 381 295 306 312 339 3138 29 controle 167 171 205 261 296 294 2968 29 esmalte 283 313 296 309 308 322 3228 30 laser 248 350 306 322 344 351 3288 30 controle 159 159 197 246 277 302 3038 30 esmalte 279 303 295 311 317 310 3198 31 laser 237 322 313 281 303 326 3558 31 controle 135 173 158 250 292 289 3008 31 esmalte 286 302 277 300 302 313 3148 32 laser 265 328 323 335 309 325 3538 32 controle 170 153 148 243 302 285 2868 32 esmalte 287 299 306 307 317 317 310

2

Singer & Nobre & Rocha - marco/2011

Page 25: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 21

Exemplo 1.2.6: Na Tabela 1.2.6 encontram-se dados obtidos deum estudo realizado na Faculdade de Medicina da Universidade de SaoPaulo com o objetivo de estudar a evolucao de um conjunto de carac-terısticas cardio-circulatorias em recem-nascidos pre-termo e comparar osvalores correspondentes a 40 semanas da concepcao com aqueles obtidosde recem-nascidos a termo (com 40 semanas de gestacao). Um objetivosecundario era comparar a evolucao desses parametros obtidos de recem-nascidos pre-termo com peso adequado para a idade gestacional (AIG) oupequeno para a idade gestacional (PIG). Maiores detalhes sobre o estudopodem ser obtidos em Afiune (2000) ou Afiune, Singer & Leone (2005).Para efeito didatico, concentramos a atencao no diametro sistolico daaorta por unidade de peso.

Tabela 1.2.6: Diametro sistolico da aorta por unidade de peso (mm/kg)

Semanas pos-concepcaoPeso 27 28 29 30 31 32 33 34 35 36 37 38 39 40

AIG 9.4 10.3 8.7 8.2 6.7 6.1 5.6 5.1 4.9AIG 6.1 6.1 6.2 5.4 5.2 4.9AIG 5.8 6.3 5.8 5.1 4.9 4.6AIG 9.7 9.2 9.5 7.3 6.1 5.4 4.8 4.5AIG 6.4 5.8 5.2 4.7AIG 5.4 4.9 4.6 4.3AIG 8.3 8.5 8.6 7.9 6.2 5.5 4.2AIG 7.7 8.6 7.9 6.6 5.7AIG 5.9 6.1 5.4 4.1AIG 7.0 6.5AIG 5.2 4.8 4.2 4.1 3.7

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .AIG 6.2 6.1 6.2 6.0 5.3PIG 7.2 6.8 5.5 4.7PIG 7.1 8.0 7.7 6.5 5.6PIG 7.4 8.3 9.4 10.0 9.2 8.0PIG 7.7 6.6 5.5 4.6PIG 6.5 4.4PIG 7.6 8.6 9.3 8.0 6.6 5.0 4.7PIG 6.6 8.4 8.2 7.6 6.6PIG 7.1 6.3 6.1 5.9 5.7 4.8PIG 8.5 8.4 4.9PIG 8.3 7.4 6.2 4.6 3.8PIG 9.8 9.1 7.3 5.3

. . . . . . . . . . . . . . . ,

. . . . . . . . . . . . . . .PIG 8.5PIG 10.9 10.7 9.4 8.0 5.8 4.9

Aqui temos um estudo com um fator interunidades amostrais com doisnıveis (AIG e PIG). O planejamento e longitudinal com dados colhidos

Singer & Nobre & Rocha - marco/2011

Page 26: An alise de dados longitudinais - docs.ufpr.br

22 1.2 EXEMPLOS

irregularmente ao longo do tempo.

Exemplo 1.2.7: Os dados da Tabela 1.2.7 sao oriundos de um es-tudo cujo objetivo era avaliar a eficacia de um tratamento para infeccaourinaria no que concerne ao desaparecimento de um de seus sintomas.Cinquenta pacientes com esse tipo de infeccao foram examinadas emtres instantes: no dia de inıcio do tratamento e 14 e 21 dias apos essaprimeira avaliacao. A caracterıstica observada foi o nıvel de corrimentovaginal, classificado como ausente (0), leve (1), moderado (2) ou intenso(3). Observacoes omissas, bastante comuns neste tipo de problema, estaorepresentadas por pontos.

Mais especificamente, as questoes de interesse sao: i) avaliar se a dis-tribuicao da resposta se altera favoravelmente com o tratamento, i.e.,se apresenta menores frequencias de pacientes com corrimento vaginalde maior intensidade 14 dias apos o inıcio do tratamento e ii) em casoafirmativo, saber se o tratamento pode ser interrompido apos 14 dias, ouseja, se alguma caracterıstica relevante (e.g., a proporcao de pacientescom corrimento vaginal moderado ou intenso) das distribuicoes da re-sposta se mantem inalterada da segunda para a terceira avaliacao.

Neste caso estamos diante de um estudo longitudinal com apenas umfator intraunidades amostrais (Avaliacao) com tres nıveis (inicial, apos14 dias e apos 21 dias). A natureza categorizada ordinal da resposta(Nıvel de corrimento vaginal) e a caracterıstica que distingue este exem-plo daqueles descritos anteriormente.

Singer & Nobre & Rocha - marco/2011

Page 27: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 23

Tabela 1.2.7: Nıvel de corrimento vaginal em tres avaliacoes

Avaliacao AvaliacaoPaciente inicial 14 d 21 d Paciente inicial 14 d 21 d

1 1 0 0 26 2 0 02 2 0 . 27 2 3 .3 1 0 0 28 3 0 14 2 0 0 29 2 2 15 2 1 . 30 2 0 06 2 . . 31 3 . 07 2 . . 32 0 . 08 1 1 1 33 1 1 09 3 0 0 34 1 0 010 2 1 2 35 1 0 011 2 1 3 36 1 1 012 1 1 0 37 0 0 113 2 0 0 38 0 0 114 2 0 0 39 1 0 015 2 1 1 40 2 0 016 2 1 1 41 1 1 017 2 1 0 42 1 0 018 1 0 0 43 2 . .19 1 0 0 44 2 2 .20 2 0 0 45 2 0 121 1 1 0 46 2 . 022 3 1 0 47 3 1 023 3 0 0 48 3 0 024 2 1 1 49 2 1 125 2 0 0 50 3 0 0

Exemplo 1.2.8: Na Tabela 1.2.8 estao resumidos os dados de umestudo realizado na Faculdade de Odontologia da Universidade de Mogidas Cruzes, SP, para avaliar o efeito de dois adesivos dentinarios (SingleBond) e (Prime bond NT) e de duas condicoes de aplicacao (dentina secaou umida) na variacao (pre e pos-operatoria) da sensibilidade dentinaria(presente ou ausente) de pacientes submetidos a um certo tipo de trata-mento odontologico. Para maiores detalhes, o leitor deve consultar Singer& Polli (2004).

Aqui, deseja-se saber se ha mudanca na distribuicao da sensibilidadedentinaria apos a restauracao e se o resultado depende do tipo de adesivoe da condicao da dentina durante a sua aplicacao. Neste exemplo, alemdo aspecto categorizado da resposta (Sensibilidade dentinaria) podemos

Singer & Nobre & Rocha - marco/2011

Page 28: An alise de dados longitudinais - docs.ufpr.br

24 1.3 ANALISE DESCRITIVA E MEDIDAS RESUMO

salientar a presenca de dois fatores interunidades amostrais (Material,com 2 nıveis) e Dentina (seca ou umida) e de um fator intraunidadesamostrais (Presenca de sensibilidade dentinaria) com dois nıveis (pre epos-operatoria).

Tabela 1.2.8: Sensibilidade dentinaria pre- e pos-operatoria

Sensibilidade Sensibilidade pos-operatoriaMaterial Dentina pre-operatoria Ausente Presente Total

Single Seca Ausente 22 1 23Bond Presente 3 6 9

Subtotal 25 7 32

Single Umida Ausente 12 10 22Bond Presente 7 4 11

Subtotal 19 14 33

Prime Seca Ausente 10 6 16Bond Presente 12 3 15

Subtotal 22 9 31

Prime Umida Ausente 5 13 18Bond Presente 11 3 14

Subtotal 16 16 32

Os exemplos descritos acima ilustram o tipo de problemas que pre-tendemos avaliar nesta obra. Nos capıtulos subsequentes nao so discutire-mos as tecnicas comumente empregadas para analisa-los como tambemconcretizaremos suas analises. Para discutir aspectos mais especıficosdo tema abordado, outros exemplos serao apresentados e analisados aolongo do texto.

1.3 Analise descritiva e medidas resumo

A principal caracterıstica que distingue dados longitudinais de dadostransversais e a possıvel correlacao entre as observacoes realizadas namesma unidade amostral. Para avaliar essa caracterıstica, varias tecnicasdescritivas podem ser utilizadas. Para dados balanceados em relacao ao

Singer & Nobre & Rocha - marco/2011

Page 29: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 25

tempo (especialmente quando nao ha ou ha poucas observacoes omissas),a mais simples delas corresponde a graficos de dispersao entre as respostasobservadas em dois instantes diferentes. Em geral, esses graficos sao dis-postos em forma de matriz (as vezes cognominados draftman’s plot emingles) como mostra a Figura 1.3.1 correspondente aos dados do Exemplo1.2.3.

Figura 1.3.1: Graficos de dispersao os dados do Exemplo 1.2.3

min50.0 1.0 2.0

0.5 1.5

0.5 1.5

0.5

1.5

0.0

1.0

2.0

min10

min15

0.5

1.5

0.5

1.5

min20

min250.

51.

5

0.5 1.5

0.5

1.5

0.5 1.5

0.5 1.5

min30

Nesses graficos pode-se notar claramente que ha correlacao entreas medidas intraunidades amostrais com maior intensidade para as ob-servacoes realizadas em instantes mais proximos entre si (em torno dadiagonal principal da matriz) do que para aquelas realizadas em instantes

Singer & Nobre & Rocha - marco/2011

Page 30: An alise de dados longitudinais - docs.ufpr.br

26 1.3 ANALISE DESCRITIVA E MEDIDAS RESUMO

mais espacados entre si (graficos mais afastados da diagonal principal damatriz).

Uma quantificacao da intensidade dessas correlacoes pode ser obtidapor intermedio da matriz de covariancias amostrais ou da matrizde correlacoes amostrais. Para os dados do Exemplo 1.2.3, a ma-triz de covariancias amostrais para as observacoes obtidas sob a i-esimaconcentracao i = 1, . . . , 5 pode ser calculada como

Vi = (ni − 1)−1

ni∑j=1

(yij − yi)(yij − yi)>.

em que yij e o vetor com as respostas da j-esima unidade amostral sub-metida a concentracao i, yi =

∑nij=1 yij com ni representando o numero

de unidades amostrais submetidas a concentracao i. A correspondentematriz de correlacoes amostrais e dada por

Ri = D−1/2i ViD

−1/2i .

em que Di = diag(Vi). As matrizes de correlacoes amostrais (sem oselementos redundantes) correspondentes aos dados obtidos sob as con-centracoes de 0 µM e 32 µM sao respectivamente

min5 min10 min15 min20 min25 min30min5 1.00 -0.05 0.47 0.55 0.61 -0.04min10 1.00 0.65 0.38 0.14 0.27min15 1.00 0.91 0.83 0.66min20 1.00 0.90 0.79min25 1.00 0.69min30 1.00

e

min5 min10 min15 min20 min25 min30 min35min5 1.00 0.77 0.41 0.56 0.26 0.22 0.08min10 1.00 0.82 0.86 0.50 0.46 0.32min15 1.00 0.86 0.65 0.56 0.50min20 1.00 0.80 0.68 0.58min25 1.00 0.95 0.88min30 1.00 0.94min35 1.00

Em ambos os casos pode-se confirmar as conclusoes tiradas por meiodo exame da matriz de graficos de dispersao apresentada na Figura 1.3.1.

Singer & Nobre & Rocha - marco/2011

Page 31: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 27

Quando um exame das matrizes de covariancias amostrais dos difer-entes tratamentos (concentracoes, no Exemplo 1.2.3) nao sugere hetero-cedasticidade, convem combina-las para garantir maior precisao na es-timacao da matriz de covariancias (populacional) comum. Com essafinalidade, pode-se considerar

V = (n− t)−1

t∑i=1

(ni − 1)Vi.

em que t e o numero de tratamentos (concentracoes) considerados. Para oexemplo sob investigacao, a matriz de covariancias amostrais combinada(pooled) obtida com a eliminacao do grupo avaliado sob a concentracao0 µM (em que ha observacoes omissas) e

min5 min10 min15 min20 min25 min30 min35min5 1.00 0.75 0.59 0.58 0.47 0.41 0.37min10 1.00 0.86 0.86 0.73 0.70 0.66min15 1.00 0.92 0.84 0.80 0.78min20 1.00 0.91 0.89 0.87min25 1.00 0.92 0.94min30 1.00 0.97min35 1.00

Graficos de perfis (individuais) talvez sejam as ferramentas des-critivas mais importantes para a analise de dados longitudinais. Eles saoessencialmente graficos de dispersao (com o tempo na abscissa e a re-sposta na ordenada) em que os pontos associados a uma mesma unidadeamostral sao unidos por segmentos de reta. Em geral, os perfis demedias sao sobrepostos a eles. Esse tipo de graficos tem sido utilizadopor inumeros autores, como Rao & Rao (1966) ou Weiss & Lazaro (1992)nao so para representar dados longitudinais como tambem para ajudara identificacao de modelos apropriados para inferencia estatıstica. NasFiguras 1.3.2 e 1.3.3 apresentamos graficos de perfis correspondentes aosExemplos 1.2.3 e 1.2.6, respectivamente, com a sobreposicao do perfil demedias correspondentes.

Esse tipo de grafico permite

i) identificar possıveis correlacoes intraunidades amostrais por meioda observacao de perfis dispostos acima ou abaixo do perfil medio(trilhamento);

Singer & Nobre & Rocha - marco/2011

Page 32: An alise de dados longitudinais - docs.ufpr.br

28 1.3 ANALISE DESCRITIVA E MEDIDAS RESUMO

Figura 1.3.2: Grafico de perfis para os dados do Exemplo 1.2.3

Minutos

Vel

ocid

ade

rela

tiva

0.0

0.5

1.0

1.5

2.0

conc 0

5 10 15 20 25 30 35

conc 1 conc 8

5 10 15 20 25 30 35

conc 16 conc 32

5 10 15 20 25 30 35

0.0

0.5

1.0

1.5

2.0

conc 64

ii) identificar uma possıvel heterocedasticidade por intermedio da ob-servacao de diferentes variabilidades da resposta ao longo do tempo;

iii) sugerir possıveis formas para a curva a ser adotada para explicar avariacao do perfil medio ao longo do tempo;

iv) comparar as variabilidades inter- e intraunidades amostrais;

v) identificar unidades amostrais e/ou observacoes discrepantes (out-liers).

Na Figura 1.3.2 pode-se notar que a resposta media (velocidade de

Singer & Nobre & Rocha - marco/2011

Page 33: An alise de dados longitudinais - docs.ufpr.br

1. INTRODUCAO 29

Figura 1.3.3: Grafico de perfis para os dados do Exemplo 1.2.6

25 30 35 40

46

810

12

Semanas pós−concepção

Diâ

met

ro s

istó

lico

da a

orta

por

uni

dade

de

peso

(m

m/k

g) perfil médio

transporte mucociliar relativa) correspondente as concentracoes 0-8 µMse mantem aproximadadmente constantes em torno de 1.0, e decrescentepara as concentracoes de 16 e 32 µM e e aproximadamente constanteem torno de 0.5 para a concentracao de 64 µM. Os graficos de perfisindividuais sugerem homocedasticidade da resposta para as observacoesrealizadas sob uma mesma concentracao, porem com nıveis dependentesdas diferentes concentracoes. Alem disso, um dos perfis individuais ob-servados som a concentracao 8 µM se destaca dos demais, sugerindo quea unidade amostral correspondente pode ser considerada como ponto dis-crepante.

Ha situacoes em que o interesse recai nao nos perfis de resposta mas

Singer & Nobre & Rocha - marco/2011

Page 34: An alise de dados longitudinais - docs.ufpr.br

30 1.3 ANALISE DESCRITIVA E MEDIDAS RESUMO

sim em alguma caracterıstica deles. Por exemplo, num estudo longitu-dinal em que se avalia a variacao da pressao arterial de um grupo deindivıduos submetidos a um tratamento anti-hipertensivo, o foco podeestar centrado na resposta esperada apos seis meses do inıcio da inter-vencao. Em alguns estudos de bioequivalencia, por exemplo, a atencaoe dirigida a maxima concentracao serica de alguma droga. Em estudosrelacionados com habitos tabagistas, pode haver interesse na quantidadede nicotina absorvida pelo organismo apos um determinado perıodo detempo. Em todos esses casos, a resposta de interesse pode ser obtidacomo uma funcao dos perfis individuais. No primeiro caso, essa respostae o desfecho, no segundo, e o pico (peak) e no ultimo, a area sob acurva. Todos esses exemplos podem ser classificados sob a denominacaode medidas resumo, cuja analise remete-nos essencialmente a analisesde regressao e/ou ANOVA usuais.

Singer & Nobre & Rocha - marco/2011

Page 35: An alise de dados longitudinais - docs.ufpr.br

Capıtulo 2

Modelos lineares para dadosgaussianos

A facilidade de tratamento matematico em conjunto com a indisponi-bilidade de meios computacionais adequados constituem as principaisrazoes para que a analise de dados com medidas repetidas, ou mais es-pecificamente, dados longitudinais tenha-se focado na distribuicao nor-mal desde as primeiras incursoes realizadas por Wishart (1938). Os tra-balhos classicos de Box (1950), Geisser & Greenhouse (1958), Potthoff& Roy (1964), Rao (1959), Rao (1965), Rao (1966), Rao (1967) andGrizzle & Allen (1969), entre outros, sao exemplos tıpicos dos primeirosesforcos que se transformaram numa profıcua area de pesquisa. Comoconsequencia, uma grande variedade de modelos para dados gaussianospode ser encontrada na literatura estatıstica. Como as propriedades deestimadores e estatısticas de teste obtidas sob esse modelo probabilısticosao bem conhecidas, os metodos dele oriundos sao excelentes ferramentaspara aplicacoes praticas.

2.1 Introducao

Em geral, podemos analisar dados provenientes de estudos com medidasrepetidas, por meio de modelos mistos da forma

yi = g(Xi,Zi,β,bi) + ei i = 1, . . . , n (2.1.1)

Page 36: An alise de dados longitudinais - docs.ufpr.br

32 2.1 INTRODUCAO

em que, yi = (yi1, . . . , yipi)> com dimensao (pi × 1) e o perfil de re-

spostas da i-esima unidade experimental, β e um vetor com dimensao(p×1) de parametros (efeitos fixos ou parametros de localizacao) descon-hecidos, Xi = (xi1, . . . ,xim) e uma matriz de especificacao dos efeitosfixos com dimensao (pi × t), conhecida e de posto completo, em quexij = (xij1, . . . , xijpi)

> representa o vetor com os pi valores da j-esimavariavel independente (j = 1, . . . ,m) para a i-esima unidade amostral,bi e um vetor com dimensao (q×1) de variaveis latentes, comumente de-nominadas efeitos aleatorios, que refletem o comportamento individualda i-esima unidade experimental, Zi e uma matriz de especificacao dosefeitos aleatorios (com dimensao (pi×q), conhecida e de posto completo)e ei e um vetor de erros aleatorios com dimensao (pi × 1).

Em muitos casos e razoavel assumir que bi ∼ Nq(0,G) e ei ∼Npi(0,Ri), em que G, com dimensao (q×q) e Ri, com dimensao (pi×pi)sao matrizes simetricas definidas positivas, sao variaveis aleatorias inde-pendentes. Quando g e uma funcao linear dos efeitos fixos β e dos efeitosaleatorios bi, podemos reescrever o modelo como

yi = Xiβ + Zibi + ei, i = 1, . . . , n. (2.1.2)

Portanto, o vetor de respostas associado a i-esima unidade amostral temdistribuicao normal multivariada com vetor de medias e matriz de co-variancias dados, respectivamente, por

E(yi) = Xiβ (2.1.3)

eV(yi) = Vi = ZiGZ>i + Ri. (2.1.4)

As matrizes Ri e G sao funcoes conhecidas de m1 e m2 parametrosdesconhecidos, respectivamente ou seja, G = G(θ1) e Ri = Ri(θ2), demodo que a matriz de covariancias para a i-esima unidade amostral,Vi = Vi(θ), dependera do vetor

θ = (θ>1 ,θ>2 )> (2.1.5)

com dimensao (m × 1) em que m = m1 + m2. Este modelo tambempode ser interpretado como um modelo linear em dois estagios comomostram Laird & Ware (1982). No primeiro estagio, consideramos fixosos efeitos aleatorios bi, de forma que

yi|bi ∼ N(Riβ + Zibi,Ri). (2.1.6)

Singer & Nobre & Rocha - marco/2011

Page 37: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 33

No segundo estagio assumimos que os vetores bi sao independentes comdistribuicao Nq(0,G) e consequentemente, o modelo marginal e dado por

yi ∼ N(Xiβ, ZiGZ>i + Ri). (2.1.7)

Quando Ri = σ2Ipi , o modelo e chamado de modelo de inde-pendencia condicional homocedastico, indicando que as pi observacoesassociadas a i-esima unidade amostral sao condicionalmente indepen-dentes de bi.

Mais detalhes sobre modelos mistos para estudos com medidas repeti-das ou longitudinais podem ser encontrados em Crowder & Hand (1990)Jones (1993), Crowder & Hand (1996), Verbeke & Molenberghs (1997),Vonesh & Chinchilli (1997), Singer & Andrade (2000), Diggle et al.(2002), Davis (2002) ou Demidenko (2004) entre outros.

2.2 Modelos para a estrutura de covariancia

Grande parte do esforco empregado na modelagem de dados com me-didas repetidas se concentra na estrutura de covariancias. Em geral, omodelo para matriz de covariancias Vi deve depender da maneira pelaqual as observacoes foram obtidas e do conhecimento sobre o mecanismogerador das observacoes. Diggle (1988) e Diggle et al. (2002) comentamque a matriz de covariancias deve ser suficientemente flexıvel para incluirno mınimo tres fontes diferentes de variacao aleatoria, nomeadamente:i) a variacao devida a efeitos aleatorios, quando as unidades de inves-tigacao formam uma amostra aleatoria da populacao de interesse; ii) avariacao que pode ser explicada por correlacao serial, em que se esperamobservacoes proximas mais fortemente correlacionadas que observacoesmais distantes e iii) a variacao devida a erros de medida.

No contexto dos modelos mistos, a covariancia entre as observacoesobtidas em uma mesma unidade amostral podera ser modelada indireta-mente por meio dos efeitos aleatorios, bi, que representa a variabilidadeentre as unidades amostrais, diretamente por meio da matriz Ri, querepresenta a covariancia das observacoes intraunidades amostrais comonos modelos lineares usuais, ou ainda, como uma combinacao, de bi e Ri,como sugerem Vonesh & Chinchilli (1997), permitindo deste modo incluirna estrutura de covariancia as tres fontes de variacao: os efeitos aleatorios

Singer & Nobre & Rocha - marco/2011

Page 38: An alise de dados longitudinais - docs.ufpr.br

34 2.2 MODELOS PARA A ESTRUTURA DE COVARIANCIA

e a variacao devida a erros de medida, na matriz G e a correlacao serialna matriz Ri.

No modelo linear misto homocedastico com independencia condi-cional, Ri = σ2Ipi e G e uma matriz de componentes de variancia comoaquelas sugeridas em Searle (1971) e Searle, Casela & McCullogh (1992).Modelos desse tipo sao utilizados, por exemplo, em estudos com plane-jamentos em blocos aleatorios ou do tipo split-plot.

Das possıveis estruturas de covariancia disponıveis na literatura es-tatıstica, algumas estao descritas abaixo, por intermedio de exemploscom pi = 4.

1. Estrutura Uniforme

Vi(θ) =

σ2 + τ τ τ ττ σ2 + τ τ ττ τ σ2 + τ ττ τ τ σ2 + τ

(2.2.1)

2. Estrutura autorregressiva de ordem 1 AR(1)

Vi(θ) = σ2

1 φ φ2 φ3

φ 1 φ φ2

φ2 φ 1 φφ3 φ2 φ 1

(2.2.2)

3. Estrutura ARMA(1,1)

Vi(θ) = σ2

1 γ γφ γφ2

γ 1 γ γφγφ γ 1 γγφ2 γφ γ 1

(2.2.3)

4. Estrutura antedependencia de ordem 1

Vi(θ) =

σ2

1 σ1σ2ρ1 σ1σ3ρ1ρ2 σ1σ4ρ1ρ2ρ3

σ1σ2ρ1 σ22 σ2σ3ρ2 σ2σ4ρ2ρ3

σ1σ3ρ1ρ2 σ2σ3ρ2 σ23 σ3σ4ρ3

σ1σ4ρ1ρ2ρ3 σ2σ4ρ2ρ3 σ3σ4ρ3 σ24

(2.2.4)

Singer & Nobre & Rocha - marco/2011

Page 39: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 35

5. Estrutura Toeplitz

Vi(θ) =

σ2 σ1 σ2 σ3

σ1 σ2 σ1 σ2

σ2 σ1 σ2 σ1

σ3 σ2 σ1 σ2

(2.2.5)

6. Estrutura espacial ou de Markov

Vi(θ) = σ2

1 ρd12 ρd13 ρd14

ρd21 1 ρd23 ρd24

ρd31 ρd32 1 ρd34

ρd41 ρd42 ρd43 1

(2.2.6)

7. Estrutura uniforme heterogenea

Vi(θ) =

σ2

1 σ1σ2ρ σ1σ3ρ σ1σ4ρσ2σ1ρ σ2

2 σ2σ3ρ σ2σ4ρσ3σ1ρ σ3σ2ρ σ2

3 σ3σ4ρσ4σ1ρ σ4σ2ρ σ4σ3ρ σ2

4

(2.2.7)

8. Estrutura ARH(1)

Vi(θ) =

σ2

1 σ1σ2φ σ1σ3φ2 σ1σ4φ

3

σ2σ1φ σ22 σ2σ3φ σ2σ4φ

2

σ3σ1φ2 σ3σ2φ σ2

3 σ3σ4φσ4σ1φ

3 σ4σ2φ2 σ4σ3φ σ2

4

(2.2.8)

9. Estrutura Toeplitz heterogenea

Vi(θ) =

σ2

1 σ1σ2ρ1 σ1σ3ρ2 σ1σ4ρ3

σ2σ1ρ1 σ22 σ2σ3ρ1 σ2σ4ρ2

σ3σ1ρ2 σ3σ2ρ1 σ23 σ3σ4ρ1

σ4σ1ρ3 σ4σ2ρ2 σ4σ3ρ1 σ24

(2.2.9)

10. Estrutura baseada em efeitos aleatorios

Para um modelo linear com coeficientes lineares e angulares aleatorios,2.1.4 se reduz a

Vi = Zi

[σ2

0 σ01

σ01 σ21

]Z>i + Ri (2.2.10)

com

Z>i

[1 1 1 1x1 x2 x3 x4

]

Singer & Nobre & Rocha - marco/2011

Page 40: An alise de dados longitudinais - docs.ufpr.br

36 2.2 MODELOS PARA A ESTRUTURA DE COVARIANCIA

11. Nao-estruturada (NE)

Vi(θ) =

σ2

1 σ12 σ13 σ14

σ12 σ22 σ23 σ24

σ13 σ23 σ23 σ34

σ14 σ24 σ34 σ24

(2.2.11)

Muitas dessas estruturas podem ser expressas na forma linear

Vi(θ) =d∑

h=1

φhFhi (2.2.12)

em que Fhi sao matrizes convenientes conhecidas e φh sao parametrosdesconhecidos. Esse modelo e adequado quando os parametros da ma-triz de covariancias sao aditivos, como e o caso das estruturas Uniforme eToeplitz. Se os parametros forem multiplicativos como ocorre, por exem-plo, na estrutura AR(1), que possui apenas dois parametros, precisaremosde quatro parametros para escreve-la na forma linear. O modelo Toeplitzpodera ser escrito nessa forma com φ1 = σ2, φ2 = σ1, φ3 = σ2, φ4 = σ3 e

F1i =

1 0 0 00 1 0 00 0 1 00 0 0 1

, F2i =

0 1 0 01 0 1 00 1 0 10 0 1 0

,

F3i =

0 0 1 00 0 0 11 0 0 00 1 0 0

, F4i =

0 0 0 10 0 0 00 0 0 01 0 0 0

. (2.2.13)

Galecki (1994) propoe uma classe de estruturas de covariancia baseadano produto de Kronecker, para estudos com medidas repetidas com maisde um fator intraunidades amostrais, como no Exemplo 1.2.5. Dentre asestruturas propostas, citamos

Singer & Nobre & Rocha - marco/2011

Page 41: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 37

1. Nao-estruturada Kronecker autorregressiva

R(θ) =

σ21 σ12 σ13

σ12 σ22 σ23

σ13 σ23 σ23

1 φ φ2 φ3 φ4 φ5 φ6

φ 1 φ φ2 φ3 φ4 φ5

φ φ2 1 φ φ2 φ3 φ4

φ φ2 φ3 1 φ φ2 φ3

φ φ2 φ3 φ4 1 φ φ2

φ φ2 φ3 φ4 φ5 1 φφ φ2 φ3 φ4 φ5 φ6 1

(2.2.14)

2. Nao-estruturada Kronecker uniforme

R(θ) =

σ21 σ12 σ13

σ12 σ22 σ23

σ13 σ23 σ23

1 τ τ τ τ τ ττ 1 τ τ τ τ ττ τ 1 τ τ τ ττ τ τ 1 τ τ ττ τ τ τ 1 τ ττ τ τ τ τ 1 ττ τ τ τ τ τ 1

. (2.2.15)

Mais detalhes sobre os processos estocasticos que geram essas estru-turas podem ser encontrados em Rocha (2004), por exemplo.

2.3 Inferencia por maxima verossimilhanca

Sob a suposicao de normalidade e linearidade, o modelo (2.1.2) pode serescrito compactamente como

y = Xβ + Zb + e, (2.3.1)

em que y = [y>1 , . . . ,y>n ]> e um vetor com dimensao (N × 1) em que

N =∑n

i=1 pi contendo as respostas das n unidades amostrais, X =[X>1 , . . . ,X

>n ] com dimensao (N × t) e a matriz de especificacao dos

efeitos fixos, Z = ⊕ni=i[Z1, . . . ,Zn] com dimensao (N × nq) e a matrizde especificacao dos efeitos aleatorios, b = [b>1 , . . . ,b

>n ]> e um vetor com

dimensao (nq × 1) que engloba os efeitos aleatorios e e = [e>1 , . . . , e>n ]>

e um vetor com dimensao (N × 1) de erros aleatorios. Sob esta for-mulacao, b ∼ Nnq[0,Γ(θ1)] em que Γ(θ1) = In ⊗ G(θ1) e b e inde-pendente de e ∼ NN [0,R] com R = ⊕ni=iRi(θ2). Consequentemente,y ∼ NN [Xβ,V(θ)] em que V(θ) = ZΓ(θ1)Z> + R(θ2).

Singer & Nobre & Rocha - marco/2011

Page 42: An alise de dados longitudinais - docs.ufpr.br

38 2.3 INFERENCIA POR MAXIMA VEROSSIMILHANCA

Varios metodos de estimacao dos parametros do modelo (2.3.1) estaodisponıveis na literatura estatıstica; dentre eles convem destacar o metodobayesiano detalhado em Tountenburg (1982), Maritz & Lwin (1989) eSearle et al. (1992), os metodos de Maxima Verossimilhanca (MV) eMaxima Verossimilhanca Restrita (MVR), discutidos em Patterson &Thompson (1971), Harville (1977b), Robinson (1991), Searle et al. (1992)e Jiang (1996) e o metodo de Mınimos Quadrados (MQ), analisado emSearle et al. (1992), Draper & Smith (2002), por exemplo.

Supondo que G(θ1) e R(θ2) sao conhecidas todos esses metodos saoequivalentes, desde que no metodo bayesiano seja atribuıda uma dis-tribuicao a priori nao informativa para b como mencionado em Jiang(1997).

O metodo MV consiste em obter os estimadores dos parametros pormeio da maximizacao do logaritmo da verossimilhanca marginal dos da-dos, nomeadamente

l(β,θ) = −N2

log 2π − 1

2log |V(θ)| − 1

2(y −Xβ)>V−1(θ)(y −Xβ)

(2.3.2)ou alternativamente

l(β,θ) = −1

2log 2π

n∑i=1

pi −1

2

n∑i=1

log |Vi(θ)|

−1

2

n∑i=1

(yi −Xiβ)>V−1i (θ)(yi −Xiβ). (2.3.3)

A maximizacao de (2.3.3) pode ser realizada por meio dos seguintespassos:

i) Igualar ∂l[β,θ]/∂β a 0, obtendo

β(θ) = [n∑i=1

X>i V−1i (θ)Xi]

−1[n∑i=1

X>i V−1i (θ)yi]. (2.3.4)

Este e o estimador de mınimos quadrados generalizados de βsob a suposicao de que Vi(θ) e conhecida, i.e., β(θ) minimiza aforma quadratica

n∑i=1

[yi −Xiβ(θ)]>V−1i (θ)[yi −Xiβ(θ)].

Singer & Nobre & Rocha - marco/2011

Page 43: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 39

ii) Substituir β(θ) na expressao (2.3.3) obtendo a funcao log-veros-

similhanca perfilada l[β(θ),θ];

iii) Igualar ∂l[β(θ),θ]/∂θ a 0, obtendo, para j = 1, . . . ,m,

−1

2

n∑i=1

tr[V−1i (θ)Vi(θ)]− 1

2

n∑i=1

[∂Qi(θ)/∂θj|θ=θ] = 0 (2.3.5)

em queVi(θ) = [∂Vi(θ)/∂θj]

>θ=θ

eQi(θ) = [yi −Xiβ(θ)]>V−1

i (θ)[yi −Xiβ(θ)].

A solucao θ de (2.3.5) e β = β(θ), ou seja (2.3.4) com a substituicao

de θ por θ constituem os estimadores de MV de θ e β.

A metodologia de maxima verossimilhanca gera estimadores nao-enviesados para os efeitos fixos mas produz estimadores enviesados paraos parametros da matriz de covariancias intraunidades amostrais pornao levar em consideracao a perda de graus de liberdade na estimacaodos primeiros. A fim de reduzir o vies desses estimadores, que podeser grande quando o numero de parametros de localizacao e grandeem relacao ao numero de observacoes, muitos autores, como Laird &Ware (1982), recomendam o uso do metodo de maxima verossim-ilhanca restrita (MVR). Este metodo foi proposto por Patterson &Thompson (1971) para estimar componentes de variancia e consiste emmaximizar a verossimilhanca de uma transformacao linear ortogonal dotipo y∗ = U>y em que U tem dimensao [N × (N − t)], e e tal queE(y∗) = 0, ou seja, U>X = 0. A verossimilhanca obtida a partir destatransformacao nao depende dos efeitos fixos β e tampouco da particu-lar matriz U escolhida. Em geral obtem-se a verossimilhanca restritafazendo U = I−X(X>X)−1X>, ou seja utilizando a matriz de projecaoque gera os resıduos do ajuste obtido por mınimos quadrados ordinarios.Daı a denominacao de verossimilhanca residual empregada por algunsautores. Para os dados transformados, temos

E(y∗) = 0 (2.3.6)

V(y∗) = UV(θ)U>, (2.3.7)

Singer & Nobre & Rocha - marco/2011

Page 44: An alise de dados longitudinais - docs.ufpr.br

40 2.3 INFERENCIA POR MAXIMA VEROSSIMILHANCA

e alem disso, y∗ ∼ NN−t[0,U>V(θ)U]. O logaritmo da verossimilhanca

marginal restrita e

lR(θ) =− 1

2log |V(θ)| − 1

2log |X>V−1(θ)X|

− N − t2

(y −Xβ)>V−1(θ)(y −Xβ)− N − t2

log(2π), (2.3.8)

e sua maximizacao gera os estimadores de θ>

= [θ>1 , θ

>2 ]>.

Alternativamente, a funcao log-verossimilhanca restrita (2.3.8) podeser escrita como

lR(θ) =− 1

2log 2π

n∑i=1

pi −1

2

n∑i=1

log |Vi(θ)|

− 1

2

n∑i=1

[yi −Xiβ(θ)]>V−1i (θ)[yi −Xiβ(θ)]

− 1

2log |

n∑i=1

X>i V−1i (θ)Xi|. (2.3.9)

Neste caso, no processo de maximizacao, a equacao (2.3.5) e sub-stituıda por

− 1

2

n∑i=1

trV−1i (θ)Vi(θ) − 1

2

n∑i=1

[∂Qi(θ)/∂θj|θ=θ]

− 1

2

n∑i=1

trV−1i (θ)X>i V−1

i (θ)Vi(θ)V−1i (θ)Xi = 0. (2.3.10)

A solucao de (2.3.10) para j = 1, . . . ,m, digamos, θR em conjunto

com βR = β(θR) constituem os estimadores de MVR desejados.

Preditores dos efeitos aleatorios podem ser obtidos juntamente comestimadores para os parametros de localizacao por meio da funcao de dis-tribuicao conjunta dos efeitos aleatorios b e das observacoes y, nomeada-mente

f(y,b) = f(y|b)f(b), (2.3.11)

em que f(y|b) e f(b) sao as funcoes densidade de y|b e b, respecti-vamente. Como y|b ∼ NN(Xβ + Zb, R) e b ∼ Nnq(0,Γ) a funcao

Singer & Nobre & Rocha - marco/2011

Page 45: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 41

(2.3.11) pode ser diretamente obtida como indicam Henderson (1975),Searle (1971), Searle et al. (1992) ou McCulloch & Searle (2001), porexemplo.

Por meio do teorema de Gauss-Markov para efeitos aleatorios apre-sentado em Harville (1977a) podem ser obtidos o melhor estimadorlinear nao-enviesado (best linear unbiased estimator - BLUE) paraβ e o melhor preditor nao-enviesado (best linear unbiased predic-tor - BLUP) para o vetor de efeitos aleatorios b. Diferentes formas deobtencao do BLUP e BLUE, tanto sob o ponto de vista classico comobayesiano e aplicacoes podem ser encontradas em Robinson (1991), Searleet al. (1992), Doganaksoy & Balakrishnan (1997), Jiang (1997) ou Mc-Culloch & Searle (2001), por exemplo.

Hilden-Minton (1995) e Hodges (1998) comentam que existe uma seriede vantagens em se utilizar casos com restricao (constraint-cases) paraa obtencao do BLUE e BLUP. A ideia basica e reexpressar o modelo linearmisto (2.3.1) na forma de um modelo linear geral atraves da inclusao de“casos artificiais” com variancias desconhecidas apresentados em Hodges(1998). Dentre as vantagens citadas, destacam-se a obtencao “imedi-ata” das equacoes de estimacao utilizadas para determinar os BLUE e osBLUP e a consequente analogia que pode ser feita com as tecnicas de di-agnostico existentes para modelos lineares. Nesse contexto, consideremoso modelo (2.3.1) com a inclusao do seguinte “caso artificial”,

0nq×1 = 0nq×1 − Inqb + d, (2.3.12)

em que d e um vetor de dimensao (nq × 1) que faz o papel de erro,V(e) = σ2R(θ2), V(d) = σ2Γ(θ1) e Cov(e,d) = 0 e reescrevamos asequacoes (2.3.1) e (2.3.12) em forma matricial como[

y0

]=

[X Z0 −I

] [βb

]+

[ed

]. (2.3.13)

Pre-multiplicando (2.3.13) por R−1/2(θ2)⊕

Γ−1/2(θ1) tem-se

y∗∗ = X∗β∗ + H, (2.3.14)

em que,

y∗∗ =

[R−1/2(θ2)y

0

], X∗ =

[R−1/2(θ2)X R−1/2(θ2)Z

0 −Γ−1/2(θ1)

], (2.3.15)

Singer & Nobre & Rocha - marco/2011

Page 46: An alise de dados longitudinais - docs.ufpr.br

42 2.3 INFERENCIA POR MAXIMA VEROSSIMILHANCA

e β∗ = [β>,b>]>, tal que V(H) = σ2I.

Desta forma, (2.3.13) pode ser considerado como um modelo linear“homocedastico”. Portanto, o BLUE para β e o BLUP para b podemser obtidos por meio da equacao (2.3.13), usando o metodo de MQ, sobo qual se obtem

X∗>y∗∗ = X∗>X∗β∗

ou seja[X>R−1/2(θ2)yZ>R−1/2(θ2)y

]=

[X>R−1(θ2)X X>R−1(θ2)ZZ>R−1(θ2)X Z>R−1(θ2)Z + Γ−1(θ1)

][β

b

](2.3.16)

Essas equacoes sao conhecidas na literatura como equacoes de Hen-derson. Note que, se Γ−1(θ1) ≡ 0 (o que implica que b e um efeito fixo),entao (2.3.16) coincide com a equacao de estimacao obtida por meio dometodo de mınimos quadrados generalizados (MQG). O BLUP e oBLUE sao obtidos resolvendo-se as equacoes (2.3.16), que independemda distribuicoes de b e e.

Pode-se mostrar que o BLUE de β e o BLUP de b, sao dados, re-spectivamente, por

β(θ) =[X>V−1(θ)X

]−1X>V−1(θ)y (2.3.17)

e

b(θ) = Γ(θ1)Z>V−1(θ)[y −Xβ(θ)] (2.3.18)

ou alternativamente por

lβ(θ) =n∑i=1

[X>i V−1i (θ)Xi]

−1XiV−1i (θ)yi (2.3.19)

e

bi(θ) = G(θ1)Z>i V−1i (θ)[yi −Xiβ(θ)] (2.3.20)

Alem disso, o estimador do parametro de escala comum a θ>1 , θ>2 edado por

σ2 =1

N − t[y −Xβ(θ)]>[ZΓ(θ1)Z> + R(θ2)]−1[y −Xβ(θ)]. (2.3.21)

Singer & Nobre & Rocha - marco/2011

Page 47: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 43

Propriedades de β(θ) e b(θ) sao dadas em Henderson (1975), Robin-son (1991), Searle et al. (1992) ou McCulloch & Searle (2001), por ex-emplo. Em particular, Henderson (1975) mostrou que

Cov

[β(θ)− β

b(θ)− b

]=

[X>R−1(θ2)X X>R−1(θ2)ZZ>R−1(θ2)X Z>R−1(θ2)Z + Γ−1(θ1)

]−1

.

(2.3.22)Em termos dos componentes individuais (2.3.20), temos

V[bi(θ)] = G(θ1)Z>i ∆(θ)ZiG(θ1). (2.3.23)

com

∆(θ) = V−1i (θ)−V−1

i (θ)Xi[n∑i=1

X>i V−1i (θ)Xi]

−1X>i V−1i (θ).

Como Γ(θ1) e R(θ2) dependem do vetor de parametros de covarianciadesconhecido θ, e razoavel calcular o BLUE e BLUP com base numestimador θ de θ; esses “preditores” sao denominados BLUE e BLUPempıricos (EBLUE e EBLUP). Se θ e o estimador de MV de θ, entaoo EBLUE e EBLUP, sao respectivamente, o estimador de MV de β e opreditor empırico de Bayes dos efeitos aleatorios sob a hipotese de nor-malidade de b e e. Sob algumas condicoes, tanto o BLUP quanto o BLUEempıricos continuam nao-enviesados, como mostram Kackar & Harville(1984) e Jiang (1999). Verbeke & Lesaffre (1996) mostram que o EBLUEe o estimador de MV de θ sao assintoticamente normais, mesmo quandoa distribuicao de b e especificada incorretamente. Jiang (1998) obtemalgumas propriedades assintoticas do EBLUP e EBLUE em modelos decomponentes de variancia, considerando o estimador de MVR para θ semsupor normalidade de b e e.

Com base na suposicao de normalidade adotada para os dados y, ena expressao (2.3.4), podemos concluir que

β(θ) ∼ Nβ, [n∑i=1

X>i V−1i (θ)Xi]

−1.

Por outro lado, como tanto θ quanto θR sao estimadores consistentes deθ, uma aplicacao do Teorema de Sverdrup permite-nos mostrar que paraamostras suficientemente grandes, i.e., para n suficientemente grande,

Singer & Nobre & Rocha - marco/2011

Page 48: An alise de dados longitudinais - docs.ufpr.br

44 2.3 INFERENCIA POR MAXIMA VEROSSIMILHANCA

tanto a distribuicao de β quanto a de βR podem ser aproximadas pela

mesma distribuicao utilizada para β(θ) sob certas condicoes de regular-idade para as matrizes de especificacao Xi. Detalhes podem ser obtidosem Sen & Singer (1993), Jiang (1996) e Verbeke & Lesaffre (1996), porexemplo.

Esses resultados servem de base para a construcao de testes de hipotesessobre os parametros da matriz de covariancias θ e sobre os parametrosde localizacao β. Testes de hipoteses do tipo

H : Cθ = 0 (2.3.24)

em que C denota uma matriz com dimensao (c × m) de posto c saouteis para a selecao de modelos mais parcimoniosos para a estrutura decovariancias intraunidades amostrais sob o mesmo modelo para os efeitosfixos.

Em princıpio, para testar hipoteses dessa forma, podemos empregara estatıstica de Wald

QW = (Cθ)>[CV(θ)C>]−1(Cθ), (2.3.25)

ou a estatıstica da razao de verossimilhancas (RV)

QRV = −2[l1(θ)− l2(θ)], (2.3.26)

em que l1(θ) e l2(θ) denotam, respectivamente, a funcao log-verossimilhancamaximizada sob o modelo restrito i.e., induzido por (2.3.24) e aquelamaximizada sob o modelo irrestrito. Sob as condicoes de regularidadeusuais e para amostras suficientemente grandes, as distribuicoes de (2.3.25)e de (2.3.26) podem ser aproximadas por distribuicoes χ2

c quando ahipotese nula e verdadeira. No entanto, em muitos casos, as hipoteses deinteresse sao do tipo

H0 : σ2a = 0 versus H1 : σ2

a ∈ (0,∞) (2.3.27)

em que σ2a, um dos componentes de θ e localizado na fronteira do espaco

parametrico. Nesse contexto, tanto os testes de Wald quanto os testes darazao de verossimilhancas apresentam problemas com relacao as condicoesde regularidade conforme mencionam Cox & Hinkley (1974). O problemae causado pela violacao da primeira condicao de regularidade, que deter-mina que o espaco parametrico Ω deve ter dimensao finita, ser fechado

Singer & Nobre & Rocha - marco/2011

Page 49: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 45

e compacto e que o verdadeiro valor do parametro devera estar em seuinterior. Tanto num caso como no outro, a obtencao da distribuicaoaproximada das estatısticas de teste sao baseadas em expansoes de Tay-lor numa vizinhanca do verdadeiro valor do parametro.

Self & Liang (1987) mostram que nesses casos, a distribuicao da es-tatıstica RV pode ser aproximada por uma mistura de distribuicoes qui-quadrado. Stram & Lee (1994) discutem o comportamento da estatısticaRV para componentes de variancia em estudos longitudinais com efeitosaleatorios, aplicando o metodo descrito por Self & Liang (1987) e particu-larizam os resultados para varias situacoes de interesse. De uma maneirageral, para testar hipotese sobre a inclusao de um efeito aleatorio emum modelo com q efeitos aleatorios, a estatıstica do teste devera sercomparada a uma mistura 50%:50% de distribuicoes qui-quadrado, χ2

q

e χ2q+1. O ındice q + 1 representa o numero de parametros adicionados

ao modelo sob a hipotese alternativa, H1, e o correspondente valor-P edado por p = 0.5IP [χ2

q > QRV (obs)] + 0.5IP [χ2q+1 > QRV (obs)] em que

QRV (obs) e o valor observado da estatıstica (2.3.26).

Giampaoli & Singer (2009) observam que Stram & Lee (1994) naolevaram em consideracao o fato de que, em geral, em estudos longitu-dinais as variaveis nao sao identicamente distribuıdas e estudam o com-portamento de testes de hipoteses sobre os elementos da matriz de co-variancia num modelo de efeitos aleatorios utilizando a estatıstica darazao de verossimilhancas apresentada por Vu & Zhou (1997). Esses au-tores estendem os resultados obtidos por Self & Liang (1987) para o casoem que as variaveis aleatorias nao sao identicamente distribuıdas. Gi-ampaoli & Singer (2009) mostram que nos modelos com ate dois efeitosaleatorios, mesmo apos as devidas adaptacoes, os resultados de Stram &Lee (1994) continuam validos.

Como uma ferramenta auxiliar para a selecao de estruturas de co-variancias intraunidades amostrais, consideramos os criterios de informacaode Akaike (AICR) e de Schwarz (BICR) definidos por

AICR = −2l(θ) + 2q (2.3.28)

BICR = −2l(θ) + q log(N − t), (2.3.29)

em que l(θ) e o maximo da funcao log-verossimilhanca restrita e q e onumero de parametros da matriz de covariancia, t e o numero de efeitosfixos e N e o numero efetivo de observacoes. A estrutura que apresenta

Singer & Nobre & Rocha - marco/2011

Page 50: An alise de dados longitudinais - docs.ufpr.br

46 2.4 SOLUCAO DAS EQUACOES DE ESTIMACAO

os menores valores de AICR e BICR e considerada mais adequada. Estecriterio e conveniente por permitir a comparacao de quaisquer estruturasde covariancia, exigindo apenas que o modelo para os parametros delocalizacao seja o mesmo. Mais detalhes sobre o uso deste criterio naselecao de estruturas de covariancia e estudos com medidas repetidas saoencontrados em Keselman, James, Rhonda & Russell (1998).

Funcoes do tipo L>β + D>b em que L e D sao matrizes conhecidascom dimensoes (l × t) e (d × nq) com postos l e d, respectivamente,sao chamadas funcoes previsıveis por Henderson (1975) e constituemgeneralizacoes das funcoes estimaveis discutidas em Searle (1971), porexemplo. Elas podem ser utilizadas para definir hipoteses sobre efeitosfixos ou sobre combinacoes de efeitos fixos e aleatorios. Nesse contexto,basta tomar K = [L>D>] e considerar

H : K

[βb

]= 0. (2.3.30)

A estatıstica de Wald para testar (2.3.30) e

QW =

(K

b

])>[KWK>]−1K

b

](2.3.31)

em que W e uma estimativa da matriz (2.3.22). Se estivermos interessa-dos apenas em contrastes dos efeitos fixos, todas as linhas associadas aosefeitos aleatorios na matriz K sao nulas A sua distribuicao aproximadae χ2

posto(K).

De uma forma mais conservadora, podemos utilizar uma estatıstica Fdividindo (2.3.31) pelo posto de K. O numero de graus de liberdade donumerador e dado pelo posto de K e o do denominador, deve ser obtidopor meio de um procedimento de Satterthwaite conforme a sugestao deSearle (1971).

Intervalos de confianca aproximados para funcoes previsıveis em queK tem uma unica linha podem ser construıdos como

K

b

]± tv,α

2

√[KWK>]. (2.3.32)

com tv,α2

denotando o quantil de ordem 1 − α/2 de uma distribuicaot-Student com v graus de liberdade.

Hipoteses do tipo (2.3.30) tambem podem ser testadas por meio detestes da razao de verossimilhancas.

Singer & Nobre & Rocha - marco/2011

Page 51: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 47

2.4 Solucao das equacoes de estimacao

Embora em geral, o sistema de equacoes de estimacao formado por(2.3.4) e (2.3.5) ou (2.3.10) precise ser resolvido por metodos iterativos,em certos casos especiais com dados balanceados, existem solucoes ex-plicitas. O exemplo classico e o modelo de analise de perfis commatriz de covariancias intraunidades amostrais nao-estruturada. Essemodelo e apropriado para comparacoes de perfis de respostas medias deunidades amostrais submetidas a diferentes tratamentos e avaliadas nosmesmos instantes (nao necessariamente igualmente espacados). Essen-cialmente, o modelo corresponde a (2.1.2) com pi = p, Zi = 0 e em queV(ei) = Ri = Σ e uma matriz de covariancias nao-estruturada. Porrazoes computacionais, convem reescrever o modelo na forma

Y = XM + E, (2.4.1)

em que Y = [y1, . . . ,yn]> e uma matriz com dimensao (n × p), X =[x1, . . . ,xt] e uma matriz com dimensao (n × t) cujos elementos xi saovetores de incidencia que associam as n unidades amostrais aos trata-mentos a que foram submetidas, M e uma matriz com dimensao (t× p)cujo elemento na posicao (i, j), i = 1, . . . , t, j = 1, . . . , p corresponde aresposta media do tratamento i no tempo j e E = [e1, . . . , en]> e umamatriz de erros aleatorios com dimensao (n × p) cujas linhas seguemdistribuicoes normais p-variadas com vetor de medias nulo e matriz decovariancias Σ.

Utilizando metodos padrao de Analise de Variancia Multivariada(MANOVA) podemos mostrar que os estimadores de MV restrita dosparametros de localizacao e de covariancia sao respectivamente

M = (X>X)−1X>Y

e

S =1

n− tY>[I−X(X>X)−1X>]Y.

A expressao acima com a substituicao de n− t por n corresponde ao esti-mador de MV. Neste caso, as hipoteses de interesse podem ser expressasna forma

H : CMU = 0 (2.4.2)

em que C e U sao matrizes conhecidas com dimensoes (c× t) e (p× u)respectivamente. Testes de hipoteses dessa forma podem ser obtidos

Singer & Nobre & Rocha - marco/2011

Page 52: An alise de dados longitudinais - docs.ufpr.br

48 2.4 SOLUCAO DAS EQUACOES DE ESTIMACAO

por meio de diferentes princıpios como maxima verossimilhanca, uniao-interseccao etc. e as estatısticas de teste correspondentes sao funcoesdas raızes caracterısticas. da matriz HE−1 em que

H = (CMU)>[C(X>X)−1C>]−1(CMU)

eE = (YU)>[I−X(X>X)−1X>](YU)

sao, respectivamente as matrizes de somas de quadrados e produtoscruzados devidas a hipotese e ao erro. Mais especificamente, definindoθi = λi(1 + λi)

−1) com λi denotando a i-esima raiz caracterıstica deHE−1, λ1 ≤ . . . ≤ λs com s = min(u, c), as principais estatısticas deteste sao

i) θs = max(θi) (estatıstica de Roy);

ii) Λ =∏s

i=1(1− θi) (estatıstica de Wilks);

iii) T =∑s

i=1 θi(1− θi) (estatıstica de Lawley-Hotelling);

iv) P =∑s

i=1 θi (estatıstica de Pillai).

A distribuicao (exata) dessas estatısticas dependem de k1 = (|u−c|−1)/2,k2 = (n − t − u − 1)/2 e s = min(u, c) e pode ser aproximada pordistribuicoes F . Em particular, quando s = 1, a estatıstica F = (k2 +1/k1 + 1)[(1− Λ)/Λ] tem distribuicao (exata) F com 2(k1 + 1) graus deliberdade no numerador e 2(k2 + 1) graus de liberdade no denominadorsob a hipotese nula CMU = 0. Intervalos de confianca simultaneos comcoeficiente de confianca 1− α para funcoes do tipo a>Mb em que a e bsao vetores de constantes podem ser construıdos como

aMb± θs(α)b>Eb[a>(X>X−1a)]1/2,

em que θs(α) denota o percentil de ordem 100(1 − α)% da distribuicaoda estatıstica de Roy. O leitor podera consultar Morrison (1988) paradetalhes sobre esse problema ou para outros mais complexos, em queos tratamentos correspondem aos cruzamentos dos nıveis de diferentesfatores ou em que existem covariaveis. Andrade & Singer (1998) discutemuma estrategia de analise em que planejamentos em blocos aleatorizadoscomplexos podem ser acomodados.

Singer & Nobre & Rocha - marco/2011

Page 53: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 49

Metodos MANOVA tambem podem ser empregados para analisar da-dos para os quais M = BQ em que B e uma matriz com dimensao (t×r)de coeficientes desconhecidos Q e uma matriz conhecida com dimensao(r × p) cujas linhas correspondem aos valores de polinomios ortogonaisde graus 0 a r − 1 nos p instantes de observacao. Esse e o modelo decurvas de crescimento de Potthoff & Roy (1964), nomeadamente

Y = XBQ + E. (2.4.3)

Khatri (1966) mostrou que os estimadores propostos por Potthoff & Roy(1964), a saber,

B = (X>X)−1X>YΣ−1

Q>(QΣ−1

Q>)−1

e

Σ =1

n[Y −XBQ]>[Y −XBQ]

sao estimadores de MV. O estimador de MVR de Σ e obtido com asubstituicao de n− t for n na expressao acima. Testes de hipotese sobreos parametros de localizacao B podem ser obtidos similarmente aquelesconsiderados para analise de perfis.

Muitos autores contribuıram para o estudo deste modelo nas ultimastres decadas. Entre eles, mencionamos Grizzle & Allen (1969), que sug-eriram um procedimento interessante para implementacao da tecnica deajuste por covariancia proposta por Rao (1966).

Essencialmente, essa tecnica consiste de i) pos-multiplicacao de am-bos os lados de (2.4.3) por uma matriz H = [H1 H2] com dimensao(p×p) tal que QH1 = Ir and QH2 = 0 de forma que o modelo de curvasde crescimento fique reduzido a (2.4.1) com Y,M and E respectivamentesubstituıdas por Y1 = YH1, B and E = EH1 e ii) utilizacao de todas oualgumas colunas de Y2 = YH2, cujos valores esperados sao nulos, comocovariaveis para aumentar a eficiencia dos estimadores dos parametrosde localizacao. Essa tecnica foi aperfeicoada por Baksalary, Corsten &Kala (1978), Kenward (1985), Calinski & Caussinus (1989) e revista notexto de Kshirsagar & Smith (1995). Soler & Singer (2000) propuseramum procedimento otimo para a escolha das covariaveis (colunas de Y2).

Solucoes explıcitas para as equacoes de estimacao tambem podem serobtidas sob o modelo (2.4.1) quando nao ha omissao e uma estruturauniforme do tipo

Σ = ν21p1>p + τ 2Ip

Singer & Nobre & Rocha - marco/2011

Page 54: An alise de dados longitudinais - docs.ufpr.br

50 2.4 SOLUCAO DAS EQUACOES DE ESTIMACAO

em que o ν2 e τ 2 sao os parametros de covariancia e adotada para amatriz de covariancias intraunidades amostrais. Sob essas condicoes, oestimador de MVR (e de MV) do vetor de parametros de localizacao e omesmo que aquele obtido quando essa matriz e nao-estruturada. Pode-semostrar que os estimadores de MVR de τ 2 e ν2 sao respectivamente

τ 2 =1

n(p− 1)trY[Ip − p−11p1

>p ]Y>

e

ν2 =1

p 1

n− t1>p Y>[In −X(X>X)−1X>]Y1p − τ 2.

Os estimadores de MV correspondentes sao obtidos a com a substituicaode n− t por n na expressao de ν2.

Como a matriz de covariancias intraunidades amostrais com estruturauniforme e induzida por modelos mistos com um efeito aleatorio comoaqueles utilizados para analise de estudos com planejamento do tipo split-plot, podemos empregar tecnicas usuais de ANOVA para a analise dessetipo de problemas.

Trabalhando independentemente, Rouanet & Lepine (1970) e Huynh& Feldt (1970) mostraram que os testes F resultantes da analise por meiodesse enfoque permanecem validos se a matriz de covariancias intrau-nidades amostrais satisfizer a condicao menos restritiva de esfericidadeou circularidade, i.e., se

P>ΣP = λIp−1 (2.4.4)

em que P e uma matriz de contrastes ortonormais com dimensao (p ×(p − 1)) e λ e uma constante. Sob essa condicao, um certo nıvel deheterocedasticidade pode ser acomodado. Sob homocedasticidade, ascondicoes de uniformidade e esfericidade sao equivalentes.

Com base no trabalho de Box (1954a) e Box (1954b), Geisser & Green-house (1958) propuseram testes F aproximados para casos em que Σ naosatisfaz a condicao de esfericidade. Sua sugestao envolve a multiplicacaodos graus de liberdade das estatısticas F geradas pela ANOVA por umfator de correcao dado por

ε =[tr(P>ΣP)]2

(p− 1)tr(P>ΣP)2.

Singer & Nobre & Rocha - marco/2011

Page 55: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 51

Quando Σ e esferica, temos ε = 1. Estimadores do fator de correcaoforam propostos por Huynh & Feldt (1976), entre outros. Nesse contexto,Singer & Andrade (1994) sugeriram uma estrategia para a obtencao detestes F para sub-hipoteses relativas a interacoes e interacoes parciaiscomo aquelas consideradas em Boik (1979).

Solucoes explıcitas para as equacoes de estimacao tambem podemser obtidas para problemas sem dados omissos sob modelos mistos ho-mocedasticos com independencia condicional. Os resultados, cujos detal-hes podem ser obtidos em Graybill (1976) e Laird, Lange & Stram (1987),sao menos interessantes, pois nao tiram proveito das tecnicas padrao deANOVA ou MANOVA.

Metodos mais gerais do que aqueles descritos acima para resolucaodas equacoes de estimacao sao necessarias para acomodar casos com ob-servacoes omissas ou com dados coletados irregularmente ao longo dotempo. Essencialmente, tres enfoques tem sido considerados com essafinalidade. O primeiro e baseado no algoritmo de Newton-Raphsonou em uma adaptacao estatıstica denominada algoritmo scoring deFisher; o segundo utiliza o algoritmo EM e o terceiro utiliza umarepresentacao do tipo espaco/estados e o filtro de Kalman.

Dado um valor inicial θ(0) e denotando a funcao escore por u(θ) =

∂l[β(θ),θ]/∂θ e a matriz hessiana por H(θ) = ∂2l[β(θ),θ]/∂θ∂θt as-

sociadas a funcao log-verossimilhanca l(β(θ),θ) o algoritmo de Newton-Raphson para a solucao das equacoes de estimacao (2.3.5) corresponde aiteracoes de

θ(l) = θ(l−1) −H−1[θ(l−1)]u[θ(l−1)] (2.4.5)

para l = 1, 2, . . . ate que algum criterio de convergencia seja satisfeito,e.g., ‖θ(l)−θ(l−1)‖ < ε para algum valor pre-especificado ε > 0. Da ultima

iteracao de (2.4.5) obtemos a estimativa de MV de θ, nomeadamente θ,

que substituıda em (2.3.4), gera a estimativa de MV de β, a saber, β.

Uma estimativa consistente da matriz de covariancias assintotica de β edada por

∑ni=1 X>i V−1

i (θ)Xi−1. Uma estimativa consistente da matriz

de covariancias assintotica de θ pode ser obtida a partir da inversa damatriz de informacao empırica, −H(θ).

O algoritmo scoring de Fisher corresponde a (2.4.5) com H(θ) sub-stituıda por sua esperanca. Se utilizarmos (2.3.10) no lugar de (2.3.5))nas definicoes de u(θ) e de H(θ), os dois procedimentos geram estimati-vas de MVR.

Singer & Nobre & Rocha - marco/2011

Page 56: An alise de dados longitudinais - docs.ufpr.br

52 2.4 SOLUCAO DAS EQUACOES DE ESTIMACAO

Alternativamente, o algoritmo EM proposto por Dempster, Laird &Rubin (1977) para estimacao no contexto de dados incompletos (ou comobservacoes omissas) pode ser utilizado para calculo de estimativas deMV e MVR dos parametros de alguns dos modelos utilizados para analisede dados com medidas repetidas. A base desse algoritmo e a funcao deverossimilhanca dos dados ”completos”, i.e., y∗ = (y>,ν>)>, em que ydenota o vetor de dados efetivamente observados e ν representa quer asobservacoes omissas num contexto de dados incompletos, quer os valoreslatentes (efeitos aleatorios) integrantes de modelos mistos. Denotandopor s o vetor de estatısticas suficientes para os parametros β e θ, ol-esimo passo do algoritmo pode ser descrito como:

Passo E: Calculo da esperanca condicional da estatıstica suficiente dadasas observacoes e os valores atualizados dos parametros, i.e.,

s(l) = E[s(y∗)|y,β(l−1),θ(l−1)]

Passo M: Solucao da equacao

s(l) = E[s(y∗)|β,θ]

em termos de β e θ e obtencao dos novos valores dos parametros, β(l)

e θ(l). A iteracao desses dois passos ate a convergencia produz os esti-madores de MV desejados. Detalhes sobre a extensao desse algoritmopara calculo de estimativas de MVR podem ser obtidos em Jennrich &Schluchter (1986).

O algoritmo EM e conveniente para casos em que ha solucoes explıcitaspara as equacoes do Passo M. Em caso contrario, outros metodos itera-tivos precisam ser considerados para resolver essas equacoes, o que geraum procedimento duplamente iterativo a ser evitado.

No caso particular do modelo misto homocedastico com independenciacondicional, i.e., (2.1.2) com Ri = σ2I em (2.1.4), expressando o vetor deestatısticas suficientes como s = (s1, s

>2 )>, Laird & Ware (1982) mostram

que o Passo E se reduz a

s(l)1 = E

n∑i=1

δ>i δi|yi,β(θ(l−1)),θ(l−1)

=n∑i=1

[δ>i (θ(l−1))δi(θ(l−1)) + trVδi|yi,β(θ(l−1)),θ(l−1)] (2.4.6)

Singer & Nobre & Rocha - marco/2011

Page 57: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 53

e

s(l)2 = E

n∑i=1

γiγ>i |yi,β(θ(l−1)),θ(l−1)

=n∑i=1

[γi(θ(l−1))γ>i (θ(l−1)) +Vγi|yi,β(θ(l−1)),θ(l−1)] (2.4.7)

em que

δi(θ(l−1)) = E[δi|yi,β(θ(l−1)),θ(l−1)] = yi −Xiβ(θ(l−1))− Ziγi(θ

(l−1))

e

γi(θ(l−1)) = G(θ(l−1))Z>i V−1

i (θ(l−1))[yi −Xiβ(θ(l−1))].

O Passo M e dado por

σ2(l) =n∑i=1

δ>i (θ(l−1))δi(θ(l−1))/

n∑i=1

pi = s(l)1 /

n∑i=1

pi (2.4.8)

e

G(l) = n−1

n∑i=1

γi(θ(l−1))γti(θ

(l−1)) = n−1s(l)2 . (2.4.9)

Para obter a estimativa de MV de θ, iniciamos o algoritmo como umvalor conveniente θ(0) e iteramos (2.4.6) – (2.4.9) ate que o criterio deconvergencia adotado seja satisfeito. Detalhes da extensao desse proced-imento para a obtencao das estimativas de MVR podem ser obtidos emLaird & Ware (1982), por exemplo. Andrade & Helms (1984) mostramcomo o algoritmo EM pode ser empregado para obter estimativas deMV nos casos em que a matriz de covariancias intraunidades amostraissatisfaz a estrutura linear (2.2.12).

A particularizacao dos algoritmos de Newton-Raphson, scoring deFisher e EM para o calculo de estimativas de parametros de modelospara analise de dados com medidas repetidas e mais especificamente paraanalise de dados longitudinais e considerada por muitos autores, dentre osquais destacamos Jennrich & Schluchter (1986) que delineiam um proced-imento geral para acomodar diferentes estruturas de covariancia e Lairdet al. (1987) ou Lindstrom & Bates (1988), que avaliam a velocidadede convergencia dos algoritmos. Uma desvantagem do algoritmo EM eque ele nao produz estimativas dos erros padroes das estimativas de MV;

Singer & Nobre & Rocha - marco/2011

Page 58: An alise de dados longitudinais - docs.ufpr.br

54 2.4 SOLUCAO DAS EQUACOES DE ESTIMACAO

essas estimativas precisam ser obtidas por meio de uma iteracao do algo-ritmo de Newton-Raphson tendo como valor inicial a estimativa obtidapor meio do algoritmo EM. Alem disso, ele requer mais iteracoes queo algoritmo EM, mas sempre converge para um maximo local conformemencionam Lindstrom & Bates (1988).

A terceira alternativa para obtencao das estimativas de MV baseia-senuma representacao do tipo espaco/estados para o problema de dadoslongitudinais e no uso de um filtro de Kalman para a maximizacao dafuncao de verossimilhanca. Esse enfoque e util para a analise de modeloslineares dinamicos e modelos de efeitos aleatorios, especialmente quandoa matriz de covariancias intraunidades amostrais tem uma estrutura decorrelacao serial. O leitor podera consultar Jones (1993) para detalhes.

Tendo em vista e expressao (2.3.4) e possıvel obter um estimador demınimos quadrados generalizados em dois estagios para o parametro delocalizacao β se tivermos disponıvel estimadores consistentes de Vi(θ).Um caso especial de interesse e aquele para o qual podemos adotar ummodelo misto homocedastico com independencia condicional (2.1.2) emque Zi = Xi and Ri = τ 2Ipi . Esse modelo, tambem cognominado mod-elo de coeficientes aleatorios e apropriado para casos em que os perfisindividuais e populacionais tem a mesma forma. Escrevendo βi = β+bie com base num argumento condicional, podemos ajustar curvas sepa-radamente aos dados de cada unidade amostral por meio de mınimosquadrados ordinarios, obtendo

βi = (X>i Xi)−1X>i yi

com E(βi) = β e V(βi) = G + τ 2(X>i Xi)−1. Como consequencia, esti-

madores consistentes de τ 2 e V(βi) sao dados por

τ 2 = (n∑i=1

pi − t)−1

n∑i=1

y>i [Ipi −Xi(X>i Xi)

−1X>i ]yi

e

V(βi) = (n− 1)−1

n∑i=1

(βi − β)(βi − β)>

em que β = n−1∑n

i=1 βi, de forma que os estimadores de G e Vi(θ)podem ser obtidos a partir de

G = V(βi)− (n− 1)−1

n∑i=1

(X>i Xi)−1τ 2

Singer & Nobre & Rocha - marco/2011

Page 59: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 55

e

Vi(θ) = XiGX>i + τ 2Ipi .

Esse enfoque e adotado por Vonesh & Carter (1987), que tambem apre-sentam as propriedades assintoticas desses estimadores.

Metodos bayesianos para a analise de dados longitudinais tambemtem sido considerados por muitos autores, dentre os quais destacamosLee & Geisser (1972), Geisser (1970), Geisser (1980), Rao (1987), Lee(1988) e Kass & Steffey (1989).

2.5 Estrategias de analise

A escolha dos modelos para a estrutura de covariancia intraunidadesamostrais depende de informacoes sobre o tipo de estudo com medi-das repetidas (longitudinal ou nao), sobre seu planejamento (balanceadoou nao) e sobre a existencia de dados omissos. Estudos com medidasrepetidas nao-longitudinais, em geral, tem carater experimental e a cor-respondente estrutura de covariancia intraunidades amostrais pode sermodelada com o auxılio de informacoes sobre o planejamento. Para es-tudos longitudinais, e mais razoavel utilizar informacoes sobre o compor-tamento da resposta ao longo das condicoes de avaliacao na modelagemda estrutura de covariancia intraunidades amostrais. Para estudos nao-longitudinais, sugerimos a seguinte estrategia para a selecao da estruturade covariancia intraunidades amostrais

1. analise do planejamento do estudo para identificacao de um modelosaturado para os efeitos fixos e de possıveis efeitos aleatorios;

2. analise das matrizes de covariancias e correlacoes amostrais, quandofor possıvel calcula-las, para identificar seus padroes de variacao;

3. ajuste de modelos saturados para os parametros de regressao iden-tificados no item 2, com matrizes de covariancias identificadas noitem 1;

4. utilizacao dos criterios de informacao AICR e BICR como ferra-menta auxiliar na escolha da estrutura de covariancia identificadanos itens 1 e 2.

Singer & Nobre & Rocha - marco/2011

Page 60: An alise de dados longitudinais - docs.ufpr.br

56 2.8 EXERCICIOS

5. analise de resıduos.

Para estudos longitudinais, uma estrategia para a identificacao daestrutura de covariancia intraunidades amostrais e a seguinte:

1. analise do grafico de perfis medios para propor um modelo para osefeitos fixos;

2. analise dos graficos de perfis individuais e de perfis individuais cen-tralizados para identificar padroes que indiquem possıveis efeitosaleatorios e heterocedasticidade ao longo das condicoes de avaliacao;

3. analise das matrizes de covariancias e correlacoes intraunidadesamostrais, quando for possıvel calcula-las, para identificar seuspadroes de variacao;

4. analise dos graficos de dispersao multiplos das observacoes padronizadasquando for possıvel construı-los;

5. analise dos graficos de linhas das matrizes de covariancias e cor-relacoes amostrais versus defasagens;

6. analise do variograma amostral como sugerido por Diggle et al.(2002);

7. no caso de estudos longitudinais sem dados omissos, analise dografico das linhas da matriz de covariancias intraunidades amostraispor meio de tecnicas de regressao polinomial para a identificacaode efeitos aleatorios;

8. no caso de estudos longitudinais com dados omissos, analise dosperfis individuais por meio de tecnicas de regressao polinomial paraa identificacao de efeitos aleatorios;

9. utilizacao dos criterios de informacao como ferramenta auxiliar paraa selecao das estruturas de covariancia intraunidades amostraisidentificadas;

10. analise de resıduos.

Detalhes sobre os diferentes procedimentos mencionados acima seraodiscutidos por meio de exemplos no Capıtulo 5.

Singer & Nobre & Rocha - marco/2011

Page 61: An alise de dados longitudinais - docs.ufpr.br

2. MODELOS LINEARES PARA DADOS GAUSSIANOS 57

2.6 Diagnostico

2.7 Notas de capıtulo

2.8 Exercıcios

Singer & Nobre & Rocha - marco/2011

Page 62: An alise de dados longitudinais - docs.ufpr.br
Page 63: An alise de dados longitudinais - docs.ufpr.br

Capıtulo 3

Analise de dados

Neste capıtulo apresentamos exemplos de analise de dados, aproveitando-os para discutir alguns topicos metodologicos nao abordados nos demais.

3.1 Estudos pre-teste/pos-teste

Estudos do tipo pre-teste/pos-teste sao frequentemente usados em areascomo Biologia, Medicina, Odontologia e Psicologia, entre outras. O ob-jetivo, em geral, e avaliar o efeito de algum tipo de intervencao (umtratamento, por exemplo) na distribuicao de alguma resposta. O pro-cedimento utilizado para sua concretizacao consiste na observacao davariavel resposta antes e depois da intervencao. Consideramos estudosdo tipo pre-teste/pos-teste sob dois cenarios que descrevemos por meiode exemplos.

Exemplo 5.1.1: Num estudo realizado no Instituto de Ciencias Biome-dicas da Universidade de Sao Paulo para avaliar o efeito de MgSO4 napressao arterial media (PAM) medida em mmHg de caes, a resposta foimedida antes e depois da aplicacao em dois grupos de animais, o primeiro(n = 12) previamente tratado com indometacina e o outro (n = 12)previamente tratado com nifedipina. Para detalhes, ver Singer, Seoanes& Ogando (1988). Os dados estao apresentados na Tabela 3.1.1, umgrafico de perfis individuais, na Figura 3.1.1 e um grafico de perfis medios,na Figura 3.1.2.

Graficos do tipo boxplot correspondentes estao dispostos na Figura 3.1.3.Neste exemplo, temos uma intervencao (aplicacao de MgSO4) e uma

Page 64: An alise de dados longitudinais - docs.ufpr.br

60 5.1 ESTUDOS PRE-TESTE/POS-TESTE

Tabela 3.1.1: Pressao arterial media (mmHg) de caes antes e depois deuma aplicacao de MgSO4

Cao Grupo Antes Depois Cao Grupo Antes Depois

1 indometacina 148 132 13 nifedipina 82 682 indometacina 100 76 14 nifedipina 90 723 indometacina 120 108 15 nifedipina 102 844 indometacina 116 96 16 nifedipina 110 1005 indometacina 140 128 17 nifedipina 86 586 indometacina 92 88 18 nifedipina 90 767 indometacina 112 100 19 nifedipina 90 788 indometacina 120 108 20 nifedipina 84 729 indometacina 128 100 21 nifedipina 98 8010 indometacina 124 100 22 nifedipina 116 8011 indometacina 108 92 23 nifedipina 90 8012 indometacina 100 80 24 nifedipina 94 76

populacao com dois estratos, que correspondem aos dois tratamentos(indometacina e nifedipina). O interesse e:

a) comparar o efeito da aplicacao de MgSO4 (PAM media pos-teste- PAM media pre-teste) nos caes tratados com indometacina como efeito da aplicacao de MgSO4 nos caes tratados com nifedipina(interacao entre tratamento e tempo),

b) avaliar o efeito principal da aplicacao de MgSO4 (se nao houverinteracao ou se ela for nao-essencial),

c) avaliar o efeito da aplicacao de MgSO4 para cada tratamento (sehouver interacao essencial),

d) avaliar o efeito principal de tratamento sobre a PAM media (se naohouver interacao ou se ela for nao-essencial)

e) avaliar o efeito de tratamento sobre a PAM media pre-teste (sehouver interacao essencial).

Para situacoes como aquela descrita no Exemplo 5.1.1, com ni unidadesamostrais no estrato i, i = 1, 2, o modelo linear basico pode ser escritocomo

yijk = µik + eijk, i = 1, 2, j = 1, . . . , ni, k = 1, 2 (3.1.1)

Singer & Nobre & Rocha - marco/2011

Page 65: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 61

Figura 3.1.1: Perfis individuais da PAM de caes, antes (pre-teste) e depois(pos-teste) de uma aplicacao de MgSO4

.Pré-Teste Pós-Teste5060

708090100110120130140150

PressãoArterialMédia

(mmHg)Indometa inaNifedipina

1

Figura 3.1.2: Perfis medios e medias amostrais (cırculos) para a PAM,antes (pre-teste) e depois (pos-teste) de uma aplicacao de MgSO4.

Pré-Teste Pós-Teste0.010.020.030.040.050.060.07

MédiadaResistên iaHomogênea Ar Sint.

He e O2

1

Singer & Nobre & Rocha - marco/2011

Page 66: An alise de dados longitudinais - docs.ufpr.br

62 5.1 ESTUDOS PRE-TESTE/POS-TESTE

Figura 3.1.3: Boxplots para a PAM de caes, antes (pre-teste) e depois(pos-teste) de uma aplicacao de MgSO4 e para o efeito da aplicacao

.

Ind. Nif.

6080

100

120

140

Pré

−T

este

Ind. Nif.

6080

100

120

140

Pós

−T

este

Ind. Nif.

−40

−30

−20

−10

010

[Pós

−T

este

] − [P

ré−

Tes

te]

em que yijk corresponde a resposta observada para a j-esima unidadeamostral do i-esimo estrato no k-esimo tempo, µik denota a respostamedia para as unidades amostrais do i-esimo estrato no k-esimo tempoe ijk e o erro aleatorio correspondente. Sob a perspectiva de Analise deVariancia Multivariada (MANOVA), esse modelo pode ser colocado naforma (2.4.1), i.e., Y = XM+E, com Y = (y11, . . . ,y1n1 ,y21, . . . ,y2n2)

>,yij = (yij1, yij2)>, X = ⊕2

i=11ni , M = (µ1,µ2)> com µi = (µi1, µi2)> eE = (e11, . . . , e1n1 , e21, . . . , e2n2)

>, eij = (eij1, eij2)>. Nesse contexto,assumimos que eij ∼ N2(0,Σ) com

Σ =

[σ2

1 σ12

σ12 σ22

]e as hipoteses mencionadas acima podem ser expressas na forma (2.4.2),i.e., CMU = 0, com

i) C = (1,−1) e U = (1,−1)> (interacao entre tratamento e tempo),

ii) C = (1, 1) e U = (1,−1)> (efeito principal de tempo),

Singer & Nobre & Rocha - marco/2011

Page 67: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 63

iii) C = (1, 0) (ou C = (0, 1)) e U = (1,−1)> [efeito de tempo para oprimeiro (segundo) tratamento],

iv) C = (1,−1) e U = (1, 1)> (efeito principal de tratamento),

v) C = (1,−1) e U = (1, 0)> (efeito de tratamento no pre-teste).

Explicitamente, sob o modelo (2.4.1), as hipoteses i) -v) correspondemrespectivamente a µ11−µ12 = µ21−µ22, µ11 +µ21 = µ12 +µ22, µ11 = µ12,µ21 = µ22, µ11 + µ12 = µ21 + µ22, µ11 = µ21. As estatısticas de testepara essas hipoteses sao baseadas nas raızes caracterısticas das matrizesde soma de quadrados e produtos cruzados indicadas na Secao 2.4.

Muitos textos e pacotes computacionais (REF) utilizam o modelo(3.1.1) sob a reparametrizacao de desvios medios

µik = µ+ αi + βk + αβik i = 1, 2, k = 1, 2 (3.1.2)

com as restricoes de identificabilidade

2∑i=1

αi =2∑

k=1

βk =2∑i=1

αβik =2∑

k=1

αβik = 0.

A expressao das hipoteses i) -v) em termos dos parametros do modelo(3.1.2) ou de outros com diferentes parametrizacoes esta explicitada noApendice C.

Um outro enfoque classico para o problema envolve um modelo mistoobtido de (3.1.1) por intermedio da inclusao da seguinte estrutura parao erro aleatorio

eijk = bij + dijk (3.1.3)

em que bij ∼ N(0, σ2b ) e dijk ∼ N(0, σ2) com todas as variaveis envolvi-

das supostas independentes. Esse modelo, conhecido na literatura pormodelo de parametros irrestritos (unsconstrained parameter model- UP)

1implica

V(eij) = Σ =

[σ2b + σ2 σ2

b

σ2b σ2

b + σ2

]1

Embora o modelo UP seja o mais comumente utilizado na pratica, um modeloalternativo, conhecido por modelo de parametros restritos (constrained param-eter model - CP) tambem pode ser adotado para os mesmos propositos. Esses doismodelos constituem o cerne da questao conhecida como controversia dos modelos mis-tos, discutida em Voss (1999), Lencina, Singer & Stanek III (2005), Lencina & Singer(2006) e Lencina, Singer & Stanek III (2008).

Singer & Nobre & Rocha - marco/2011

Page 68: An alise de dados longitudinais - docs.ufpr.br

64 5.1 ESTUDOS PRE-TESTE/POS-TESTE

e consequentemente, e mais restritivo que o modelo MANOVA, na me-dida em que impoe homocedasticidade para as observacoes intraunidadesamostrais e nao permite covariancias negativas entre elas. Essencial-mente, este modelo, tem a forma (2.3.1) com

y = (y>11, . . . ,y>1n1,y>21, . . . ,y

>2n2

)>,

X = ⊕2i=1(1ni ⊗ I2), β = (µ11, µ12, µ21, µ22)>, Z = ⊗n1+n2

l=1 12,

b = (b11, . . . , b1n1 , b21, . . . , b2n2)>

ee = (e>11, . . . , e

>1n1, e>21, . . . , e

>2n2

)>.

Alem disso, ele pode ser considerado como um caso particular dosmodelos do tipo split-plot e a correspondente analise de dados pode serimplementada por meio de ANOVA com duas fontes de variacao. Nessecontexto, as hipoteses de interesse podem ser testadas por meio de es-tatısticas como aquelas indicadas na Tabela 3.1.2 em que as somas dequadrados podem ser expressas em termos das somas e diferencas entreas respostas intraunidades amostrais, nomeadamente, sij = yij1 + yij2 edij = yij1 − yij2, ou seja

SQETr =2∑i=1

ni(s1 − s)2,

com si = ni−1∑ni

j=1 sij e s = (n1 + n2)−1∑2

i=1

∑nij=1 sij,

SQE1 =2∑i=1

ni∑j=1

(sij − si)2,

SQTrTp =2∑i=1

ni(di − d)2,

com di = ni−1∑ni

j=1 dij e d = (n1 + n2)−1∑2

i=1

∑nij=1 dij,

SQTp = [(n1n2)/(n1 + n2)](d1 + d2)2,

e

SQE2 =2∑i=1

ni∑j=1

(dij − di)2.

Singer & Nobre & Rocha - marco/2011

Page 69: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 65

Tabela 3.1.2: Tabela ANOVA para estudos com planejamento split-plot

Fonte de Graus de Soma de Quadrado Estatısticavariacao liberdade quadrados medio F

Tratamentos 1 SQTr SQTr/1 FTrUnidades amostrais n− 2 SQE1 SQE1/(n− 2)

Tempo 1 SQTp SQTp/1 FTpTempo × Tratamento 1 SQTpTr SQTpTr/1 FTpTr

Observacoes n− 2 SQE2 SQE2/(n− 2)

Sob as correspondentes hipoteses nulas, essas estatısticas tem distribuicaoF com 1 grau de liberdade no numerador e n−2 (com n = n1 +n2) grausde liberdade no denominador.

A estatıstica FTpTr = (n − 2)SQTpTr/SQE2 e apropriada para oteste da inexistencia de interacao entre tratamento e tempo (i) e as es-tatısticas FTr = (n− 2)SQTr/SQE1 e FTp = (n− 2)SQTr/SQE2, paratestar as hipoteses de inexistencia de efeitos principais de tratamento(iv) e tempo (ii), respectivamente, caso nao exista interacao ou ela sejanao-essencial. Para testar as demais hipoteses de interesse, convem ob-servar que as estatısticas F apresentadas acima podem ser substituıdaspor estatısticas t. Em particular, tendo em vista que a variancia dasdiferencas dij e das somas sij das respostas intraunidades amostrais saorespectivamente s2

d = SQE2/(n− 2) e que s2s = SQE1/(n− 2), podemos

escrever

FTpTr = (d1 − d2)/sd√

(n1n2)/(n1 + n2)2,

FTp = (d1 + d2)/sd√

(n1n2)/(n1 + n2)2,

e

FTr = (s1 − s2)/ss√

(n1n2)/(n1 + n2)2.

Entao, pode-se deduzir que para testar a hipotese (iii), basta utilizarFTpTr1 = d1/sd

√n12 ou FTpTr2 = d2/sd

√n22, consoante o interesse

recaia no primeiro ou no segundo tratamento.

Finalmente, para testar a hipotese (v), pode-se utilizar a estatıstica

FTrTp1 = ni∑j=1

(y11k − y21k)/s1

√(n1n2)/(n1 + n2)2

Singer & Nobre & Rocha - marco/2011

Page 70: An alise de dados longitudinais - docs.ufpr.br

66 5.1 ESTUDOS PRE-TESTE/POS-TESTE

em que s21 = (n − 2)−1

∑2i=1

∑nij=1(yij1 − yi1)2 com yi1 = n−1

i

∑nij=1 yij1.

Sob a hipotese nula de que as respostas medias das unidades amostraisdos dois tratamentos sao iguais no pre-teste, a estatıstica FTrTp1 segueuma distribuicao F1,n1+n2−2.

Convem notar que a suposicao de homocedasticidade das medidasintraunidades amostrais (i.e., igualdade das variancias no pre- e pos-teste) nao e necessaria para que as estatısticas de teste consideradasacima sigam distribuicoes F . Basta que as matrizes de covariancias in-traunidades amostrais sejam iguais. Isso implica que os resultados saovalidos sob modelos mais gerais do que aquele definido por (3.1.1)-(3.1.3).

Os resultados da analise dos dados do Exemplo 5.1.2 estao dispostosna Tabela 3.1.3.

Tabela 3.1.3: Tabela ANOVA para os dados do Exemplo 5.1.2

Fonte Graus de Soma de Quadrado Estatısticade variacao liberdade quadrados medio F Valor-P

Grupo 1 6533.3 6533.3 18.36 0.0003Caes 22 7829.3 355.9

Tempo 1 3468.0 3468.0 131.85 0.0000Grupo × Tempo 1 1.3 1.3 0.05 0.8239

Observacoes 22 578.7 26.3

Estimativas das matrizes de covariancias intraunidades amostrais paracada grupo sao, respectivamente

Σ1 =

[271.52 255.03

284.61

]e Σ2 =

[108.24 74.75

100.00

]e a estimativa da matriz de covariancias intraunidades amostrais comum,obtida sob a hipotese de homocedasticidade entre os dois grupos e

Σ =

[189.88 164.79

192.30

].

Alem disso, as correspondentes estimativas das variancias das diferencasdas respostas no pre-teste e pos-teste sao respectivamente σ2

d1= 46.05,

σ2d2

= 59.16 e σ2d = 52.60 o que nao traz evidencias contrarias a su-

posicao de homocedasticidade entre os dois grupos e que, consequente-mente, nao invalida a analise baseada no modelo (3.1.1)-(3.1.3). Em

Singer & Nobre & Rocha - marco/2011

Page 71: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 67

particular, convem observar que

t2TrTp = (−16.67 + 17.33)/√

52.60(1/12 + 1/12)]2 = 0.05

e exatamente o valor da estatıstica FTrTp obtido na Tabela 3.1.3.

Ha situacoes experimentais em que nao existe interesse nas com-paracoes envolvendo as medidas pre-teste. O exemplo descrito a seguir eum caso tıpico.

Exemplo 5.1.2: Consideramos um estudo realizado na Faculdade deMedicina da Universidade de Sao Paulo para avaliar a resistencia respi-ratoria de ratos com respeito a gases de diferentes densidades. Dentreas varias respostas avaliadas no estudo, selecionamos a resistencia ho-mogenea do sistema respiratorio (RHSR) para nossos propositos. Primeira-mente, a RHSR de cada um de 29 ratos foi medida logo apos seremsubmetidos a ventilacao com ar sintetico. Posteriormente, 15 dos ratosescolhidos aleatoriamente foram submetidos novamente a ventilacao comar sintetico (C) e os outros 14 ratos foram submetidos a ventilacao comuma mistura de helio e oxigenio (T ). A mistura de helio e oxigeniorepresenta o “tratamento” de interesse e o ar sintetico corresponde ao“controle”. Ao termino da intervencao, uma segunda medicao da RHSRfoi realizada. Os dados estao apresentados na Tabela 3.1.4, um graficode perfis individuais, na Figura 3.1.4 e um grafico de perfis medios, naFigura 3.1.5.

Neste exemplo temos uma populacao nao estratificada medida numponto de referencia (pre-teste), que corresponde a medicao realizada logoapos a ventilacao com ar sintetico. A cada indivıduo dessa populacaofoi aplicado um de dois tipos de intervencao de forma aleatoria. Essasintervencoes correspondem a ventilacao com C ou a ventilacao com T .Neste cenario, o interesse e:

a) comparar os efeitos (RHSR media pos-teste - RHSR media pre-teste) da ventilacao com T e com C (interacao entre tratamento etempo),

b) avaliar os efeitos da ventilacao com C e com T individualmente nocaso de existencia de interacao,

Graficos do tipo boxplot correspondentes estao dispostos na Figura 3.1.6.

Singer & Nobre & Rocha - marco/2011

Page 72: An alise de dados longitudinais - docs.ufpr.br

68 5.1 ESTUDOS PRE-TESTE/POS-TESTE

Tabela 3.1.4: Resistencia homogenea do sistema respiratorio de ratos.

Rato Gas Pre-teste Pos-teste Rato Gas Pre-teste Pos-teste

1 T 0.0828 0.0347 15 C 0.0477 0.04612 T 0.0274 0.0172 16 C 0.0313 0.01143 T 0.0115 0.0022 17 C -0.0437 0.04174 T 0.0112 0.0157 18 C 0.0358 0.00215 T 0.0065 0.0149 19 C 0.0477 0.04886 T 0.0025 0.0000 20 C 0.0579 0.05917 T 0.0357 0.0147 21 C 0.0664 0.09868 T 0.0232 0.0291 22 C 0.0871 0.05299 T 0.0356 0.0092 23 C 0.0517 0.057710 T 0.0458 0.0490 24 C 0.1102 0.101811 T 0.0836 0.0208 25 C 0.0776 0.032912 T 0.0638 0.0221 26 C 0.0970 0.011013 T 0.0909 0.0972 27 C 0.0157 0.025814 T 0.0281 0.0204 28 C 0.1203 0.1171

29 C 0.0279 0.0176

Ventilacao com T : ar sintetico/helio-oxigenioVentilacao com C: ar sintetico/ar sintetico

-

Figura 3.1.4: Perfis individuais para RHSR de ratos

. Pré-Teste Pós-Teste0.000.010.020.030.040.050.060.070.080.090.100.110.120.13

Resistên iaHomogênea

Ar Sint.He e O2

1

Singer & Nobre & Rocha - marco/2011

Page 73: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 69

Figura 3.1.5: Valores das medias amostrais (cırculos) da RHSR de ratos.

Pré-Teste Pós-Teste0.010.020.030.040.050.060.07

MédiadaResistên iaHomogênea Ar Sint.

He e O2

1

Figura 3.1.6: Boxplots para a RHSR de ratos antes (pre-teste), depois(pos-teste) e efeito da ventilacao com ar sintetico, ou com a misturahelio/oxigenio

.

C T

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Pré

−T

este

C T

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Pós

−T

este

C T

−0.

06−

0.04

−0.

020.

000.

020.

040.

06

[Pós

−T

este

] − [P

ré−

Tes

te]

Embora os modelos considerados acima tambem possam ser emprega-

Singer & Nobre & Rocha - marco/2011

Page 74: An alise de dados longitudinais - docs.ufpr.br

70 5.1 ESTUDOS PRE-TESTE/POS-TESTE

dos nesse caso, um modelo de analise de covariancia (ANCOVA) tambempode ser utilizado para atacar as questoes pertinentes, nomeadamente,(a) e (b). Para essa abordagem, a analise e condicional aos valores dasrespostas no pre-teste, yij1, i = 1, 2 j = 1, . . . , ni, que admitimos fixas.Um modelo de ANCOVA e

yij2 = µ2 + αi + β(yij1 − y1) + eij, i = 1, 2, j = 1, . . . , ni, (3.1.4)

em que y1 = n−12∑i=1

ni∑j=1

yij1, α1 + α2 = 0, eij e um erro (de medida)

aleatorio tal que E(eij) = 0, V(eij) = σ2e e as variaveis eij sao nao

correlacionadas duas a duas, i = 1, 2 j = 1, . . . , ni, e µ2, αi e β corre-spondem, respectivamente, a media geral da resposta no pos-teste, aoefeito do tratamento i resposta media e ao coeficiente de regressao linearcomum (de yij2 em funcao de yij1).

Um segundo modelo de ANCOVA e dado por

dij = ν2 + γi + δ(yij1 − y1) + eij, i = 1, 2, j = 1, . . . , ni, (3.1.5)

em que dij = yij1 − yij2, y1 = n−12∑i=1

ni∑j=1

yij1, γ1 + γ2 = 0, eij e um erro

(de medida) aleatorio tal que E(eij) = 0, V(eij) = σ2e e as variaveis eij

sao nao correlacionadas duas a duas, i = 1, 2 j = 1, . . . , ni, e µ2, αi e βcorrespondem, respectivamente, a media geral da resposta no pos-teste,ao efeito do tratamento i resposta media e ao coeficiente de regressaolinear comum (de yij2 em funcao de yij1).

Para o Exemplo 5.1.2, o diagrama de dispersao para a RHSR dos

ratos e as retas E(yij2) = µ2 + αi + β(yij1 − y1), i = 1, 2, obtidas viamınimos quadrados estao apresentados na Figura 3.1.7.

Singer & Nobre & Rocha - marco/2011

Page 75: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 71

Figura 3.1.7: Diagrama de dispersao da RHSR, antes (pre-teste) versusdepois (pos-teste) de submeter os ratos a ventilacao com ar sintetico, oucom helio/oxigenio, e retas esperadas segundo o modelo (3.1.4)

0.00 0.04 0.08 0.12

0.00

0.04

0.08

0.12

Pré−Teste

Pós

−T

este

Detalhes sobre as relacoes identificadas acima alem de outras consid-eracoes sobre a a analise de estudos do tipo pre-teste/pos-teste podem serencontrados em Brogan & Kutner (1980), Grieve (1981), Levin (1981),Schafer (1981), Kutner & Brogan (1981), Laird (1983) e Stanek III(1988).

3.2 Analise de perfis

O termo analise de perfis se refere ao conjunto de tecnicas utilizadas paracomparar t diferentes tratamentos (possivelmente definidos por meio docruzamento dos nıveis de dois ou mais fatores) com respeito a variacao daresposta media ao longo de p diferentes condicoes de avaliacao (tempo)em que as unidades amostrais sao observadas. Em princıpio, todas asunidades amostrais sao observadas nos mesmos instantes, nao necessari-amente igualmente espacados. Possıveis desbalanceamentos sao devidosa observacoes omissas. Essencialmente, a analise tem como objetivo re-sponder as seguintes questoes:

Singer & Nobre & Rocha - marco/2011

Page 76: An alise de dados longitudinais - docs.ufpr.br

72 5.2 ANALISE DE PERFIS

i) comparacao dos diferentes tratamentos quanto ao padrao de variacaodas respectivas distribuicoes de respostas ao longo do tempo, istoe, avaliacao da existencia de interacao entre os fatores que definemos tratamentos e o fator tempo;

ii) comparacao dos diferentes tratamentos quanto as respectivas dis-tribuicoes medias (em relacao ao tempo) de respostas, isto e, avaliacaoda existencia de efeitos principais dos fatores que definem os trata-mentos;

iii) comparacao dos diferentes instantes de avaliacao quanto as respec-tivas distribuicoes medias (em relacao aos diferentes tratamentos)de respostas, isto e avaliacao da existencia de efeito principal dofator tempo;

iv) identificacao de modelos polinomiais que expliquem a variacao dasrespostas medias (ou de outras caracterısticas das distribuicoes dasrespostas) como funcao dos nıveis do fator tempo.

Os objetivos (i)-(iii) podem ser operacionalizados por meio das hipoteses:

• HI : os perfis medios de resposta correspondentes aos diferentestratamentos sao paralelos;

• HT : os perfis medios de resposta correspondentes aos diferentestratamentos sao coincidentes;

• HP : os perfis medios de resposta correspondentes aos diferentestratamentos sao paralelos ao eixo das abscissas.

Com essa finalidade, procuramos representar os parametros originaisdas distribuicoes de probabilidade geradoras do dados por meio de mod-elos estruturais simples (isto e, com um numero menor de parametros)que reflitam os aspectos fundamentais da variacao da resposta. Nessecontexto, o perfil individual de resposta com as p observacoes referentesa i -esima unidade amostral (i = 1, . . . , nj) submetida ao j -esimo trata-mento (j = 1, . . . , t) e dado por

yij = (yij1, . . . , yijp)>

em que yijk denota o valor da variavel resposta para a i-esima unidadeamostral submetida ao j-esimo tratamento no k-esimo instante (k =

Singer & Nobre & Rocha - marco/2011

Page 77: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 73

1, . . . , p). Os perfis medios de respostas nos p nıveis da condicao deavaliacao sao dados por E(y>ij) = µj = (µj1, . . . , µjp)

>, j = 1, . . . , t.

Quando os dados sao balanceados em relacao ao tempo, i.e., quandonao ha observacoes omissas, a forma mais adequada para representar oproblema e (2.4.1) em que

M =

µ11 µ12 . . . µ1p

µ21 µ22 . . . µ2p...

......

...µt1 µt2 . . . µtp

(3.2.1)

e X = ⊕tj=11nj .

Em termos dos parametros µjk, a hipotese i) pode ser expressa como

HI :

µ11 − µ12

µ12 − µ13...

µ1(p−1) − µ1p

=

µ21 − µ22

µ22 − µ23...

µ2(p−1) − µ2p

= . . . =

µt1 − µt2µt2 − µt3

...µt(p−1) − µtp

.Na ausencia de interacao, ou seja, quando nao rejeitamos HI , as hipotesesii) e iii) podem ser definidas como

HT :

p∑k=1

µ1k =

p∑k=1

µ2k = . . . =

p∑k=1

µtk

e

HP :t∑

j=1

µj1 =t∑

j=1

µj2 = . . . =t∑

j=1

µjp.

Outra forma para representar as hipoteses ii) e iii) independentementeda presenca ou nao da interacao e

HTI :

µ11

µ12...µ1p

=

µ21

µ22...µ2p

= . . . =

µt1µt2...µtp

e

H∗PI :

µ11

µ21...µt1

=

µ12

µ22...µt2

= . . . =

µ1p

µ2p...µtp

.Singer & Nobre & Rocha - marco/2011

Page 78: An alise de dados longitudinais - docs.ufpr.br

74 5.2 ANALISE DE PERFIS

Nas situacoes hipoteticas ilustradas na Figura 3.2, ilustramos os seguintes

o.

Figura 3.2.1: Perfis medios de resposta correspondentes a uma situacoeshipoteticas com 2 tratamentos e 3 tempos

B1 B2 B3

A2

A1µ11

µ12

µ13

µ21

µ22

µ23

Res

post

a m

édia

pop

ulac

iona

l

B1 B2 B3

A2

A1µ11

µ12

µ13

µ21

µ22

µ23

Res

post

a m

édia

pop

ulac

iona

lB1 B2 B3

A2

A1

µ11

µ12

µ13

µ21

µ22

µ23

Res

post

a m

édia

pop

ulac

iona

l

casos: i) inexistencia de interacao e existencia dos efeitos principais detratamento e de tempo; ii) existencia de interacao (nao essencial), deefeitos principais de tratamento e de tempo e iii) existencia de interacao(essencial); neste caso nao se pode falar em efeitos principais de trata-mento e de tempo e sim em efeitos de tratamento (ou tempo) em cadanıvel de tempo (ou tratamento).

As hipoteses descritas acima podem ser expressas na forma (2.4.2).A matriz C e utilizada para definir as comparacoes das respostas mediasentre tratamentos e a matriz U e utilizada para definir as comparacoesdas respostas medias entre tempos. Lembrando que a escolha dessasmatrizes para a definicao de cada uma das hipoteses em questao nao eunica, podemos definir HI por meio de (2.4.2) com

C = C1 =

1 −1 0 . . . 01 0 −1 . . . 0...

......

. . . 01 0 0 . . . −1

,uma matriz com dimensao (t− 1)× t e

U = U1 =

1 0 0 . . . 0−1 1 0 . . . 0

0 −1 1 . . . 0...

......

. . ....

0 0 0 . . . 10 0 0 . . . −1

,

Singer & Nobre & Rocha - marco/2011

Page 79: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 75

uma matriz com dimensao p × (p − 1). Para a hipotese HTI , podemosutilizar

C = C1 e U = 1p

e para a hipotese HPI ,

C = 1>t e U = U1.

Tambem podemos expressar modelos para analise de perfis na forma(2.3.1) com X = ⊕tj=11nj⊗Ip, β = (µ11, µ12, . . . , µ1p, . . . , µt1, µt2, . . . , µtp)

>

e Z = 0. As hipoteses HI , HTI e HPI podem ser expressas na forma(2.3.30), que neste caso se reduz a

Lβ = 0 (3.2.2)

com L = C⊗U>.

Como exemplo, consideremos um estudo com dois tratamentos (t = 2)e tres condicoes de avaliacao (p = 3). Expressando o modelo na forma(2.4.1), a matriz de parametros e

M =

[µ11 µ12 µ13

µ21 µ22 µ23

];

as matrizes C e U associadas a hipotese HI sao

C =[

1 −1]

e U =

1 0−1 1

0 −1

.Sob a formulacao (2.3.1) temos

β = vec(M) = [µ11, µ12, µ13, µ21, µ22, µ23]> .

e a matriz L associada a hipotese HI e

L =

[1 −1 0 −1 1 00 1 −1 0 −1 1

].

A formulacao (2.3.1) permite a especificacao de hipoteses mais gerais quea formulacao (2.4.1), pois no primeiro caso, L pode ser qualquer matrizde posto completo.

Apresentamos a seguir analises de perfis de conjuntos de dados reais.Nossos objetivos sao essencialmente didaticos e nao pretendemos fazeruma analise exaustiva do problema considerado.

Singer & Nobre & Rocha - marco/2011

Page 80: An alise de dados longitudinais - docs.ufpr.br

76 5.2 ANALISE DE PERFIS

3.2.1 Uma estrategia para analise de perfis

Exemplo 5.2.1: Os dados considerados neste exemplo foram obtidosde um estudo cuja finalidade era avaliar o efeito do clordiazepoxido nomecanismo de bloqueio de ansiedade em ratos. Essa droga funciona comoagente depressor do sistema nervoso central e e empregada clinicamentecom tal fim. O estudo foi baseado numa amostra de 90 ratos de mesmalinhagem com pesos e idades comparaveis e consistiu das tres seguintesetapas:

Modelagem: 90 ratos foram condicionados a responder a estımulos eletricosde 1.3 mA com duracao de 0.5 segundo a cada intervalo de 3.0 se-gundos. A resposta, conhecida na literatura como “resposta deesquiva”, consiste no acionamento de uma barra apropriada, peloanimal, com a finalidade de interromper o estımulo eletrico e pro-porcionar um perıodo inerte de 30 segundos em media. O objetivodesta etapa e familiarizar os animais com o procedimento e avaliaras diferencas entre eles relativamente ao numero de estımulos eletricosgerados (MODELCHO) nesta etapa. O processo de modelagem einterrompido quando o animal aciona o mecanismo 3 vezes entredois choques consecutivos.

Manutencao: nesta fase os animais foram treinados com o objetivo deatingir uma estabilizacao das taxas de resposta de esquiva, ou sejada frequencia de respostas de esquiva por minuto. Nesse sentidoos animais foram submetidos a estımulos eletricos nos padroes de-scritos acima e as taxas de resposta de esquiva foram observadasem 12 ocasioes correspondentes aos pontos finais de 12 intervalosconsecutivos de 15 minutos cada.

Extincao: os 90 ratos foram aleatoriamente subdivididos em 9 conjuntosde 10 animais e cada um desses conjuntos foi submetido a um dostratamentos descritos a seguir:

PLACEBO : injecao de 1.0 mg/kg de solucao salina;

CDPA2.5 : injecao de 2.5 mg/kg de clordiazepoxido;

CDPA5.0 : injecao de 5.0 mg/kg de clordiazepoxido;

CDPA10.0 : injecao de 10.0 mg/kg de clordiazepoxido;

CDPA15.0 : injecao de 15.0 mg/kg de clordiazepoxido;

Singer & Nobre & Rocha - marco/2011

Page 81: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 77

CDPC5.0 : injecao de 5.0 mg/kg de clordiazepoxido apos um pre-tratamentode 4 injecoes com a mesma dosagem da droga durante 4 dias;

CDPC10.0 : injecao de 10.0 mg/kg de clordiazepoxido apos um pre-tratamento de 4 injecoes com a mesma dosagem da drogadurante 4 dias;

ANFET : injecao de 1.0 mg/kg de anfetamina;

ATROP : injecao de 1.0 mg/kg de atropina.

As drogas utilizadas nos dois ultimos tratamentos sao estimulantesdo sistema nervoso central e foram incluıdas no estudo para efeitode comparacao. Durante esta etapa foram observadas as taxas deresposta de esquiva em 13 ocasioes correspondentes aos pontos fi-nais de 13 intervalos consecutivos de 30 minutos cada. A variavelde interesse, neste caso, e o chamado ındice de extincao, que corre-sponde ao quociente entre a taxa de resposta de esquiva obtida naocasiao avaliada e uma taxa padrao de resposta de esquiva obtidana etapa de manutencao. Essa taxa padrao corresponde a mediadas taxas de resposta de esquiva nas ultimas 5 ocasioes daquelaetapa.

Espera-se que o ındice medio de extincao decresca com o tempo a naoser para animais que estejam sob o efeito de estimulantes, como aquelessubmetidos aos tratamentos com anfetamina ou atropina. Tendo essaexpectativa em vista, o objetivo do estudo esta essencialmente associadoa comparacao dos tratamentos com relacao as taxas de decrescimo dessesındices.

Graficos de perfis individuais para os nove tratamentos estao apre-sentados na Figura 3.2.2 e sugerem a existencia de efeitos aleatorios deanimais dado o “paralelismo” dos perfis individuais. Grosso modo, pode-se observar que animais com ındices de extincao acima (ou abaixo) damedia tendem a manter esse padrao ao longo do tempo.

O grafico dos perfis medios apresentado na Figura 3.2.3 sugere umapossıvel interacao entre tratamento e tempo.

Singer & Nobre & Rocha - marco/2011

Page 82: An alise de dados longitudinais - docs.ufpr.br

78 5.2 ANALISE DE PERFIS

Figura 3.2.2: Perfis individuais para os nove tratamentos

Tempo

Índi

ce d

e ex

tinçã

o

0.00.51.01.52.02.5

2 4 6 8 10 12

CDPC10.0 ANFET

2 4 6 8 10 12

ATROP

CDPA10.0 CDPA15.0

0.00.51.01.52.02.5

CDPC5.00.00.51.01.52.02.5

PLACEBO

2 4 6 8 10 12

CDPA2.5 CDPA5.0

Singer & Nobre & Rocha - marco/2011

Page 83: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 79

Figura 3.2.3: Perfis medios para os nove tratamentos

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

0 2 4 6 8 10 12 14

Tempo

Méd

ia d

o ín

dic

e d

e ex

tin

ção

PLACEBO CDPA2.5 CDPA5.0 CDPA10.0 CDPA15.0 CDPC5.0 CDPC10.0 ANFET ANTROP

A matriz de correlacoes intraunidades amostrais e

10.70 10.68 0.79 10.61 0.69 0.84 10.49 0.53 0.70 0.81 10.44 0.44 0.65 0.77 0.89 10.43 0.39 0.63 0.74 0.88 0.91 10.37 0.35 0.58 0.72 0.86 0.86 0.92 10.41 0.42 0.61 0.74 0.82 0.82 0.84 0.91 10.33 0.39 0.55 0.67 0.77 0.78 0.83 0.87 0.91 10.22 0.34 0.52 0.62 0.74 0.77 0.83 0.86 0.86 0.92 10.21 0.28 0.47 0.60 0.72 0.76 0.83 0.83 0.83 0.90 0.92 10.20 0.29 0.52 0.61 0.74 0.76 0.81 0.81 0.82 0.88 0.89 0.91 1

(3.2.3)

Seguindo a sugestao de Grady & Helms (1995), construımos graficosde perfis para cada coluna da matriz de correlacoes, tendo como orde-nadas os coeficientes de correlacao e como abscissas as defasagens entreos instantes em que foram observadas as respostas. Esses graficos estaoresumidos na Figura 3.2.4.

Essas ferramentas permitem-nos observar que os valores dos coefi-cientes de correlacao em cada coluna da matriz decrescem com a de-fasagem, sugerindo a presenca de correlacao serial. Alem disso, notamos

Singer & Nobre & Rocha - marco/2011

Page 84: An alise de dados longitudinais - docs.ufpr.br

80 5.2 ANALISE DE PERFIS

Figura 3.2.4: Correlacoes em funcao da defasagem

0.00

0.20

0.40

0.60

0.80

1.00

0 2 4 6 8 10 12 14

Defasagem

Cor

rela

ções

c1 c2 c3 c4 c5 c6c7 c8 c9 c10 c11 c12

um aumento do valor dos coeficientes de correlacao em cada subdiagonal.Esses padroes observados sugerem que a estrutura de antedependenciapara a matriz de correlacoes intraunidades amostrais.

Ainda com o objetivo de identificar uma estrutura de covarianciaadequada para os dados, ajustamos o modelo

yijk = µij + eijk

em que, i = 1, . . . , 10 indexa as unidades amostrais (dentro de trata-mento), j = 1, . . . , 9 indexa tratamentos (1=PLACEBO, 2=CDPA2.5,3=CDPA5.0, 4=CDPA10.0, 5=CDPA15.0, 6=CDPC5.0, 7=CDPC10.0,8=ANFET e 9=ATROP), k = 1, . . . , 13 indexa os tempos e eijk sao errosaleatorios. Alternativamente, o modelo pode ser escrito como

yij = µj + eij, (3.2.4)

em que yij denota o vetor com os ındices de extincao da i-esima unidadeamostral submetida ao j-esimo tratamento ao longo dos k instantes deobservacao, µj representa o vetor com as medias dos ındices de extincaopara o j-esimo tratamento ao longo dos k instantes de observacao e eijrepresenta o vetor com dos erros de medida associados, para o qual as-sumimos uma distribuicao N(0; R).

Ainda com objetivo exploratorio, adotamos as estruturas de covarianciaAR1, ARH1 e Antedependencia de ordem 1 para a matriz R. Consid-eramos tambem o ajuste de seguinte modelo com coeficientes lineares

Singer & Nobre & Rocha - marco/2011

Page 85: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 81

Tabela 3.2.1: Estatısticas de ajuste de modelos com diferentes estruturasde covariancias intraunidades amostrais

Estruturas Numero dede covariancia parametros AIC BICAR1 2 70.8 75.8ARH1 14 43.0 78.0ANTE1 25 11.2 73.7AR1CL 3 50.2 57.7NE 91 -5.2 222.3

aleatorios

yij = µj + Zibi + eij, (3.2.5)

em que Zi = 113 e R = V(eij) tem uma estrutura AR1 para incorporar acorrelacao serial observada; a estrutura de covariancias marginal obtidacom esse modelo e rotulada AR1CL. Estatısticas de ajuste dos modelosexploratorios adotados estao apresentados na Tabela 3.2.1 e confirmamas evidencias favoraveis ao modelo de antedependencia de ordem 1 paraa matriz de covariancias intra-unidades amostrais.

Adotando a matriz de covariancias intraunidades amostrais identifi-cada na Tabela 3.2.1, inicialmente testamos a hipotese de inexistencia deinteracao entre Tratamento e Tempo (H0I). Utilizando a aproximacao Fpara a estatıstica (2.3.31) obtivemos p = 0.0036, o que sugere a rejeicaoda hipotese nula. Em situacoes semelhantes, muitos autores, como Lind-sey (1999), sugerem o prosseguimento da analise por meio da realizacaoda comparacao dos tratamentos em cada instante de avaliacao. Umaalternativa mais interessante corresponde a um estudo da natureza dainteracao por meio de um exame da estrutura dos tratamentos. No casoem considerac314ao, uma justificativa para a interacao entre Tratamentoe Tempo e uma possıvel diferenca no comportamento longitudinal dosperfis medios de resposta para os seguintes tres grupos de tratamentos:

GRUPO 1: PLACEBO, CDPA2.5, CDPA5.0, ANFET, ATROP;

GRUPO 2: CDPA10.0, CDPC5.0;

GRUPO 3: CDPA15.0, CDPC10.0.

Singer & Nobre & Rocha - marco/2011

Page 86: An alise de dados longitudinais - docs.ufpr.br

82 5.2 ANALISE DE PERFIS

A composicao desses grupos tem uma explicacao biologica que nao discu-tiremos aqui. A inclusao dos tratamentos ANFET e ATROP no mesmogrupo do PLACEBO pode ser justificada em funcao da pequena dosagemdos estimulantes administrada aos animais; caso uma dosagem maiortivesse sido considerada, esses tratamentos teriam sido incluıdos no GRUPO3. Uma representacao grafica dos ındices de extincao medios correspon-dentes aos tratamentos de cada um desses tres grupos e indicada naFigura 3.2.1. O tratamento PLACEBO foi incluıdo em todos os graficospara comparacao.

Figura 3.2.5: Perfis medios para os tres grupos de tratamentos

-0.13

0.07

0.27

0.47

0.67

0.87

1.07

1.27

0 2 4 6 8 10 12 14

Tempo

Méd

ia d

o ín

dice

de

extin

ção

PLACEBO CDPA2.5 CDPA5.0 ANFET ANTROP

-0.13

0.07

0.27

0.47

0.67

0.87

1.07

1.27

1 2 3 4 5 6 7 8 9 10 11 12 13

Tempo

Méd

ia d

o ín

dice

de

extin

ção

PLACEBO CDPA10.0 CDPC5.0

-0.13

0.07

0.27

0.47

0.67

0.87

1.07

1.27

1 2 3 4 5 6 7 8 9 10 11 12 13

Tempo

Méd

ia d

o ín

dice

de

extin

ção

PLACEBO CDPA15.0 CDPC10.0

Tendo em vista esse agrupamento dos tratamentos, uma hipotese deinteresse e a de paralelismo dos perfis medios de resposta dentro de cadaum desses tres grupos, isto e, a hipotese de inexistencia de interacaoentre Tratamento e Tempo dentro de cada grupo. Essa hipotese pode serexpressa na forma (3.2.2), com L = C⊗U> e

C =

1 −1 0 0 0 0 0 0 01 0 −1 0 0 0 0 0 01 0 0 0 0 0 0 −1 01 0 0 0 0 0 0 0 −10 0 0 1 0 −1 0 0 00 0 0 0 1 0 −1 0 0

(3.2.6)

Singer & Nobre & Rocha - marco/2011

Page 87: An alise de dados longitudinais - docs.ufpr.br

5. ANALISE DE DADOS 83

Tabela 3.2.2: Testes para as hipoteses de existencia de efeito de Trata-mento e de Tempo dentro de grupos

Hipotese C U F gl P

Tratamento (3.2.6) 113 1.75 (6, 963) 0.106

Tempo Grupo 1 (1 1 1 0 0 0 0 1 1) (3.2.7) 2.85 (12, 963) 0.001

Tempo Grupo 2 (0 0 0 1 0 1 0 0 0) (3.2.7) 0.76 (12, 963) 0.697

Tempo Grupo 3 (0 0 0 0 1 0 1 0 0) (3.2.7) 3.64 (12, 963) < 0.001

e

U =

1 0 0 0 0 0 0 0 0 0 0 0−1 1 0 0 0 0 0 0 0 0 0 00 −1 1 0 0 0 0 0 0 0 0 00 0 −1 1 0 0 0 0 0 0 0 00 0 0 −1 1 0 0 0 0 0 0 00 0 0 0 −1 1 0 0 0 0 0 00 0 0 0 0 −1 1 0 0 0 0 00 0 0 0 0 0 −1 1 0 0 0 00 0 0 0 0 0 0 −1 1 0 0 00 0 0 0 0 0 0 0 −1 1 0 00 0 0 0 0 0 0 0 0 −1 1 00 0 0 0 0 0 0 0 0 0 −1 10 0 0 0 0 0 0 0 0 0 0 −1

.

(3.2.7)O valor-P correspondente ao teste dessa hipotese e p = 0.7223, e sugereque nao ha razoes para a sua rejeicao. Como consequencia, podemos con-siderar paralelos os perfis medios de resposta dos tratamentos dentro decada um dos grupos descritos acima e entao faz sentido testar hipotesessobre a inexistencia de efeito de tratamentos nos moldes de HTI e deinexistencia de efeito de tempo nos moldes de HPI dentro de cada umdos tres grupos. A especificacao dessas hipoteses na forma (3.2.2) comL = C ⊗U>, assim como os valores das estatısticas F aproximadas, osrespectivos graus de liberdade (g.l) e os valores-P dos testes correspon-dentes estao indicados na Tabela 3.2.1.

Esses resultados sugerem que:

i) os 9 tratamentos podem ser classificados em 3 grupos de tratamentosequivalentes;

Singer & Nobre & Rocha - marco/2011

Page 88: An alise de dados longitudinais - docs.ufpr.br

84 5.2 ANALISE DE PERFIS

Tabela 3.2.3: Medias estimadas (erros padroes) para os tres grupos detratamentos

Grupo Tempo Estimativa Erro padrao

1 1 0.84 0.051 2 0.75 0.051 3 0.67 0.051 4 0.62 0.051 5 0.63 0.061 6 0.63 0.061 7 0.62 0.061 8 0.57 0.061 9 0.56 0.061 10 0.51 0.061 11 0.48 0.061 12 0.49 0.061 13 0.46 0.062 1 - 13 0.44 0.073 1 0.36 0.093 2 0.52 0.093 3 0.55 0.083 4 0.54 0.083 5 0.62 0.093 6 0.69 0.093 7 0.77 0.093 8 0.73 0.093 9 0.68 0.103 10 0.83 0.103 11 0.88 0.103 12 0.90 0.093 13 0.97 0.10

ii) tratamentos pertencentes a grupos diferentes tem efeitos diferentes;

iii) somente os tratamentos do segundo grupo produzem respostas mediasessencialmente constantes ao longo das condicoes de avaliacao.

Na Tabela 3.2.1 apresentamos as medias e respectivos erros padroesestimados sob o modelo que incorpora o resultado da analise.

Singer & Nobre & Rocha - marco/2011

Page 89: An alise de dados longitudinais - docs.ufpr.br

Apendice A

Matrizes e espacos vetoriais

A.1 Matrizes

Neste apendice apresentamos a notacao matricial utilizada no textoe listamos alguns resultados relacionados com algebra e derivacao dematrizes alem de conceitos de espacos vetoriais. Para maiores detalhes, oleitor deve consultar Searle (1982), Magnus & Neudecker (1988) e Harville(1997), por exemplo.

Uma matriz A de dimensao m × n, e um arranjo retangular deelementos

1com m linhas e n colunas, no qual o elemento aij situa-se no

cruzamento da i-esima linha com a j-esima coluna:

A =

a11 a12 . . . a1n

a21 a22 . . . a2n...

......

...am1 am2 . . . amn

= ((aij))1≤i≤n,1≤j≤m.

Um exemplo de uma matriz (2× 4) e

A =

(1 0 4 −83 5 2 0

).

Um vetor de dimensao (m × 1) e uma matriz com m linhas e uma

1

Neste texto consideramos apenas matrizes com elementos reais.

Page 90: An alise de dados longitudinais - docs.ufpr.br

86 A.1 MATRIZES

unica coluna:

u =

u11

u21...

um1

.

Nesta obra, matrizes serao representadas por letras maiusculas emnegrito (por exemplo, A,X,G) e vetores, por letras minusculas em negrito(a,x,y, por exemplo). Quando necessario, a dimensao sera especificadaentre parenteses; por exemplo, A (m×n). Uma matriz A (m×n), podeser expressa como A = (a1 . . . an), com aj denotando sua j-esima coluna,ou seja,

aj =

a1j

a2j...amj

.

A.1.1 Operacoes basicas

Multiplicacao por escalar: Sejam k um numero real e A uma matriz(m × n). O produto A por k denotado B = kA e uma matriz (m × n)no qual o elemento bij = kaij, ou seja,

B = kA =

ka11 ka12 . . . ka1n

ka21 ka22 . . . ka2n...

......

...kam1 kam2 . . . kamn

.

Soma e subtracao de matrizes: Sejam A e B duas matrizes de mesmadimensao (m×n). Sua soma, representada por A+B, e a matriz (m×n)cujos elementos sao dados por cij = aij + bij, ou seja,

A + B =

a11 + b11 a12 + b12 . . . a1n + b1n

a21 + b21 a22 + b22 . . . a2n + b2n...

......

...am1 + bm1 am2 + bm2 . . . amn + bmn

.

Singer & Nobre & Rocha - marco/2011

Page 91: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 87

Sejam A, B matrizes de dimensao (m×n) e k um numero real. Entaovalem as seguintes propriedades:

i) A + B = B + A ;

ii) A + (B + C) = (A + B) + C ;

iii) k(A + B) = kA + kB.

A subtracao de duas matrizes quaisquer A e B, de mesma dimensao(m × n), denotada A − B e uma matriz de dimensao (m × n) cujoselementos sao dados por dij = aij − bij.Produto de matrizes: O produto de uma matriz A com dimensao(m×n) por uma matriz B com dimensao (n× q) e uma matriz C = ABcom dimensao (m× q) com elementos

cij =n∑k=1

aikbkj = ai1b1j + ai2b2j + · · ·+ ainbnj,

para i = 1, . . . ,m e j = 1, . . . , q.

Sejam A, B e C matrizes tais que os produtos AB, AC e BC estejambem definidos. Entao valem as seguintes propriedades:

i) A(BC) = (AB)C;

ii) A(B + C) = AB + AC .

Em geral o produto de matrizes nao e comutativo, ou seja, nao neces-sariamente AB = BA. Por exemplo, dadas

A =

1 0 01 2 10 0 5

e B =

0 1 01 0 11 1 0

,

temos

AB =

0 1 01 2 02 1 1

6= BA =

1 0 11 1 12 0 1

.

Singer & Nobre & Rocha - marco/2011

Page 92: An alise de dados longitudinais - docs.ufpr.br

88 A.1 MATRIZES

Por outro lado, dadas

A =

1 0 00 2 00 0 5

e B =

−1 31 2−2 −2

,

temos

AB =

−1 32 4

−10 −10

,

mas o produto BA nao esta definido.

Matriz transposta: A matriz transposta (as vezes chamada apenas detransposta) de uma matriz A (m × n), denotada por A>, e a matrizcom dimensao (n×m) cujos elementos a′ij sao dados por a′ij = aji. Porexemplo, se

A =

−1 31 2−2 −2

,

entao

A> =

(−1 1 −2

3 2 −2

).

Para quaisquer matrizes A e B (para as quais as operacoes matriciaisabaixo estejam definidas) valem as seguintes propriedades:

i) (A>)> = A;

ii) (A + B)> = A> + B>;

iii) (AB)> = B>A>.

A.1.2 Tipos especiais de matrizes

Matriz quadrada: Uma matriz A com dimensao (n×n) e chamada dematriz quadrada de ordem n. Os elementos a11, . . . , ann de uma matrizquadrada constituem sua diagonal principal.

Singer & Nobre & Rocha - marco/2011

Page 93: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 89

Matriz simetrica: Uma matriz quadrada A e simetrica se A = A>.

Matriz diagonal: Uma matriz quadrada A e diagonal se todos os el-ementos nao pertencentes a diagonal principal forem nulos, ou seja, sefor da forma

A =

a11 0 . . . 00 a22 . . . 0...

......

...0 0 . . . ann

.

Seja A uma matriz quadrada de ordem n e a um vetor (n× 1) formadopelos elementos de sua diagonal principal. Entao, o operador diagonal edefinido como

diag(A) = a

e

diag(a) =

a11 0 . . . 00 a22 . . . 0...

......

...0 0 . . . ann

.

Matriz identidade: Uma matriz diagonal de ordem n em que todos oselementos da diagonal principal sao iguais a 1 e chamada matriz identi-dade de ordem n e e denotada por In

2.

A matriz I e o elemento neutro na multiplicacao de matrizes, isto e,para qualquer matriz quadrada A de ordem n

IA = AI.

Matriz triangular superior: Uma matriz quadrada A e triangularsuperior se todos os elementos abaixo da diagonal principal forem iguaisa zero, ou seja, se for da forma:

A =

a11 a12 a13 . . . a1n

0 a22 a23 . . . a2n...

......

......

0 0 0 . . . ann

,

2

Quando a ordem da matriz identidade for evidente, ela sera denotada I.

Singer & Nobre & Rocha - marco/2011

Page 94: An alise de dados longitudinais - docs.ufpr.br

90 A.1 MATRIZES

Matriz triangular inferior: Analogamente, se todos os elementos acimada diagonal principal de A forem nulos, a matriz A e triangular inferior.

Matriz triangular: Uma matriz e triangular se ela e triangular superiorou inferior.

Se a matriz A e triangular inferior (superior), entao A> e triangularsuperior (inferior); alem disso, a matriz resultante da soma ou produtode matrizes triangulares superiores (inferiores) e triangular superior (in-ferior).

Matriz idempotente: Uma matriz quadrada A de ordem n e idempo-tente se

AA = A2 = A.

A.1.3 Submatrizes e matrizes particionadas

Submatriz: Uma submatriz de uma matriz A e qualquer matriz obtidaatraves da eliminacao de linhas e/ou colunas.

Por exemplo, se considerarmos

A =

2 5 1 4−7 4 0 100, 3 7 20 8

,

podemos obter, por exemplo, as seguintes submatrizes de A 2 5 1−7 4 00, 3 7 20

e (

2 5 1 4−7 4 0 10

),

quando eliminamos, respectivamente, a quarta coluna ou terceira linhade A.

Singer & Nobre & Rocha - marco/2011

Page 95: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 91

Matriz particionada: Uma matriz particionada de dimensao (m× n)e uma matriz expressa na forma

A =

A11 A12 A13 . . . A1s

A21 A22 A23 . . . A2s...

......

......

Ap1 Ap2 Ap3 . . . Aps

,

com Aij representando uma submatriz de dimensao (mi×nj), i = 1, . . . , p;j = 1, . . . , s com m1, . . . ,mp, n1, . . . , ns representando numeros inteirospositivos, tais que

∑pi=1 mi = m e

∑sj=1 nj = n. Por exemplo, a matriz

A =

2 5 1 4−7 4 0 10

3 7 20 8

,

pode ser representada como

A =

(A11 A12

A21 A22

),

em que

A11 =

(2 5−7 4

), A12 =

(1 40 10

), A>21 =

(37

)e A>22 =

(208

),

com m1 = n1 = n2 = 2 e m2 = 1. Uma matriz pode ser particionada devarias maneiras.

A.1.4 Independencia linear e espaco-coluna

Combinacao linear: Sejam x1, . . . ,xp vetores de dimensao (n × 1).O vetor u, de dimensao (n × 1), e uma combinacao linear dos vetoresx1, . . . ,xp, se existem c1, . . . , cp, numeros reais tais que u = c1x1 + . . .+cpxp.

Independencia linear: Os vetores x1, . . . ,xp de dimensao (n× 1) saolinearmente independentes (L.I.) se, e somente se, a combinacao linearc1x1 + . . .+ cpxp = 0 implicar c1 = . . . = cp = 0.

Espaco-coluna: Seja X uma matriz de dimensao (n × p). O espaco-coluna da matriz X, denotado C(X), e o conjunto de todas as com-binacoes lineares dos vetores coluna da matriz X, ou seja, C(X) = y ∈IRn : y = Xa, a ∈ IRp.

Singer & Nobre & Rocha - marco/2011

Page 96: An alise de dados longitudinais - docs.ufpr.br

92 A.1 MATRIZES

Posto (rank) de uma matriz: Seja A = (a1, . . . , an) uma matriz dedimensao (m×n). O posto de A, denotado r(A), e o numero maximo decolunas (linhas) linearmente independentes de A, ou seja, e a dimensaodo espaco-coluna (linha) de A.

Sejam A, B e C matrizes de dimensoes (m × n), (n × q) e (q × t),respectivamente, entao valem as seguintes propriedades:

i) r(A) = r(A>);

ii) r(AB) ≤ min[r(A), r(B)];

iii) Se r(A) = n e r(B) = q < n, entao r(AB) = q;

iv) r(AB) + r(BC) ≤r(B) + r(ABC).

Matriz de posto completo: Uma matriz A de dimensao m × n temposto completo quando r(A) = min(m,n).

Matriz nao-singular: Uma matriz matriz quadrada A de ordem n enao-singular se r(A) = n.

A.1.5 Determinante de uma matriz

Determinante: O determinante de uma matriz quadrada A de ordemn, denotado |A|, e

|A| =n∑k=1

aik(−1)i+k|Aik|,

em que Aik e obtida a partir da matriz A excluindo-se sua i-esima linha ek-esima coluna. O determinante |Aik| e chamado menor de A. Quandoi = k, o determinante e chamado de menor principal de A. O termo(−1)i+k|Aik| e denominado cofator. Se

A =

a11 a12 a13

a21 a22 a23

a31 a32 a33

,

entao,

|A| = a11a22a33 + a12a23a31 + a13a32a21

− a31a22a13 − a21a12a33 − a11a23a32.

O determinante satisfaz as seguintes propriedades:

Singer & Nobre & Rocha - marco/2011

Page 97: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 93

i) |A| 6= 0 se e somente se a matriz A e de posto completo. Quando|A| 6= 0, a matriz A e nao-singular;

ii) |A| = |A>|;

iii) |cA| = cn|A|, c ∈ IR;

iv) Se A e uma matriz triangular, entao |A| =n∏i=1

aii;

v) Sejam A e B duas matrizes quadradas de mesma ordem; entao|AB| = |BA| = |A||B|;

vi) Sejam A uma matriz (m× n) e B uma matriz (n×m); entao

|Im + AB| = |In + BA|.

A.1.6 Inversao de matrizes

Matriz inversa: A matriz inversa (quando existe) de uma matriz matrizquadrada A de ordem n e uma matriz A−1 quadrada de ordem n tal queAA−1 = A−1A = In.

O teorema abaixo, relaciona a existencia da inversa de A com o fatode seu determinante ser diferente de zero.

Teorema A.1.1. Uma matriz quadrada A e inversıvel e sua inversa eunica, se e somente se ela for nao-singular.

Assumindo que todas as inversas existam, valem as seguintes pro-priedades:

i) |A−1| = |A|−1;

ii) Se |A| 6= 0, entao A> e A−1 sao matrizes nao-singulares e alemdisso (A>)−1 = (A−1)>;

iii) (cA)−1 = c−1A−1;

iv) (AB)−1 = B−1A−1;

Singer & Nobre & Rocha - marco/2011

Page 98: An alise de dados longitudinais - docs.ufpr.br

94 A.1 MATRIZES

v) Sejam A, B e C matrizes com dimensoes (k×k), (k×n) e (n×k),respectivamente, com A nao-singular. Entao

|A + BC| = |A||Ik + A−1BC|;

vi) Sejam A,B,C e D matrizes com dimensoes (m × m), (m × n),(n× n) e (n×m), respectivamente. Entao

(A + BCD)−1 = A−1 −A−1B(C−1 + DA−1B)−1DA−1.

vii) Seja Jn uma matriz quadrada de ordem n com todos elementosiguais a 1 e a, b numeros reais positivos. Entao

[aIn + bJn]−1 =1

a

[In −

b

nb+ aJn

];

viii) Sejam a e b vetores de dimensao (n×1) e A uma matriz quadradanao-singular de ordem n. Se 1± b>A−1a 6= 0, entao

(A± ab>)−1 = A−1 ∓ (A−1a)(b>A−1)

1± b>A−1a;

ix) Sejam A e D matrizes quadradas; entao∣∣∣∣ A BC D

∣∣∣∣ =

|A||D−CA−1B|, se A for nao singular|D||A−BD−1C|, se D for nao singular

Se ambas A e D forem nao-singulares, entao

|D−CA−1B| = |D||A||A−BD−1C|.

x) Sejam A e D matrizes quadradas; entao(A BB> D

)−1

=

(E FF> G

),

com

E = A−1 + A−1B(D−B>A−1B)−1B>A−1,

F = −A−1B(D−B>A−1B)−1,

G = (D−B>A−1B)−1.

Singer & Nobre & Rocha - marco/2011

Page 99: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 95

Inversa generalizada: Uma matriz inversa generalizada da matriz A,(m×n), e qualquer matriz G de dimensao (n×m) que satisfaz a relacao

AGA = A.

Para maiores detalhes sobre essa classe de matrizes veja Harville (1997),por exemplo.

A.1.7 Traco de uma matriz

Traco de uma matriz: O traco de uma matriz quadrada de ordem n etr(A) =

∑ni=1 aii.

Por exemplo, se

A =

6 7 45 9 13 8 −2

, (A.1.1)

entao tr(A) = 6 + 9− 2 = 13.

Considere A, B e C matrizes quadradas de ordem n, a um vetor(m × 1) e a e b numeros reais. A funcao traco apresenta as seguintespropriedades:

i) tr(In) = n;

ii) tr(aA± bB) = atr(A)± btr(B);

iii) tr(AB) = tr(BA);

iv) tr(ABC) = tr(CAB) = tr(BCA);

v) Se A for idempotente, entao tr(A) = r(A);

vii) tr(A>) = tr(A);

viii) tr(AA>) = tr(A>A) =∑n

i=1

∑nj=1 a

2ij;

ix) tr(aa>) = a>a =∑n

i=1 a2i .

Singer & Nobre & Rocha - marco/2011

Page 100: An alise de dados longitudinais - docs.ufpr.br

96 A.1 MATRIZES

A.1.8 Soma direta e produto de Kronecker

Soma direta: Sejam A uma matriz de dimensao (m × n) e B umamatriz de dimensao (p × q). A soma direta das matrizes A e B e amatriz diagonal em blocos de dimensao [(m+ p)× (n+ q)], definida por

A⊕B =

(A 00 B

).

De uma forma mais geral, a soma direta de matrizes Ai, com dimensao(ni ×mi), i = 1, . . . , n e a matriz (

∑ni=1 ni ×

∑ni=1mi)

n⊕i=1

Ai = A1 ⊕A2 ⊕ . . .⊕An =

A1 0 . . . 00 A2 . . . 0...

......

...0 0 . . . An

.

Produto de Kronecker: Sejam A e B matrizes de dimensoes (m×n)e (p × q), respectivamente. O produto de Kronecker (produto diretoou produto tensorial) das matrizes A e B e a matriz de dimensao(mp× nq), definida por

A⊗B =

a11B a12B . . . a1nBa21B a22B . . . a2nB

......

......

am1B am2B . . . amnB

.

Em geral A⊗B 6= B⊗A.

Sejam A, B, C, D matrizes reais de dimensoes (m × n), (p × q),(n× u), (q× v), respectivamente, a, b e d vetores de dimensoes (m× 1),(n×1) e (p×1), respectivamente, e x e y numeros reais. Pode-se mostrarque valem as seguintes propriedades:

i) x⊗A = A⊗ x = xA;

ii) a⊗ b> = b> ⊗ a = ab>;

iii) 0p×q ⊗A = A⊗ 0p×q = 0mp×nq;

Singer & Nobre & Rocha - marco/2011

Page 101: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 97

iv) Im ⊗ Ip = Imp;

v) Se F = diag(f11, . . . , fkk), entao F⊗A =⊕k

i=1 fiiA;

vi) Ik ⊗A =⊕k

i=1 A;

vii) xA⊗ yB = xy(A⊗B);

viii) (A⊗B)⊗C = A⊗ (B⊗C);

ix) (A⊗B)⊗ (C⊗D) = (AC)⊗ (BD);

x) A⊗B = (A⊗ Ip)(In ⊗B) = (Im ⊗B)(A⊗ Iq);

xi) (A⊗ d>)(b⊗B) = (d> ⊗A)(B⊗ b) = Abd>B;

xii) D⊗ (A + B) = (D⊗A) + (D⊗B);

xiii) (A⊗B)> = (A> ⊗B>);

xiv) r(A⊗B) = r(A)r(B);

xv) tr(A⊗B) = tr(A)tr(B);

Alem disso,

xvi) Se A e B sao matrizes simetricas, entao (A⊗B)> = A⊗B;

xvii) Se A e uma matriz quadrada de ordem n e a e um vetor (m× 1),entao (In ⊗ a)A(In ⊗ a>) = A⊗ aa>;

xviii) Se A e B sao matrizes nao singulares, temos (A⊗B)−1 = A−1 ⊗B−1;

xix) Se A e B matrizes quadradas de ordem m e n, respectivamente,entao |A⊗B| = |A|n|B|m;

xx) Seja A = [A1 A2]; entao [A1 A2] ⊗B = [A1 ⊗B A2 ⊗B], masW ⊗ [B1 B2] 6= [W ⊗B1 W ⊗B2].

Singer & Nobre & Rocha - marco/2011

Page 102: An alise de dados longitudinais - docs.ufpr.br

98 A.1 MATRIZES

A.1.9 Operadores vec e vech

Operador vec: A operacao de vetorizacao de uma matriz A = (a1 . . . an)consiste em “empilhar” seus elementos na forma

vec(A) =

a1

a2...

an

.

Sejam A, B, C matrizes reais de dimensoes (m × n), (n × p), (p ×q), respectivamente e vetores a e b de dimensoes (m × 1) e (n × 1),respectivamente. Entao valem as seguintes propriedades:

i) vec(a>) = vec(a);

ii) vec(ab>) = b⊗ a;

iii) vec(AB) = (Ip ⊗A)vec(B) = (B> ⊗ Im)vec(A);

iv) vec(ABC) = (C> ⊗A)vec(B);

v) vec(ABC) = (Iq⊗AB)vec(C) = (C>B>⊗In)vec(A). Alem disso,

vi) Se A e B sao matrizes de mesma dimensao, temos

tr(A>B) = vec(A)>vec(B)

e

vec(A>)>vec(B) = vec(B>)>vec(A) = tr(AB);

vii) Se B for uma matriz de dimensao (n×m), entao

tr(AB) = vec(A>)>vec(B);

viii) Se A e B sao matrizes simetricas de ordem n, entao

vec(A)>(B⊗B)vec(A) = [tr(BA)]2;

Singer & Nobre & Rocha - marco/2011

Page 103: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 99

ix) Se C e uma matriz de dimensao (p×m), temos

tr(ABC) = vec(A>)>(C> ⊗ In)vec(B)

= vec(A>)>(Im ⊗B)vec(C)

= vec(B>)>(A⊗ Ip)vec(C)

= vec(B>)>(In ⊗C)vec(A)

= vec(C>)>(B⊗ Im)vec(A)

= vec(C>)>(Ip ⊗A)vec(B)

O operador vech(.) aplicado a uma matriz simetrica A gera um vetorcom os elementos distintos dessa matriz. Por exemplo, se

A =

a11 a12 a13

a21 a22 a23

a31 a32 a33

,

entao

vech(A) =

a11

a21

a31

a22

a32

a33

.

A.2 Topicos de Algebra Linear

Espaco vetorial: Um espaco vetorial sobre IR e um conjunto V naovazio de elementos chamados vetores no qual estao definidas:

i) Uma operacao de adicao que associa a cada par de vetores a e bde V um vetor a + b ∈ V para as quais sao validas as seguintespropriedades:

1. a + b = b + a (comutatividade);

2. a + (b + c) = (a + b) + c (associatividade);

3. Existe um vetor nulo 0 ∈ V, tal que a+0 = a para todo a ∈ V;

Singer & Nobre & Rocha - marco/2011

Page 104: An alise de dados longitudinais - docs.ufpr.br

100 A.2 TOPICOS DE ALGEBRA LINEAR

4. Para cada vetor a ∈ V, existe um vetor −a ∈ V tal que a +(−a) = 0;

ii) Uma operacao de multiplicacao por numeros reais que associa acada α ∈ IR e a cada vetor a ∈ V um vetor αa ∈ V para a qual saovalidas as seguintes propriedades:

1. 1a = a ∀a ∈ V;

2. (αβ)a = α(βa), ∀α, β ∈ IR3. α(a + b) = αa + αb;

4. (α + β)a = αa + βa.

O espaco vetorial mais utilizado nas aplicacoes em Estatıstica e oespaco das matrizes reais de dimensao (n× p), denotado IRn×p.

Subespaco vetorial: Sejam V um espaco vetorial sobre IR e W umsubconjunto nao vazio de V. Dizemos que que W e um subespaco vetorialde V se valem as seguintes propriedades:

i) se a e b ∈W, entao a + b ∈W;

ii) se α ∈ IR e a ∈W, entao αa ∈W.

Base de um espaco vetorial: Seja V um espaco vetorial. Se qual-quer vetor x ∈ V puder ser escrito como uma combinacao linear de umconjunto de vetores linearmente independentes a1, . . . , an ⊂ V, entaodizemos que a1, . . . , an e uma base do espaco vetorial V.

Dimensao de um espaco vetorial: A dimensao do espaco vetorial V,denotada dimV, e igual ao numero de vetores que formam uma base deV.

Transformacao linear: Sejam U e V espacos vetoriais. Uma trans-formacao linear de U em V, denotada por T : U → V, e uma funcaoque associa a cada vetor v ∈ U um vetor T(v) ∈ V, de modo que, paraquaisquer vetores a,b ∈ V e k ∈ IR, valem as seguintes propriedades:

1. T(a + b) = T(a) + T(b);

2. T(ka) = kT(a), ∀k ∈ IR.

Singer & Nobre & Rocha - marco/2011

Page 105: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 101

As transformacoes lineares frequentemente utilizadas em Estatısticasao aquelas em que T e uma funcao vetorial do tipo T : IRp → IRn,definida por uma matriz A de dimensao (p× n), tal que ∀x ∈ IRp,

T(x) = Ax =

a11 a11 . . . a1p

a21 a21 . . . a2p...

......

...

an1 an2... anp

x11

x21...xp1

.

Teorema A.2.1. Sejam x1, . . . ,xp vetores de dimensao (n× 1) perten-centes ao espaco vetorial IRn e W o conjunto definido por

W = b ∈ IRn| b =

p∑i=1

αixi = Xα, X = (x1, . . . ,xp) ∈ IRn×p, α ∈ IRp

com X denotando a matriz da transformacao linear de IRp em IRn (p <n); entao W e um subespaco de IRn.

Espaco nulo de uma matriz: Seja X uma matriz de dimensao (n×p)e C(X) o espaco coluna de X. O espaco nulo de X, denotado N(X), eo conjunto de vetores a ∈ IRp tais que Xa = 0, ou seja, N(X) = a ∈IRp; Xa = 0.

Teorema A.2.2. Seja X uma matriz de dimensao (n×p) com r(X) = r.Entao r(X) = dim[C(X)] = r(X>) = dim[C(X>)] = r e alem disso,dim[N(X)] = p− r e dim[N(X>)] = n− r.

Teorema A.2.3. Sejam A e B matrizes com dimensoes (n×m) e (m×p), respectivamente. Entao C(AB) e um subespaco de C(A).

Teorema A.2.4. Seja X uma matriz de dimensao (n×p) com r(X) = r.Entao C(X>) = C(X>X) e r(X>X) = r.

Produto interno: No espaco IRn, o produto interno canonico dos ve-tores x e y e um numero real dado por

x • y = x>y = ( x1 x2 . . . xn )

y1

y2...yn

=n∑i=1

xiyi.

Singer & Nobre & Rocha - marco/2011

Page 106: An alise de dados longitudinais - docs.ufpr.br

102 A.2 TOPICOS DE ALGEBRA LINEAR

Espaco euclidiano: O espaco euclidiano IRn e o espaco vetorial IRn

com soma e produto por escalar definidos da forma usual, munido doproduto interno canonico.

Norma de um vetor: No espaco euclidiano IRn, a norma (ou compri-

mento) do vetor x e o numero ‖x‖ = (x>x)12 . Quando a norma de um

vetor x e igual a 1, diz-se que x e um vetor unitario.

Distancia euclidiana: A distancia euclidiana entre os vetores x e y deIRn e o numero ‖x− y‖.

Para a, b e c ∈ IRn e k ∈ IR, o produto interno canonico possui asseguintes propriedades:

i) a>b = b>a;

ii) a>(b + c) = a>b + a>c;

iii) k(a>b) = (ka)>b = a>(kb);

iv) a>a = ‖a‖2 > 0 se a 6= 0;

v) ‖a± b‖2 = ‖a‖2 + ‖b‖2 ± 2a>b;

vi) |a>b| ≤ ‖a‖‖b‖; Desigualdade de Cauchy-Schwarz

vii) ‖a + b‖ ≤ ‖a‖+ ‖b‖; Desigualdade triangular

Angulo entre vetores: O angulo θ ∈ [0, π] entre dois vetores a eb ∈ IRn e

arccos(θ) =a>b

‖a‖‖b‖.

Produto interno de matrizes: No espaco IRm×n, o produto internocanonico das matrizes A e B e o numero real tr(A>B) = tr(AB>).

Norma de uma matriz: A norma da matriz A ∈ IRm×n (comumentedenominada norma de Frobenius) e o numero real

‖A‖ = [tr(A>A)]12 =

(m∑i=1

n∑j=1

a2ij

) 12

= ‖vec(A)‖.

Singer & Nobre & Rocha - marco/2011

Page 107: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 103

Vetores ortogonais: Se V e um espaco vetorial com produto internocanonico, dizemos que x,y ∈ V sao ortogonais (x ⊥ y), se, e somente sex>y = 0.

Complemento ortogonal: Se V e um espaco vetorial com produto in-terno e W e um subespaco de V, o conjunto W⊥ = a ∈ V; a•v = 0 ∀v ∈V e um subespaco vetorial de V, denominado complemento ortogonal deW.

Teorema A.2.5. Seja uma matriz X de dimensao (n × p). O espaconulo de X> e o complemento ortogonal do espaco coluna de X sao iguais,ou seja, N(X>) = C(X)⊥ e N(X) = C(X>)⊥.

Subespaco ortogonal: Sejam V um espaco vetorial com produto in-terno, U e W, subespacos de V. O subespaco U e ortogonal ao subespacoW (U ⊥W), se cada vetor de U for ortogonal a cada vetor de W. Alemdisso, dizemos que v ⊥ U se v • u = 0 ∀u ∈ U.

Sejam y um vetor de dimensao (m × 1) e X e Z matrizes com di-mensoes (m × n) e (m × p) respectivamente. Entao y e ortogonal aoespaco coluna da matriz X (com relacao ao produto interno canonico deIRm), nomeadamente, C(X), se e somente se X>y = 0. De modo similar,o espaco coluna de X, C(X) e ortogonal ao espaco coluna de Z, C(Z), see somente se X>Z = 0.

Vetores ortonormais: Seja V um espaco vetorial com produto internoe x e y ∈ V. Os vetores x e y sao ortonormais se ‖x‖ = ‖y‖ = 1 ex ⊥ y.

Base ortonormal: Seja V um espaco vetorial de dimensao finita n comproduto interno. Uma base x1, . . . ,xn de V e dita ortonormal se seuselementos forem vetores de norma igual a 1 (‖xi‖ = 1, para i = 1, . . . , n)e forem ortogonais dois a dois.

Teorema A.2.6. Sejam Y uma matriz no espaco vetorial V ⊂ IRnm dasmatrizes (m×n) e U um subespaco de V. Entao existe uma unica matrizZ ∈ U, tal que (Y − Z) ∈ U⊥. A matriz Z e a projecao ortogonal deY em U.

Matriz base: Uma matriz X de dimensao (m×n) e uma matriz base dosubespaco U ⊂ IRm, se os vetores coluna de X formam uma base de U; se

Singer & Nobre & Rocha - marco/2011

Page 108: An alise de dados longitudinais - docs.ufpr.br

104 A.2 TOPICOS DE ALGEBRA LINEAR

os vetores coluna de X forem ortonormais, ela e uma base ortonormalde U.

Lema A.2.1. Se X de dimensao (n×p) e uma matriz base do subespacoU ⊂ IRn, entao

i) X e uma matriz de posto p e X>X e inversıvel;

ii) v ∈ U se e somente se, v = Xb para algum b ∈ IRp.

Projecao ortogonal de um vetor: Sejam y ∈ IRn e U um subespacodo IRn. A projecao ortogonal de y em U e um vetor x ∈ U tal quey − x ∈ U⊥.

Teorema A.2.7. Sejam U um subespaco do IRn e um vetor y ∈ IRn.Entao,

i) A projecao ortogonal de y em U e unica;

ii) Se X e a matriz base do subespaco U, a projecao ortogonal de y emU e o vetor z = Xb∗ de dimensao (n×1) em que b∗ e a solucao dosistema X>Xb = X>y, ou seja, z = X(X>X)−1X>y. A matrizPX = X(X>X)−1X> e denominada matriz de projecao.

iii) PXX = X;

iv) PX e I−PX sao matrizes simetricas e idempotentes;

v) C(PX) = C(X);

vi) r(PX) = r(X) e r(I−PX) = n− r(X)

Autovalor: Seja A uma matriz quadrada de ordem n. As raızes dopolinomio caracterıstico |A−λI|, denotadas λ1, . . . , λn, sao denominadasautovalores (ou raızes caracterısticas) da matriz A. A equacao |A−λI| =0 e denominada equacao caracterıstica da matriz A.

Por exemplo, se

A =

(1 49 1

),

Singer & Nobre & Rocha - marco/2011

Page 109: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 105

seus autovalores correspondem as solucoes da equacao caracterıstica

|A− λI| =

∣∣∣∣( 1 49 1

)− λ

(1 00 1

)∣∣∣∣ =

= (1− λ)2 − 36 = 0,

ou sejam, λ1 = −5 e λ2 = 7.

Autovetor (Vetor caracterıstico): Seja A uma matriz quadrada deordem n e λ um autovalor de A. Se v e um vetor (nao nulo) tal queAv = λv, entao v e denominado autovetor (ou vetor caracterıstico) damatriz A.

Para o exemplo acima, o autovetor associado ao autovalor λ1 = −5 eobtido do sistema(

1 49 1

)(v11

v12

)= −5

(v11

v12

)que tem infinitas solucoes; um possıvel autovetor associado ao autovalorλ1 = −5 e v = (2 − 3)>. De modo similar, obtemos um autovetorassociado ao autovalor λ2 = 7, nomeadamente, v2 = (2 3)>.

Teorema A.2.8. Seja A uma matriz quadrada de ordem n e λ1, . . . , λnseus autovalores; entao

i) |A| =∏n

i=1 λi;

ii) tr(A) =∑n

i=1 λi.

A.3 Formas lineares, bilineares e quadrati-

cas

Forma linear: Uma forma linear e uma funcao f : IRn → IR que associaa cada vetor x ∈ IRn o numero real

f(x) = a>x =n∑i=1

aixi

em que a ∈ IRn e denominado vetor de coeficientes.

Singer & Nobre & Rocha - marco/2011

Page 110: An alise de dados longitudinais - docs.ufpr.br

106 A.3 FORMAS BILINEARES E QUADRATICAS

Forma bilinear: Uma forma bilinear e uma funcao f : IRm × IRn → IRque associa a cada par de vetores x ∈ IRm e y ∈ IRn o numero real

f(x,y) = x>Ay =m∑i=1

n∑j=1

aijxiyj

em que A e uma matriz de coeficientes de dimensao (m× n).

Forma quadratica: Uma forma quadratica e uma funcao f : IRn → IRque associa ao vetor x ∈ IRn o numero real

f(x) = x>Ax =n∑i=1

n∑j=1

aijxixj

em que A e uma matriz quadrada de ordem n de coeficientes.

Matriz definida nao-negativa: Uma matriz A, quadrada de ordemn e denominada matriz definida nao-negativa se x>Ax ≥ 0 para todox ∈ IRn.

Matriz definida positiva: Uma matriz A, quadrada de ordem n edenominada matriz definida positiva se x>Ax > 0 para todo vetor naonulo x ∈ IRn e x>Ax = 0 somente quando x = 0.

Matriz semidefinida positiva: Uma matriz A, quadrada de ordem ne denominada matriz semidefinida positiva se x>Ax ≥ 0 para x ∈ IRn ex>Ax = 0 para algum vetor x nao nulo.

Teorema A.3.1. Seja A uma matriz de dimensao (n × n) e M umamatriz de dimensao (n×m). Entao

i) Se A for definida nao-negativa, entao M>AM e definida nao-negativa;

ii) Se A for definida nao-negativa e r(M) < m entao M>AM esemidefinida positiva;

iii) Se A for definida positiva e r(M) = m entao M>AM e definidapositiva;

Formas quadraticas envolvendo vetores com distribuicao Normal temsao extremamente importantes para aplicacoes estatısticas. Nesse con-texto, apresentaremos alguns resultados bastante uteis para inferenciaem modelos lineares em geral O leitor podera consultar Searle (1971)para detalhes e demonstracoes.

Singer & Nobre & Rocha - marco/2011

Page 111: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 107

Teorema A.3.2. Se y ∼ Np(µ,V) e A e uma matriz simetrica, entao

i) E(y>Ay) = tr(AV) + µ>Aµ;

ii) o cumulante the ordem r the y>Ay e

Kr(y>Ay) = 2r−1(r − 1)![tr(AV)r + rµ>A(VA)r−1µ];

iii) Cov(y,y>Ay) = 2VAµ;

O item i) prescinde da suposicao de normalidade. Tomando r = 2, umaaplicacao direta desse resultado permite-nos calcular a variancia de for-mas quadraticas envolvendo vetores com distribuicao Normal, nomeada-mente

V(y>Ay) = 2tr(AV)2 + 4µ>A(VA)µ;

se alem disso, µ = 0 entao V(y>Ay) = 2tr(AV)2.

Teorema A.3.3. Se y ∼ Np(µ,V) e A e uma matriz simetrica composto r, entao y>Ay ∼ χ2

r(δ), em que δ = 12µ>Aµ e o parametro de

nao-centralidade, se e somente se AV for idempotente.

Teorema A.3.4. Se y ∼ Np(µ,V), A e uma matriz simetrica composto r e B e uma matriz com dimensao (b× p) entao y>Ay e By temdistribuicoes independentes se e somente se BVA = 0.

Note que o teorema nao envolve o produto AVB, que pode nao existir.

Teorema A.3.5. Se y ∼ Np(µ,V), A e B sao matrizes simetricasentao y>Ay e y>By tem distribuicoes independentes se e somente seAVB = 0 ou equivalentemente se BVA = 0.

A.4 Decomposicao de matrizes

Teorema A.4.1. Para toda matriz simetrica A de dimensao (n × n)existe uma matriz nao-singular Q tal que Q>AQ e uma matriz diagonal.

Teorema A.4.2. Seja A uma matriz de dimensao (n × n). Entao ex-istem uma matriz nao-singular Q e uma matriz diagonal D tais queA = Q>DQ.

Singer & Nobre & Rocha - marco/2011

Page 112: An alise de dados longitudinais - docs.ufpr.br

108 A.5 DERIVADAS DE VETORES E MATRIZES

Teorema A.4.3. Uma matriz A (nao-nula) de dimensao (n × n) esimetrica definida nao-negativa com r(A) = r se e somente se existeuma matrix Q de dimensao (r × n) com r(A) = r tal que A = Q>Q.

Teorema A.4.4. Uma matriz A (nao-nula) de dimensao (n × n) esimetrica definida positiva se e somente se existe uma matrix nao-singularQ tal que A = Q>Q.

Teorema A.4.5. Uma matriz simetrica definida nao-negativa A de di-mensao (n × n) e definida positiva se e somente se ela for nao-singular(ou equivalentemente, ela e semidefinida positiva se e somente se ela forsingular).

Teorema A.4.6. Uma matriz definida positiva A de dimensao (n× n)tem uma unica decomposicao do tipo A = L>DU em que L e uma matriztriangular inferior, U e uma matriz triangular superior e D e uma matrizdiagonal com todos os elementos da diagonal principal positivos.

Teorema A.4.7. Uma matriz simetrica definida positiva A de dimensao(n × n) tem uma unica decomposicao do tipo A = U>DU em que U euma matriz triangular superior e D e uma matriz diagonal com todos oselementos da diagonal principal positivos.

Teorema A.4.8. Para qualquer matriz simetrica definida positiva Ade dimensao (n × n) existe uma unica matriz triangular superior A1/2

com todos os elementos da diagonal principal positivos tal que A =[A1/2]>A1/2. Este resultado e conhecido como Decomposicao de Cholesky.

A.5 Derivadas de vetores e matrizes

Neste texto consideramos funcoes de varias variaveis expressas na formade

i) escalares do tipo

f(x) = a>x =n∑i=1

aixi;

ii) vetores do tipo

f(x) =

f1(x)f2(x)f3(x)

Singer & Nobre & Rocha - marco/2011

Page 113: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 109

com f1(x) = x1 + x2, f2(x) = ex1x2 e f3(x) = x1x2, por exemplo.

iii) matrizes do tipo

F(x) = ( f1(x) f2(x) . . . fn(x) )

=

f11(x) f12(x) . . . f1n(x)f21(x) f22(x) . . . f2n(x)

......

......

fm1(x) fm2(x) . . . fmn(x)

;

por exemplo, se f1(x) = (x1 +x2, x1x2, x1−x2)> e f2(x) = (x1, x1 +x2, x1x2)>, entao

F(x) =(

f1(x) f2(x)))

=

f11(x) f12(x)f21(x) f22(x)f31(x) f32(x)

=

x1 + x2 x1

x1x2 x1 + x2

x1 − x2 x1x2

.

Em muitas aplicacoes, e possıvel ainda encontrar funcoes do tipo F(X)com X denotando uma matriz de coeficientes com dimensao (m× n).

No restante desta subsecao admitimos a existencia de todas as derivadasmencionadas.

Vetor gradiente: Seja f(x) uma funcao do vetor x de dimensao (p×1).A derivada de primeira ordem ou vetor gradiente de f(x) e o vetor dedimensao (p× 1) dado por

∇f(x) =∂f(x)

∂x=

(∂f(x)

∂x1

,∂f(x)

∂x2

, . . . ,∂f(x)

∂xp

)>.

Tambem podemos definir ∂f(x)/∂x> = (∂f(x)/∂x1, . . . , ∂f(x)/∂xp) =(∂f(x)/∂x)>.

Por exemplo, seja x = (x1, x2, x3)> e f(x) = 2x21 + 4x2

2 + 5x23. O

gradiente de f e dado por

∂f(x)

∂x=

(∂f(x)

∂x1

,∂f(x)

∂x2

,∂f(x)

∂x3

)>= (4x1, 8x2, 10x3)>.

Singer & Nobre & Rocha - marco/2011

Page 114: An alise de dados longitudinais - docs.ufpr.br

110 A.5 DERIVADAS DE VETORES E MATRIZES

Matriz hessiana: Seja f(x) uma funcao do vetor x de dimensao (p×1).A matriz de derivadas segundas ou matriz hessiana de f(x) e a matrizquadrada de ordem p dada por

∂f(x)

∂x∂x>=

∂2f(x)/∂x2

1 ∂2f(x)/∂x1∂x2 . . . ∂2f(x)/∂x1∂xp∂2f(x)/∂x2∂x1 ∂2f(x)/∂x2

2 . . . ∂2f(x)/∂x2∂xp...

......

...∂2f(x)/∂xp∂x1 ∂2f(x)/∂xp∂x2 . . . ∂2f(x)/∂x2

p

.

A matriz hessiana de f(x) tambem e comumente denotada por ∇2f(x).

Por exemplo, se x = (x1, x2, x3)> e f(x) = 2x21 + 4x2

2 + 5x23, a matriz

hessiana de f e dada por

∂f(x)

∂x∂x>=

∂2f(x)/∂x21 ∂2f(x)/∂x1∂x2 ∂2f(x)/∂x1∂x3

∂2f(x)/∂x2∂x1 ∂2f(x)/∂x22 ∂2f(x)/∂x2∂x3

∂2f(x)/∂x3∂x1 ∂2f(x)/∂x3∂x2 ∂2f(x)/∂x23

=

4 0 00 8 00 0 10

As definicoes acima podem ser estendidas para funcoes vetoriais ou ma-triciais.

Matriz jacobiana: Seja f(x) = (f1(x), . . . , fm(x))> um vetor de di-mensao (m× 1) de funcoes com argumento vetorial x = (x1, . . . , xp). Amatriz jacobiana de f(x) e a matriz de dimensao (m× p) dada por

∇f(x) =∂f(x)

∂x>=

∂f1(x)/∂x1 ∂f1(x)/∂x2 . . . ∂f1(x)/∂xp∂f2(x)/∂x1 ∂f2(x)/∂x2 . . . ∂f2(x)/∂xp

......

......

∂fm(x)/∂x1 ∂fm(x)/∂x2 . . . ∂fm(x)/∂xp

.

Para o exemplo do inıcio da secao, a matriz jacobiana de f(x) e

∂f(x)

∂x>=

∂f1(x)/∂x1 ∂f1(x)/∂x2

∂f2(x)/∂x1 ∂f2(x)/∂x2

∂f3(x)/∂x1 ∂f3(x)/∂x2

=

1 1x2e

x1x2 x1ex1x2

x2 x1

;

Singer & Nobre & Rocha - marco/2011

Page 115: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 111

Similarmente, se F(x) = (f1(x) f2(x) . . . fn(x)) for uma matriz dedimensao (m × n) de funcoes f(x), sua derivada de primeira ordem e amatriz de dimensao (m× np) dada por

∇F(x) =∂F(x)

∂x>=(∂f1(x)/∂x> ∂f2(x)/∂x> . . . ∂fn(x)/∂x>

).

Para o exemplo no inıcio da secao, a derivada da funcao F(x) e dadapor

∂F(x)

∂x>=

(∂f1(x)/∂x1 ∂f1(x)/∂x2 ∂f2(x)/∂x1 ∂f2(x)/∂x2

)=

1 1 1 0x2 x1 1 11 −1 x2 x1

.

Seja f uma funcao real da matriz X de dimensao (m × n) definidapor

X =

x11 x12 . . . x1n

x21 x22 . . . x2n...

......

...xm1 xm2 . . . xmn

.

A derivada de f com relacao a matriz X e uma matriz de dimensao(m× n) dada por

∂f

∂X= (∂f/∂xij)

=

∂f/∂x11 ∂f/∂x12 . . . ∂f/∂x1n

∂f/∂x21 ∂f/∂x22 . . . ∂f/∂x2n...

......

...∂f/∂xm1 ∂f/∂xm2 . . . ∂f/∂xmn

.

As regras do produto e da cadeia podem ser empregadas para derivacaovetorial e matricial. Se f1(x) e f2(x) sao duas funcoes vetoriais diferen-ciaveis de dimensao (m× 1) com argumento x, entao

∂[f1(x)>f2(x)]/∂x> = f1(x)>(∂f2(x)/∂x>) + f2(x)>(∂f1(x)/∂x>)

Singer & Nobre & Rocha - marco/2011

Page 116: An alise de dados longitudinais - docs.ufpr.br

112 A.5 DERIVADAS DE VETORES E MATRIZES

Se o vetor g(z) com dimensao (p× 1) e funcao de um vetor de variaveisz de dimensao (q × 1) e f(x) e uma funcao com argumento g(z), entao

∂f [g(z)]/∂z> = (∂f(x)/∂x>)|x=g(z)(∂g(z)/∂z>).

Algumas das derivadas vetoriais e matriciais mais usadas em aplicacoesestatısticas sao:

i) ∂a>x/∂x = a;

ii) ∂x>x/∂x = 2x;

iii) ∂x>Ax/∂x = (A + A>)x (= 2Ax, se A for simetrica);

iv) Para A e B simetricas,

∂(x>Ax/x>Bx)/∂x = 2Ax/x>Bx− [x>Ax/(x>Bx)2]2Bx;

v) Para A simetrica,

∂y − g(x)>Ay − g(x)/∂x = −2D(x)>Ay − g(x)

em que D(x) = ∂g(x)/∂x>;

vi) Para matrizes A com dimensao (m×n), e B com dimensao (n×q),

∂tr(A(x)B(x))/∂x = ∂tr(A(x)B(z))/∂x|z=x+∂tr(A(z)B(x))/∂x|z=x.

vii) ∂|X|/∂xij = |Xij|, em que |Xij| e o cofator de xij;

viii) ∂ ln |X|/∂xij = tr(X−1(∂X/∂xij)) ;

ix) ∂X−1/∂xij = −X−1(∂X/∂xij)X−1;

x) ∂[trX]/∂xij = tr[∂X/∂xij];

xi) ∂tr(AX−1B)/∂X = −(X−1BAX−1)>;

xii) ∂|X|/∂X = |X|(X−1)>;

xiii) ∂ ln(|X|)/∂X = 1/|X|∂|X|/∂X = (X−1)>;

xiv) ∂tr(AX)/∂X = A>;

Singer & Nobre & Rocha - marco/2011

Page 117: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 113

xv) ∂|AX|/∂X = |AX|((AX)−1A)>.

Se X e uma matriz com dimensao (p × q) e U(X) e uma matrizquadrada de ordem p,

xvi) ∂tr(U(X)−1A)/∂X = −(∂/∂X)tr(U(Z)−1AU(Z)−1U(X))|Z=X;

xvii) ∂|U(X)|/∂X = |U(X)|(∂/∂X)tr(U(Z)−1U(X))|Z=X.

Algumas derivadas envolvendo o operador vec sao:

xviii) ∂vec(AXB)/∂vec(X)> = B> ⊗A;

xix) Sejam U(X) uma matriz com dimensao (m×n) e V(X) uma matrizcom dimensao (n× r), entao

∂vec[U(X)V(X)]

∂vec(X)>= (V ⊗ Im)>

∂vec[U(X)]

∂vec(X)>

+(Ir ⊗U)>∂vec[V(X)]

∂vec(X)>;

xx) Seja X uma matriz quadrada; entao

∂vec(AX−1B)

∂vec(X)>= −(XB)> ⊗ (AX−1);

xxi) Para uma matriz nao singular U(X),

∂vec[U(X)−1]

∂vec(X)>= −[(U(X)−1)> ⊗U(X)−1]

∂vec[U(X)]

∂vec(X)>;

xxii)∂vecF[G(X)]

∂vec(Z)>=∂vec[F(X)]

∂vec(X)>

∣∣∣∣X=G(Z)

∂vec[G(Z)]

∂vec(Z)>.

Para ilustrar a aplicacao de derivadas de vetores e matrizes, inicialmente,consideremos a funcao

g(β,θ) = (y − f(β))>V−1(θ)(y − f(β)) + ln |V(θ)|= tr[V−1(θ)(y − f(β))(y − f(β))>] + ln |V(θ)|

Singer & Nobre & Rocha - marco/2011

Page 118: An alise de dados longitudinais - docs.ufpr.br

114 A.5 DERIVADAS DE VETORES E MATRIZES

com argumentos β = (β1, . . . , βp)> e θ = (θ1, . . . , θk)

>, com θ funcional-mente independente de β, em que V(θ) e uma matriz simetrica definidapositiva. Alem disso, considere que f(β) e V(θ) sejam funcoes difer-enciaveis. O gradiente de g(β,θ) e dado por:

∇g(β,θ) =

((∂/∂β)g(β,θ)(∂/∂θ)g(β,θ)

)com

∂g(β,θ)

∂β=

∂(y − f(β))>V−1(θ)(y − f(β))

∂β

= −2

(∂f>(β)

∂β

)V−1(θ)(y − f(β)).

Alem disso, segue que para j = 1, . . . , k

∂g(β,θ)

∂θj=

∂[(y − f(β))>V(θ)−1(y − f(β))]

∂θj+∂ ln |V(θ)|

∂θj

= (y − f(β))>∂V(θ)−1

∂θj(y − f(β)) +

∂ ln |V(θ)|∂θj

= −(y − f(β))V(θ)−1∂V(θ)−1

∂θjV(θ)−1(y − f(β))

+tr

[V(θ)−1∂V(θ)

∂θj

]= −tr

[V(θ)−1∂V(θ)−1

∂θjV(θ)−1(y − f(β))(y − f(β))>

]+tr

[V(θ)−1∂V(θ)

∂θj

]= tr

[V(θ)−1

[−(y − f(β))(y − f(β))> + V(θ)

]V(θ)−1∂V(θ)

∂θj

].

A matriz de segundas derivadas em relacao ao vetor β e:

∂2g(β,θ)

∂β>∂β=

∂(−2(∂f>(β)∂β

)V−1(θ)(y − f(β))

)∂β>

= −2∂2f>(β)

∂β∂β>V−1(θ)(y − f(β))

+ 2

(∂f>(β)

∂β

)V−1(θ)

(∂f(β)

∂β>

).

Singer & Nobre & Rocha - marco/2011

Page 119: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 115

Para obter ∂2g(β,θ)/∂βi∂θj, notemos que para i = 1, . . . , p

∂g(β,θ)

∂βi=

∂(y − f(β))>V−1(θ)(y − f(β)

)∂βi

= −2

(∂f>(β)

∂βi

)V−1(θ)(y − f(β)).

e que ∂2g(β,θ)/∂βi∂θj = ∂2g(β,θ)/∂θj∂βi para i = 1, . . . , p e j =1, . . . , k de forma que

∂2g(β,θ)

∂βi∂θj=

∂(−2(∂f>(β)∂βi

)V−1(θ)(y − f(β))

)∂θj

= −2

(∂f>(β)

∂βi

)∂V−1(θ)

∂θi(y − f(β))

= −2

(∂f>(β)

∂βi

)V−1(θ)

∂V−1(θ)

∂θiV−1(θ)(y − f(β)).

Fazendo uso da propriedade (x), as derivadas ∂2g(β,θ)/∂θs∂θj paraj, s = 1, . . . , k sao

∂2g(β,θ)

∂θs∂θj=

=∂

∂θs

tr

[V(θ)−1

[−(y − f(β))(y − f(β))> + V(θ)

]V(θ)−1∂V(θ)

∂θj

]

=∂−(y − f(β))>V(θ)−1 ∂V(θ)−1

∂θjV(θ)−1(y − f(β))

∂θs

+∂

tr[V(θ)−1 ∂V(θ)

∂θj

]∂θs

= −(y − f(β))>∂[V(θ)−1 ∂V(θ)−1

∂θjV(θ)−1

]∂θs

(y − f(β))

+ tr

∂[V(θ)−1 ∂V(θ)

∂θj

]∂θs

.

Singer & Nobre & Rocha - marco/2011

Page 120: An alise de dados longitudinais - docs.ufpr.br

116 A.5 DERIVADAS DE VETORES E MATRIZES

Utilizando a regra do produto para derivadas de matrizes, temos que

∂[V(θ)−1 ∂V(θ)

∂θj

]∂θs

=∂V−1(θ)

∂θs

∂V(θ)

∂θj+ V−1(θ)

∂θs

[∂V(θ)

∂θj

]= −V−1(θ)

∂V(θ)

∂θsV−1(θ)

∂V(θ)

∂θj+ V−1(θ)

∂2V(θ)

∂θs∂θje

∂θs

[V(θ)−1∂V(θ)−1

∂θjV(θ)−1

]=

=∂[V(θ)−1 ∂V(θ)

∂θj

]∂θs

V−1(θ) + V(θ)∂V(θ)

∂θj

∂V−1(θ)

∂θs

= −V−1(θ)∂V(θ)

θsV−1(θ)

∂V(θ)

∂θjV−1(θ)

+ V−1(θ)∂2V(θ)

∂θs∂θjV−1(θ)

− V−1(θ)∂V(θ)

∂θjV−1(θ)

∂V(θ)

∂θsV−1(θ).

Assim

∂2g(β,θ)

∂θs∂θj= (y − f(β))>V−1(θ)

∂V(θ)

∂θsV−1(θ)

∂V(θ)

∂θjV−1(θ)(y − f(β))

− (y − f(β))>V−1(θ)∂2V(θ)

∂θs∂θjV−1(θ)(y − f(β))

+ (y − f(β))>V−1(θ)∂V(θ)

∂θjV−1(θ)

∂V(θ)

∂θsV−1(θ)(y − f(β))

+ tr

[−V−1(θ)

∂V(θ)

∂θsV−1(θ)

∂V(θ)

∂θj+ V−1(θ)

∂2V(θ)

∂θs∂θj

].

Alem disso, como V−1(θ), ∂V(θ)/∂θj e ∂V(θ)/∂θs sao matrizes simetricase

(y − f(β))>V−1(θ)∂V(θ)

∂θsV−1(θ)

∂V(θ)

∂θjV−1(θ)(y − f(β))

e um escalar, obtemos a igualdade

(y − f(β))>V−1(θ)∂V(θ)

∂θsV−1(θ)

∂V(θ)

∂θjV−1(θ)(y − f(β)) =

(y − f(β))>V−1(θ)∂V(θ)

∂θjV−1(θ)

∂V(θ)

∂θsV−1(θ)(y − f(β)).

Singer & Nobre & Rocha - marco/2011

Page 121: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 117

Portanto, utilizando as propriedades do traco de matrizes e os resultadosacima, as derivadas de g(β,θ) em relacao a θj e θs para j, s = 1, . . . , ksao dadas por

∂2g(β,θ)

∂θs∂θj= tr

A[2(y − f(β))(y − f(β))> −V(θ)

]+ tr

B[−(y − f(β))(y − f(β))> + V(θ)

],

em que

A = V−1(θ)∂V(θ)

θsV−1(θ)

∂V(θ)

∂θjV−1(θ),

B = V−1(θ)∂2V(θ)

∂θs∂θjV−1(θ).

A.6 Exercıcios

A.6.1. Sejam x e y vetores com dimensao (n× 1). Prove a desigualdadede Cauchy-Schwarz:

(x>y)2 ≤ (x>x)(y>y).

Em que condicoes a igualdade e valida? Sugestao: Use a desigualdade‖x + λy‖2 ≥ 0, ∀x,y e λ ∈ IR.

A.6.2. Seja x = (x1, . . . , xn)> um vetor com dimensao (n × 1) e defina

‖x‖ =√

x>x = (∑n

i=1 x2i )

1/2. Mostre que

i) x>x ≥ 0, ∀x;

ii) ‖x‖ = 0⇔ x = (0, . . . , 0)> = 0;

iii) ‖cx‖ = |c|‖x‖, ∀c ∈ IR;

iv) ‖x + y‖ ≤ ‖x‖+ ‖y‖, ∀x,y ∈ IRn.Sugestao: Use os resultados do Exercıcio A.6.1.

A.6.3. Sejam A e B duas matrizes quadradas de ordem n, C e Dduas matrizes com dimensoes (m × n) e (n × m), respectivamente ex = (x1, . . . , xn)>, um vetor com dimensao (n× 1). Prove que

i) tr(A>) = tr(A);

Singer & Nobre & Rocha - marco/2011

Page 122: An alise de dados longitudinais - docs.ufpr.br

118 A.5 DERIVADAS DE VETORES E MATRIZES

ii) tr(A + B) = tr(A) + tr(B);

iii) tr(CD) = tr(DC);

iv) tr(AA>) = tr(A>A) =n∑i=1

n∑j=1

a2ij;

v) ‖x‖2 =n∑i=1

x2i = x>x = tr(xx>).

vi) Construa exemplos numericos para ilustrar as propriedades acima.

A.6.4. Seja A uma matriz quadrada idempotente, i.e., tal que A2 =AA = A. Alem disso, seja 0n a matriz nula de dimensao (n× n). Proveque

i) |A| = 0 ou |A| = 1;

ii) Os autovalores de A sao iguais a 0 ou 1;

iii) In −A e idempotente e A(In −A) = (In −A)A = 0n;

iv) Suponha adicionalmente que A e simetrica e prove que

a) r(A) = tr(A);

b) r(A) = n⇒ A = In.

Sugestao: Utilize a decomposicao espectral de A.Observacao: Os resultados sao validos mesmo quando a matriz Anao e simetrica.

v) Construa exemplos numericos (com matrizes diferentes da matrizidentidade) para ilustrar as propriedades acima.

A.6.5. Mostre que se X e uma matriz tal que X>X = X entao ela esimetrica e idempotente. Construa um exemplo numerico (com X difer-ente da matriz identidade) para ilustrar a propriedade acima.

A.6.6. Seja A uma matriz quadrada cujos autovalores sao representadospor λ1, . . . , λn. Prove que

|A| =n∏i=1

λi.

Singer & Nobre & Rocha - marco/2011

Page 123: An alise de dados longitudinais - docs.ufpr.br

A. MATRIZES E ESPACOS VETORIAIS 119

Construa um exemplo numerico (com X diferente da matriz identidade)para ilustrar a propriedade acima.

A.6.7. Uma matriz A quadrada de ordem n e positiva definida (p.d.)se x>Ax > 0, ∀x 6= 0. Seja X uma matriz (n × p), n > p, de postocompleto. Mostre que

i) X>X e simetrica;

ii) X>X e p.d.;

iii) Como uma matriz e p.d. se e somente se todos os seus autovaloressao positivos, prove que X>X e inversıvel;

iv) H = X(X>X)−1X> e uma matriz simetrica e idempotente;

v) In −H e uma matriz simetrica e idempotente;

vi) r(In −H) = n− p.

vii) Construa exemplos numericos (com matrizes diferentes da matrizidentidade) para ilustrar as propriedades acima.

A.6.8. Seja a matriz

A =

(ρ 11 ρ

).

Para que valores de ρ a matriz A e positiva definida?

A.6.9. Seja f(X) uma funcao real de uma matriz X com dimensao (m×n) e elementos = xij, i = 1, . . . ,m, j = 1, . . . , n. A derivada de f comrespeito a X e definida como sendo a matriz (m×n) de derivadas ∂f/∂xij:

∂f(X)

∂X:=

∂f(X)

∂x11

. . .∂f(X)

∂x1n...

......

∂f(X)

∂xm1

. . .∂f(X)

∂xmn

.

Sejam x = (x1, . . . , xn)> e a = (a1, . . . , an)>, vetores com dimensao(n× 1) e A, uma matriz quadrada de ordem n. Mostre que

∂ a>x

∂x=

∂ x>a

∂x= a

∂ x>Ax

∂x= (A + A>)x.

Singer & Nobre & Rocha - marco/2011

Page 124: An alise de dados longitudinais - docs.ufpr.br

120 A.5 DERIVADAS DE VETORES E MATRIZES

A.6.10. Seja x = (x1, . . . , xn)> um vetor de n observacoes de uma certavariavel X. Mostre que a media e a variancia amostral das observacoespodem ser escritas na seguinte forma matricial:

x =1

n

n∑i=1

xi =1

n1>nx

s2x =

1

n− 1

n∑i=1

(xi − x)2 =1

n− 1(x− 1nx)>(x− 1nx)

=1

n− 1x>(In −

1

nJn)x,

em que 1n representa um vetor de dimensao (n×1) com todos elementosiguais a 1 e Jn = 1n1

>n .

A.6.11. Mostre que a matriz In−n−1Jn e simetrica, idempotente e nao-negativa definida (n.n.d.), i.e., x>(In − Jn)x ≥ 0, ∀x 6= 0

A.6.12. Considere as seguintes funcoes das variaveis aleatorias Y1, Y2,Y3 e Y4:

W1 = Y1 − Y2

W2 = Y1 + Y3

W3 = Y1 − Y4

i) Expresse as relacoes acima em notacao matricial.

ii) Obtenha a esperanca do vetor W = (W1,W2,W3)> em termos dasesperancas de Y1, Y2, Y3 e Y4.

iii) Obtenha a matriz de covariancias do vetor W em termos das varianciase covariancias de Y1, Y2, Y3 e Y4.

A.6.13. Sejam A uma matriz com dimensao m × n, B uma matrizquadrada de ordem n e x um vetor com dimensao (n× 1). Mostre que

i) ∂Ax/∂x = A>;

ii) ∂x>Bx/∂x = (B + B>)x;

iii) ∂x>Bx/∂x = 2Bx se B for simetrica.

Singer & Nobre & Rocha - marco/2011

Page 125: An alise de dados longitudinais - docs.ufpr.br

Apendice B

Regressao

B.1 Introducao

O objetivo da analise de regressao e estudar a associacao entre umavariavel, denominada resposta (ou dependente ou explicada ou aindaendogena como e geralmente denominada em textos de econometria), euma ou mais variaveis explicativas (independentes, preditoras, de cont-role ou exogenas) ou, especificamente estimar o valor medio (ou predizero valor) da variavel resposta condicionalmente aos valores das variaveisexplicativas.

Sejam yi e xi = (xi1, . . . , xip)> respectivamente os valores de uma

variavel resposta e de p variaveis explicativas observadas na i-esimaunidade de um conjunto de n unidades amostrais. Esses valores podemser dispostos na forma de um vetor y = (y1, . . . , yn)> e de uma matrizX = (x1, . . . ,xn)>.

1

Assumamos que a resposta media da i-esima unidade amostral condi-cional as variaveis explicativas xi pode ser expressa na forma E(yi|xi) =µ(xi,β) em que β = (β0, β1, . . . , βp)

> denota um vetor de parametrosdesconhecidos e fixos, denominados coeficientes de regressao. A funcaoµ(X,β) e denominada funcao de regressao ou simplesmente regressao. Aforma de µ(X,β) pode ser proveniente de alguma teoria (como no casodo espaco percorrido yi por um corpo em queda livre apos um tempo

1

Embora seja possıvel desenvolver toda a metodologia em termos de matrizes Xcom posto incompleto, isso nao e necessario para efeitos praticos, e neste texto as-sumiremos que X tem posto completo, ou seja, que r(X) = p.

Page 126: An alise de dados longitudinais - docs.ufpr.br

122 B.1 INTRODUCAO

xi, em que essa funcao seria quadratica) ou sugerida por meio de umaanalise descritiva. A funcao de regressao pode ser:

i) linear nos parametros e nas variaveis explicativas, i.e, do tipo

µ(xi,β) = β0 + β1xi1 + β2xi2 + . . .+ βpxip;

ii) linear somente nos parametros, i.e, do tipo

µ(xi,β) = β0 + β1x2i1 + β2 ln(x2

i2) + . . .+ βp√xip;

iii) linearizavel, i.e, do tipo

µ(xi,β) = exp(β1xi1 + β2xi2 + . . .+ βpxip)

ouµ(xi,β) = β0x

β1i1 . . . x

βpip ;

iv) nao linear,

µ(xi,β) = β0 + exp(β1x2i1) + β2 ln(x2

i2) + . . .+ βp√xip.

Nos trataremos somente do caso de funcoes de regressao lineares (oulinearizaveis) nos parametros. Detalhes sobre os modelos de regressaonao-lineares podem ser encontrados em Seber & Wild (1989) ou Souza(1998).

Condicionalmente aos valores das variaveis explicativas, xi, a respostada i-esima unidade amostral se situa em torno de µ(xi,β); Inclusao dasecao de parametrizacaoexpressando o desvio de yi em relacao a µ(xi,β)como ei = yi − µ(xi,β), o modelo pode ser expresso na forma

yi = µ(xi,β) + ei, i = 1, . . . , n

ou na forma matricial, como

y = µ(X,β) + e

com e = [e1, . . . , en]>. Quando µ(X,β) = Xβ, temos

y = Xβ + e (B.1.1)

Singer & Nobre & Rocha - marco/2011

Page 127: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 123

que e o modelo de regressao linear multipla. Explicitamente essemodelo corresponde a

yi = µ(xi,β) + ei = β0 + β1xi1 + . . .+ βpxip + ei, i = 1, . . . , n.

Quando p = 1, ele e denominado modelo de regressao linear simples.

Usualmente assumimos que

E(e) = 0 e que V(e) = σ2I (B.1.2)

ou seja, que os erros tem media nula, sao homocedasticos e nao-correlacionados.Nesse contexto, convem lembrar que as variaveis explicativas sao consid-eradas fixas e observadas sem erro. Quando isso nao acontece, a analise deregressao ainda pode ser realizada por meio de modelos condicionais. Porexemplo, num estudo em que o objetivo e avaliar a relacao entre peso (Y )e altura (X) de adolescentes, podemos obter os valores (possivelmentecom erro) de ambas as variaveis numa amostra de n indivıduos e analisaros dados por meio do modelo condicional yi|xi = α+βxi+ei, i = 1, . . . , nem que desconsideramos possıveis erros de medida da altura X. A ideiaaqui e avaliar a distribuicao do peso Y para dados valores da alturaX. Alternativamente, e possıvel considerar os chamados modelos comerros nas variaveis ou modelos de erros de medida que tambemacomodam variaveis explicativas observadas com erro. A analise sob essetipo de modelo foge aos objetivos deste texto e o leitor interessado podeconsultar Fuller (1987) ou Chesher (1991) para detalhes.

Exemplo B.1.1: Os dados da Tabela B.1.1 correspondem a idadee a uma medida de pressao arterial sistolica para um conjunto de 20pacientes de uma determinada clınica.

Singer & Nobre & Rocha - marco/2011

Page 128: An alise de dados longitudinais - docs.ufpr.br

124 B.1 INTRODUCAO

Tabela B.1.1: Idade (anos) e pressao arterial sistolica (mmHg)

Paciente Pressao sistolica Idade

1 114 172 134 183 116 204 139 235 110 346 150 387 152 418 138 429 142 4610 145 4711 156 4712 159 4713 142 5014 156 5215 164 5716 185 6017 162 6418 176 6619 175 6920 180 70

Para estudar a associacao entre idade (X) e pressao arterial sistolica(Y ), consideramos o modelo de regressao linear simples

yi = α + βxi + ei, i = 1, . . . , 20

que pode ser expresso na forma matricial (B.1.1) com

y =

y1

y2...y20

,X =

1 x1

1 x2...

...1 x20

,β =

[αβ

]e e =

e1

e2...e20

.Para efeito de interpretacao, convem reescrever o modelo na forma

yi = α∗ + β(xi − x0) + ei, i = 1, . . . , 20

Singer & Nobre & Rocha - marco/2011

Page 129: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 125

em que x0 e uma constante conhecida, por exemplo x0 = x com x de-notando a idade media dos pacientes. Nesse caso, o parametro α∗ corre-sponde ao valor esperado da pressao arterial sistolica para pacientes cujaidade e x. Se escolhermos x0 = 17, o parametro seria interpretado comovalor esperado da pressao arterial sistolica para pacientes cuja idade e de17 anos. Nesses casos, a matriz de especificacao do modelo seria dadapor

X =

1 x1 − x0

1 x2 − x0...

...1 x20 − x0

.Tendo em conta que esse modelo e equivalente a

yi = α + βxi + ei, i = 1, . . . , 20

com α = α∗ − βx0, fica evidente que a alteracao corresponde apenas auma translacao do eixo das ordenadas e que nem o valor do parametro βnem sua interpretacao sao afetados. Mais especificamente, β representaa variacao na pressao arterial sistolica esperada por ano para pacientescom as mesmas caracterısticas daqueles investigados.

Exemplo B.1.2: A Tabela B.1.2 contem dados de capacidade insta-lada (ton), potencia instalada (1000 kW) e area construıda (100 m2) de10 empresas de uma certa industria.

Tabela B.1.2: Capacidade instalada (ton), potencia instalada (1000 kW)e area construıda (100 m2) de empresas de uma certa industria

Capacidadede producao 4.5 5.9 4.2 5.2 8.1 9.7 10.7 11.9 12.0 12.3Potenciainstalada 0.9 2.5 1.3 1.8 3.1 4.6 6.1 6.0 5.9 6.1

Areaconstruıda 7.1 10.4 7.2 8.2 8.5 11.9 12.1 12.5 12.0 11.3

Para estimar a capacidade instalada (Y ) a partir das informacoessobre potencia instalada (X1) e area construıda (X2), consideramos oseguinte modelo:

yi = β0 + β1x1i + β2x2i + ei, i = 1, . . . , 10,

Singer & Nobre & Rocha - marco/2011

Page 130: An alise de dados longitudinais - docs.ufpr.br

126 B.1 INTRODUCAO

que genericamente, i.e., para n empresas, pode ser expresso na formamatricial (B.1.1) com

y =

y1

y2...yn

,X =

1 x11 x21

1 x12 x22...

...1 x1n x2n

,β =

β0

β1

β2

e e =

e1

e2...en

.

Aqui, o parametro β1 representa a variacao na capacidade instalada es-perada por unidade de potencia instalada para empresas com a mesmaarea construıda. O parametro β2 tem interpretacao semelhante coma substituicao de potencia instalada por area construıda e vice-versa.Como nao temos dados para empresas com potencia instalada menorque 0.9×1000kW e area construıda menor que 7.1×100m2, o parametroβ0 deve ser interpretado como um fator de ajuste do plano que aprox-ima a verdadeira funcao que relaciona a variavel resposta e as variaveisexplicativas na regiao em que ha dados disponıveis. Se essa funcao forlinear em todo o campo de variacao das variaveis explicativas, um modelolinear mais adequado nao deveria conter o termo β0, pois potencia insta-lada e area construıda iguais a zero implicariam capacidade de producaonula.

Exemplo B.1.3: A Tabela B.1.3 contem dados de um estudo cujoobjetivo e avaliar o efeito de diferentes nıveis de um determinado fertil-izante no numero de frutos de boa qualidade por macieira de uma certavariedade.

Singer & Nobre & Rocha - marco/2011

Page 131: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 127

Tabela B.1.3: Concentracao do fertilizante e numero de frutos de boaqualidade

Concentracao Numero de frutos Concentracao Numero de frutosdo fertilizante de boa qualidade do fertilizante de boa qualidade

10 16 40 2410 18 40 2510 19 40 2810 20 50 2620 18 50 2820 20 50 3020 21 50 3220 22 50 3520 23 50 2530 2230 2530 26

Se encararmos a variavel Concentracao de fertilizante como um fator(no espırito dos modelos usuais de ANOVA), o estudo pode ser modelado(de forma generica) por intermedio de

yij = µi + eij, i = 1, . . . , k, j = 1, . . . , ni (B.1.3)

em que yij representa o numero de frutos de boa qualidade na j-esimamacieira tratada com a i-esima concentracao do fertilizante e µi o valoresperado correspondente.

2Esse modelo pode ser escrito na forma matri-

cial (B.1.1) com

2

Aqui expressamos o modelo sob a parametrizacao de medias de celas. Outrasparametrizacoes podem ser consideradas; o leitor encontrara mais detalhes na SecaoB.6.

Singer & Nobre & Rocha - marco/2011

Page 132: An alise de dados longitudinais - docs.ufpr.br

128 B.1 INTRODUCAO

y =

y11...

y1n1

y21...

y2n2

...yk1...

yknk

,X =

1 0 . . . 0...

... . . . 01 0 . . . 00 1 . . . 0...

... . . ....

0 1 . . . 0...

... . . ....

0 0 . . . 1...

... . . ....

0 0 . . . 1

,β =

µ1

µ2...µk

e e = [e11, . . . , e1n1 , e21, . . . , e2n2 , . . . , ek1, . . . , eknk ]> . Embora esse seja um

modelo linear (nos parametros), ele nao impoe uma relacao linear entreo valor esperado do numero de frutos de boa qualidade (µi) e a concen-tracao do fertilizante (xij), ou seja, permita acomodar um efeito nao-linear desse fator. Se considerarmos a natureza quantitativa dos nıveisdo fator Concentracao de fertilizante e quisermos adotar um modelo lin-ear (expresso na forma generica) que inclua um efeito linear desse fator,podemos utilizar

yij = β0 + β1xi + eij, i = 1, . . . , k, j = 1, . . . , ni (B.1.4)

que pode ser expresso na forma matricial (B.1.1) com

y =

y11...

y1n1

y21...

y2n2

...yk1...

yknk

,X =

1 x1...

...1 x1

1 x2...

...1 x2...

...1 xk...

...1 xk

,β =

[β0

β1

]e e =

e11...

e1n1

e21...

e2n2

...ek1...

eknk

.

Exemplo B.1.4: As ondas epidemicas estacionais de gripe con-stituem uma carga consideravel para os servicos de saude e caracterizam-se por sua grande variabilidade de ano a ano. O uso dos dados historicos

Singer & Nobre & Rocha - marco/2011

Page 133: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 129

pode servir para estabelecer um modelo preditor do numero de medicosindispensaveis para atender a totalidade das consultas numa forma efi-ciente. Os dados da Tabela B.1.4 correspondem aos numeros de consultas(acumuladas semanalmente) da temporada invernal realizadas nos anosde 2000 a 2004 numa certa localidade.

Tabela B.1.4: Consultas acumuladas na temporada invernal de 2000 a2004

Semana N 2000 2001 2002 2003 2004

1 23470 46041 18284 20868 187262 26101 86018 23800 24574 216743 29178 105393 30764 28399 257714 32460 124280 40738 31496 292705 34949 138060 59248 34459 325636 37698 151779 93457 37703 407977 41216 162918 132469 42823 566988 44661 169642 162121 46930 722399 48030 174107 179232 50527 8700810 55254 175520 185623 64897 84654

Supondo que para cada ano a relacao entre o tempo (em semanas) eo numero esperado de consultas possa ser representado por intermediode regressoes lineares simples, poderıamos considerar um modelo do tipo

yij = β0i + β1ixij + eij, i = 1, . . . , k, j = 1, . . . , ni, (B.1.5)

em que β0i representa o numero esperado de consultas no inıcio do invernodo ano i (i = 1 correspondendo ao ano 2000) e β1i denota a variacao nonumero esperado de consultas por semana para o ano i. Neste casoparticular, k = 5 e ni = 10. Na forma matricial (B.1.1), esse modelo

Singer & Nobre & Rocha - marco/2011

Page 134: An alise de dados longitudinais - docs.ufpr.br

130 B.1 INTRODUCAO

pode ser expresso como

y =

y11...

y1n1

y21...

y2n2

...yk1...

yknk

,X =

1 0 . . . 0 x11 0 . . . 0...

.... . .

......

.... . .

...1 0 . . . 0 x1n1 0 . . . 00 1 . . . 0 0 x21 . . . 0...

.... . .

......

.... . .

...0 1 . . . 0 0 x2n2 . . . 0...

......

......

......

...0 0 . . . 1 0 0 . . . xk1...

.... . .

......

.... . .

...0 0 . . . 1 0 0 . . . xknk

,β =

β01

β02...β0k

β11

β12...β1k

ee = [e11, . . . , e1n1 , e21, . . . , e2n2 , . . . , ek1, . . . , eknk ]

>

em que n = n1 + n2 + . . .+ nk.

Se considerarmos que existe um numero fixo de pacientes com gripe noinıcio do inverno (semana 1), e que a variacao desse numero de gripadosdepende das condicoes climaticas de cada ano, o modelo poderia serescrito como

yij = β0 + β1ixij + eij, i = 1, . . . , k, j = 1, . . . , ni (B.1.6)

ou na forma matricial (B.1.1), com

y =

y11...

y1n1

y21...

y2n2

...yk1...

yknk

,X =

1 x11 0 . . . 0...

......

. . ....

1 x1n1 0 . . . 01 0 x21 . . . 0...

......

. . ....

1 0 x2n2 . . . 0...

......

......

1 0 0 . . . xk1...

......

. . ....

1 0 0 . . . xknk

,β =

β0

β11

β12...β1k

e e como acima.

Singer & Nobre & Rocha - marco/2011

Page 135: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 131

Em ambas as situacoes descritas acima, podemos dizer que existe in-teracao entre o tempo decorrido desde o inıcio do inverno e o ano (pos-sivelmente por causa de diferencas climaticas), pois as taxas de variacaono numero esperado de consultas (β1i) dependem do ano em que foramcolhidos os dados (as retas que representam a variacao no numero es-perado de consultas ao longo das 10 semanas de observacao nao saoparalelas). Num modelo sem interacao, essas taxas sao iguais para todosos anos, ou seja, β1i = β1. Nesse caso, admitindo efeito de ano, o modelopoderia ser escrito como

yij = β0i + β1xij + eij, i = 1, . . . , k, j = 1, . . . , ni

e na forma matricial (B.1.1), com

y =

y11...

y1n1

y21...

y2n2

...yk1...

yknk

,X =

1 0 . . . 0 x11...

.... . .

......

1 0 . . . 0 x1n1

0 1 . . . 0 x21...

.... . .

......

0 1 . . . 0 x2n2

......

......

...0 0 . . . 1 xk1...

.... . .

......

0 0 . . . 1 xknk

,β =

β01

β02...β0k

β1

e e como acima.

Exemplo B.1.5: Em muitas situacoes, o modelo de regressao seg-mentada proporciona maior flexibilidade para a caracterizacao do com-portamento da resposta. Esse modelo se caracteriza pela existencia deum ponto x0 (conhecido) em que a taxa de variacao da resposta mediase altera. Para justificar o modelo, suponhamos que

yi =

β0 + β1xi + ei, xi ≤ x0, i = 1, . . . , jβ3 + β2xi + ei, xi ≥ x0, i = j + 1, . . . , n.

Admitindo que as duas retas tem em comum o ponto (x0, y0), temosβ0 + β1x0 = β3 + β2x0, ou seja β3 = β0 + β1x0 − β2x0. Substituindo essaexpressao de β3 no modelo original, obtem-se o seguinte modelo com tresparametros (β0, β1, β2):

yi =

β0 + β1xi + ei, xi ≤ x0, i = 1, . . . , jβ0 + β1x0 + β2(xi − x0) + ei, xi ≥ x0, i = j + 1, . . . , n.

Singer & Nobre & Rocha - marco/2011

Page 136: An alise de dados longitudinais - docs.ufpr.br

132 B.1 INTRODUCAO

que pode ser expresso na forma matricial (B.1.1) com

y =

y1...yjyj+1

...yn

,X =

1 x1 0...

......

1 xj 01 x0 (xj+1 − x0)...

......

1 x0 (xn − x0)

,β =

β0

β1

β2

e e =

e1...ejej+1

...en

.

Sob a formulacao matricial (B.1.1), hipoteses lineares de interessepodem ser expressas na forma

H : Cβ = m (B.1.7)

em que C e uma matriz (c× p) de constantes conhecidas com r(C) = ce m e um vetor (c× 1) de constantes conhecidas. Em geral, m = 0.

No Exemplo B.1.1, a hipotese de que o intercepto e nulo e expressacomo (B.1.7) com C = [1 0] e m = 0 e a hipotese de que o coeficienteangular e nulo, com C = [0 1] e m = 0. Alem disso, supondo que, soba parametrizacao alternativa la mencionada, x0 = 17, a hipotese de queo valor esperado para a pressao sistolica de pacientes com idade igual a30 anos e de 120 mmHg seria expressa na forma (B.1.7) com C = [1 13]e m = 120. Em todos esses casos, a matriz C tem apenas uma linha, econsequentemente, c = 1.

No Exemplo B.1.2, uma hipotese de interesse e a de que nenhumadas duas variaveis e significativamente linearmente associada ao valoresperado da variavel resposta, Esta hipotese pode ser expressa na forma(B.1.7) com

C =

[1 00 1

].

No Exemplo B.1.3, sob o modelo (B.1.3), a hipotese de que os valoresesperados de frutos de boa qualidade por macieira sejam iguais, indepen-dentemente da concentracao de fertilizante utilizada pode ser expressa naforma (B.1.7) em que m = 0 e um vetor [(k − 1)× 1] e C e uma matriz[(k− 1)× k] construıda de forma a gerar k− 1 contrastes linearmente in-dependentes dos elementos de β = [µ1 µ2 . . . µk]

> . Como exemplo desse

Singer & Nobre & Rocha - marco/2011

Page 137: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 133

tipo de matriz podemos ter

C =

1 0 . . . 0 −10 1 . . . 0 −1...

......

......

0 0 . . . 1 −1

.Sob o modelo (B.1.4), uma hipotese equivalente seria expressa com C =[0 1] e m = 0.

No Exemplo B.1.4, a hipotese a ser testada para avaliar se o modelo(B.1.5) pode ser reduzido ao modelo (B.1.6) tambem pode ser expressana forma (B.1.7) em que C e uma matriz [(k−1)×2k] com r(C) = k−1dada por

C =

1 0 . . . −1 0 . . . 0 00 1 . . . −1 0 . . . 0 0...

......

......

......

...0 . . . 1 −1 0 . . . 0 0

,por exemplo, e m = 0, um vetor de dimensao [(k − 1)× 1].

No Exemplo B.1.5, a hipotese de que os coeficientes angulares corre-spondentes a valores da variavel explicativa menores ou maiores do quex0 sao iguais pode ser expressa na forma (B.1.7) com C = [0 1 − 1].

B.2 Metodo de mınimos quadrados

O metodo de mınimos quadrados (ordinarios) pode ser utilizada paraestimar o vetor de parametros β no modelo (B.1.1). A base do metodoe a minimizacao da forma quadratica

Q(β) = e>e = (y −Xβ)>(y −Xβ) =n∑i=1

e2i . (B.2.1)

Com essa finalidade, consideremos

Q(β) = y>y + β>X>Xβ − 2β>X>y

Singer & Nobre & Rocha - marco/2011

Page 138: An alise de dados longitudinais - docs.ufpr.br

134 B.2 METODO DE MINIMOS QUADRADOS

e utilizemos as expressoes para derivadas matriciais apresentadas noApendice A para obter

∂Q(β)

∂β= 2X>Xβ − 2X>y,

∂2Q(β)

∂β2 = 2X>X.

Igualando a primeira derivada parcial a zero, temos X>Xβ = X>y.Como assumimos que X tem posto completo

3, entao X>X e uma ma-

triz nao singular e a solucao do sistema de equacoes de estimacao(tambem conhecido por sistema de equacoes normais) e

4

β = (X>X)−1X>y. (B.2.2)

Como a matriz X>X e definida positiva, o estimador (B.2.2) correspondeao ponto de mınimo de (B.2.1).

Sob a suposicao de que E(e) = 0 e V(e) = σ2In, temos

i) E(β) = β,

ii) V(β) = σ2(X>X)−1.

O estimador de mınimos quadrados de β e o estimador linear naoenviesado de variancia mınima, (best linear unbiased estimator - BLUE)como se pode deduzir por meio do seguinte teorema:

Teorema B.2.1. Teorema de Gauss-Markov: Considere o modelolinear y = Xβ + e, com as hipoteses E(e) = 0 e V(e) = σ2In. Seja

3

Quando a matriz X nao tem posto completo, o sistema de equacoes de estimacaotem infinitas solucoes dadas por

β = (X>X)−X>y + [I− (X>X)−X>X]g,

em que (X>X)− e uma inversa generalizada de X>X e g e um vetor arbitrario.

Pode-se mostrar que Xβ e invariante com relacao ao vetor g e Q(β) obtem seu ponto

mınimo para qualquer solucao de X>Xβ = X>y.4

Aqui, o termo “normal” nao se refere a distribuicao normal e sim ao conceitode ortogonalidade. A razao para isso e que a teoria de mınimos quadrados pode serdesenvolvida por meio de projecoes ortogonais.

Singer & Nobre & Rocha - marco/2011

Page 139: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 135

β = (X>X)−1X>y o estimador de mınimos quadrados de β. Se β e umoutro estimador de β tal que β = Cy, em que C e uma matriz (p× n),e E(β) = β, entao

r>V(β)r ≥ r>V(β)r, ∀r ∈ IRp.

Sob a suposicao adicional de que os erros ei tem distribuicao Normal,a linearidade do estimador (B.2.2) permite-nos concluir que

β ∼ Np[β, σ2(X>X)−1]. (B.2.3)

Como, em geral a variancia σ2 e desconhecida, inferencias sobre β de-pendem de um estimador desse parametro e um candidato e o estimadornao enviesado

s2 = (n− p)−1(y −Xβ)>(y −Xβ)

= (n− p)−1y>[In −X(X>X)−1X>]y.

Como a matriz In − X(X>X)−1X> e idempotente pode-se recorrer aoTeorema A.3.3 para mostrar que (n− p)σ−2s2 ∼ χ2

n−p.

Dados uma matriz C de constantes conhecidas com dimensao (c× p)e r(C) = c e um vetor m de constantes conhecidas com dimensao (c× 1)consideremos a forma quadratica

QC = (Cβ −m)>[C(X>X)−1C>]−1(Cβ −m)

= [C(X>X)−1X>y −m]>[C(X>X)−1C>]−1[C(X>X)−1X>y −m].

Tendo (B.2.3) em conta, podemos novamente recorrer ao Teorema A.3.3para mostrar que σ−2QC ∼ χ2

c(δ) com parametro de nao-centralidadeδ = (Cβ −m)>[C(X>X)−1C>]−1(Cβ −m). Como C(X>X)−1X>y −m = C(X>X)−1X>[y −XC(C>C)−1m], e possıvel expressar QC comouma forma quadratica na variavel y −XC(C>C)−1m, ou seja

QC = [y −XC(C>C)−1m]>A[y −XC(C>C)−1m]

comA = X(X>X)−1C[C(X>X)−1C>]−1C>(X>X)−1X>.

Tambem e possıvel escrever

(n− p)s2 = y>[In −X(X>X)−1X>]y

= [y −XC(C>C)−1m]>B[y −XC(C>C)−1m]

Singer & Nobre & Rocha - marco/2011

Page 140: An alise de dados longitudinais - docs.ufpr.br

136 B.2 METODO DE MINIMOS QUADRADOS

com B = In−X(X>X)−1X>. Observando que AB = 0, podemos utilizaro Teorema A.3.5 para mostrar que

F = c−1s−2(Cβ −m)>[C(X>X)−1C>]−1(Cβ −m) ∼ F(c,n−p)(δ),(B.2.4)

com δ = (Cβ −m)>[C(X>X)−1C>]−1(Cβ −m).

Esse resultado nos da todos os ingredientes necessarios tanto paraconstruir intervalos (ou regioes) de confianca para combinacoes linearesdos elementos de β quanto para testar hipoteses lineares de interesse.Por exemplo, para testar hipoteses na forma (B.1.7), basta notar que soba hipotese nula δ = 0 e a estatıstica (B.2.4) tem distribuicao F(c,n−p).

Sob o modelo de regressao linear simples, yi = α+βxi+ei, i = 1, . . . , ncom as suposicoes mencionadas acima (incluindo a de normalidade de ei),um teste da hipotese de que o coeficiente angular e igual a uma constanteβ0 pode ser realizado por meio de (B.2.4) com C = [0 1] e m = β0. Nessecaso, a estatıstica (B.2.4) pode ser expressa como

(β − β0)2/s2[(X>X)−1]22

em que [(X>X)−1]22 denota o elemento (2, 2) da matriz (X>X)−1 e segueuma distribuicao F(1,n−p) quando a hipotese H : β = β0 e verdadeira. A

raiz quadrada dessa estatıstica munida do sinal5

de β−β0, nomeadamente

[sinal(β − β0)](β − β0)/s√

[(X>X)−1]22

segue uma distribuicao tn−p quando a hipotese H : β = β0 e verdadeira.O resultado para o caso particular em que β0 = 0 e obtido de formaautomatica quando se utilizam os pacotes computacionais mais comuns.

Nos casos de duvidas quanto a validade da suposicao de normali-dade, podemos recorrer ao Teorema Limite Central para efeito de in-ferencia sobre os parametros do modelo. Para salientar que o resultadodepende do tamanho da amostra, consideremos uma sequencia de ele-mentos yn,Xn, en com Xn = [xn1,xn2, . . . ,xnn]> satisfazendo o mod-elo yn = Xnβ + en sob as suposicoes do Teorema de Gauss-Markov eadmitamos que

a) max1≤i≤n x>ni(X>nXn)−1xni → 0 com n→∞, 6

5

sinal(a) = 1 se a > 0, sinal(a) = −1 se a < 0 e sinal(a) = 0 se a = 0.6

Esta suposicao, conhecida como condicao de Noether e valida na maioria dos

Singer & Nobre & Rocha - marco/2011

Page 141: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 137

b) limn→∞X>nXn = V, com V finita e definida positiva.

Entao, utilizando o Teorema Limite Central de Hajek-Sidak (ver Sen& Singer (1993), por exemplo), podemos mostrar que

√n(βn − β)

D−→ Np(0, σ2V−1)

ou equivalentemente, que

(X>nXn)1/2(βn − β)D−→ Np(0, σ

2Ip).

Em termos praticos, esse resultado significa que para amostras com taman-hos suficientemente “grandes”,

β ≈ Np[β, σ2(X>X)−1]

ou seja, que a distribuicao do estimador β pode ser aproximada por umadistribuicao normal com media β e matriz de covariancias σ2(X>X)−1.

Neste caso, para testar hipoteses da forma (B.1.7) podemos empregara estatıstica de Wald

QW = s−2(Cβ −m)>[C(X>X)−1C>]−1(Cβ −m), (B.2.5)

cuja distribuicao sob a hipotese nula pode ser aproximada por uma dis-tribuicao χ2

c .

Existem situacoes em que a suposicao de homocedasticidade i.e.,variancias constantes, nao e valida. Como ilustracao, tomemos o Exem-plo B.1.1, em que um aumento da variancia da pressao arterial sistolicacom a idade nao seria um fato inesperado. Por exemplo, poderıamossupor que V(ei) = xiσ

2, ou seja, que V(e) = diagx1, . . . , x20σ2. Nessecaso, o modelo e dito heterocedastico. De uma forma mais geral, pode-mos ter modelos em que a matriz de covariancias de e e uma matrizsimetrica definida positiva, V. Nesses casos, o ajuste do modelo pode serconcretizado por meio do metodo dos mınimos quadrados general-izados (MQG) que consiste em minimizar

Q(β) = (y −Xβ)>V−1(y −Xβ)

casos de interesse pratico. Em particular, no caso de problemas envolvendo a com-paracao de k medias, ela corresponde a exigencia de que os tamanhos ni das amostrascolhidas de cada subpopulacao investigada sejam tais que ni/

∑ki=1 ni convirja para

uma constante λi com n =∑k

i=1 ni →∞.

Singer & Nobre & Rocha - marco/2011

Page 142: An alise de dados longitudinais - docs.ufpr.br

138 B.3 METODO DE MAXIMA VEROSSIMILHANCA

Quando a matriz V e uma matriz diagonal com elementos wiσ2 na diag-

onal principal, o metodo e chamado de mınimos quadrados ponder-ados e a funcao a ser minimizada pode ser expressa como

Q(β) = (y −Xβ)>V−1(y −Xβ) =n∑i=1

w−1i (yi − x>i β)2.

Admitindo que V e conhecida e considerando um procedimento sim-ilar aquele usado no caso de mınimos quadrados ordinarios, podemosmostrar que o estimador de mınimos quadrados generalizados de β e

β = (X>V−1X)−1X>V−1y.

Se e ∼ N(0,V) com V conhecida, entao podemos demonstrar que

β ∼ Np[β, (X>V−1X)−1]

Quando ha duvida com relacao a suposicao de normalidade, mas V(e) =V, com V finita e conhecida, o Teorema Limite Central permite-nosconcluir que para n suficientemente grande,

β ≈ Np[β, (X>V−1X)−1]

Como, em geral, V nao e conhecida, podemos substituı-la por um esti-mador consistente V e considerar o estimador

β = (X>V−1X)−1X>V−1y. (B.2.6)

O estimador consistente de V pode ser obtido de fontes externas, e.g.,outros estudos com caracterısticas similares; em muitos casos, e possıvelutilizar a matriz de covariancias dos resıduos obtidos do ajuste de ummodelo homocedastico com os mesmos parametros β. Apelando para oTeorema Limite Central e para o Teorema de Sverdrup (ver Sen & Singer(1993)), por exemplo, podemos mostrar que para para n suficientementegrande

β ≈ Np[β, (X>V−1X)−1]. (B.2.7)

Intervalos de confianca aproximados para combinacoes lineares da formaCβ ou testes para hipoteses do tipo (B.1.7) podem ser concretizadosutilizando (B.2.7) ou a estatıstica de Wald

QW = (Cβ −m)>[C(X>V−1X)−1C>]−1(Cβ −m), (B.2.8)

cuja distribuicao sob a hipotese nula pode ser aproximada por uma dis-tribuicao χ2

c .

Singer & Nobre & Rocha - marco/2011

Page 143: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 139

B.3 Metodo de maxima verossimilhanca

Sob a suposicao de normalidade, podemos considerar o metodo de maximaverossimilhanca para e estimacao dos parametros do modelo (B.1.1), queconsiste em maximizar a funcao de verossimilhanca

L(β, σ2|y,X) = (2πσ2)−n/2 exp[− 1

2σ2(y −Xβ)>(y −Xβ)]. (B.3.1)

com relacao aos parametros β e σ2. Lembrando que a determinacao dospontos de maximo de (B.3.1) e equivalente a obtencao dos pontos demaximo de seu logaritmo e utilizando as regras de derivacao matricialapresentadas no Apendice A, podemos mostrar que os estimadores demaxima verossimilhanca desejados sao

β = (X>X)−1X>y

e

σ2 = n−1(y −Xβ)>(y −Xβ) = n−1y>[In −X(X>X)−1X>]y.

Dado que a maximizacao de (B.3.1) relativamente a β corresponde a min-imizacao da forma quadratica de seu expoente, nao e de se estranhar queos estimadores de maxima verossimilhanca e de mınimos quadrados sejamidenticos. Por outro lado, o estimador de maxima verossimilhanca de σ2

corresponde ao estimador proposto anteriormente (s2) multiplicado porum fator (n−p)/n e e, consequentemente, enviesado. A razao para isso eque o estimador σ2 depende de β e uma alternativa para se conseguir umestimador nao enviesado e utilizar o metodo de maxima verossimilhancarestrita que consiste na minimizacao de uma transformacao linear dosdados que nao dependa desse parametro. Uma transformacao com es-sas caracterısticas e dada por y∗ = [I−X(X>X)−1X]y. A maximizacaoda verossimilhanca correspondente gera o estimador nao enviesado s2.Mais detalhes sobre esse metodo podem ser encontrados em Diggle et al.(2002), por exemplo.

A metodologia de maxima verossimilhanca tambem pode ser aplicadaa modelos do tipo (B.1.1) com e ∼ N(0,V) em que os elementos nao re-dundantes de V sao expressos na forma de um vetor de parametros (decovariancias), θ, i.e., V = V(θ). A funcao de verossimilhanca correspon-dente e

L(β,θ|y,X) = (2π)−n/2|V(θ)|−1/2 exp[−(y −Xβ)>V−1(θ)(y −Xβ)].(B.3.2)

Singer & Nobre & Rocha - marco/2011

Page 144: An alise de dados longitudinais - docs.ufpr.br

140 B.4 PARTICAO DA SOMA DE QUADRADOS

Nesse caso, o estimador de β tem a mesma forma que o estimador demınimos quadrados generalizados (B.2.6) mas com V = V(θ) represen-tando o estimador de maxima verossimilhanca de V. E possıvel imporestruturas particulares a matriz de covariancias, ou seja, e possıvel con-siderar situacoes em que V e funcao de um vetor de parametros de co-variancias com dimensao reduzida, e.g., 2 ou 3 em vez de n(n−1)/2, quee a dimensao de θ quando nao se impoem restricoes.

B.4 Particao da soma de quadrados

A utilidade do modelo de regressao para explicacao da variacao da re-sposta esperada como funcao das variaveis explicativas pode ser avaliadaa partir da identidade

yi − y = (yi − y) + (yi − yi)

que implica

n∑i=1

(yi − y)2 =n∑i=1

(yi − y)2 +n∑i=1

(yi − yi)2.

Os termos

SQT =n∑i=1

(yi − y)2 = y>[In − n−111>]y,

SQR =n∑i=1

(yi − y)2 = y>[X(X>X)−1X> − n−111>)]y

e

SQE =n∑i=1

(yi − yi)2 = y>[In −X(X>X)−1X>]y

correspondem, respectivamente, a soma de quadrados total, somade quadrados devida a regressao e soma de quadrados resid-ual e representam a variabilidade (expressa em termos de quadrados dediferencas) da resposta em torno de sua media, a parcela dessa variabili-dade explicada pelo modelo E(y) = Xβ e a variabilidade da resposta emtorno deste modelo, ou seja a parcela da variabilidade total nao explicada.

Quando o ajuste do modelo E(y) = Xβ e perfeito, i.e., quando y = ytemos SQE = 0 e quando o modelo E(y) = Xβ nao melhora a explicacao

Singer & Nobre & Rocha - marco/2011

Page 145: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 141

da variabilidade relativamente a resposta media, SQR = 0. Uma medidada parcela da variabilidade explicada pelo modelo E(y) = Xβ e o coe-ficiente de determinacao

R2 =SQR

SQT=SQT − SQE

SQT= 1− SQE

SQT.

Como 0 ≤ SQE ≤ SQT, temos 0 ≤ R2 ≤ 1 e quanto maior o valor deR2, maior e a reducao da variabilidade da resposta devida a introducaodas variaveis explicativas.

Um dos problemas associados a utilizacao do coeficiente de deter-minacao como medida da qualidade do modelo e que ele nao leva emconsideracao o numero de parametros envolvidos. Quanto mais variaveisexplicativas forem introduzidas no modelo, mais o coeficienteR2 se aprox-imara de 1. Para contornar esse problema, podemos considerar o coefi-ciente de determinacao ajustado:

R2a = 1−

(n− 1

n− p

)SQE

SQT.

O coeficiente R2a pode diminuir quando adicionamos variaveis explicati-

vas ao modelo pois o decrescimo que isso acarretara em SQE pode sercompensado pela perda de graus de liberdade no denominador n− p.

B.5 Diagnostico

Modelos estatısticos sao utilizados como aproximacoes de processos com-plexos e sao construıdos sobre um conjunto de suposicoes. Para efeitospraticos, e importante avaliar se tais aproximacoes sao aceitaveis. Istopode ser concretizado por meio de tecnicas de diagnostico, que en-globam a avaliacao do ajuste e a analise de sensibilidade. Noprimeiro caso, o objetivo e avaliar se as suposicoes adotadas sao com-patıveis com os dados; no segundo, o objetivo e estudar a variacao dosresultados da analise quando a formulacao inicial do modelo e ligeira-mente modificada. Se esta variacao for “substancial” no sentido de mu-dar as conclusoes, diz-se que o modelo nao e robusto. Nesse caso, ou asconclusoes devem ser tomadas (se tomadas) de forma cautelosa, ou entaodeve-se optar por outro modelo.

Singer & Nobre & Rocha - marco/2011

Page 146: An alise de dados longitudinais - docs.ufpr.br

142 B.5 DIAGNOSTICO

Para ilustrar a importancia do uso das tecnicas de diagnostico, ap-resentamos na Tabela B.5.1, quatro conjuntos de dados (A, B, C e D)extraıdos de Anscombe (1973). Cada um desses conjuntos contem osvalores de uma variavel explicativa (x) e de uma variavel resposta (y).

Tabela B.5.1: Dados obtidos de Anscombe (1973)

A B C Dx y x y x y x y

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.588.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.719.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.4714.0 9.96 14.0 8.10 14.0 8.84 8.0 7.046.0 7.24 6.0 6.13 6.0 6.08 8.0 5.254.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.567.0 4.82 7.0 7.26 7.0 6.42 8.0 7.915.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Consideremos o ajuste de um modelo de regressao linear simples dotipo

yi = α + βxi + ei, i = 1, ..., 11.

com E(ei) = 0, V(ei) = σ2 e Cov(ei, ej) = 0, i 6= j a cada um dosquatro subconjuntos de dados. Na Figura B.5.1 apresentamos diagramasde dispersao correspondentes a cada subconjunto; as linhas tracejadascorrespondem as retas ajustadas pelo metodo de mınimos quadrados or-dinarios. No conjunto A, o modelo parece adequado; no conjunto B,um modelo quadratico seria mais conveniente e no conjunto C, o modeloparece ajustar-se bem aos dados, com excecao do ponto (13.0, 12.74) quese caracteriza como uma observacao discrepante (outlier)

7. No con-

junto D, o coeficiente de regressao β e significativo apenas em funcaodo ponto (19.0, 12.50). No entanto, para os quatro conjuntos de dados,

temos α = 3.00, β = 0.50, σ2 = 1.53 e R2 = 0.667 o que evidencia que ocoeficiente de determinacao (R2) nem sempre e uma boa medida para a

7

Grosso modo, uma observacao e chamada discrepante, se apresenta um compor-tamento distinto das demais.

Singer & Nobre & Rocha - marco/2011

Page 147: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 143

avaliacao da qualidade do ajuste. Essa avaliacao precisa ser complemen-tada por outros metodos que descrevemos a seguir.

Figura B.5.1: Diagramas de dispersao (dados da Tabela B.5.1)

5 10 15 20

46

810

12

A

x

y

5 10 15 20

46

810

12

B

x

y

5 10 15 20

46

810

12

C

x

y

5 10 15 20

46

810

12

D

x

y

B.5.1 Analise de Resıduos

Resıduos sao utilizados para avaliar a validade de determinadas suposicoesde modelos estatısticos. No caso de modelos de regressao linear classicos,podemos utiliza-los para verificar homocedasticidade, existencia de pon-tos discrepantes, normalidade e independencia dos erros, como veremos aseguir. Uma referencia classica e Cox & Snell (1968); esses autores apre-sentam uma forma geral para definir resıduos para modelos que contemuma unica fonte de variacao.

Consideremos o modelo de regressao linear

y = Xβ + e (B.5.1)

com e ∼ Nn(0, σ2In). Seja β o estimador de mınimos quadrados (or-

dinarios) de β e y = Xβ = X(X>X)−1X>y = Hy, o vetor dos valoresajustados. A matriz

H = X(X>X)−1X>

Singer & Nobre & Rocha - marco/2011

Page 148: An alise de dados longitudinais - docs.ufpr.br

144 B.5 DIAGNOSTICO

e simetrica e idempotente e representa a matriz de projecao de y nosubespaco C(X) (para maiores detalhes, veja o Teorema ??). O vetor deresıduos ordinarios e definido como

e = [e1, ..., en]> = y − y = (I−H)y. (B.5.2)

Sob o modelo (B.5.1),

e = (I−H)y = (I−H)(Xβ + e) = (I−H)e, (B.5.3)

de onde podemos concluir que e ∼ Nn(0, σ2[I − H]). A relacao entreo vetor de erros e o vetor de resıduos ordinarios depende somente damatriz chapeu (hat matrix ) H.

8

Algumas transformacoes dos resıduos ordinarios tem sido sugeridaspara fins de diagnostico. Apresentaremos apenas algumas delas, mas oleitor interessado pode consultar Cook & Weisberg (1982), por exemplo,para maiores detalhes.

A distribuicao do vetor de resıduos ordinarios depende tanto de σ2

quanto da matriz H; consequentemente, os resıduos podem ter varianciasdistintas. Para efeito de comparacao, convem construir resıduos padroniza-dos que nao dependam dessas quantidades. Se σ2 for conhecido, umapadronizacao natural consistiria na divisao de ei pelo seu desvio padrao,a saber, σ

√1− hii, em que hii denota o i-esimo elemento da diagonal

principal de H.9

Com essa padronizacao, a distribuicao conjunta dosresıduos transformados nao depende da variancia. Como, em geral σ2 edesconhecida, uma alternativa e considerar os resıduos studentizados,definidos por

e∗i =ei

s√

1− hii, i = 1, ..., n.

Um grafico de e∗i versus yi (o valor predito da i-esima observacao) eutil para verificar a plausibilidade da suposicao de homocedasticidade;quando esta suposicao e verdadeira, espera-se que o comportamento dee∗i em torno do valor zero seja aleatorio e que sua variabilidade tenha

8

Essa denominacao, dada por J.W. Tukey, se deve ao fato de H ser base da trans-formacao linear do vetor dos valores observados no vetor de valores ajustados, y = Hy,ou seja, H “coloca” o chapeu () no vetor y. Ela tambem e chamada de matriz depredicao.

9

Pode-se mostrar que hii = x>i (X>X)−1xi em que x>i e a i-esima linha de X.

Singer & Nobre & Rocha - marco/2011

Page 149: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 145

a mesma magnitude, independentemente do valor de yi. Esse tipo degrafico tambem pode ser utilizado para avaliar a suposicao de lineari-dade assumida pelo modelo, alem de revelar para quais observacoes essasuposicao parece inadequada. Se a suposicao for verdadeira, esperamosque nenhuma tendencia na disposicao dos resıduos seja detectada. Comoilustracao, considere a Figura B.5.2 que corresponde aos resıduos associa-dos a quatro ajustes fictıcios. No grafico B.5.2(a) nao detectamos nenhumtipo de violacao das suposicoes de homocedasticidade e de linearidade; nografico B.5.2(b), podemos notar que a variabilidade dos resıduos aumentacom a magnitude do valor ajustado, indicando que o modelo em questaoe heterocedastico e nos graficos B.5.2(c) e B.5.2(d) podemos notar umatendencia nao-linear dos resıduos, o que sugere a ma especificacao daforma funcional; nesses casos, uma funcao nao-linear talvez fosse maisadequada para representar a relacao entre o valor esperado da variavelresposta e a variavel explicativa.

Figura B.5.2: Resıduos studentizados versus valores ajustados

20 25 30 35 40

−4

−2

02

4

(a) Modelo linear homocedástico

yi

e*i

3 4 5 6 7 8 9

−4

−2

02

4

(b) Modelo heterocedástico

yi

e*i

−5 0 5 10 15 20

−4

−2

02

4

(c) Modelo não−linear

yi

e*i

−50 −40 −30 −20 −10 0 10

−4

−2

02

4

(d) Modelo não−linear

yi

e*i

Os resıduos studentizados que apresentam um valor absoluto “muitogrande” (maior que 2 ou 3, por exemplo) identificam observacoes dis-crepantes. Este criterio tem cunho puramente descritivo, dado que na

Singer & Nobre & Rocha - marco/2011

Page 150: An alise de dados longitudinais - docs.ufpr.br

146 B.5 DIAGNOSTICO

realidade (e∗i )2/(n − p) ∼ Beta[1/2, (n − p − 1)/2]

10, indicando que

|e∗i | ≤√n− p. Alem disso, pode-se mostrar, que E[e∗i ] = 0, V[e∗i ] = 1

e que Cov[e∗i , e∗j ] = −hij/[(1− hii)(1− hjj)]1/2. Para detalhes e demon-

stracao destas propriedades, veja Cook & Weisberg (1982), por exemplo.

Na definicao dos resıduos studentizados, utilizamos o quadrado mediodo resıduo (s2) como estimador de σ2. Dada a dependencia entre ei e s2, adistribuicao de e∗i nao possui uma densidade com tratamento matematicofacil. Isto motiva outra forma de padronizacao dos resıduos ordinariosem que um estimador de σ2 independente de ei e utilizado. Com essafinalidade, podemos considerar o quadrado medio do resıduo obtido coma omissao da i-esima observacao, que pode ser calculado como

s2(i) = s2

(n− p− (e∗i )

2

n− p− 1

).

Pode-se provar que e∗i e s2(i) sao independentes, de forma que definimos

os resıduos studentizados externamente por

ti =ei

s(i)

√1− hii

, i = 1, ..., n.

Cook & Weisberg (1982) mostram que ti ∼ t(n− p− 1) e que

ti = e∗i

(n− p− 1

n− p− (e∗i )2

)1/2

,

indicando que ti e uma transformacao monotona crescente de e∗i e pro-porcionando uma forma de calculo que prescinde do ajuste do modelosem a i-esima observacao.

Alem disso, e possıvel mostrar que valores “grandes” de |ti|, e con-sequentemente de |e∗i |, podem ser utilizados como identificadores de ob-servacoes significativamente discrepantes; detalhes que incluem sugestoespara pontos de corte podem ser obtidos em Cook & Weisberg (1982).

Outros tipos de resıduos, tais como resıduos preditos (predictedresiduals) e resıduos recursivos (recursive residuals), tambem sao dis-cutidos em Cook & Weisberg (1982).

10

Beta(a, b) denota a distribuicao beta com parametros a, b > 0.

Singer & Nobre & Rocha - marco/2011

Page 151: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 147

B.5.2 Analise da suposicao de normalidade

Na teoria classica, em geral, tanto intervalos de confianca quanto testesde hipoteses sobre os parametros de modelos lineares sao baseados na su-posicao de normalidade dos erros. A verificacao da plausibilidade dessasuposicao e fundamental para a validade dos procedimentos inferenci-ais (exatos). Como os resıduos sao essencialmente preditores dos errosdo modelo, nada mais natural do que utiliza-los com essa finalidade.Nesse sentido, graficos do tipo Q-Q (quantis-quantis), em que dispo-mos os resıduos studentizados ordenados (quantis observados) no eixodas abscissas e os quantis obtidos da distribuicao normal padrao (quan-tis teoricos) no eixo das ordenadas, sao ferramentas utilıssimas. Quandoa distribuicao dos erros e gaussiana, espera-se que esses resıduos estejamdispostos numa vizinhanca da reta com inclinacao de 45 graus. Esse tipode grafico tambem pode ser util para detectar a presenca de observacoesdiscrepantes, para avaliar se a distribuicao dos erros possui caudas maispesadas que a distribuicao normal, se o erro e heterocedastico, etc.

Esses graficos podem ser obtidos por meio do seguinte procedimento

i) Ajustar o modelo (B.5.1), obter o vetor de resıduos studentizadose∗ = (e∗1, . . . , e

∗n)> e o vetor de resıduos studentizados ordenados,

(e∗(1) ≤ e∗(2) ≤ . . . ≤ e∗(n))>.

ii) Calcular pi = (i−0.375)/n, i = 1, . . . , n e obter os quantis amostraisQpi = e∗(i)

iii) Obter os quantis normais Zpi = P (Z ≤ Z(pi)) = pi, i = 1, . . . , nem que Z e uma variavel com distribuicao N(0, 1)

iv) Construir o grafico de dispersao Qpi × Zpi .

Como em graficos do tipo Q-Q, e difıcil avaliar afastamentos da nor-malidade visualmente, Atkinson (1985), sugere a construcao de bandasde confianca, denominadas envelopes simulados (simulated envelopes).Essas bandas de confianca sao obtidas por meio de simulacao de dadoscom distribuicao normal com vetor de medias iguais a zero e matriz decovariancias (I−H).

Um algoritmo para sua construcao e os seguinte

i) Ajustar o modelo (B.5.1), obtendo β, s2 e os resıduos studentizadose∗.

Singer & Nobre & Rocha - marco/2011

Page 152: An alise de dados longitudinais - docs.ufpr.br

148 B.5 DIAGNOSTICO

ii) Construir o grafico Q-Q correspondente.

• iii)] Gerar um vetor z com n elementos correspondentes a valoresindependentes de uma distribuicao N(0, 1).

iv) Obter um vetor de observacoes simuladas ys = Xβ + sz.

v) Ajustar o modelo ys = Xβ + es e obter os resıduos studentizados(simulados) e∗s e ordena-los.

v) Repetir os itens (iii)-(v) m vezes gerando para cada pi, um conjuntode m resıduos simulados.

vi) Selecionar para cada pi, o menor e o maior resıduo simulado eincluı-los no grafico Q-Q construıdo no item (ii).

vii) Construir o limite inferior (superior) do envelope simulado ligandoos ponto do conjunto de menores (maiores) resıduos simulados.

Se o modelo estiver correto, espera-se que todos os pontos observados nografico Q-Q fiquem contidos no envelope simulado em [m/(m+1)]×100%das vezes. Quando m = 19, isso corresponde a 95% das vezes.

Para maiores detalhes a respeito de sua construcao, veja Atkinson(1985), Atkinson & Riani (2000) ou Paula (2004), por exemplo. O mesmotipo de procedimento pode ser empregado em situacoes em que outrasdistribuicoes para os erros sao adotadas no modelo. Paula (2004) ap-resenta varios algoritmos (em linguagem S-Plus e R) para construcaode graficos envelope simulados, baseados em varias distribuicoes (Gama,Binomial, Poisson, etc.).

Na Figura B.5.3, apresentamos exemplos de graficos Q-Q com difer-entes padroes de afastamento das suposicoes de normalidade, homocedas-ticidade ou simetria. Por exemplo, no grafico B.5.3(a), nao ha indıcioscontrarios as hipoteses de normalidade e homocedasticidade; no graficoB.5.3(b), os resıduos estao proximos dos limites das bandas de con-fianca, evidenciando que a distribuicao dos erros e heterocedastica. Ografico B.5.3(c) (B.5.3(d)) apresenta caracterısticas tıpicas de casos emque a distribuicao dos erros padronizados tem caudas mais pesadas (maisleves) que a distribuicao normal padrao. Quando a distribuicao dos errospadronizados possui caudas mais pesadas (leves) que a distribuicao nor-mal padrao, o grafico Q-Q assume a forma de S, com os quantis extremos

Singer & Nobre & Rocha - marco/2011

Page 153: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 149

do resıduo studentizado maiores (menores) que os quantis teoricos da dis-tribuicao normal padrao. Por fim, o grafico B.5.3(e) (B.5.3(f)) mostrauma situacao em que a distribuicao dos erros e assimetrica a direita (a es-querda). Quando se tem uma distribuicao assimetrica a direita, o graficoapresenta a forma de um J; se a distribuicao for assimetrica a esquerda,o grafico apresenta a forma de um J invertido.

Singer & Nobre & Rocha - marco/2011

Page 154: An alise de dados longitudinais - docs.ufpr.br

150 B.5 DIAGNOSTICO

Figura B.5.3: Envelopes simulados com coeficiente de confianca 95%

−2 −1 0 1 2

−3

−2

−1

01

23

(a) Distribuição Normal

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

−2 −1 0 1 2

−3

−2

−1

01

23

(b) Heterocedasticidade

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

−2 −1 0 1 2

−4

−2

02

4

(c) Distribuição com caudas pesadas

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

−2 −1 0 1 2

−3

−2

−1

01

23

(d) Distribuição com caudas leves

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

−2 −1 0 1 2

−4

−2

02

46

(e) Distribuição assimétrica à esquerda

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

−2 −1 0 1 2

−4

−2

02

(f) Distribuição assimétrica à direita

Quantis da N(0,1)

Res

iduo

Stu

dent

izad

o

Singer & Nobre & Rocha - marco/2011

Page 155: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 151

B.5.3 Analise de sensibilidade

A analise de sensibilidade visa avaliar o comportamento do ajuste de ummodelo quando ele esta sujeito a algum tipo de perturbacao, ou seja, sobalguma mudanca nas hipoteses ou nos dados. Como cada observacao naotem a mesma influencia em todas as caracterısticas do ajuste do modelo, enatural que se defina aquela na qual se quer focar a analise. Se o objetivofor fazer previsoes, entao e razoavel medir a influencia das observacoes nosvalores preditos e nao nos parametros de localizacao, como mencionam(Chatterjee & Hadi (1986) e Chatterjee & Hadi (1988)).

Existem medidas de influencia baseadas nos resıduos, na curva deinfluencia

11, na verossimilhanca, no volume dos elipsoides de confianca,

em um subconjunto do vetor de parametros de localizacao (influenciaparcial) e nos pontos remotos do espaco vetorial gerado pelas colunas damatriz de especificacao X.

Dentre as abordagens mais utilizadas na pratica para medir influenciaem modelos lineares, destacam-se aquelas baseadas em influencia localconsiderada em Cook (1986) e aquelas obtidas por intermedio da elim-inacao de observacoes (influencia global).

O grau de alavanca (leverage) da i-esima observacao (yi) e a derivadaparcial ∂yi/∂yi e indica a taxa de variacao do i-esimo valor preditoquando a i-esima observacao e acrescida de um infinitesimo. No modelolinear classico, o vetor de valores preditos (ajustados) e dado por y = Hye consequentemente,

∂y/∂y = H,

indicando que o grau de alavanca da i-esima observacao e dado por hii, ouseja, pelo i-esimo elemento da diagonal principal da matriz de projecaoH. Como essa matriz e simetrica e idempotente, e possıvel mostrar que

12

0 ≤ hii ≤ 1, i = 1, ..., n,

hij ≤ hii(1− hii), 1 ≤ i < j ≤ n.

11

A curva de influencia de uma estatıstica T (x1, . . . , xn) corresponde a um graficocom os valores de uma nova observacao amostral xn+1 no eixo das abscissas e com osvalores da estatıstica T (x1, . . . , xn, xn+1) no eixo das ordenadas; ela da uma ideia decomo a estatıstica e influenciada pelo acrescimo de uma unica observacao amostral.

12

Tambem e possıvel mostrar que n−1 ≤ hii ≤ 1 se o modelo incluir intercepto.

Singer & Nobre & Rocha - marco/2011

Page 156: An alise de dados longitudinais - docs.ufpr.br

152 B.5 DIAGNOSTICO

Desta forma, se hii = 1, entao yi = yi, implicando que a i-esima ob-servacao tem influencia total no seu valor predito. Alem disso, comotr(H) =

∑ni=1 hii = p, entao o valor medio do grau de alavanca e p/n.

Quando os elementos da diagonal principal de H sao proximos de p/n,nenhuma observacao influencia o seu valor predito de forma despropor-cional; entao podemos dizer que a i-esima observacao tem alto grau dealavanca (high leverage) se hii ≥ 2p/n ou hii ≥ 3p/n, por exemplo.Esse criterio e arbitrario e deve ser encarado com espırito puramentedescritivo. Em funcao de (B.5.2), podemos concluir que, em geral, ob-servacoes com alto grau de alavanca apresentam resıduos pequenos rela-tivamente aos demais.

Para exemplificar, consideremos o seguinte modelo de regressao

yi = α + βxi + ei, i = 1, ..., n,

com E[ei] = 0, V[ei] = σ2 e Cov(ei, ej) = 0, i 6= j. Nesse caso, o graude alavanca da i-esima observacao e dado por

hii =1

n+

(xi − x)2∑ni=1(xi − x)2

,

e consequentemente, a i-esima observacao tem alto grau de alavanca sexi for um valor discrepante no conjunto x1, ..., xn.

De uma forma geral, e possıvel mostrar que observacoes com altograu de alavanca sao aquelas associadas a covariaveis discrepantes emC(X) como observado por Chatterjee & Hadi (1988) e Wei, Hu & Fung(1998). Mais detalhes, podem ser obtidos em Cook & Weisberg (1982),Chatterjee & Hadi (1988), Wei et al. (1998), Atkinson & Riani (2000) ePaula (2004), por exemplo.

A tıtulo de ilustracao, na Figura B.5.4, mostramos os graficos de hiiversus ındice das observacoes para os quatro subconjuntos de dados ap-resentados na Tabela B.5.1. Nos subconjuntos A, B e C nao existe indıciode observacoes com alto grau de alavanca. Por outro lado, no subcon-junto D, a observacao 8 apresenta h88 = 1 indicando que o coeficienteangular da regressao e significativo apenas pela sua presenca. Como osvalores da variavel explicativa sao identicos nos conjuntos A, B e C, asmatrizes H correspondentes tambem sao as mesmas e consequentemente,os graus de alavanca associados sao iguais.

Singer & Nobre & Rocha - marco/2011

Page 157: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 153

Figura B.5.4: Grau de alavanca versus ındice das observacoes

2 4 6 8 10

0.0

0.4

0.8

1.2

A

Observação

h ii

2p/n

2 4 6 8 10

0.0

0.4

0.8

1.2

B

Observação

h ii

2p/n

2 4 6 8 10

0.0

0.4

0.8

1.2

C

Observação

h ii

2p/n

2 4 6 8 10

0.0

0.4

0.8

1.2

D

Observação

h ii

2p/n

(19,12.5)

Consideremos agora um modelo de regressao linear y = Xβ + e comE(e) = 0 e V(e) = σ2I e suponhamos que ha interesse em incluir umanova variavel explicativa, digamos w, de forma a obter o seguinte modelo

y = Xβ + γw + e∗

= X∗β∗ + e∗ (B.5.4)

com γ representando o coeficiente da nova variavel, w = (w1, ..., wn)>,X∗ = (X,w), β∗ = (β>, γ)> e e∗ representando uma sequencia de errosaleatorios homocedasticos e nao-correlacionados. Sob normalidade doserros, podemos verificar a plausibilidade da inclusao da nova covariavel,por exemplo, por meio de um teste t para γ = 0. Uma forma alternativapara avaliar a importancia da inclusao da covariavel e descrita a seguir.

Inicialmente, observemos que as equacoes de estimacao (equacoes nor-mais) para a obtencao do estimador de mınimos quadrados ordinarios deβ∗ sob o modelo (B.5.4) sao

X>Xβ + X>wγ = X>y

w>Xβ + w>wγ = w>y.

Singer & Nobre & Rocha - marco/2011

Page 158: An alise de dados longitudinais - docs.ufpr.br

154 B.5 DIAGNOSTICO

Resolvendo esse sistema, obtemos o estimador de mınimos quadrados

γ =w>(I−H)y

w>(I−H)w.

Lembrando que (I−H) e uma matriz idempotente, podemos reexpressaresse estimador como

γ =w>(I−H)(I−H)y

w>(I−H)(I−H)w=

e>w e

e>w ew,

com e = (I−H)y e ew = (I−H)w de forma que ele pode ser interpre-tado como o estimador de mınimos quadrados (ordinarios) do coeficienteangular de uma regressao (sem intercepto) tendo como variavel respostaos resıduos ordinarios (e) obtidos do modelo inicial (sem a covariavel w) ecomo variavel explicativa os resıduos (ew) obtidos do modelo de regressaow = Xβ + ew.

O grafico de dispersao entre os resıduos e e ew, conhecido comografico da variavel adicionada ou grafico de regressao parcial(partial regression plot) fornece informacao sobre os ganhos com a in-clusao da covariavel w no modelo. Ele tambem pode ser util para iden-tificar pontos que se desviam da relacao linear entre os resıduos, e quepodem ser encarados como observacoes influentes na estimacao de γ.Maiores detalhes e extensoes, que fogem ao escopo deste texto, podemser encontrados em Cook & Weisberg (1989) e Cook (1996), por exemplo.

Em modelos de regressao linear multipla, uma estrategia para iden-tificar observacoes influentes na estimacao dos coeficientes do vetor deparametros, consiste em construir um grafico desse tipo para cada co-variavel do modelo.

Cook (1977), por outro lado, sugere que a influencia de uma partic-ular observacao, ou de um conjunto de observacoes, seja avaliada porintermedio dos efeitos provocados por sua eliminacao do conjunto de da-dos.

Consideremos o modelo de regressao linear (B.5.1) e denotemos por

β e β(I), respectivamente, os estimadores de mınimos quadrados de βobtidos com todos os dados da amostra e com a eliminacao do conjuntode observacoes I. Nesse contexto, uma das medidas mais utilizadas e a

Singer & Nobre & Rocha - marco/2011

Page 159: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 155

distancia de Cook definida por

DI =

[β − β(I)

]>(X>X)

[β − β(I)

]ps2

(B.5.5)

=

[y − y(I)

]> [y − y(I)

]ps2

,

com y = Xβ e y(I) = Xβ(I) representando respectivamente, o vetor devalores preditos pelo ajuste do modelo com todos os dados da amostrae aquele obtido com a eliminacao do conjunto de observacoes I. A es-tatıstica DI mede a influencia das observacoes do conjunto I na esti-mativa de β segundo a metrica definida por (ps2)−1X>X ou equivalen-temente, a influencia dessas observacoes no vetor de valores preditos.Valores grandes de DI indicam que as observacoes do conjunto I saoinfluentes na estimacao de β ou nos valores de y. Sob essa abordagem,e essencial obter expressoes que relacionem o estimador do parametrode interesse calculado com base em toda amostra com o respectivo esti-mador calculado apos a eliminacao de um conjunto de observacoes sema necessidade de reajustar o modelo. Em particular, quando apenas ai-esima observacao e eliminada, e possıvel mostrar que

β(i) − β = − e∗i1− hii

(X>X)−1xi,

de tal forma que a distancia de Cook correspondente e

Di =

[β − β(i)

]>(X>X)

[β − β(i)

]ps2

(B.5.6)

=e∗2ip

hii(1− hii)2

.

Dada a expressao (B.5.6), a influencia da i-esima observacao dependetanto do respectivo resıduo studentizado quanto do grau de alavanca daobservacao em questao; se hii ≈ 0 (indicando um baixo grau de ala-vanca) entao Di assume um valor “pequeno”, mesmo quando a i-esimaobservacao for altamente discrepante, indicando que a distancia (B.5.6)pode nao ser adequada nestas situacoes.

Singer & Nobre & Rocha - marco/2011

Page 160: An alise de dados longitudinais - docs.ufpr.br

156 B.5 DIAGNOSTICO

Outras propostas sao sugeridas na literatura para contornar este fato.Por exemplo, Belsley, Kuh & Welsch (1980) sugerem a utilizacao de

DFFITSi =|e∗i |

s(i)(1− hii)1/2

(hii

1− hii

)1/2

= |ti|(

hii1− hii

)1/2

, (B.5.7)

enquanto Atkinson (1981) sugere uma versao modificada da distancia deCook, obtida com a substituicao de s2 por s2

(i) e ajustada pelo tamanhoda amostra, a saber,

Ci =

(n− pp

hii1− hii

)1/2

|ti|. (B.5.8)

Quando todos os hii sao iguais, Ci = |ti|. Chatterjee & Hadi (1988) sug-erem outros usos para esta versao da distancia de Cook. Em particular,esses autores comentam que C∗i = sinal(yi− yi)Ci (i = 1, ...n) podem sertilizados como resıduos.

Em tese, essas tres medidas de influencia competem entre si. Todavia,como destacam Cook, Pena & Weisberg (1988) e Paula (2004) elas servempara avaliar diferentes aspectos da influencia das observacoes nos resul-tados do ajuste. Por exemplo, (B.5.6) e mais adequada para medir ainfluencia das observacoes nos parametros de localizacao (β), enquantoque (B.5.7) tem o objetivo de medir a influencia das observacoes nosparametros de localizacao e escala simultaneamente embora possa falharem algumas situacoes, como indicam Cook et al. (1988).

Segundo Paula (2004), observacoes discrepantes com baixo grau dealavanca dificilmente influem na estimacao de β e nao comprometem opotencial uso de (B.5.5).

Graficos das medidas de influencia versus ındices das observacoes saoferramentes uteis para a identificacao observacoes influentes, i.e., aquelascom valores da medida de influencia “grandes” em relacao aos demais.

Medidas de influencia como a distancia de Cook sao baseadas namudanca do centro (parametros de localizacao) dos elipsoides de con-fianca para o vetor de parametros β, nomeadamente

β ∈ IRp; (β − β)>(X>X)(β − β) ≤ ps2Fp,(n−p)(α)

(B.5.9)

Singer & Nobre & Rocha - marco/2011

Page 161: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 157

em que Fp,(n−p)(α) denota o quantil de ordem 1 − α da distribuicao Fcom p graus de liberdade no numerador e n − p no denominador. Aavaliacao da influencia de um conjunto de observacoes tambem podeser concretizada a partir do volume desses elipsoides. Na Figura B.5.5,ilustramos um elipsoide de confianca com coeficiente de confianca de95% para os parametros de uma regressao linear simples. O volumedo elipsoide esta diretamente relacionado com a estimativa da matrizde covariancias de β e por conseguinte, a avaliacao da influencia dasobservacoes no respectivo volume reveste-se de particular importancia,uma vez que a variancia dos estimadores dos coeficientes podem ser ex-tremamente afetadas por poucas observacoes. Aqui apresentamos duaspropostas para tal fim; para maiores detalhes, sugerimos uma consultaa Andrews & Pregibon (1978), Belsley et al. (1980), Cook & Weisberg(1982) ou Chatterjee & Hadi (1988), por exemplo.

Figura B.5.5: Elipsoide de confianca com coeficiente de confianca 95%

−4 −3 −2 −1 0

23

45

6

β

α

( α , β )

O volume do elipsoide (B.5.9) e inversamente proporcional a raizquadrada de

∣∣X>X∣∣. Por isso, Andrews & Pregibon (1978) sugeriram

avaliar a influencia da i-esima observacao por meio de

APi =s2

(i)

∣∣∣X>(i)X(i)

∣∣∣s2 |X>X|

= hii + (1− hii)e∗2in− p

. (B.5.10)

Valores de APi muito distantes de 1 indicam que a observacao em questaoe potencialmente influente com relacao a matriz de covariancias de β.Propriedades desta medida podem ser encontrados em Cook & Weisberg(1982) ou Chatterjee & Hadi (1988), por exemplo.

Singer & Nobre & Rocha - marco/2011

Page 162: An alise de dados longitudinais - docs.ufpr.br

158 B.5 DIAGNOSTICO

Belsley et al. (1980) sugerem que se avalie a influencia da i-esima

observacao na matriz de covariancias de β por meio de

COVRATIOi =

∣∣∣V[β(i)]∣∣∣∣∣∣V[β]∣∣∣ =

∣∣∣s2(i)(X

>(i)X(i))

−1∣∣∣

|s2(X>X)−1|

=

(n− p− e∗in− p− 1

)p1

1− hii. (B.5.11)

Se todas as observacoes tiverem o mesmo grau de influencia, espera-seque COVRATIOi ≈ 1; afastamentos da unidade indicam que a a ob-servacao correspondente e potencialmente influente com relacao a matrizde covariancias de β. Belsley et al. (1980) sugerem utilizar o seguintelimiar para identificar observacoes influentes

|COVRATIOi − 1| ≥ 3p/n.

Esse limiar, assim como aqueles mencionados acima, tem cunho total-mente descritivo.

Na Figura B.5.6 mostramos um grafico que ilustra a diferenca entreobservacoes discrepantes, alavanca e influentes.

Figura B.5.6: Diferenca entre observacoes alavanca, discrepantes e influ-entes

0 1 2 3 4 5 6

01

23

45

6

Observação discrepante

x

y

A

Sem obs. ACompleto

0 1 2 3 4 5 6

01

23

45

6

Observação alavanca

x

y

A

Sem obs. ACompleto

0 1 2 3 4 5 6

01

23

45

6

Observação influente

x

y

A Sem obs. ACompleto

0 1 2 3 4 5 6

01

23

45

6

Observação alavanca e influente

x

y

A

Sem obs. ACompleto

Singer & Nobre & Rocha - marco/2011

Page 163: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 159

Todos os procedimentos aqui discutidos sao baseados na eliminacaode conjuntos de observacoes, e sao conhecidos na literatura como metodosde influencia global. Todavia existem tecnicas de diagnostico basea-dos na discrepancia da funcao de verossimilhanca quando perturbamosas observacoes de alguma forma. Tais tecnicas, conhecidas sob a de-nominacao geral de influencia local, foram propostas por Cook (1986).Para detalhes, veja, por exemplo, Cook (1986) ou Paula (2004).

B.5.4 Analise da suposicao de correlacao nula

Em geral, a suposicao de que os erros do modelo linear sao nao-correlacio-nados deve ser questionada com base no procedimento de coleta de da-dos. Como ilustracao, consideramos dois exemplos nos quais essa car-acterıstica justifica a duvida. O primeiro exemplo e um caso simplesdos problemas abordados pelas tecnicas de analise de series cronologicas;o segundo exemplo e o caso tıpico daqueles que constituem o objetodo nucleo deste texto. Ambos sao apresentados aqui com a finalidadede mostrar como as tecnicas de analise de regressao podem ser empre-gadas para analisar modelos mais gerais do que aqueles governados peloparadigma de Gauss-Markov.

Exemplo B.5.1: Na Tabela B.5.2 apresentamos valores do ındice decusto de vida (ICV) na cidade de Sao Paulo colhidos pela FundacaoGetulio Vargas entre janeiro de 1970 e junho de 1979 com o objetivode avaliar seu crescimento nesse perıodo. O grafico de dispersao corre-spondente esta disposto na Figura B.5.7 Com base em argumentos deEconomia, e razoavel supor que o ICV num determinado mes seja cor-relacionado com aqueles obtidos em meses anteriores.

Singer & Nobre & Rocha - marco/2011

Page 164: An alise de dados longitudinais - docs.ufpr.br

160 B.5 DIAGNOSTICO

Tabela B.5.2: Indice de custo de vida para Sao Paulo (jan/70 a jul/79)

Observacao ICV Observacao ICV Observacao ICV

1 71.6 39 122 77 2702 72.5 40 124 78 2753 73.5 41 125 79 2804 74.5 42 126 80 2905 75.2 43 128 81 2986 76.3 44 129 82 3057 76.9 45 131 83 3108 78.1 46 132 84 3189 80 47 133 85 329

10 80.9 48 134 86 34311 81.7 49 135 87 35912 82.9 50 140 88 37513 84.7 51 146 89 38314 86.3 52 153 90 39315 88.8 53 156 91 40016 90.9 54 158 92 40717 91.5 55 162 93 41518 93.4 56 165 94 42419 94.6 57 167 95 43620 95.9 58 170 96 44921 96.7 59 174 97 45622 97.8 60 178 98 47423 99.1 61 183 99 48624 100 62 188 100 49525 102 63 190 101 51026 104 64 194 102 53527 105 65 198 103 55828 106 66 204 104 57229 107 67 208 105 58630 108 68 215 106 60231 110 69 219 107 61732 112 70 223 108 62833 114 71 227 109 65334 116 72 230 110 66735 117 73 238 111 70736 118 74 251 112 73137 119 75 256 113 74638 120 76 263 114 778

Singer & Nobre & Rocha - marco/2011

Page 165: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 161

Figura B.5.7: Grafico de dispersao para os dados do Esxemplo B.5.1

0 20 40 60 80 100

4.5

5.0

5.5

6.0

6.5

Meses

log(

ICV

)

Exemplo B.5.2: Na Tabela B.5.3 apresentamos dados provenientes deum estudo em que o objetivo e avaliar a variacao do peso de bezerrossubmetidos a diferentes dietas (tipos de pasto) entre 12 e 26 semanasapos o nascimento. Como animais mais pesados (ou mais leves) no inıciodo estudo tendem a permanecer mais pesados (mais leves) ao longo dotempo (pelo menos, ao longo das primeiras observacoes) e razoavel suporque o peso de cada animal numa determinada semana seja correlacionadocom seu peso na semana anterior.

Singer & Nobre & Rocha - marco/2011

Page 166: An alise de dados longitudinais - docs.ufpr.br

162 B.5 DIAGNOSTICO

Tabela B.5.3: Peso de bezerros (kg)

Semanas apos nascimento

12 14 16 18 20 22 24 26

54.1 65.4 75.1 87.9 98.0 108.7 124.2 131.391.7 104.0 119.2 133.1 145.4 156.5 167.2 176.864.2 81.0 91.5 106.9 117.1 127.7 144.2 154.970.3 80.0 90.0 102.6 101.2 120.4 130.9 137.168.3 77.2 84.2 96.2 104.1 114.0 123.0 132.043.9 48.1 58.3 68.6 78.5 86.8 99.9 106.287.4 95.4 110.5 122.5 127.0 136.3 144.8 151.574.5 86.8 94.4 103.6 110.7 120.0 126.7 132.250.5 55.0 59.1 68.9 78.2 75.1 79.0 77.091.0 95.5 109.8 124.9 135.9 148.0 154.5 167.683.3 89.7 99.7 110.0 120.8 135.1 141.5 157.076.3 80.8 94.2 102.6 111.0 115.6 121.4 134.555.9 61.1 67.7 80.9 93.0 100.1 103.2 108.076.1 81.1 84.6 89.8 97.4 111.0 120.2 134.256.6 63.7 70.1 74.4 85.1 90.2 96.1 103.6

Tendo em vista o grafico de dispersao apresentado na Figura B.5.7,uma primeira abordagem para a analise dos dados do Exemplo B.5.1poderia envolver um modelo da forma

ln(yt) = α + βt+ γt2 + et, t = 1, . . . , n (B.5.12)

em que yt representa o incremento de vendas no instante t, α denota ovalor esperado do incremento de vendas no tempo t = 0, β e γ repre-sentam os componentes linear e quadratico da curva que rege a variacaotemporal do logaritmo das vendas e et denota um erro aleatorio. Uti-lizamos t como ındice para salientar que as observacoes sao colhidas se-quencialmente.

O coeficiente de determinacao R2 = 0.9986 indica que o ajuste (por

mınimos quadrados) do modelo com α = 4.310 (EP = 0.007), β =0.008 (EP< 0.001) e γ = 0.0001 (EP < 0.00001) e excelente (sob essaotica, obviamente). Por outro lado, o grafico de resıduos apresentadona Figura B.5.8 mostra sequencias de resıduos positivos seguidas desequencias de resıduos negativos, sugerindo uma possıvel correlacao pos-itiva entre eles (autocorrelacao).

Singer & Nobre & Rocha - marco/2011

Page 167: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 163

Figura B.5.8: Resıduos studentizados obtidos do ajuste do mod-elo (B.5.12)

0 20 40 60 80 100

−3

−2

−1

01

2

Meses

Res

iduo

s st

uden

tizad

os

Uma maneira de contornar esse problema, e modificar os componentesaleatorios do modelo para incorporar essa possıvel autocorrelacao noserros. Nesse contexto, podemos considerar o modelo (B.5.12) com

et = ρet−1 + ut, t = 1, . . . , n (B.5.13)

em que ut ∼ N(0, σ2), t = 1, . . . , n, independentes e e0 e uma constante(geralmente igual a zero). Essas suposicoes implicam que Var(et) =σ2/(1− ρ2) e que Cov(et, et−s) = ρs[σ2/(1− ρ2)].

Para testar a hipotese de que os erros sao nao-correlacionados pode-seutilizar a estatıstica de Durbin-Watson:

D =n∑t=2

(et − et−1)2/

n∑t=1

e2t , (B.5.14)

em que et, t = 1, . . . , n sao os resıduos obtidos do ajuste do modelo

Singer & Nobre & Rocha - marco/2011

Page 168: An alise de dados longitudinais - docs.ufpr.br

164 B.5 DIAGNOSTICO

(B.5.12) por mınimos quadrados. Expandindo (B.5.14) obtemos

D =

∑nt=2 e

2t∑n

t=1 e2t

+

∑nt=2 e

2t−1∑n

t=1 e2t

− 2

∑nt=2 etet−1∑nt=1 e

2t

≈ 2− 2

∑nt=2 etet−1∑nt=1 e

2t

, (B.5.15)

Se os resıduos nao forem correlacionados, entao∑n

t=2 etet−1 ≈ 0 e con-sequentemente, D ≈ 2; se, por outro lado, os resıduos forem altamentecorrelacionados, esperamos que

∑nt=2 etet−1 ≈

∑nt=2 e

2t e entao D ≈ 0;

finalmente, se os resıduos tiverem uma grande correlacao negativa, es-peramos que

∑nt=2 etet−1 ≈ −

∑nt=2 e

2t e nesse caso, D ≈ 4. Durbin &

Watson (1950), Durbin & Watson (1951) e Durbin & Watson (1971) pro-duziram tabelas da distribuicao da estatıstica D que podem ser utilizadospara avaliar a suposicao de que os erros sao nao-correlacionados.

Se a analise indicar que os erros sao correlacionados, o modelo (B.5.12)- (B.5.13) podera ser ajustado pelo metodo MQG. Com esse intuito, note-mos primeiramente que (B.5.13) sugere o seguinte modelo de regressaolinear simples sem intercepto

et = ρet−1 + ut

de onde podemos obter estimadores de σ2 e ρ; mais especificamente,ρ =

∑nt=2 etet−1/

∑nt=1 e

2t e σ2 = (n− 1)−1

∑nt=1(et − ρet−1)2.

Expressando o modelo (B.5.12) - (B.5.13) na forma matricial, o vetorde parametros e β = (α, β, γ)> e a matriz de covariancias e

V =σ2

1− ρ2

1 ρ ρ2 . . . ρn−1

ρ 1 ρ . . . ρn−2

ρ2 ρ 1 . . . ρn−3

......

.... . .

...ρn−1 ρn−2 ρn−3 . . . 1

.

Substituindo os elementos de V por seus estimadores, podemos utilizar(B.2.6) para estimar β.

O valor da estatıstica de Durbin-Watson para os dados do ExemploB.5.1 sob o modelo (B.5.12) e D = 0.1259 (p < 0.0001) sugerindo umalto grau de autocorrelcao dos resıduos.

Singer & Nobre & Rocha - marco/2011

Page 169: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 165

O grafico de dispersao para os dados do Exemplo B.5.2 disposto naFigura B.5.9 sugere uma variacao linear do peso medio dos animais aolongo do perıodo estudado, para a qual podem-se usar modelos do tipo

yij = α + βxij + eij, i = 1, . . . , n, j = 1, . . . , pi, (B.5.16)

em que yij denota a j-esima medida do peso do i-esimo animal, xij indicao numero de semanas em que foi realizada essa medida, α representa opeso esperado dos animais ao nascer (admitindo que o modelo linearpossa ser extrapolado para o perıodo entre o nascimento e a decimasegunda semana), β representa a variacao esperada do peso dos animaispor semana e eij corresponde a um erro aleatorio com media nula evariancia constante σ2

e . Esse modelo, particularizado para o ExemploB.5.2, em todos os animais foram observados nos mesmos instantes, e talque n = 15, pi = p = 8 e xij = xj.

Sob a suposicao de que os erros eij sao nao-correlacionados, estimati-vas (e erros padroes) dos parametros de localizacao do modelo (B.5.16)

obtidas por mınimos quadrados sao α = 13.5 (EP= 7.8), β = 4.7(EP= 0.4); a estimativa do desvio padrao e σe = 20.1 e o coeficientede determinacao ajustado e R2

a = 0.53. Uma analise de resıduos naoindica violacoes das suposicoes de heterocedasticidade e normalidade doserros.

Singer & Nobre & Rocha - marco/2011

Page 170: An alise de dados longitudinais - docs.ufpr.br

166 B.5 DIAGNOSTICO

Figura B.5.9: Grafico de dispersao para os dados do Exemplo B.5.2

12 14 16 18 20 22 24 26

4060

8010

012

014

016

018

0

Semanas

Pes

o (k

g)

Tendo em vista que varias observacoes sao realizadas em cada ani-mal, podemos construir um grafico de perfis como aquele apresentado naFigura B.5.10. Esse tipo de grafico serve como ferramenta adicional paraavaliacao das suposicoes adotadas.

Singer & Nobre & Rocha - marco/2011

Page 171: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 167

Figura B.5.10: Grafico de perfis para os dados do Exemplo B.5.2

Semanas

Pes

o (k

g)

50

100

150

15 20 25

Em primeiro lugar, observa-se que nao ha razoes para duvidar dahipotese de homocedasticidade, pois a variabilidade das observacoes esimilar nos oito instantes de observacao. Tambem nao ha evidenciasnem de unidades amostrais (animais) com perfis discrepantes, nem deobservacoes discrepantes. Alem disso, a proposta de uma reta para ex-plicar a variacao do peso medio ao longo do perıodo de observacao naoe contrariada, dada a forma do perfil medio. No entanto, observa-seum certo “paralelismo” dos perfis individuais, sugerindo uma correlacaopositiva entre as observacoes intraunidades amostrais; os animais maispesados (leves) tendem a manter essa caracterıstica ao longo das oitoquatorze semanas em que se desenvolveu o estudo.

Singer & Nobre & Rocha - marco/2011

Page 172: An alise de dados longitudinais - docs.ufpr.br

168 B.5 DIAGNOSTICO

Para incorporar essa informacao no modelo a ser adotado, uma alter-nativa e substituir o termo aleatorio do modelo (B.5.16), fazendo

eij = ai + dij (B.5.17)

com ai e dij denotando variaveis aleatorias nao correlacionadas commedias nulas e variancias σ2

a e σ2, respectivamente. As suposicoes ado-tadas implicam

a) V(yij) = σ2a + σ2

b) Cov(yij, ykl) = σ2a se i = k e j 6= l

c) Cov(yij, ykl) = 0 se i 6= k

de forma que observacoes realizadas na mesma unidade amostral saocorrelacionadas e aquelas realizadas em unidades amostrais diferentes,nao. Essencialmente, o modelo (B.5.16)-(B.5.17) e um modelo mistocom um efeito aleatorio (ai) e sugere que o peso esperado do i-esimoanimal varia linearmente com o tempo segundo o modelo condicional

yij|ai = (α + ai) + βxij + dij = αi + βxij + dij (B.5.18)

i.e., com a mesma taxa de crescimento β, porem com pesos esperados aonascer αi = α + ai diferentes.

Embora o ajuste de modelos mistos do tipo (B.5.16)-(B.5.17) possaser facilmente realizado utilizando a metodologia descrita no Capıtulo2, no caso particular em que as unidades amostrais sao observadas nosmesmos instantes, i.e., em que xij = xj e pi = p, e possıvel utilizar umenfoque ingenuo baseado na tecnica de mınimos quadrados generalizadospara concretiza-lo. Nesse contexto, o nucleo do problema e a estimacaodos componentes de variancia σ2

a e σ2. Com essa finalidade, convemescrever o modelo (B.5.18) na forma matricial

y = Wγ + e,

em que W = In ⊗ (1p x), com dimensao np × (n + 1), e a matrix devariaveis explicativas do modelo condicional, x = [x1, . . . , xp]

>, 1a e umvetor de ordem a com todos os elementos iguais a 1, y = [y>1 , . . . ,y

>n ]>

com yi = [yi1, . . . , yip]> e γ = [α1, . . . , αn, β]>.

Singer & Nobre & Rocha - marco/2011

Page 173: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 169

Um estimador consistente de σ2 e

σ2 = [np− (n+ 1)]−1y>[Inp −W(W>W)−1W>]y. (B.5.19)

Consideremos agora o modelo

yi = α + ai + βx+ di (B.5.20)

em que, yi e x representam respectivamente a media dos p valores davariavel resposta e da covariavel para a i-esima unidade amostral e di =p−1

∑pj=1 dij, i = 1, . . . , n. Esse modelo pode ser expresso como

yi = µ+ fi

em que µ = α + βx e fi = ai + di, i = 1, ldots, n sao erros aleatoriosindependentes com media nula e variancia τ 2 = σ2

a + σ2/p. Sob essemodelo, um estimador consistente de τ 2 e

τ 2 = (n− 1)−1

n∑i=1

(yi − y)2 (B.5.21)

com y = n−1∑n

i=1 yi. Consequentemente, um estimador de σ2a pode ser

obtido de (B.5.19) e (B.5.21) por meio de

σa2 = τ 2 − σ2/p.

Na forma matricial, o modelo (B.5.16)-(B.5.17) pode ser escrito como

y = Xβ + e

em que X = 1n⊗(1p x), β = (α, β)> e e e um vetor aleatorio com medianula e matriz de covariancias V(e) = In ⊗ Σ com Σ = σ2Ip + σ2

a1p1>p .

Um estimador consistente, Σ da matriz de covariancias intraunidadesamostrais Σ pode ser obtido com a substituicao dos parametros σ2

a e σ2

pelos estimadores σa2 e σ2. O vetor de parametros de localizacao β pode

ser facilmente estimado por meio de (B.2.6) tendo em vista que, segundoa propriedade vii) da Secao A.1.6,

Σ−1 =1

σ2[Ip −

σ2a

pσ2a + σ2

1p1>p ].

Singer & Nobre & Rocha - marco/2011

Page 174: An alise de dados longitudinais - docs.ufpr.br

170 B.5 DIAGNOSTICO

Mais especificamente, pode-se mostrar que, neste caso,

β = [n∑i=1

XiΣ−1

X>i ]−1

n∑i=1

XiΣ−1

yi

em que Xi = [1p x]. Sob as condicoes de regularidade detalhadas na

Secao B.2, concluimos que a distribuicao aproximada de β e dada por(B.2.7).

Para os dados do Exemplo B.5.2, obtemos σ2 = 34.6, τ 2 = 393.5 eσa

2 = 389.2, α = 13.5 (EP= 5.6) e β = 4.7 (EP= 0.1), resultados quecoincidem com aqueles gerados pela metodologia de maxima verossimil-hanca (sob normalidade) descrita no Capıtulo 2. Observamos que, emconformidade com os perfis apresentados na Figura B.5.10, a varianciainterunidades amostrais e cerca de 10 vezes a variancia intraunidadesamostrais. Alem disso, notamos que embora as estimativas dos coefi-cientes de regressao α e β sejam iguais aquelas obtidas por mınimosquadrados ordinarios, os erros padroes correspondentes sao menores, ev-idenciando o ganho de precisao proporcionado pelo ajuste de um modelomais adequado.

B.6 Parametrizacao de modelos lineares

Consideremos um estudo em que se deseja comparar o “efeito” de a trata-mentos (drogas, por exemplo) na distribuicao de uma variavel respostaY (pressao diastolica, por exemplo). Ha muitas situacoes praticas emque esse “efeito” consiste na modificacao do valor esperado da respostasem alteracao da forma de sua distribuicao ou de sua variancia. Nessecontexto, supondo que p unidades amostrais escolhidas aleatoriamentesejam submetidas a cada um dos a tratamentos, um modelo bastantecomum e

yij = µi + eij, i = 1, . . . , a, j = 1, . . . , p, (B.6.1)

em que E(eij) = 0, V(eij) = σ2 e E(eijekl) = 0, i 6= k, j 6= l ou seja,os eij sao nao-correlacionados. Esta parametrizacao do modelo e con-hecida como parametrizacao de medias de celas pois o parametrode localizacao µi pode ser interpretado como o valor esperado (medio) daresposta de unidades amostrais submetidas ao tratamento i. O “efeito”

Singer & Nobre & Rocha - marco/2011

Page 175: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 171

do i-esimo tratamento e definido como uma funcao desses valores esper-ados; por exemplo, podemos definir o efeito do tratamento i em relacaoao tratamento k como a diferenca µi − µk.

Para permitir que a definicao de “efeito” seja incorporada diretamentenos parametros do modelo, e comum utilizarem-se outras parametrizacoes.Muitos autores sugerem que se escreva µi = µ+αi, o que implica o modelo

yij = µ+ αi + eij, i = 1, . . . , a, j = 1, . . . , p, (B.6.2)

e interpretam o parametro µ como “media geral” e αi como o “efeito”do tratamento i. O problema e que esse modelo e inidentificavel

13e

tanto µ quanto αi nem podem ser interpretados dessa forma nem saoestimaveis

14Nesses casos, e possıvel trabalhar com funcoes estimaveis

(e em geral, aquelas nas quais se tem interesse, o sao), mas a ideia deacomodar parametros interpretaveis no modelo nao e concretizada. Umapossıvel solucao para esse problema consiste na adocao de restricoes deidentificabilidade que nao so implicam a identificabilidade do modelocomo a estimabilidade de seus parametros. Dentre elas, as mais utilizadasna pratica sao

a∑i=1

αi = 0, (B.6.3)

que induz a chamada parametrizacao de desvios de medias e

α1 = 0, (B.6.4)

que induz a chamada parametrizacao de cela de referencia. Definindoy = (ap)−1

∑ai=1

∑pj=1 yij e yi = p−1

∑pj=1 yij, e utilizando (B.6.3), obte-

13

Um modelo F (θ), dependendo do parametro θ ⊂ Θ, e identificavel se para todoθ1, θ2 ⊂ Θ, θ1 6= θ2 temos F (θ1) 6= F (θ2). Em caso contrario, o modelo e ditoinidentificavel. Por exemplo, consideremos o modelo yi ∼ N(µ + αi, σ

2), i = 1, 2 emque y1 e y2 sao independentes. Tomando θ = (µ, α1, α2)> como parametro, o modeloe inidentificavel, pois tanto para θ1 = (5, 1, 0)> quanto para θ2 = (4, 2, 1)> 6= θ1, adistribuicao conjunta de (y1, y2) e N2[(6, 6)>, σ2I2]. O leitor podera consultar Bickel& Doksum (2001), entre outros, para detalhes.

14

Uma funcao linear de um vetor de parametros θ, nomeadamente, c>θ, e estimavelse ela for identicamente igual a uma combinacao linear do valor esperado do vetor deobservacoes, y, i.e., se existir um vetor t tal que c>θ = t>E(y). No modelo (B.6.2),nem µ nem αi, i = 1, . . . a sao funcoes estimaveis, embora tanto µ + αi, i = 1, . . . aquanto αi − αk, i 6= k o sejam. O leitor podera consultar Searle (1971), entre outros,para detalhes.

Singer & Nobre & Rocha - marco/2011

Page 176: An alise de dados longitudinais - docs.ufpr.br

172 B.5 DIAGNOSTICO

mos

E(y) = (ap)−1

a∑i=1

p∑j=1

E(yij) = µ+ a−1

a∑i=1

αi = 0,

e consequentemente o termo µ pode ser interpretado como media geral(que essencialmente e uma media dos valores esperados da resposta as-sociados aos a tratamentos). Alem disso,

E(yi) = p−1

p∑j=1

E(yij) = µ+ αi

o que implica que αi = E(yi)−µ, i.e., a diferenca entre o valor esperadodas observacoes submetidas ao tratamento i e a media geral µ. Essadiferenca pode ser interpretada como o efeito do tratamento i.

Se utilizarmos a restricao de identificabilidade (B.6.4), obtemos

E(y1) = p−1

p∑j=1

E(y1j) = µ+ α1 = µ

e consequentemente, o termo µ pode ser interpretado como o valor es-perado das observacoes submetidas ao tratamento 1. Alem disso, parak 6= 1,

E(yk) = p−1

p∑j=1

E(ykj) = µ+ αk

o que sugere que αk, k 6= 1, neste caso correspondendo a diferenca entreo valor esperado das observacoes submetidas ao tratamento k e o valoresperado das observacoes submetidas ao tratamento 1, tomado como re-ferencia, pode ser interpretado como o efeito do tratamento k. Obvi-amente, qualquer dos tratamentos pode servir de referencia, bastandopara isso, modificar a restricao de identificabilidade convenientemente.Em geral, quando existe um tratamento controle, e ele que serve de re-ferencia.

Voltemos agora nossa atencao para estudos em que se deseja avaliaro efeito de dois fatores A (droga, por exemplo) e B (faixa etaria, porexemplo), o primeiro com a e o segundo com b nıveis, na distribuicaode uma resposta (pressao diastolica, por exemplo). Admitamos que punidades amostrais tenham sido observadas para cada tratamento, i.e.,para cada combinacao dos nıveis dos fatores A e B. Com base nos mes-mos argumentos utilizados no caso anterior, suponhamos que o “efeito”

Singer & Nobre & Rocha - marco/2011

Page 177: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 173

de cada um dos fatores e sua interacao possa ser definido apenas em ter-mos dos valores esperados das distribuicoes da resposta sob os diferentestratamentos. Um modelo comumente considerado para analise de dadoscom essa estrutura e

yijk = µijk + eijk, i = 1, . . . , a, j = 1, . . . , b, k = 1, . . . , p, (B.6.5)

em que E(eijk) = 0, V(eijk) = σ2 e E(eijkei′j′k′) = 0, i 6= i′ ou j 6= j′ ouk 6= k′, ou seja, os eijk sao nao-correlacionados. Esta e a parametrizacaode medias de celas pois o parametro de localizacao µij pode ser interpre-tado como o valor esperado (medio) da resposta de unidades amostraissubmetidas ao tratamento correspondente ao nıvel i do fator A e nıvel jdo fator B.

Tomando a = b = 2 para facilidade de exposicao, o “efeito” do fatorA para unidades amostrais no nıvel j do fator B pode ser definido comoa diferenca µ1j − µ2j, que, por exemplo, corresponde a diferenca entreo valor esperado da pressao diastolica de unidades amostrais na faixaetaria j submetidas a droga 1 e o valor esperado da pressao diastolicade unidades amostrais na faixa etaria j submetidas a droga 2. Analoga-mente, o “efeito” do fator B para unidades amostrais no nıvel i do fatorA pode ser definido como a diferenca µi1 − µi2.

A interacao entre os fatores A e B pode ser definida como a diferencaentre o efeito do fator A para unidades amostrais no nıvel 1 do fatorB e o efeito do fator A para unidades amostrais no nıvel 2 do fator B,nomeadamente, (µ11−µ21)− (µ12−µ22). Outras definicoes equivalentes,como (µ22 − µ12) − (µ21 − µ11) podem ser utilizadas. A escolha entreas alternativas deve ser feita em funcao dos detalhes do problema; porexemplo, se a droga 1 for uma droga padrao e a faixa etaria 1 correspondera indivıduos mais jovens, esta ultima proposta pode ser mais conveniente.

Quando a interacao e nula, o efeito do fator A e o mesmo paraunidades amostrais submetidas a qualquer dos nıveis do fator B e pode-sedefinir o efeito principal do fator A como (µ11 +µ12)/2− (µ21 +µ22)/2,que corresponde a diferenca entre o valor esperado da resposta paraunidades amostrais submetidas ao nıvel 1 do fator A e o valor esper-ado da resposta para unidades amostrais submetidas ao nıvel 2 do fatorA (independentemente do nıvel do fator B). Similarmente, o efeito prin-cipal do fator B pode ser definido como (µ11 + µ21)/2 − (µ12 + µ22)/2.Essas definicoes de efeitos principais podem ser consideradas mesmo napresenca de interacao, desde que ela seja nao-essencial. O leitor pode con-

Singer & Nobre & Rocha - marco/2011

Page 178: An alise de dados longitudinais - docs.ufpr.br

174 B.5 DIAGNOSTICO

sultar Lencina et al. (2005) e Lencina et al. (2008) para uma discussaosobre a consideracao de efeitos principais em situacoes com interacaonao-essencial.

Com a finalidade de explicitar efeitos principais e interacao no modelo,e comum considerar-se a reparametrizacao µij = µ + αi + βj + αβij, oque implica o modelo

yij = µ+ αi + βj + αβij + eijk, i = 1, . . . , a, j = 1, . . . , b, k = 1, . . . , p.(B.6.6)

Muitos autores, como Nelder (1998), interpretam erroneamente os para-metros µ, αi, βj, αβij como “media geral”, “efeito principal do nıvel i dofator A”, “efeito principal do nıvel j do fator B” e “interacao entre osnıveis i do fator A e j do fator B”. Como no caso discutido acima, essemodelo tambem e inidentificavel e seus parametros sao nao-estimaveis eas restricoes de identificabilidade mais frequentemente utilizadas e corre-spondentes as parametrizacoes de desvios de medias e cela de referenciasao, respectivamente,

a∑i=1

αi =b∑

j=1

βj =a∑i=1

αβij =b∑

j=1

αβij = 0 (B.6.7)

e

α1 = β1 = αβ11 = . . . = αβ1b = αβ21 = . . . = αβa1 = 0 (B.6.8)

Sob as restricoes (B.6.7), pode-se mostrar que

µ = (ab)−1

a∑i=1

b∑j=1

µij,

αi = b−1

b∑j=1

µij − µ

βj = a−1

a∑i=1

µij − µ

e que

αβij = µij − b−1

b∑j=1

µij − a−1

a∑i=1

µij

Singer & Nobre & Rocha - marco/2011

Page 179: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 175

de forma que esses parametros podem ser interpretados como se desejavainicialmente. Sob as restricoes (B.6.8), temos

µ = µ11,

αi = µij − µ1j, i = 2, . . . , a,

βj = µij − µi1, j = 2, . . . , b,

e que

αβij = µij − (µ11 + αi + βj), i = 2, . . . , a, j = 2, . . . , b,

de forma que os parametros αi, i = 2, . . . , a podem ser interpretados comoefeitos diferenciais entre as respostas esperadas das unidades amostraissubmetidas ao nıvel i do fatorA relativamente aquelas obtidas por unidadesamostrais submetidas ao tratamento associado ao nıvel 1 do fator A, man-tido fixo o nıvel correspondente ao fator B. Analogamente, os parametrosβj, j = 2, . . . , b podem ser interpretados como efeitos diferenciais entreas respostas esperadas das unidades amostrais submetidas ao nıvel j dofator B relativamente aquelas obtidas por unidades amostrais submeti-das ao tratamento associado ao nıvel 1 do fator B, mantido fixo o nıvelcorrespondente do fator A. Os parametros αβij, i = 2, . . . , a, j = 2, . . . bpodem ser interpretados como diferencas entre as respostas esperadasdas unidades amostrais submetidas ao tratamento correspondente ‘a cela(i, j) e aquela esperada sob um modelo sem interacao.

B.7 Regressao logıstica

B.8 Exercıcios

B.8.1. Seja x1, . . . , xn uma amostra aleatoria de uma variavel X cujadistribuicao e Normal.

a) Mostre que a media e a variancia amostrais sao independentes.

b) Enuncie um resultado semelhante no contexto de regressao linearsimples.

c) Qual a utilidade desse resultado?

Singer & Nobre & Rocha - marco/2011

Page 180: An alise de dados longitudinais - docs.ufpr.br

176 B.5 DIAGNOSTICO

B.8.2. Mostre que se y ∼ Np(µ,V) entao (y − µ)>V−1(y − µ) ∼ χ2p.

B.8.3. Considere um vetor aleatorio (X, Y ) com distribuicao normal bi-variada. Mostre que a esperanca condicional de Y dado X = x e da formaE(Y |X = x) = α + βx explicitando os parametros α e β em termos dosparametros da distribuicao normal bivariada adotada.

B.8.4. Obtenha os estimadores de maxima verossimilhanca dos parametrosdo modelo de regressao

yi = xβi ei, i = 1, . . . , n

em que os ei representam erros aleatorios independentes log-normais commedia exp(σ2/2) e variancia exp(σ2)[exp(σ2)− 1].

i) Obtenha a distribuicao do estimador de β e construa um intervalode confianca.

ii) Obtenha um intervalo de confianca aproximado para o valor esper-ado de y dado x0.

Sugestao: linearize o modelo e lembre-se que se logX ∼ N(µ, σ2) entaoX tem distribuicao log-normal com media exp(µ + σ2/2) e variancia[exp(σ2)− 1] exp(2µ+ σ2).

B.8.5. Suponha que as variaveis xi e yi estejam relacionadas de acordocom o modelo de regressao linear simples

yi = α + βxi + ei, i = 1, . . . , n

em que os ei representam erros aleatorios independentes de media zero evariancia σ2. Mostre que o estimador

S2 =1

n− 2

n∑i=1

(yi − α− βxi)2

em que α e β denotam os estimadores de mınimos quadrados de α e β,respectivamente, e nao-enviesado para a variancia σ2.

B.8.6. Para avaliar a associacao entre a pressao arterial sistolica e idade,colheram-se os dados dispostos na tabela abaixo. Utilize esses dadospara avaliar se essa associacao pode ser representada por um modelo deregressao linear simples. Com essa finalidade,

Singer & Nobre & Rocha - marco/2011

Page 181: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 177

a) Especifique o modelo, interpretando os parametros;

b) Construa um diagrama de dispersao (rotulando os eixos convenien-temente);

c) Estime os parametros e os correspondentes erros padroes;

d) Construa intervalos de confianca (com coeficiente de confianca de95%) para os parametros;

e) Obtenha o valor-p correspondente ao teste da hipotese de que ocoeficiente angular e nulo.

Paciente Tensao sistolica Idade(mm Hg) (anos)

1 114 162 134 203 116 184 139 345 110 236 150 387 152 418 138 399 142 4610 145 4511 156 4712 159 4713 142 5014 156 5215 164 4516 185 6017 162 6418 176 6019 175 6920 180 68

B.8.7. Para investigar a associacao entre tipo de escola (particular oupublica), cursada por calouros de uma universidade e a media no cursode Calculo I, obtiveram-se os seguintes dados:

Singer & Nobre & Rocha - marco/2011

Page 182: An alise de dados longitudinais - docs.ufpr.br

178 B.5 DIAGNOSTICO

Escolaparticular publica

8.6 5.88.6 7.67.8 8.06.5 6.27.2 7.66.6 6.55.6 5.65.5 5.78.2 5.8

Seja yi a nota obtida pelo i-esimo aluno, xi = 1 se o aluno cursou escolaparticular e xi = −1 se o aluno cursou escola publica, i = 1, . . . , 18.Considere o modelo yi = α + βxi + ei, i = 1, . . . , 18 em que os ei saoerros aleatorios nao-correlacionados com E(ei) = 0 e V ar(ei) = σ2.

i) Interprete os parametros α e β.

ii) Estime α e β pelo metodo de mınimos quadrados. Obtenha tambemuma estimativa de σ2.

iii) Construa intervalos de confianca para α e β.

iv) Com base nas estimativas obtidas no item ii), construa intervalosde confianca para os valores esperados das notas dos alunos dasescolas particulares e publicas.

v) Ainda utilizando o modelo proposto, especifique e teste a hipotesede que ambos os valores esperados sao iguais.

vi) Repita os itens i)-v) definindo xi = 1 se o aluno cursou escolaparticular e xi = 0 se o aluno cursou escola publica, i = 1, . . . , 18.

B.8.8. Num estudo realizado na Faculdade de Medicina da Universidadede Sao Paulo foram colhidos dados de 16 pacientes submetidos a trans-plante intervivos e em cada um deles obtiveram-se medidas tanto do peso(g) real do lobo direito do fıgado quanto de seu volume (cm3) previstopre-operatoriamente por metodos ultrassonograficos. O objetivo e esti-mar o peso real por meio do volume previsto. Os dados estao dispostosna tabela abaixo.

Singer & Nobre & Rocha - marco/2011

Page 183: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 179

i) Proponha um modelo de regressao linear simples para analisar osdados e interprete seus parametros.

ii) Construa um grafico de dispersao apropriado.

iii) Ajuste o modelo e construa intervalos de confianca para seus parametros.

iv) Avalie o ajuste do modelo por meio de medidas descritivas, de testesde hipoteses convenientes e de uma analise de resıduos.

v) Construa uma tabela com intervalos de confianca para o peso esper-ado do lobo direito do fıgado correspondentes a volumes (estimadosultrassonograficamente de 600, 700, 800, 900 e 1000 cm3.

vi) Repita os itens anteriores considerando um modelo linear simplessem intercepto.

Volume Pesoultrassonografico (cm3) real (g)

656 630692 745588 690799 890766 825800 960693 835602 570737 705921 955923 990945 725816 840584 640642 740970 945

B.8.9. Os dados abaixo sao provenientes de uma pesquisa cujo obje-tivo e propor um modelo para a relacao entre a area construıda de umdeterminado tipo de imovel e o seu preco.

Singer & Nobre & Rocha - marco/2011

Page 184: An alise de dados longitudinais - docs.ufpr.br

180 B.5 DIAGNOSTICO

Imovel Area (m2) Preco (R$)1 128 10.0002 125 9.0003 200 17.0004 4.000 200.0005 258 25.0006 360 40.0007 896 70.0008 400 25.0009 352 35.00010 250 27.00011 135 11.00012 6.492 120.00013 1.040 35.00014 3.000 300.000

i) Construa um grafico de dispersao apropriado para o problema.

ii) Ajuste um modelo de regressao linear simples e avalie a quali-dade do ajuste (obtenha estimativas dos parametros e de seus errospadroes, calcule o coeficiente de determinacao e construa graficosde resıduos e um grafico do tipo QQ).

iii) Ajuste o modelo linearizavel

y = βxγe

em que y representa o preco e x representa a area e avalie a qual-idade do ajuste comparativamente ao modelo linear ajustado noitem ii); construa um grafico de dispersao com os dados transfor-mados.

iv) Utilizando o modelo com o melhor ajuste, construa intervalos deconfianca com coeficiente de confianca (aproximado) de 95% paraos precos esperados de imoveis com 200m2, 500m2 e 1000m2.

B.8.10. O arquivo Bosco (1998), disponıvel na forma de uma planilhaExcel em

www.ime.usp.br/simjmsinger

Singer & Nobre & Rocha - marco/2011

Page 185: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 181

contem dados provenientes de um estudo observacional baseado numaamostra de 66 pacientes matriculadas na Clınica Ginecologica do Depar-tamento de Obstetrıcia e Ginecologia do Hospital das Clıncas da Facul-dade de Medicina da Universidade de Sao Paulo e no Setor de Mamas doCentro de Referencia da Saude da Mulher e de Nutricao, Alimentacao eDesenvolvimento Infantil (C.R.S.M.N.A.D.I.) entre novembro de 1995 eoutubro de 1997. Um dos objetivos e estudar a relacao entre o tamanhoclınico de tumores de mama e seu tamanho obtido ultrassonografica-mente. O tamanho clınico do tumor e definido como a media dos valoresencontrados nas colunas N e O da planilha mencionada; as tres medidasultrassonograficas (altura, comprimento e largura) estao disponıveis nascolunas U, V e W.

i) Construa graficos de dispersao apropriados para o problema.

ii) Ajuste um modelo de regressao linear multipla tendo como variavelresposta o tamanho clınico do tumor e como variaveis explicativasas tres medidas ultrassonograficas.

iii) Avalie a qualidade do ajuste por meio do coeficiente de deter-minacao, testes de hipoteses convenientes, graficos de resıduos eum grafico do tipo QQ.

iv) Com base nas conclusoes obtidas dos itens acima, verifique se epossıvel reduzir o modelo (eliminando uma ou duas variaveis ex-plicativas).

v) Repita a analise utilizando a raiz cubica do volume ultrassonograficodo tumor, definido como

V olume =π

6(altura× comprimento× largura)

como unica variavel explicativa.

vi) Compare o modelo que voce julgou mais adequado por meio daanalise realizada nos itens i)-iv) com aquele obtido no item v).

B.8.11. Os dados abaixo sao provenientes de um estudo cujo objetivo eraavaliar a eficacia de um tipo de escova de dentes na remocao de placa bac-teriana. Para isso foram observados ındices de placa bacteriana (maioresvalores do ındice correspondendo a maiores quantidades de placa) antes(X) e apos (Y ) a escovacao numa amostra de 26 criancas.

Singer & Nobre & Rocha - marco/2011

Page 186: An alise de dados longitudinais - docs.ufpr.br

182 B.5 DIAGNOSTICO

a) Assuma que o par (X, Y ) segue uma distribuicao normal bivariada.Proponha um modelo que permita a comparacao das medias de Xe Y , expresse-o em notacao matricial e interprete todos os seusparametros. Teste a hipotese de que as medias de X e Y sao iguaise construa um intervalo de confianca para a sua diferenca. Indiqueprecisamente como devem ser realizados os calculos.

b) Construa um grafico de dispersao tendo o ındice de placa bacterianapre-escovacao (X) na abscissa e o ındice de placa bacteriana pos-escovacao (Y ) na ordenada.

c) Proponha um modelo de regressao para explicar a variacao doındice pos-escovacao como funcao do ındice pre-escovacao, levandoem conta o fato de que ındices pre-escovacao nulos implicam ındicespos-escovacao nulos (em media). Explicite as suposicoes e inter-prete os parametros.

d) Ajuste o modelo proposto e apresente os resultados de forma naotecnica.

e) Utilize tecnicas de diagnostico para avaliar o ajuste do modelo.

f) Qual dos modelos voce usaria para analisar os dados? Por que?

Indice de placa bacterianapre-escovacao pos-escovacao pre-escovacao pos-escovacao

2.18 0.43 1.40 0.242.05 0.08 0.90 0.151.05 0.18 0.58 0.101.95 0.78 2.50 0.330.28 0.03 2.25 0.332.63 0.23 1.53 0.531.50 0.20 1.43 0.430.45 0.00 3.48 0.650.70 0.05 1.80 0.201.30 0.30 1.50 0.251.25 0.33 2.55 0.150.18 0.00 1.30 0.053.30 0.90 2.65 0.25

B.8.12. Considere o modelo yi = α + βxi + ei, i = 1, . . . , 20 em queei = ρei−1 + ui com ui ∼ N(0, 1) e assuma que α = 2, β = 0.5, e0 = 3 eρ = 0.9.

Singer & Nobre & Rocha - marco/2011

Page 187: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 183

a) Utilizando um gerador de numeros aleatorios obtenha 20 valores deui e construa os valores correspondentes de ei, i = 1, . . . , 20.

b) Construa um grafico de ei em funcao de i.

c) Obtenha os valores de yi para xi = i, i = 1, . . . , 20 e construa ografico de dispersao correspondente incluindo nele a reta E(yi|xi) =α + βxi.

d) Obtenha os estimadores de mınimos quadrados de α e β a partirdos dados gerados no item c) e inclua a reta estimada no graficodo item c).

e) Calcule a estatıstica de Durbin-Watson e discuta os resultados, in-terpretando o efeito da autocorrelacao dos erros.

f) Repita os itens c) - e) com ρ = 0.5 e ρ = 0.1

g) Compare os resultados obtidos com os diferentes valores de ρ ecomente as diferencas encontradas.

B.8.13. Os dados do arquivo Singer&Andrade (1997), disponıvel em

www.ime.usp.br/∼jmsinger

sao provenientes de um estudo cujo objetivo era avaliar a eficacia dedois tipo de escova de dentes (Hugger e Convencional) na remocao deplaca bacteriana. Para isso foram observados ındices de placa bacteri-ana (maiores valores do ındice correspondendo a maiores quantidades deplaca) antes (X) e apos (Y ) a escovacao com cada tipo de escova numaamostra de n1 = 14 criancas do genero feminino (F) e n2 = 12 do sexomasculino (M).

a) Construa um grafico de dispersao para cada tipo de escova, tendo oındice de placa bacteriana pre-escovacao (X) na abscissa e o ındicede placa bacteriana pos-escovacao (Y ) na ordenada. Use sımbolosdiferentes para identificar criancas de cada genero.

b) Utilize metodos de regressao linear simples para ajustar modelosdo tipo

Yij = βiXγiij eij,

i = 1, 2, j = 1, . . . , ni para cada tipo de escova separadamente,indicando as suposicoes adotadas.

Singer & Nobre & Rocha - marco/2011

Page 188: An alise de dados longitudinais - docs.ufpr.br

184 B.5 DIAGNOSTICO

c) Teste a hipotese de que γ1 = γ2 e no caso de nao rejeicao, reajusteo modelo com γ1 = γ2 = γ.

d) No modelo reduzido, teste a hipotese de que γ = 1 e em caso denao rejeicao, ajuste um novo modelo reduzido que incorpore esseresultado.

e) No terceiro modelo reduzido, teste a hipotese de que β1 = β2 = βe, se for o caso, ajuste um novo modelo que incorpore o resultado.

f) Avalie a qualidade do ajuste do ultimo modelo ajustado por in-termedio de tecnicas de diagnostico.

g) Compare os resultados das analises dos dados das duas escovas.

h) Escreva sua conclusao, interpretando as hipoteses testadas e con-struido um tabela com valores esperados para os indıces de placapos-escovacao com diferentes nıveis de ındices de placa pre-escovacao.

B.8.14. Considere o modelo

yij = α + βxij + ai + eij, i = 1, . . . , n, j = 1, . . . , p

em que yij, α, β e xij tem as interpretacoes usuais e as variaveis aleatoriasai ∼ N(0, σ2

a), eij ∼ N(0, σ2) sao independentes. Mostre que V ar(yij) =σ2a + σ2, Cov(yij, yij′) = σ2

a, j 6= j′ e que Cov(yij, yi′j′) = 0, i 6= i′.

B.8.15. A tabela abaixo contem dados de capacidade instalada (ton),potencia instalada (1000 kW ) e area construıda (100 m2) de 10 empresasde uma certa industria.

Capacidade instalada (ton), potencia instalada (1000 kW ) earea construıda (100 m2) de empresas de uma certa industria

Capacidadede producao 4.5 5.9 4.2 5.2 8.1 9.7 10.7 11.9 12.0 12.3Potenciainstalada 0.9 2.5 1.3 1.8 3.1 4.6 6.1 6.0 5.9 6.1

Areaconstruıda 7.1 10.4 7.2 8.2 8.5 11.9 12.1 12.5 12.0 11.3

Com o objetivo de estimar a capacidade instalada (Y ) a partir das in-formacoes sobre potencia instalada (X1) e area construıda (X2),

Singer & Nobre & Rocha - marco/2011

Page 189: An alise de dados longitudinais - docs.ufpr.br

B. APENDICE B 185

i) Construa graficos de dispersao apropriados.

ii) Especifique um modelo de regressao linear e interprete seus parametros.

iii) Obtenha estimativas dos parametros e de seus erros padroes e cal-cule o coeficiente de determinacao multiplo.

iv) Avalie o ajuste do modelo por meio de graficos de resıduos e graficosQQ.

v) Avalie a perda de precisao dos estimadores decorrente do uso decada uma das variaveis explicativas em modelos de regressao linearsimples construıdos com o mesmo proposito do modelo descrito noitem ii).

vi) Com base no modelo mais adequado dentre aqueles que voce anal-isou, construa uma tabela com intervalos de confianca (coeficientede confianca = 95%) para as capacidades de producao esperadasde empresas com todas as combinacoes de potencias instaladas de1.0, 2.5 e 5.0 (× 1000 kW ) e areas construıdas 8.0, 10.0 e 12.0 (×100 m2).

B.8.16. Os dados do arquivo Braga (1998), disponıvel em

www.ime.usp.br/∼jmsinger

sao oriundos de um estudo realizado na Faculdade de Medicina da Uni-versidade de Sao Paulo para avaliar pacientes com insuficiencia cardıaca.Foram estudados 87 pacientes com algum nıvel de insuficiencia cardıaca,alem de 40 pacientes controle (coluna K). Para cada paciente foram reg-istradas algumas caracterısticas fısicas (altura, peso, superfıcie corporal,idade, sexo). Eles foram submetidos a um teste de esforco cardiopul-monar em cicloergometro em que foram medidos a frequencia cardıaca,o consumo de oxigenio, o equivalente ventilatorio de oxigenio, o equiva-lente ventilatorio de dioxido de carbono, o pulso de oxigenio e a pressaoparcial de dioxido de carbono ao final da expiracao, em tres momentosdiferentes: no limiar anaerobio, no ponto de compensacao respiratoria eno pico do exercıcio.

Ajuste um modelo linear que permita comparar a relacao entre oconsumo de oxigenio no limiar anaerobio do exercıcio (coluna X) e acarga na esteira ergometrica (coluna U) para pacientes com diferentes

Singer & Nobre & Rocha - marco/2011

Page 190: An alise de dados longitudinais - docs.ufpr.br

186 B.5 DIAGNOSTICO

nıveis de insuficiencia cardıaca (medida segundo a classificacao NYHA -coluna K). Com essa finalidade, voce deve:

a) Construir graficos de dispersao convenientes.

b) Interpretar os diferentes parametros do modelo.

c) Estimar os parametros do modelo e apresentar os respectivos errospadroes.

d) Avaliar a qualidade de ajuste do modelo por meio de graficos deresıduos e graficos QQ.

e) Identificar possıveis valores discrepantes (outliers) e reajustar omodelo sem esses pontos.

f) Comparar os ajustes dos modelos obtidos com e sem os outliers.

g) Definir e testar hipoteses adequadas para avaliar se a relacao entreconsumo de oxigenio no limiar anaerobio do exercıcio e carga naesteira ergometrica depende da classificacao NYHA.

h) Reajustar o modelo com base nas conclusoes do item (g) e avaliaro seu ajuste.

i) Apresentar conclusoes que evitem jargao tecnico.

Singer & Nobre & Rocha - marco/2011

Page 191: An alise de dados longitudinais - docs.ufpr.br

Bibliografia

Afiune, J. Y. (2000). Avaliacao ecocardiografica evolutiva de recem-nascidos pre-termo, do nascimento ate o termo, PhD thesis, SaoPaulo: Instituto da Crianca da Faculdade de Medicina, Universi-dade de Sao Paulo.

Afiune, J. Y., Singer, J. M. & Leone, C. R. (2005). Evolucao ecocar-diografica de recem-nascidos com persistencia do canal arterial, Jor-nal de Pediatria 81: 454–460.

Andrade, D. F. & Helms, R. W. (1984). Maximum likelihood estimatesin the multivariate normal distribution with patterned mean and co-variance via the EM algorithm, Communications in Statistics, The-ory and Methods 13: 2239–2251.

Andrade, D. F. & Singer, J. M. (1998). Profile analysis for randomizedcomplete block experiments, 25: 237–244.

Andrews, D. F. & Pregibon, D. (1978). Finding outliers that matter,Journal of the Royal Statistical Society B 40: 85–93.

Anscombe, F. J. (1973). Graphs in statistical analysis, The AmericanStatistician 27: 17–21.

Atkinson, A. C. (1981). Two graphical display for outlying and influentialobservations in regression, Biometrika 68: 13–20.

Atkinson, A. C. (1985). Plots, transformations, and regression: an intro-duction to graphical methods of diagnostic regression analysis, Ox-ford: Oxford University Press.

Atkinson, A. C. & Riani, M. (2000). Robust diagnostic regression analy-sis, New York: Springer.

Page 192: An alise de dados longitudinais - docs.ufpr.br

188 BIBLIOGRAFIA

Baksalary, J. K., Corsten, L. C. A. & Kala, R. (1978). Reconciliationof two different views on estimation of growth curve parameters,Biometrika 65: 662–665.

Baltagi, B. H. (1995). Econometric analysis of panel data, Chichester:Wiley.

Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression diagnostics:identifying influential data and sources of collinearity, New York:Wiley.

Bickel, P. J. & Doksum, K. A. (2001). Mathematical Statistics, Volume1, 2 edn, Upper Saddle River, NJ: Prentice-Hall.

Boik, R. J. (1979). Interactions, partial interactions and interaction con-trasts in the analysis of variance, Psychological Bulletin 86: 1084–1089.

Box, G. E. P. (1950). Problems in the analysis of growth and wear curves,Biometrics 6: 362–389.

Box, G. E. P. (1954a). Some theorems on quadratic forms applied inthe study of analysis of variance problems, I: effects of inequalityof variance in the one-way classification, Annals of MathematicalStatistics 25: 290–302.

Box, G. E. P. (1954b). Some theorems on quadratic forms applied inthe study of analysis of variance problems, II: effects of inequalityof variance and of correlation between errors in the two-way classi-fication, Annals of Mathematical Statistics 25: 484–498.

Brogan, D. R. & Kutner, M. H. (1980). Comparative analysis of pretest-posttest research designs, The American Statistician 34: 229–232.

Bruner, E., Domhof, S. & Langer, F. (2002). Nonparametric analysis oflongitudinal data in factorial experiments, New York: Wiley.

Bryant, E. & Gillings, D. (1985). Statistical analysis of longitudinalrepeated measures designs, Biostatistics, Statistics in Biomedical,Public Health and Environmental Sciences, P.K. Sen (ed). Amster-dam: North Holland, 251-282, pp. 251–282.

Singer & Nobre & Rocha - marco/2011

Page 193: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 189

Calinski, T. & Caussinus, H. (1989). A note on the analysis of covariance:efficiency of concomitant variables, Journal of Statistical Planningand Inference 21: 315–326.

Chatterjee, S. & Hadi, A. S. (1986). Influential observations, high lever-age points, and outliers in linear regression (with discussion), Sta-tistical Science 1: 379–393.

Chatterjee, S. & Hadi, A. S. (1988). Sensitivity analysis in linear regres-sion, New York: Wiley.

Chesher, A. (1991). The effect of measurement error, Biometrika 78: 451–462.

Cochran, W. G. & Cox, M. G. (1992). Experimental designs, 2 edn, NewYork: Wiley.

Cook, R. D. (1977). Detection of influential observation in linear regres-sion, Technometrics 19: 15–18.

Cook, R. D. (1986). Assessment of local influence (with discussion),Journal of the Royal Statistical Society B 48: 133–169.

Cook, R. D. (1996). Added variables plots and curvature in linear re-gression, Technometrics 38: 275–278.

Cook, R. D., Pena, D. & Weisberg, S. (1988). The likelihood: a unify-ing principle for influence measures, Communications in Statistics,Theory and Methods 17: 623–640.

Cook, R. D. & Weisberg, S. (1982). Residuals and influence regression,New York: Chapman and Hall.

Cook, R. D. & Weisberg, S. (1989). Regression diagnostics with dynamicgraphics, Technometrics 31: 277–311.

Cox, D. G. (1992). Planning of experiments, 2 edn, New York: Wiley.

Cox, D. G. & Hinkley, D. V. (1974). Theoretical Statistics, London:Chapman & Hall.

Cox, D. R. & Snell, E. J. (1968). A general definition of residuals (withdiscussion), Journal of the Royal Statistical Society B 30: 248–275.

Singer & Nobre & Rocha - marco/2011

Page 194: An alise de dados longitudinais - docs.ufpr.br

190 BIBLIOGRAFIA

Crowder, M. J. & Hand, J. (1990). Analysis of repeated measures, Lon-don: Chapman and Hall.

Crowder, M. J. & Hand, J. (1996). Practical longitudinal data analysis,London: Chapman and Hall.

Davidian, M. & Giltinian, D. M. (1995). Nonlinear models for repeatedmeasurement data, London: Chapman and Hall.

Davis, C. S. (2002). Statistical methods for the analysis of repeated mea-sures, New York: Springer.

Demidenko, E. (2004). Mixed models: theory and applications, New York:Wiley.

Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977). Maximum like-lihood from incomplete data via the em algorithm, Journal of theRoyal Statistical Society, B 39: 1–38.

Diggle, P. J. (1988). An approach to the analysis of repetead measure-ments, Biometrics 44: 959–971.

Diggle, P. J., Heagerty, P., Liang, K. Y. & Zeger, S. L. (2002). Analysisof longitudinal data, 2 edn, Oxford: Oxford University Press.

Doganaksoy, N. & Balakrishnan, N. (1997). A useful property of best lin-ear unbiased predictors with applications to life-testing, The Amer-ican Statistician 51: 22–28.

Draper, N. R. & Smith, H. (2002). Applied regression analysis, 3 edn,New York: Wiley.

Duncan, G. J. & Kalton, G. (1987). Issues of design and analysis ofsurveys across time, International Statistical Review 55: 97–117.

Durbin, J. & Watson, G. S. (1950). Testing for serial correlation in leastsquares regression, I, Biometrika 37: 409–428.

Durbin, J. & Watson, G. S. (1951). Testing for serial correlation in leastsquares regression, II, Biometrika 38: 159–178.

Durbin, J. & Watson, G. S. (1971). Testing for serial correlation in leastsquares regression, III, Biometrika 58: 1–19.

Singer & Nobre & Rocha - marco/2011

Page 195: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 191

Dwyer, J. (1992). Differential equation models for longitudinal data, InStatitistical Models for Longitudinal Studies of Health, J.H. Dwyer,M. Feinleib, P. Lippert and H. Hoffmeister (eds). New York: OxfordUniversity Press, pp. 71–98.

Elian, S. N. & Okaze, S. M. (1998). Mudancas de desempenho em ativi-dades motoras da vida diaria em idosos participantes de um pro-grama de educacao fısica, Technical Report RAE-CEA-98P07, Cen-tro de Estatıstica Aplicada, IME, Universidade de Sao Paulo.

Fuller, W. A. (1987). Measurement error models, New York: Wiley.

Galecki, T. G. (1994). General class of covariance structures for two ormore repeated factors in longitudinal data analysis, Communica-tions in Statistics, Theory and Methods 23: 3105–3119.

Geisser, S. (1970). A bayesian analysis of growth curves, Sankhya A32: 53–64.

Geisser, S. (1980). Growth curve analysis, Handbook of Statistics, Vol.1, P. R. Krishnaiah (ed). Amsterdam: North Holland. New York:Oxford University Press, pp. 89–115.

Geisser, S. & Greenhouse, S. W. (1958). An extension of box’s resultson the use of the f-distribution in multivariate analysis, Annals ofMathematical Statistics 29: 885–891.

Giampaoli, V. & Singer, J. M. (2009). Generalized likelihood ratio testsfor variance components in linear mixed models, Journal of Statis-tical Planning and Inference 139: 1435–1448.

Goldstein, H. (1979). The design and analysis of longitudinal studies,New York: Academic Press.

Grady, J. J. & Helms, R. W. (1995). Model selection techniques forthe covariance matrix for incomplete longitudinal data, Statistics inMedicine 14: 1397–1416.

Grande, R. H. M., Oliveira, E., Singer, J. M., Santos, J. F. F. & Nicolau,J. (1998). Efeitos do uso contınuo de solucao para bochecho sobreo ph e o conteudo mineral da placa bacteriana, Revista da Pos-Graduacao da Faculdade de Odontologia da Universidade de SaoPaulo 5: 143–147.

Singer & Nobre & Rocha - marco/2011

Page 196: An alise de dados longitudinais - docs.ufpr.br

192 BIBLIOGRAFIA

Graybill, F. A. (1976). Theory and applications of the linear model, NorthScituate, Mass.: Duxbury Press.

Grieve, A. P. (1981). Pretest-posttest designs: Letter to the editor, TheAmerican Statistician 35: 177–178.

Grizzle, J. E. & Allen, D. M. (1969). Analysis of dose and responsecurves, Biometrics 25: 357–382.

Harville, D. A. (1977a). Extension of the Gauss-Markov theorem toinclude the estimation of random effects, The Annals of Statistics4: 384–395.

Harville, D. A. (1977b). Maximum likelihood approaches to variancecomponent estimation and to related problems, Journal of theAmerican Statistical Association 72: 320–340.

Harville, D. A. (1997). Matrix algebra from a statistician’s perspective,New York: Springer.

Helms, R. W. (1992). Intentionally incomplete longitudinal designs: I.methodology and comparison of some full span designs, Statistics inMedicine 11: 1889–1913.

Henderson, C. R. (1975). Best linear unbiased estimation and predictionunder a selection model, Biometrics 31: 423–447.

Hilden-Minton, J. A. (1995). Multilevel diagnostics for mixed and hi-erarchical linear models, PhD thesis, Los Angeles: University ofCalifornia.

Hodges, J. S. (1998). Some algebra and geometry for hierarchical mod-els, applied to diagnostics (with discussion), Journal of the RoyalStatistical Society, Series B 60: 197–236.

Huynh, H. & Feldt, L. S. (1970). Conditions under which mean squareratios in repeated measurements designs have exact F-distributions,Journal of the American Statistical Association 65: 1582–1589.

Huynh, H. & Feldt, L. S. (1976). Estimation for the Box correction fordegrees of freedom from sample data in the randomized block andsplit-plot designs, Journal of Educational Statistics 1: 69–82.

Singer & Nobre & Rocha - marco/2011

Page 197: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 193

Izeman, A. J. & Williams, J. S. (1989). A class of linear spectral modelsand analyses for the study of longitudinal data, Biometrics 45: 831–849.

Jennrich, R. I. & Schluchter, M. D. (1986). Unbalanced repeatedmeasures models with structured covariance matrices, Biometrics42: 805–820.

Jiang, J. (1996). Reml estimation: asymptotic behavior and relatedtopics, The Annals of Statistics 24: 255–286.

Jiang, J. (1997). A derivation of BLUP - Best Linear Unbiased Predictor,Statistics & Probabilty Letters 32: 321–324.

Jiang, J. (1998). Asymptotic properties of the empirical BLUP andBLUE in mixed linear models, Statistica Sinica 8: 861–885.

Jiang, J. (1999). On unbiasedness of the empirical BLUE and BLUP,Statistics & Probabilty Letters 41: 19–24.

Jones, R. H. (1993). Longitudinal data with serial correlation: a state-space approach, London: Chapman and Hall.

Kackar, R. N. & Harville, D. A. (1984). Approximations for standard er-rors of estimators of fixed and random effects in mixed linear models,Journal of the American Statistical Association 79: 853–862.

Kass, R. E. & Steffey, D. (1989). Approximate Bayesian inference inconditionally independent hierarchical models (parametric empiri-cal Bayes models), Journal of the American Statistical Association84: 717–726.

Kenward, M. G. (1985). The use of fitted higher-order polynomial co-efficients as covariates in the analysis of growth curves, Biometrics41: 19–28.

Keselman, H. J., James, A., Rhonda, K. K. & Russell, D. W. (1998). Acomparison of two approaches for selecting covariance structures inthe analysis of repeated measurements, Communications in Statis-tics - Simulation and Computaion 27: 591–604.

Singer & Nobre & Rocha - marco/2011

Page 198: An alise de dados longitudinais - docs.ufpr.br

194 BIBLIOGRAFIA

Khatri, C. G. (1966). A note on MANOVA model applied to problemsin growth curves, Annals of the Institute of Statistical Mathematics18: 75–86.

Korytnicki, D., Mayer, M. P. A., Daronch, M., Singer, J. M. & Grande,R. H. M. (2006). Effects of nd:yag laser on enamel microhardnessand dental plaque composition: an in situ study, Photomedicine andlaser surgery 24: 59–63.

Kshirsagar, A. M. & Smith, W. B. (1995). Growth curves, New York:Marcel Dekker.

Kutner, M. & Brogan, D. (1981). Comparative analysis of pretest-posttest designs: Letter to the editor, The American Statistician35: 329–330.

Laird, N. (1983). Further comparative analyses of pretest-posttest re-search designs, The American Statistician 37: 179.

Laird, N. M., Lange, N. & Stram, D. (1987). Maximum likelihood com-putations with repeated measures: application of the em algorithm,Journal of the American Statistical Association 82: 97–105.

Laird, N. M. & Ware, J. H. (1982). Random-effects models for longitu-dinal data, Biometrics 38: 963–974.

Lee, J. C. (1988). Prediction and estimation of growth curves with specialcovariance strutures, Journal of the American Statistical Association83: 432–440.

Lee, J. C. & Geisser, S. (1972). Growth curve prediction, Sankhya A34: 393–412.

Lencina, V. B. & Singer, J. M. (2006). Measure for measure: exactF-tests and the mixed models controversy, International StatisticalReview 74: 391–402.

Lencina, V. B., Singer, J. M. & Stanek III, E. J. (2005). Much ado aboutnothing: the mixed models controversy revisited, International Sta-tistical Review 73: 9–20.

Singer & Nobre & Rocha - marco/2011

Page 199: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 195

Lencina, V. B., Singer, J. M. & Stanek III, E. J. (2008). Response toJ.A. Nelder: What is the mixed models controversy?, InternationalStatistical Review 76: 134–139.

Levin, J. R. (1981). Pretest-posttest designs: Letter to the editor, TheAmerican Statistician 35: 178–179.

Lindsey, J. K. (1999). Models for repeated measurements, 2 edn, Oxford:Oxford University Press.

Lindstrom, M. J. & Bates, D. M. (1988). Newton-raphson and EM algo-rithms for linear mixed-effects models for repeated-measures data,Journal of the American Statistical Association 83: 1014–1022.

Magnus, J. R. & Neudecker, H. (1988). Matrix differential calculus withapplications in Statistics and Econometrics, New York: Wiley.

Maritz, J. S. & Lwin, T. (1989). Empirical Bayes methods, 2 edn, London:Chapman & Hall.

McCulloch, C. E. & Searle, S. R. (2001). Generalized, linear, and mixedmodels, New York: Wiley.

Molenberghs, G. & Verbeke, G. (2000). Linear mixed models for longi-tudinal data, New York: Springer.

Molenberghs, G. & Verbeke, G. (2005). Models for discrete longitudinaldata, New York: Springer.

Morettin, P. A. & Toloi, C. M. C. (2006). Analise de series de tempo, 2edn, Sao Paulo: Edgard Blucher.

Morrison, D. F. (1988). Multivariate statistical methods, 2 edn, NewYork: McGraw-Hill.

Nelder, J. A. (1998). The great mixed-model muddle is alive and flour-ishing, alas!, Food quality and prefernce 9: 157–159.

Patterson, H. D. & Thompson, R. (1971). Recovery of interblock infor-mation when block sizes are unequal, Biometrika 58: 545–554.

Paula, G. A. (2004). Modelos de regressao com apoio computacional, SaoPaulo: IME/USP.

Singer & Nobre & Rocha - marco/2011

Page 200: An alise de dados longitudinais - docs.ufpr.br

196 BIBLIOGRAFIA

Potthoff, R. F. & Roy, S. N. (1964). A generalized multivariate analy-sis of variance model useful especially for growth curve problems,Biometrika 51: 313–326.

Rao, C. R. (1959). Some problems involving linear hypotheses in multi-variate analysis, Biometrika 46: 49–58.

Rao, C. R. (1965). The theory of least squares when the parametersare stochastic and its application to the analysis of growth curves,Biometrika 52: 447–458.

Rao, C. R. (1966). Covariance adjustment and related problems in mul-tivariate analysis, Multivariate Analysis II. P.R. Krishnaiah (ed).New York: Academic Press, pp. 87–103.

Rao, C. R. (1967). Least squares theory using an estimated dispersionmatrix and its application to measurement of signals, Proceedings ofthe 5th Berkeley Symposium on Mathematical Statistics and Proba-bility, Vol. I, pp. 355–372.

Rao, C. R. (1987). Prediction of future observations in growth curvemodels, Statistical Science 4: 434–471.

Rao, M. N. & Rao, C. R. (1966). Linked cross-sectional study for deter-mining norms and growth rates - a pilot survey on indian school-going boys, Sankhya, B 28: 237–258.

Ratkowsky, D. A., Aldredge, R. & Evans, M. A. (1992). Cross-overexperiments, New York: Marcel Dekker.

Robinson, G. K. (1991). The estimation of random effects (with discus-sion), Statistical Science 6: 15–51.

Rouanet, H. & Lepine, D. (1970). Comparison between treatments ina repeated measurement design: ANOVA and multivariate meth-ods, The British Journal of Mathematical and Statistical Psychology23: 147–163.

Rowell, J. G. & Walters, D. E. (1976). Analysing data with repeatedobservations on each experimental unit, Journal of Agricultural Sci-ence 87: 423–432.

Singer & Nobre & Rocha - marco/2011

Page 201: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 197

Schafer, W. D. (1981). Pretest-posttest designs: Letter to the editor,The American Statistician 35: 179.

Searle, S. R. (1971). Linear models, New York: Wiley.

Searle, S. R. (1982). Matrix algebra useful for Statistics, New York:Wiley.

Searle, S. R., Casela, G. & McCullogh, C. E. (1992). Variance compo-nents, New York: Wiley.

Seber, G. A. F. & Wild, C. J. (1989). Nonlinear regression, New York:Wiley.

Self, S. G. & Liang, K. Y. (1987). Asymptotic properties of maximumlikelihood estimators and likelihood ratio tests under nonstandardconditions, Journal of the American Statistical Association 82: 605–610.

Sen, P. K. & Singer, J. M. (1993). Large sample methods in Statistics:an introduction with applications, New York: Chapman and Hall.

Singer, J. M. & Andrade, D. F. (1994). On the choice of appropriateerror terms in profile analysis, The Statistician 43: 259–266.

Singer, J. M. & Andrade, D. F. (2000). Analysis of longitudinal data,Handbook of Statistics, Volume 18: Bio-environmental and PublicHealth Statistics. Eds. P.K. Sen and C.R. Rao, pp. 115–160.

Singer, J. M. & Magalhaes, L. M. (1998). Efeito do so dio na pressao ar-terial em hipertensos essenciais, Technical Report RAE-CEA-97P37,Centro de Estatıstica Aplicada, IME, Universidade de Sao Paulo.

Singer, J. M. & Polli, D. A. (2004). Avaliacao clınica de dois ade-sivos dentinarios 18 meses apos aplicacao em dentina seca ou umida,Technical Report CEA-RAE-04P12, Centro de Estatıstica Aplicada,IME, Universidade de Sao Paulo.

Singer, J. M., Seoanes, M. & Ogando, M. A. (1988). Estudo do efeitoda infusao aguda de mgso4 nas funcoes hemodinamicas e renais emcaes, Technical Report SEA-RAE, Centro de Estatıstica Aplicada,IME, Universidade de Sao Paulo.

Singer & Nobre & Rocha - marco/2011

Page 202: An alise de dados longitudinais - docs.ufpr.br

198 BIBLIOGRAFIA

Soler, J. M. P. & Singer, J. M. (2000). Optimal covariance adjustment ingrowth curve models, Computational Statistics and Data Analysis33: 101–110.

Souza, G. S. (1998). Introducao aos modelos de regressao linear e nao-linear, Brasılia: EMBRAPA.

Stanek III, E. J. (1988). Choosing a pretest-posttest analysis, The Amer-ican Statistician 42: 178–183.

Stram, D. O. & Lee, J. W. (1994). Variance components testing in thelongitudinal mixed effects model, Biometrics 50: 1171–1177.

Tountenburg, H. (1982). Prior information in linear models, New York:Wiley.

Verbeke, G. & Lesaffre, E. (1996). Large sample properties of the maxi-mum likelihood estimators in linear mixed models with misspecifiedrandom effects distributions, Technical report, Biostatical Centre forClinical Trials, Catholic University of Leuven, Belgium.

Verbeke, G. & Molenberghs, G. (1997). Linear mixed models in practice:a SAS-oriented approach, New York: Springer.

Vonesh, E. F. & Carter, R. L. (1987). Efficient inference for random-coefficient growth curve models with unbalanced data, Biometrics42: 601–610.

Vonesh, E. F. & Chinchilli, V. M. (1997). Linear and nonlinear models forthe analysis of repeated measurements, New York: Marcel Dekker.

Voss, D. T. (1999). Resolving the mixed model controversy, The Ameri-can Statistician 53: 352–356.

Vu, H. T. V. & Zhou, S. (1997). Generalization of likelihood ratio testsunder nonstandard conditions, The Annals of Statisitics 25: 897–916.

Wei, B. C., Hu, Y. Q. & Fung, W. K. (1998). Generalized leverage andits applications, Scandinavian Journal of Statistics 25: 25–37.

Weiss, R. E. & Lazaro, C. G. (1992). Residual plots for repeated mea-sures, Statistics in Medicine 11: 115–124.

Singer & Nobre & Rocha - marco/2011

Page 203: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 199

Wishart, J. (1938). Growth rate determination in nutrition studies withthe bacon pig and their analysis, Biometrika 30: 16–24.

Zeger, S. L., Liang, K. Y. & Albert, P. S. (1988). Models for longitu-dinal data: a generalized estimating equation approach, Biometrics44: 1049–1060.

Singer & Nobre & Rocha - marco/2011

Page 204: An alise de dados longitudinais - docs.ufpr.br

Indice

Area sob a curva, 8, 27Endpoint, 8population-averaged, 9subject-specific, 9

Algoritmoscoring, 49EM, 49Newton-Raphson, 49

Analisede regressao, 5de series cronologicas, 158de series de tempo, 158

ANCOVA, 6, 68ANOVA, 5, 6, 127autocorrelacao, 161

Coeficientede determinacao, 141de determinacao ajustado, 141

Combinacao linear, 89Condicao de Noether, 136controversia dos modelos mistos, 61Covariavel

time dependent covariate, 5dependente do tempo, 5, 6

Criterio de informacaoAkaike, 43Schwarz, 43

Curvade crescimento, 10de influencia, 150

Desfecho, 8, 27Desigualdade

de Cauchy-Schwarz, 100triangular, 100

DFFITS, 155Diagnostico, 141

analise de sensibilidade, 141avaliacao do ajuste, 141

Distancia de Cook, 154

Efeitoprincipal, 172

efeito de tratamento, 170Elipsoide

de confianca, 150, 155Equacao

de estimacao, 134de Henderson, 40normal, 134

Espaco vetorial, 98complemento ortogonal, 101dimensao, 98espaco euclidiano, 100espaco nulo, 99subespaco vetorial, 98

Espaco-coluna, 89Estatıstica

de Wald, 42da razao de verossimilhacas, 42de Durbin-Watson, 162de Wald, 137, 138

Estimador

Page 205: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 201

BLUE, 39, 134de maxima verossimilhanca re-

strita, 38de mınimos quadrados general-

izados, 36EBLUE, 41linear nao-enviesado de variancia

mınima, 134Estudo

de coorte, 2longitudinal, 2tipo painel, 2transversal, 2

Formabilinear, 104linear, 103quadratica, 104

Forma quadratica, 133Funcao

escore, 49gradiente, 107

Graficode perfis de medias, 25da variavel adicionada, 153de perfis, 57, 77de perfis individuais, 24de regressao parcial, 153Q-Q, 147

Grau de alavanca, 150

heterocedasticidade, 26

Independencia linear, 89Influencia

global, 150local, 150

Interacao, 131, 172essencial, 58, 72

nao-essencial, 172

Maxima verossimilhancarestrita, 139

Media geral, 170Metodo

da uniao-interseccao, 46de mınimos quadrados general-

izados, 137de mınimos quadrados ordinarios,

133de mınimos quadrados ponder-

ados, 138bayesiano, 36da maxima verossimilhanca, 36da maxima verossimilhanca re-

strita, 36de ajuste por covariancia, 47de mınimos quadrados general-

izados, 167MANOVA, 45, 60Matriz, 83

autovalor, 102autovetor, 103base, 102base ortonormal, 102chapeu (hat matrix ), 144circular, 48cofator, 90de covariancias amostrais, 27de informacao empırica, 49de posto completo, 90de predicao, 144de projecao, 144definida nao negativa, 104definida positiva, 104definida semi-positiva, 104determinante, 90diagonal, 87

Singer & Nobre & Rocha - marco/2011

Page 206: An alise de dados longitudinais - docs.ufpr.br

202 BIBLIOGRAFIA

diagonal em blocos, 94esferica, 48hessiana, 49, 108idempotente, 88identidade, 87inversa, 91inversa generalizada, 93, 134jacobiana, 109menor, 90menor principal, 90multiplicacao por escalar, 84nao-singular, 90, 91norma, 101operador vec, 96operador vech, 97particionada, 89posto, 90produto de, 85produto de Kronecker, 94produto direto, 94produto tensorial, 94quadrada, 86raiz caracterıstica, 102simetrica, 87soma de, 85soma direta, 94submatriz, 88traco, 93transposta, 86triangular, 88triangular inferior, 88triangular superior, 87vetor caraterıstico, 103vetorizacao, 96

Medida resumo, 8, 27Modelo

split-plot, 62de independencia condicional, 31condicional, 10

de analise de perfis, 45de crescimento, 10de curvas de crescimento, 47de erros de medida, 123de parametros irrestritos, 61de parametros restritos, 61de perfis, 10de regressao linear multipla, 123de regressao linear simples, 123de regressao segmentada, 131em dois estagios, 30heterocedastico, 137homocedastico, 137incondicional, 10individual, 9inidentificavel, 170linear assimetrico, 11linear elıptico, 11linear generalizado, 11mecanıstico, 11misto, 61, 167populacional medios, 9

Movimento browniano, 11

Normade Frobenius, 100

Observacaodiscrepante, 142, 145omissa, 6

Operador diagonal, 87

Parametrode localizacao, 30de nao-centralidade, 105estimavel, 170

Parametrizacaode cela de referencia, 170de desvios de medias, 170de medias de celas, 169

Singer & Nobre & Rocha - marco/2011

Page 207: An alise de dados longitudinais - docs.ufpr.br

BIBLIOGRAFIA 203

Perfilresponse profile, 5de resposta, 5

Pico, 27peak, 27

Planejamentolinked, 6balanceado com relacao ao tempo,

6com intercambio, 2crossover, 2encadeado, 6split-plot, 2transversal misto, 6

PreditorBLUP, 39EBLUP, 41

Processo de Ornstein-Uhlenbeck, 11

Regressaocom erros nas variaveis, 123

Reparametrizacaode desvios medios, 61

Resıduoenvelope simulado, 147ordinario, 144predito, 146recursivo, 146studentizado, 144studentizado externamente, 146

Restricaode identificabilidade, 61, 170

Series de tempo, 2Soma de quadrados

devida a regressao, 140residual, 140total, 140

Teorema

de Hajek-Sidak, 137de Sverdrup, 138limite central, 136

Transformacaolinear, 99

Trilhamento, 5tracking, 5

trilhamento, 26

Variavellatente, 30

Verossimilhancaresidual, 37restrita, 37

Vetor, 84distancia euclidiana, 100norma, 100ortogonais, 101ortonormal, 101produto interno, 100projecao ortogonal, 102unitario, 100

Singer & Nobre & Rocha - marco/2011