introdução à análise de dados categóricos

INTRODUÇÃO À ANÁLISE DE DADOS

CATEGÓRICOS

SUELY RUIZ GIOLO

Departamento de EstatísticaUniversidade Federal do Paraná

[email protected]

57a Reunião Anual da RBrasESALQ/USP - Piracicaba/SP

05 a 09 de maio de 2012

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Minicurso - 57a Reunião Anual da RBras

Conteúdo

1 Conceitos Introdutórios, Notação e Exemplos

2 Delineamentos Amostrais e Modelos Associados

3 Dados em Tabelas de ContingênciaTestes e Medidas de Associação

4 Alguns Modelos de RegressãoResposta Binária ou DicotômicaResposta PolitômicaResposta Dicotômica em Dados Pareados

5 Diversas Ilustrações (Resultados - Software R)



Bibliografia Básica

Agresti, A. (1995). Introduction to the Analysis of CategoricalData. New York: Wiley.

Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:Wiley.

Everitt, B.S. (1977). The Analysis of Contingency Tables.London: Chapman and Hall.

Hosmer, D.W.; Lemeshow, S. (2000). Applied LogisticRegression. New York: John Wiley & Sons.

Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.New York: Marcel Dekker.

Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis ofDiscrete Data. New York: Springer-Verlag.

Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical DataAnalysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.



Bibliografia Complementar

Demétrio, C.G.B. (2001). Modelos Lineares Generalizados emExperimentação Agronômica. Piracicaba: Minicurso 46a Rbrase 9o SEAGRO.

Giolo, S.R. (2012). Introdução à Análise de Dados Categóricoscom Aplicações. Material Didático, 190p.

Paula, G.A. (2010). Modelos de Regressão com ApoioComputacional. URL: http://www.ime.usp.br/ giapaula/

Paulino, C.D.M.; Singer, J.M. (2006). Análise de DadosCategorizados. São Paulo: Blucher.

Poleto, F.Z. (2006). Análise de Dados Categorizados comOmissão. Dissertação de mestrado. São Paulo: Depto deEstatística, IME/USP.

Dentre outros ....



Conceitos Introdutórios



Introdução

Em diversos estudos é comum o registro de variáveisqualitativas e quantitativas (contínuas ou discretas)

⇒ melhora do paciente (sim ou não)⇒ desempenho do candidato (bom, regular ou péssimo)⇒ local de moradia (norte, sul, leste, oeste)⇒ horas de alívio de dor de cabeça (0, 1, 2, 3 ou > 4)⇒ idade (em anos)

Tais variáveis são comumente classificadas de acordocom suas respectivas escalas de mensuração

⇒ dicotômicas ou binárias⇒ politômicas (ordinais ou nominais)⇒ contagens discretas⇒ contínuas



Introdução

Por interesse do pesquisador, ou por conveniência,variáveis contínuas podem ser categorizadas.

⇒ idade: faixas etárias⇒ resultado de um exame médico: normal ou anormal⇒ peso: obeso e não-obeso⇒ peso: < 60, [60, 100), [100, 150) e ≥ 150kg.

Grupar categorias pode ser necessário quando houvercategorias com frequências muito pequenas ou nulas.

Em função do delineamento amostral e dos objetivos, asvariáveis podem ser, ainda, classificadas em:

⇒ variáveis resposta⇒ variáveis explicativas .

Nem sempre tal classificação é simples ou óbvia.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS


Objetivos do Minicurso

Apresentar testes, medidas de associação e modelos deregressão utilizados com frequência em estudos em que:

⇒ variável resposta : categórica⇒ variáveis explicativas : categóricas e/ou contínuas.

⇓

Análise de dados dessa natureza

⇒ análise de dados categóricos⇒ análise de dados discretos

Justificativa: distribuições discretas de probabilidade (binomial,multinomial, poisson, binomial negativa etc.) são usualmenteassociadas à variável resposta.



Exemplos de Dados Categóricos

Estudo sobre exposição ao álcool e câncer de esôfago.

Câncer de EsôfagoConsumo de Álcool Sim Não Totais

Sim 96 109 205Não 104 666 770

Totais 200 775 975Fonte: Tuyns et al. (1977), Santner e Duffy (1989)

RELAÇÃO

CAUSA︸︷︷︸ − EFEITO︸︷︷︸consumo álcool câncer esôfago

⇓ ⇓variável explicativa variável resposta

⇓ ⇓dicotômica dicotômica




Avaliação de medicamentos no tratamento de pacientes comdiagnóstico de infecção urinária.

CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40

Fonte: Koch et al. (1985)

variável resposta ⇛{

Cura ⇒ dicotômica

variáveis explicativas ⇛

{Diagnóstico da Infecção ⇒ dicotômica

Medicamentos ⇒ politômica nominal




Estudo multicentros para avaliacão de medicamentos notratamento de infecções respiratórias.

EfeitoCentros Medicamentos Favorável Não favorável Totais

1 Novo 29 16 451 Padrão 14 31 45

Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45

Totais 61 29 90Fonte: Stokes et al. (2000)


Efeito ⇒ dicotômica

variável explicativa ⇛{


variável estratificadora ⇛{

Centros




Estudo sobre medicamentos para dores de cabeça.Horas de alívio

Medicamentos 0 1 2 3 4 TotaisPlacebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77

Fonte: Stokes et al. (2000)


Horas de Alívio ⇒ contagem discreta

⇓politômica ordinal






Influência de aditivos na água sobre a limpeza das roupas.Limpeza

Tratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166Fonte: Stokes et al. (2000)


Limpeza das Roupas ⇒ politômica ordinal


Tratamentos ⇒ politômica ordinal




Estudo sobre preferência de programa de aprendizado.Preferência de Aprendizado

Escola Período Individual Grupo Sala Aula Totais1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44



Preferência Aprendizado ⇒ politômica nominal

variáveis explicativas ⇛

{Escola ⇒ politômica nominal

Período Escolar ⇒ politômica nominal




Estudo crossover de dois períodos para avaliação detratamentos (A, B e P = Placebo) em jovens e adultos.

Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50


FF = favorável nos dois períodos; FU = favorável no 1o período e não-favorável no 2o;

UF = não favorável no 1o período e favorável no 2o, UU = não favorável nos dois períodos.

Indivíduo é considerado como sendo seu próprio controle.



Terminologia e Notação

A partir dos exemplos ⇛ dados de estudos em que aresposta e as variáveis explicativas são categóricas (ouforam categorizadas) são, sempre que possível, organi-zados em Tabelas de Contingência .

Nos casos em que se tem duas variáveis, X e Y, comambas apresentando duas categorias cada.

Tabela de Contingência 2 × 2.

Categorias da Categorias da resposta Yvariável X j = 1 j = 2 Totais

i = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n++ = n




Por conveniência, as categorias de X estarão dispostasnas linhas da tabela, enquanto as de Y, nas colunas.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n

Frequências nij ⇛ indivíduos na categoria i de X ecategoria j de Y, i, j = 1,2.

Totais marginais-linha ⇛ frequências ni+ (i = 1,2).

Totais marginais-coluna ⇛ frequências n+j (j = 1,2).

Total geral ou amostral n ⇛ soma dos nij, i, j = 1,2.




Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n

pij = P(X = i,Y = j) ⇛ probabilidades conjunta.

p(i)j = P(Y = j | X = i) ⇛ probabilidades condicionais

pi(j) = P(X = i | Y = j) ⇛ probabilidades condicionais

pi+ = P(X = i) ⇛ probabilidades marginais-linha

p+j = P(Y = j) ⇛ probabilidades marginais-coluna




Nos casos mais gerais ⇒ Y e X1, . . . ,Xk

Tabelas de Contingência s× r

Categorias da variável respostaSubpopulações 1 2 · · · r Totais

1 n11 n12 · · · n1r n1+

2 n21 n22 · · · n2r n2+...

......

......

...s ns1 ns2 · · · nsr ns+

Totais n+1 n+2 · · · n+r n

Subpopulações = combinações das categorias de X1, . . . ,Xk.



Alguns Delineamentos Amostraise

Modelos Associados



Delineamentos Amostrais

Um estudo pode ser planejado de diferentes formas.

A escolha por uma delas depende, dentre outros:

Objetivos do estudoCustos e tempo envolvidos para obtenção dos resultadosDisponibilidade de uma equipe para condução do estudoDisponibilidade das unidades amostraisViabilidade de acompanhamento das unidades amostrais

A seguir, são apresentados alguns delineamentos .



Estudos Clínico-Epidemiológicos

Estudos de Coorte



Estudos de Coorte

Assim, para esses estudos tem-se:

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) n1+i = 2 (E) n2+

Totais

Desse modo, a probabilidade de um indivíduo pertencer acategoria j de Y, estando na categoria i de X, é dada por:

p(i)j = P(Y = j | X = i)


i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1

p(1)1 ⇒ incidência entre os expostosp(2)1 ⇒ incidência entre os não-expostos



Estudos de Coorte

Sendo assim:{

N11 ∼ Bin(n1+,p(1)1)N21 ∼ Bin(n2+,p(2)1)

Modelo probabilístico: produto de binomias

P(N1 = n1,N2 = n2) =2

∏i=1

P(Ni1 = ni1,Ni2 = ni2)

=2

∏i=1

[(ni+)!

2

∏j=1

(p(i)j)nij

(nij)!

]

com (Ni = ni) = (Ni1 = ni1,Ni2 = ni2), i = 1, 2.

Probabilidades p(i)j estimadas por:

p(i)j =nij

ni+i, j = 1,2



Estudos de Coorte



{H0: p(1)1 = p(2)1 (= p+1) ⇛ hipótese de homogeneidadeHA: p(1)1 6= p(2)1

Karl Pearson propôs

Qp =2

∑i=1

2

∑j=1

(nij − eij)2

eij∼ χ2

(1)

Sob H0 ⇛ E(Ni1) = ni+(p+1) e E(Ni2) = ni+(p+2)

Estimativas ⇛ eij =(ni+)(n+j)

ni, j = 1,2



Estudos de Coorte

Duas outras estatísticas comumente utilizadas são:

1 Estatística da Razão de Verossimilhanças

QL =−22

∑i=1

2

∑j=1

nij log

(eij

nij

)∼ χ2

(1)

2 Estatística de Neyman

QN =2

∑i=1

2

∑j=1

(nij − eij)2

nij∼ χ2

(1)

Em certas situações ⇛ Teste Exato de Fisher .



Estudos de Coorte

Categorias Categorias de Y

de X j = 1 (D) j = 2 (D) Totaisi = 1 (E) p(1)1 p(1)2 = (1−p(1)1) 1i = 2 (E) p(2)1 p(2)2 = (1−p(2)1) 1Totais p+1 p+2 1

Note que H0: p(1)1 = p(2)1 pode também ser expressa por:

a) H0: p(1)1−p(2)1︸︷︷︸= 0

diferença entre incidências ⇒ risco atribuível

b) H0:p(1)1p(2)1︸︷︷︸

= 1

razão de incidências ⇒ risco relativo

c) H0:p(1)1/(1−p(1)1)

p(2)1/(1−p(2)1)=

p(1)1/p(1)2p(2)1/p(2)2

=p(1)1 p(2)2p(1)2 p(2)1︸︷︷︸

= 1

razão dos produtos cruzados ⇒ odds ratio ou razão de chances



Estudos de Coorte

odds ou chance =probabilidade evento ocorrer

probabilidade evento não ocorrer

Status de Evento de Interesse

Exposição Sim (D) Não (D) TotaisE 80 20 100E 25 75 100

Totais 105 95 200

oddsE =p(1)1

1−p(1)1⇒ oddsE = 0,8/0,2 = 4/1

oddsE =p(2)1

1−p(2)1⇒ oddsE = 0,25/0,75 = 1/3

odds ratioE|E = oddsEoddsE

⇒ OR = 12

risco relativoE|E =p(1)1p(2)1

⇒ RR = 0,8/0,25 = 3,2.



Estudos de Coorte



ORE|E =oddsE

oddsE=

p(1)1/p(1)2p(2)1/p(2)2

=p(1)1 p(2)2p(1)2 p(2)1

⇓

ORE|E =n11n22

n12n21



Estudos de Coorte

Se RR = 1, a probabilidade de resposta positiva nãodifere entre os indivíduos expostos e não-expostos.

Se RR > 1, a probabilidade de resposta positiva émaior entre os indivíduos expostos.

Se RR < 1, a probabilidade de resposta positiva émaior entre os indivíduos não-expostos.

Se OR = 1, a chance de resposta positiva não difereentre os indivíduos expostos e não-expostos.

Se OR > 1, a chance de resposta positiva é maiorentre os indivíduos expostos.

Se OR < 1, a chance de resposta positiva é maiorentre os indivíduos não-expostos.

Chance e probabilidade não têm o mesmo significado!Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS


Estimação por Intervalo - Medidas de Associação

Risco Relativo ⇛ IC = exp(

f ± zα/2

√V(f )

)

f = ln(RR) = ln(p(1)1)− ln(p(2)1)

V(f ) =(1−p(1)1)

(n1+)(p(1)1)+

(1−p(2)1)(n2+)(p(2)1)

zα/2 = 100(1−α/2) percentil da N(0,1)

Odds Ratio ⇛ IC = exp(

f ± zα/2

√V(f )

)

f = ln(OR)

V(f ) =(

1n11

+ 1n12

+ 1n21

+ 1n22

)

zα/2 = 100(1−α/2) percentil da N(0,1)



Recursos do Software R

Comandos R

Obs: instalar package epiR http://www.r-project.org/

> require(epiR)> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,

conf.level=0.95, units=100, verbose=FALSE)

Disease + Disease - Total Inc risk OddsExposed + 80 20 100 80.0 4.000Exposed - 25 75 100 25.0 0.333Total 105 95 200 52.5 1.105

Point estimates and 95% CIs:--------------------------------------------------- ------Inc risk ratio 3.2 (2.25, 4.56)Odds ratio 12 (6.16, 23.38)--------------------------------------------------- ------




Comandos R

> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,conf.level=0.95, units=100, verbose=TRUE)

$RRest se lower upper

1 3.2 1.197550 2.247488 4.556197$OR

est se lower upper1 12 1.405430 6.158583 23.38200$chisq

test.statistic df p.value1 60.65163 1 6.77236e-15

-------------------------------------# Testes de Pearson e Fisher> dados<-matrix(c(80,25,20,75),nc=2)> chisq.test(dados,correct=F)> fisher.test(dados)




Ensaio Clínico Aleatorizado




X Y = DesfechoGrupos j = 1 (Com) j = 2 (Sem) Totais

i = 1 (Tratado) p(1)1 p(1)2 1i = 2 (Controle) p(2)1 p(2)2 1

Totais p+1 p+2 1

Delineamento Similar ao dos Estudos de Coorte

⇓

Hipóteses, Testes e Medidas são similares com as devidasinterpretações no contexto do ensaio clínico realizado.

Estudos de Coorte ⇛ ObservacionaisEnsaios Clínicos ⇛ Experimentais




Estudos Caso-Controle




Nesses estudos, amostras de tamanhos n+1 e n+2 sãoobtidas das subpopulações de casos e controles.


de X j = 1 (C) j = 2 (C) Totaisi = 1 (E)i = 2 (E)Totais n+1 n+2


de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

{N11 ∼ Bin(n+1,p1(1))N12 ∼ Bin(n+2,p1(2))




Modelo probabilístico: produto de binomiais tal que:

P(N1 = n1,N2 = n2) =2

∏j=1

[(n+j)!

2

∏i=1

(pi(j))nij

(nij)!

]

com (Nj = nj) = (N1j = n1j,N2j = n2j) e ∑2i=1 pi(j) = 1, j = 1, 2.

Probabilidades pi(j), i, j = 1, 2, estimadas por:

pi(j) =nij

n+j

Se a suposição de independência entre casos e controlesnão for razoável ⇛ metodologias mais apropriadas.






i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

{H0: p1(1) = p1(2) (= p1+) ⇛ hipótese de homogeneidadeHA: p1(1) 6= p1(2)

Qp =2

∑i=1

2

∑j=1

(nij − eij)2

eij∼ χ2

(1)

Sob H0 ⇛ E(N1j) = n+j(p1+) e E(N2j) = n+j(p2+)

Estimativas ⇛ eij =(ni+)(n+j)

ni, j = 1,2






i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

Note que H0: p1(1) = p1(2) pode também ser expressa por:

H0:p1(1)/(1−p1(1))

p1(2)/(1−p1(2))=

p1(1)/p2(1)

p1(2)/p2(2)=

p1(1) p2(2)

p2(1) p1(2)︸︷︷︸= 1

odds ratio ou razão de chances ou dos produtos cruzados

RR = P(D|E)/P(D|E) não se aplica a esses estudos.




odds ou chance =probabilidade exposição ao fator

probabilidade não-exposição ao fator

Status de GruposExposição Casos Controles Totais

E 60 20 80E 40 80 120

Totais 100 100 200

oddsC =p1(1)

1−p1(1)⇒ oddsC = 0,6/0,4 = 3/2

oddsC =p1(2)

1−p1(2)⇒ oddsE = 0,20/0,80 = 1/4

odds ratioC|C = oddsCoddsC

⇒ OR = 6

Nesse exemplo, a chance de exposição ao fator sob estudofoi maior entre os casos do que entre os controles.



Estudos de Coorte


i = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

ORC|C =oddsC

oddsC=

p1(1)/p2(1)

p1(2)/p2(2)=

p1(1) p2(2)

p1(2) p2(1)

⇓

ORC|C =n11n22

n12n21




Comandos R> require(epiR)> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control" ,

conf.level = 0.95, units=100, verbose = FALSE)Disease + Disease - Total Prevalence Odds

Exposed + 60 20 80 75.0 3.0 ?Exposed - 40 80 120 33.3 0.5 ?Total 100 100 200 50.0 1.0 ?

> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control" ,conf.level = 0.95, units=100, verbose = FALSE)

Exposed + Exposed - Total Prevalence OddsDisease + 60 40 100 60 1.500Disease - 20 80 100 20 0.250Total 80 120 200 40 0.667Point estimates and 95% CIs:--------------------------------------------------- ------Odds ratio 6 (3.19, 11.29)--------------------------------------------------- ------



Relação entre odds ratio e risco relativo

Doenças raras ⇒ Estudos de Coorte são inviáveis.Nesses casos ⇒ Estudos Caso-Controle são usuais.

Resultado: Se doença rara ⇛ RR ≈ OR

De fato,⇛ D = doença, D = não doença, P(D) = 1−P(D)⇛ E = exposição e E = não-exposição

RR =p(1)1p(2)1

=P(D|E)

P(D|E)=

P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]

P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]

=P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}

P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}

Se doença rara, P(D) → 0︸︷︷︸

RR ≈P(E|D)P(E|D)

P(E|D)P(E|D)=

p1(1)p2(2)

p2(1)p1(2)= OR




Estudos Transversais ou Cross-Sectional




Embora ambas as variáveis sejam respostas, uma delasé usualmente classificada como variável explicativa.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2

Totais n

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22

Totais 1




Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22

Totais 1

Categorias de Xi = 1 i = 2

Categorias de Y j = 1 j = 2 j = 1 j = 2 Totalp11 p12 p21 p22 1




Modelo probabilístico: Multinomial tal que:

P(N = n) = P(N11 = n11,N12 = n12,N21 = n21,N22 = n22)

= n!2

∏i=1

2

∏j=1

(pij)nij

(nij)!

em que nij ≥ 0,2

∑i,j=1

nij = n e2

∑i,j=1

pij = 1.

Probabilidades pij (i, j = 1, 2) estimadas por:

pij =nij

n




Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12 p1+i = 2 p21 p22 p2+

Totais p+1 p+2 1

{H0: pij = (pi+)(p+j), para i, j = 1,2HA: pij 6= (pi+)(p+j), para pelo menos um par (i, j),

H0 é usualmente denominada hipótese de independência,pois a ausência de associação, em termos probabilísticos,significa independência mútua.




Considerando o modelo Multinomial a tais estudos

⇓

⇛ Frequências esperadas: E(Nij) = n(pij), i, j = 1,2.

⇛ Desse modo, sob H0 7→ E(Nij) = n(pi+)(p+j), i, j = 1,2.

⇛ Estimativas:

eij = n

(ni+

n

)(n+j

n

)=

(ni+)(n+j)

ni, j = 1,2

Para testar H0 ⇛ Estatísticas de teste QP, QL e QN .



Estudos Transversais ou Cross Sectional

Das definições de risco relativo e odds ratio, pode-se notarque ambas não são apropriadas aos estudos transversais.Em epidemiologia, contudo, a prevalência de doenças éuma medida de interesse nesses estudos.

prevalência = proporção de indivíduos que ESTÃO doentes em um

determinado tempo específico (época da realização do estudo).

incidência = proporção de indivíduos que TORNARAM-SE doentes no

decorrer de um período de tempo específico de acompanhamento.

Assim, se condicionarmos aos totais ni+ e se for dada adevida atenção às interpretações, é comum o uso da ORe da razão de prevalências (RP) nesses estudos.

OR =n11n22

n12n21e RP =

n11/n1+

n21/n2+




Comandos R

> epi.2by2(a=60, b=20, c=40, d=80, method="cross.section al",conf.level = 0.95, units=100, verbose = FALSE)

Disease + Disease - Total Prevalence OddsExposed + 60 20 80 75.0 3.0Exposed - 40 80 120 33.3 0.5Total 100 100 200 50.0 1.0

Point estimates and 95% CIs:--------------------------------------------------- --------Prevalence ratio 2.25 (1.70, 2.99)Odds ratio 6 (3.19, 11.29)--------------------------------------------------- --------



Estudos com Tempo de Duração Fixado

Durante o planejamento e execução dos estudos, nemsempre é possível estabelecer o total de participantes.

Tempo de duração do estudo é, então, pré-estabelecido.

Sendo assim, Nij, i, j = 1,2, são contagens aleatórias, comNij, e também N, conhecidas somente após o término dacoleta dos dados.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2

Totais




Insetos coletados em armadilhas e sexados.

SexoArmadilha Machos Fêmeas TotaisAlaranjada 246 17 263Amarela 458 32 490Totais 704 49 753

Fonte: Silveira Neto et al. (1976), Demétrio (2001)

Assumindo que certas suposições são válidas/razoáveis.em um determinado intervalo de tempo, o no de insetos é independente do no

de insetos em qualquer outro intervalo disjunto,

a distribuição do número de insetos depende somente do comprimento dointervalo de tempo considerado e não do seu instante inicial,

a probabilidade de um inseto passar em um intervalo de tempo suficientementepequeno é proporcional ao comprimento do intervalo,

a probabilidade de que dois ou mais insetos passem simultaneamente em umintervalo de tempo suficientemente pequeno é desprezível.




Então, é usual assumir

Nij ∼ Poisson (µij = tλij), i, j = 1, 2

⇒ λij a taxa média por unidade de tempo⇒ t a duração do experimento.

Considerando Nij independentes, i, j = 1, 2

Modelo Produto de Poisson independentes

P(N = n) =2

∏i=1

2

∏j=1

P(Nij = nij) =2

∏i=1

2

∏j=1

e−µij(µij)nij

(nij)!, µij > 0

com (N = n) = (N11 = n11,N12 = n12,N21 = n21,N22 = n22).

Estimativas ⇛ µij = nij, i, j = 1, 2.




Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 µ11 µ12 µ1+i = 2 µ21 µ22 µ2+

Totais µ+1 µ+2 µ

Sob este modelo, ausência de associação entre X e Y{

H0: µ1j

µ1+=

µ2j

µ2+

(=

µ+j

µ

), para j = 1,2.

HA: µ1j

µ1+6=

µ2j

µ2+{H0 : µij =

(µi+) (µ+j)µ , para i, j = 1,2.

HA: µij 6=(µi+) (µ+j)

µ , para ao menos um par ij.

Hipótese H0 ⇛ hipótese de multiplicatividade




Para testar tais hipóteses

Estatísticas QP, QL e QN

Como Nij ∼ Poisson(µij), i, j = 1,2, segue que:

⇛ E(Nij) = µij

⇛ Assim, sob H0, E(Nij) =(µi+)(µ+j)

µ

⇛ Logo, eij =(ni+)(n+j)

n , pois µi+ = ni+, µ+j = n+j e µ = n.

Obs : estudos dessa natureza são frequentementeanalisados assumindo-se o modelo Multinomial.

Justificativa: a distribuição de probabilidades do vetor(N11, . . . ,N22), Nij Poisson independentes, condicional àsoma N = ∑i,j Nij, segue distribuição Multinomial (N, p),com p = (p11, . . . ,p22), em que pij =

µij

∑i,j µij, para i, j = 1, 2.



Considerações sobre os Delineamentos Amostrais

Os delineamentos amostrais apresentados estão dentreos mais usuais. Como visto, seus respectivos modelosprobabilísticos são obtidos com base nos esquemasamostrais adotados.

Naturalmente, em estudos com outros esquemas, haveráa necessidade de se considerar outros modelos.

As conclusões estarão, contudo, condicionadas à validadedas suposições distribucionais.



Alguns Estudos Descritos na Literatura

1 Framingham Heart Study⇛ fatores associados à doenças cardiovasculares.

2 Nurses’ Health Study⇛ consequências do uso de contraceptivos orais a longo prazo.

3 Life Span Study⇛ expectativa de vida - efeito radiação bomba atômica Japão.

4 Pelotas Birth Cohort Study⇛ saúde infantil e materna.

5 Baependi Heart Study⇛ fatores associados à doenças cardiovasculares - população miscigenada.

6 Medicine, Angioplasty, or Surgery Study (MASS-II).⇛ comparação de tratamentos - pacientes c/ doença coronária multiarterial.



Extensões



Tabelas de Contingência s× r ( > 2)

1. Variáveis Y e X nominais

Estabelecidas as hipóteses apropriadas:

Se ni+ fixos ⇛ hipótese de homogeneidadeSe n fixo ⇛ hipótese de independênciaSe totais aleatórios ⇛ hipótese de multiplicatividade

QP =s

∑i=1

r

∑j=1

(nij − eij)2

eij∼ χ2

(s−1)(r−1)

com eij =(ni+)(n+j)

n , i = 1, . . . ,s e j = 1, . . . ,r.

Alternativamente ⇛ Estatísticas QL ou QN .

Em algumas situações ⇛ Teste Exato de Fisher.



Exemplo: X e Y nominais e n fixo (s e r > 2

Estudo transversal para avaliar a presença de associaçãoentre partido político e local de moradia.

Local de MoradiaPartido Político A B C D TotaisDemocrata 221 160 360 140 881Independente 200 291 160 311 962Republicano 208 106 316 97 727Totais 629 557 836 548 2570


Modelo associado ⇛ Multinomial{H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2,3,4HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).

QP = 273,92 (p < 0,0001, g.l = 6) ⇛ há evidências deassociação entre partido político e local de moradia.




Comandos R

> dados<-matrix(c(221,200,208,160,291,106,360,160,31 6,140,311,97),nc=4)

> dados

[,1] [,2] [,3] [,4][1,] 221 160 360 140[2,] 200 291 160 311[3,] 208 106 316 97

> chisq.test(dados,correct=F)

Pearson’s Chi-squared test

data: dadosX-squared = 273.9188, df = 6, p-value < 2.2e-16




2. Variável Y ordinal e X nominal com totais ni+ fixos

Avaliação de tratamentos em pacientes com artrite reumatóide.

Melhora do PacienteTratamentos Nenhuma Alguma Acentuada TotaisAtivo 13 7 21 41Placebo 29 7 7 43Totais 42 14 28 84


Nesses casos, a estatística QP pode ser utilizada paratestar H0 : p1 = p2 = ...= pr (hípótese de homogeneidade)

Modelo associado ⇛ Produto de multinomiais.

Contudo, a natureza ordinal da variável resposta nãoestaria sendo levada em consideração.



Variável Y ordinal e X nominal com totais ni+ fixos

Alternativa ⇛ atribuir escores a = (a1,a2, . . . ,ar) para ascategorias de Y e definir um escore médio Fi para cadasubpopulação tal que:

Fi =r

∑j=1

aj (p(i)j) i = 1, . . . ,s.

Se s = 2, como no exemplo da artrite ⇛ H0: F1 = F2.

f i = ∑rj=1 aj (p(i)j) = ∑r

j=1aj( nij

ni+

), i = 1,2

E(f 1|H0) = ∑rj=1 aj

(E(N1j)

n1+

)= ∑r

j=1 aj

(n+jn

)= µa

V(f 1|H0) =(n − n1+)(n1+)(n−1)

r

∑j=1

(aj −µa)2( n+j

n

)

︸︷︷︸=

(n − n1+)(n1+)(n−1)νa.

νa




Desse modo, para testar H0: F1 = F2 foi proposto:

QS =(f 1−µa)

2

(n − n1+)(n1+)(n−1)νa

=(n−1)(n−n1+)

(n1+)(f 1−µa)2

va

︸︷︷︸∼ χ2

1

estatística escore médio

Se s > 2 ⇛ H0: F1 = F2 = . . .= Fs.

QS =(n−1)

n∑s

i=1(ni+)(f i −µa)2

va︸︷︷︸∼ χ2

(s−1)

estatística escore médio

Se H0 for rejeitada ⇒ comparações dois a dois.⇑

paralelo com análise de variância um-fator




Comandos R> dados<-matrix(c(13,29,7,7,21,7),nc=3)> escore<-c(0,1,2)> fb1<-(sum(dados[1,] * escore))/sum(dados[1,])> fb2<-(sum(dados[2,] * escore))/sum(dados[2,])> cbind(fb1,fb2)

fb1 fb2[1,] 1.195122 0.4883721> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3 ])))/

sum(dados)> mua<-sum(escore * esp); va<-sum((escore-mua)^2 * esp)> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,]) *

(sum(dados)-1))) * va> QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1> p<-1-pchisq(QS,gl)> cbind(QS, p)

QS p[1,] 12.85902 0.0003358568




Ensaio clínico aleatorizado realizado para avaliar um novomedicamento utilizado para aliviar dores de cabeça.

Horas de alívioMedicamentos 0 1 2 3 4 Totais

Placebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77


Modelo associado ⇛ Produto de Multinomiais.Devido a natureza discreta das categorias de Y

Pode-se utilizar a estatística escore médio

H0: F1 = F2 = F3.

QS = 13,7346(p = 0,001, g.l. = 2) ⇛ há evidências de quepelo menos dois medicamentos diferem entre si.




Mas quais medicamentos diferem entre si?

Comparações dois a dois, controlando erro do tipo I(por ex., pelo método de Bonferroni).

⇛ Estimativas: f 1 = 1,36, f 2 = 2,64 e f 3 = 2,41⇛ Considerando α = 0,05⇒ 0,05/3 = 0,017.⇛ Placebo vs padrão: QS = 11,66 (p = 0,0006, g.l. = 1)⇛ Placebo vs novo: QS = 8,60 (p = 0,0034, g.l. = 1)⇛ Padrão vs novo: QS = 0,46 (p = 0,4950, g.l. = 1).

Há evidências de que placebo 6= novo e padrão.

Note que existem frequências esperadas < 5⇛ inviabiliza uso de QP, mas não o de QS.




3.1 Variáveis Y e X ordinais e total n fixo

Estudo transversal realizado para investigar associaçãoentre uso de tabaco e a consciência do risco em usá-lo.

TabacoConsciência do risco Não usa Usa TotaisMínima 70 33 103Moderada 202 40 242Substancial 218 11 229Totais 490 84 574


Modelo associado: multinomial.{

H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).

Estatísticas QP, QL ou QN .



Variáveis Y e X ordinais e total n fixo

Porém, a variável uso de tabaco é dicotômica, enquantoconsciência do risco em usá-lo é ordinal ⇛ pode-sepensar em considerar escores para ambas.

Por exemplo, c = (c1,c2,c3) = (1,2,3) para as categorias deconsciência do risco de uso do tabaco e a = (a1,a2) = (0,1)para as categorias não usa e usa tabaco.

Desse modo, pode-se definir o escore médio

F =3

∑i=1

2

∑j=1

ci aj pij

Estimativa ⇛ f =3

∑i=1

2

∑j=1

ci aj pij =3

∑i=1

2

∑j=1

ci aj nij

n.



Variáveis Y e X ordinais e total n fixo

Sob H0 segue que:

E(f ) =3

∑i=1

2

∑j=1

ci aj

nE(Nij) =

3

∑i=1

ci

(ni+

n

) 2

∑j=1

aj

(n+j

n

)= µc µa

V(f ) =

{3

∑i=1

(ci −µc)2(ni+

n

) 2

∑j=1

(aj −µa)2(n+j/n)

(n−1)

}.

Para amostras grandes ⇛ f ∼ Normal.

QCS =(f − µc µa)

2

V(f )= . . .= (n−1)(rac)

2

︸︷︷︸∼ χ2

1

estatística da correlação

com rac o coeficiente de correlação de Pearson.Dados de tabaco ⇛ QCS = 42,94 (p < 0,0001)⇛ Há associação entre a consciência do risco e o uso de tabaco.

⇛ Uso tabaco ⇓ à medida que consciência do risco ⇑ (rac =−0,274).




Comandos R

> x<-c(rep(1,103),rep(2,242),rep(3,229))> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),

rep(0,218),rep(1,11))

> rac<-cor(y,x)> rac[1] -0.2737401

> n<-length(x)> QCS<-(n-1) * rac^2> p<-1-pchisq(QCS,1)

> cbind(QCS,p)QCS p

[1,] 42.93697 5.653222e-11



Outra situação em que Y e X ordinais

3.2 Variáveis Y e X ordinais e totais ni+ fixos

Influência de aditivos na água sobre a limpeza das roupas.

LimpezaTratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166


Assumindo: a = (1, 2, 3) categorias de limpeza das roupasc = (1, 2, 3) categorias de tratamento.

⇛ QCS = 50,6 (p < 0,0001, g.l.=1), com rac = 0,554.⇛ Há evidencias de associação entre X e Y.⇛ Limpeza ⇑ com o ⇑ da dosagem pois rac > 0.



Variáveis Y e X ordinais e totais ni+ fixos)

Em contrapartida, como os ni+ são fixos

⇛ QS = 52,77 (p < 0,00001, g.l.= 2).

⇛ Comparações dos tratamentos, dois a dois:

H0 : F1 = F2 ⇒ QS = 21,71 (p < 0,0001, g.l. = 1)H0 : F1 = F3 ⇒ QS = 49,06 (p < 0,0001, g.l. = 1)H0 : F2 = F3 ⇒ QS = 8,02 (p = 0,0046, g.l. = 1).

Para α = 0,05⇛ 0,05/3 = 0,017.

Rejeita-se as três hipóteses nulas testadas.

Como f1 = 1,52 < f2 = 2,30 < f3 = 2,67

Limpeza das roupas ⇑ com o ⇑ da dosagem do aditivo.




Assim, se as variáveis Y e X forem ordinais e escorespuderem ser assumidos para as categorias de ambas

⇓

Se total n fixo ⇛ estatística da correlação

QCS = (n−1)(rac)2 ∼ χ2

1

rac = coeficiente de correlação de Pearson.

Se ni+ fixos ⇛ estatísticas escore e/ou da correlação

QS e/ou QCS.



Análise Estratificada



Variáveis de Confundimento ou Estratificadoras

Nos estudos em geral ⇛ atenção deve ser dada àsvariáveis de confundimento ou estratificadoras.

Tais variáveis podem confundir uma aparente relação causal.Sendo assim, é necessário controlar ou minimizar o efeito dasmesmas para obtenção de conclusões mais confiáveis.

Análises que consideram o efeito dessas variáves sãousualmente denominadas análises estratificadas.

Isto porque as análises são realizadas com os dadosestratificados pelas categorias dessas variáveis.

A estratificação pode ser resultado do delineamento adotadoou sua necessidade pode aparecer após a coleta dos dados.



Exemplo de Variável de Confundimento

Câncer de PulmãoFumo Passivo Fumo Voluntário Sim Não Totais

Sim SimSim Não

TotaisNão SimNão Não

Totais


Câncer de Pulmão


Fumo Voluntário

variável confundimento ⇛{

Fumo Passivo

Obs : caso a influência do confundimento entre fumo voluntárioe fumo passivo não seja considerada, associação entre tabacoe câncer de pulmão pode até mesmo não ser detectada, ou suaintensidade não ser bem avaliada.



Exemplo de Variável Estratificadora

EfeitoCentros Medicamentos Favorável Não favorável Totais

1 Novo 29 16 451 Padrão 14 31 45

Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45

Totais 61 29 90


Efeito


Medicamentos

variável estratificadora ⇛{

Centros Médicos

Há diferenças entre os centros e entre os pacientes atendidos neles

⇛ razoável que seu efeito seja controlado na análise.Analogia com a análise de delineamentos experimentais ⇛ centros

médicos têm o sentido de blocos.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS


Mantel-Haenszel no Ensaio Clínico Multicentros

Em tais situações ⇛ Estatística Mantel-Haenszel (1959).No estudo multicentros tem-se:

conjunto de q = 2 tabelas de cont. 2 × 2 (h = 1, . . . ,q)

RespostaTratamentos j = 1 j = 2 Totais

i = 1 nh11 nh12 nh1+i = 2 nh21 nh22 nh2+

Totais nh+1 nh+2 nh

totais marginais-linha nhi+ fixos nas q = 2 tabelas.interesse em testar H0: ph(1)1 = ph(2)1, h = 1, . . . ,q

condicional a H0, Nh11 ∼ Hipergeométrica tal que

eh11= E(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh+1)

nh

vh11 = V(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh2+)(nh+1)(nh+2)

(nh)2(nh −1).



Estatística de Mantel-Haenszel

Sob H0 e para ∑qh=1nh suficientemente grande

QMH =

(q

∑h=1

nh11−q

∑h=1

eh11

)2

q

∑h=1

vh11

∼ χ2(1)

QMH é eficaz para avaliar associações se a maioria dasdiferenças (ph(1)1− ph(2)1) apresentar o mesmo sinal.Havendo homogeneidade das OR nas q tabelas 2 × 2

ORMH =

q

∑h=1

nh11nh22

nhq

∑h=1

nh12nh21

nh

.



Resultados - Ensaio Clínico Multicentros

QMH = 18,41 (p < 0,0001), indicando associação entre asvariáveis tratamento e resposta do paciente, controlandopela variável estratificadora centro médico.

Também, o medicamento novo apresenta proporção deresposta favorável maior do que a do placebo, uma vezque ph(1)1 > ph(2)1, para h = 1,2.

OR1 = 4,01 e OR2 = 4,04 (homogêneas)

ORMH = 4,028 ⇒ a odds de melhora dospacientes que receberam o novo tratamentofoi ≈ 4 vezes a dos que receberam placebo.




Comandos R

> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))> mantelhaen.test(tab, correct=F)

Mantel-Haenszel test without continuity correction

data: tabX-squared = 18.4106, df = 1, p-value = 1.781e-05

alternative hypothesis: true common odds ratiois not equal to 195 percent confidence interval:

2.105716 7.708353

sample estimates:common odds ratio

4.028846



Extensões da Estatística de Mantel-Haenszel

Extensões na presença de uma variável estratificadora

Y ordinal e X nominal com totais ni+ fixos ⇛ QSMH

Y e X ordinais com totais ni+ fixos ⇛ QSMH ou QCSMH

Y e X ordinais com total n fixo ⇛ QCSMH

QSMH ⇛ Estatística escore médio estendida de M-HQSMH ⇛ Estatística da correlação estendida de M-H

Para mais detalhes ⇒ Stokes et al. (2000).



Modelos para Dados comResposta Dicotômica



Dados com Resposta Binária ou Dicotômica

Para estudar a existência de associação entre um con-junto de variáveis X = (X1, X2, ..., Xk) e uma respostadicotômica Y ⇒ modelos de regressão são usuais.

X1 X2 ... Xk︸︷︷︸ Y︸︷︷︸

O modelo de regressão logística é um dos mais popularesnestas situações.

Quanto às variáveis X, estas podem ser ummisto de variáveis categóricas e contínuas.

As categóricas são incorporadas aos modelospor meio de variáveis dummy.



Modelo de Regressão Logística Dicotômica

Para introduzir o modelo de regressão logística, considereos dados de um estudo sobre doença coronariana.

Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais P(Y = 1 | x)

20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43

Fonte: Hosmer e Lemeshow (1989)

E(Y | x)︸︷︷︸ = 1 × P(Y = 1 | x) + 0 × P(Y = 0 | x) = P(Y = 1 | x)︸︷︷︸.




30 40 50 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Idade(em anos)

E[Y

|x]

Note que à medida que a x = idade cresce, E(Y | x) também cresce.

A mudança na E(Y | x) por unidade de mudança em x se tornaprogressivamente menor quando E(Y | x) próxima de 0 ou 1.

Relação entre idade e E(Y | x) não é, portanto, linear, mas simsigmoidal (forma de S).




Similar à regressão linear ⇛ interesse em modelar E(Y | x).

Necessário, contudo, considerar que:

E(Y | x) pertence ao intervalo [0, 1].

Relação entre X e E(Y | x) tem a forma de S.

⇓Sugere distribuição acumulada de uma v.a.

⇓Distribuição logística se tornou popular por:

ser extremamente flexível e fácil de ser utilizada.

conduzir a interpretações simples.




E(Y | x) = P(Y = 1 | x)︸︷︷︸= θ (x) =exp{

β0+p

∑k=1

βkxk

}

1+exp{

β0+p

∑k=1

βkxk

}

1−θ (x) =1

1+exp

{β0+

p

∑k=1

βkxk

} .

sendo x = (x1, x2, . . . , xp) = valores observados das variáveis X,β0 = constante e βk (k = 1, . . . ,p) os p parâmetros de regressão.




θ(x) =exp{β ′x}

1+exp{β ′x}e 1−θ(x) =

1

1+exp{β ′x}

ln

(θ(x)

1−θ(x)

)= β0+

p

∑k=1

βkxk = β ′x.

Esta transformação é denominada logito .

A razão entre θ(x) e 1−θ(x) ⇒ definição de odds⇓

odds =θ(x)

1−θ(x)= exp

{β ′x}.



Estimação do vetor β e das variâncias-covariâncias de β

Estimação de β ⇒ Método da Máxima Verossimilhança

L(β ) =n

∏ℓ=1

P(Y = yℓ | xℓ) =n

∏ℓ=1

(θ(xℓ)

)yℓ (1−θ(xℓ))1−yℓ

yℓ = 1, se indivíduo l apresentou a resposta e yℓ = 0, c.c.

Valores de β que maximizam lnL(β ) ⇒ β .

Distribuição assintótica de β ⇛ Normal

Estimação da matriz de variâncias-covariâncias de β

Σ(β ) = [I(β )]−1 = matriz de variâncias-covariâncias

I(β ) = matriz contendo o negativo das derivadasparciais de 2a ordem de lnL(β ).Estimadores são obtidos por avaliar Σ(β ) em β .



Significância dos Efeitos das Variáveis

Testar hipóteses relativas aos parâmetros βk (k = 1, . . . ,p)

1. Teste da Razão de Verossimilhanças (TRV)

TRV =−2ln

[LS

LC

]= 2ln(LC)−2ln(LS)︸︷︷︸ ∼ χ2

(q)

diferença de deviances

LS: função de verossimilhança associada ao modelo sem a(s)variável(is) sob investigação

LC: função de verossimilhança associada ao modelo com a(s)variável(is) sob investigação

q = diferença de parâmetros entre os dois modelos.



Análise de Deviances e Seleção de Modelos

Considere que modelos encaixados sejam ajustados aosdados de um estudo em que Y é binária e X1 e X2 sãocategóricas com duas categorias cada.

Tabela de Análise de Deviances (ANODEV).

Modelos g.l. Deviances TRV 6= g.l.Nulo glN DNX1 glN −1 D1 DN −D1 1X2 | X1 glN −2 D2 D1−D2 1X1 ∗X2 | X1,X2 glN −3 D3 D2−D3 1

glN = g.l. do modelo nulo = número de subpopulações − 1

Obs: na presença de dados faltantes, o tamanho amostralnos modelos sequenciais dependerá das variáveis Xk queos compõem ⇛ TRV apresentará problemas.



Significância dos Efeitos das Variáveis

2. Teste de Wald (Wald, 1943)

i) Para testar hipóteses relativas a um parâmetro

H0 : βk = 0, k = 1, . . . ,p

W =(βj)

2

Var(βj)∼ χ2

1

ii) Para hipóteses relativas a q ≥ 2 parâmetros

H0 : β ∗ = 0 (β ∗ = vetor q×1)

W = (β ∗)′[Σ(β ∗)]−1(β ∗)∼ χ2q



Diagnóstico do Modelo Ajustado

Sob a hipótese H0: modelo ajustado é satisfatório, faz-seuso de estatisticas que resumem a concordância entre osvalores observados e os preditos pelo modelo.

QP = ∑i,j

(nij−eij

)2

eij∼ χ2

m

QL = 2∑i,j nij ln

(nij

eij

)∼ χ2

m

eij = ni+ θ (xi), j = 1 e eij = ni+ (1− θ(xi)), j = 2.

ni+ = sujeitos na i-ésima subpopulação da tabela de dados s×2.θ(xi) = probabilidade P(Y = 1 | xi) predita pelo modelo ajustado.eij = frequências esperadas sob o modelo ajustado.m = no subpopulações − no parâmetros do modelo ajustado.




Na presença de variáveis contínuas ⇛ frequências muitopequenas para a grande maioria das s subpopulações.

⇓

inviabiliza o uso de QL e QP

⇓

Hosmer e Lemeshow (1989) propuseram uma estatísticaalternativa , QHL, que é obtida calculando-se a estatísticaqui-quadrado de Pearson a partir de uma tabela g×2 defrequências observadas e preditas




Inicialmente, as n observações são ordenadas em ordemcrescente das probabilidades θ(x) preditas pelo modelo.

Tais observações são, então, divididas em g grupos (g =10, por exemplo). No 10 grupo ficam as n1 observaçõescom probabilidades estimadas < 0,1 e, no último, as ng

observações com probabilidades ≥ 0,9.

QHL =g

∑i=1

(oi −niθ (xi))2

ni θ (xi)(1−θ (xi))∼ χ2

(g−2)

ni = frequência de observações no grupo ioi = frequência de resposta Y = 1 no grupo iθ (xi) = probab. média estimada de resposta Y = 1 no grupo i.




Comandos R

> dados1<-read.table("chd4a.txt",h=T)> attach(dados1)

> dados1dc sexo ecg idade

1 0 0 0 282 0 0 0 343 0 0 0 384 1 0 0 41

...76 1 1 2 5877 1 1 2 5978 1 1 2 60




Comandos R

> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link= "logit"),data=dados1)

> summary(ajust)> anova(ajust, test="Chisq")

> source("http://www.poleto.com/funcoes/gof.bino.txt ")> gof.bino(ajust, grupos=10)$x2[1] 5.754939$df[1] 8$pvalue[1] 0.6746605



Resíduos de Pearson e Resíduos Deviance

Limitação das estatísticas Qp e QL ⇛ único valor é utilizadopara resumir uma quantidade considerável de informação.Pregibon (1981) estendeu os métodos de diagnóstico deregressão linear para a regressão logística, fazendo usodos componentes individuais das estatísticas Qp e QL.

ci =ni1− (ni+) θ (xi)√

(ni+) θ (xi)(1− θ (xi))︸︷︷︸

, i = 1, · · · ,s.

resíduos de Pearson

Componentes ci são denominados resíduos de Pearson ,pois a soma deles ao quadrado resulta em QP, i.e.,

QP =s

∑i=1

(ci)2

.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS


Resíduos deviance

Analogamente, os componentes di são denominadosresíduos deviance , pois a soma deles ao quadradoresulta em QL, isto é,

QL =s

∑i=1

(di)2.

di =±

[2ni1 ln

(ni1

ei1

)+2(ni+−ni1) ln

(ni+−ni1

ni+− ei1

)]1/2

︸︷︷︸resíduos deviance

ei1 = (ni+) θ (xi), para i = 1, . . . ,s.sinal de di ⇛ definido a partir das diferenças (ni1− ei1).



Resíduos deviance

Distribuição aproximada dos resíduos ci e di ∼ N(0,1).Resíduos excedendo ± 2,5 pode indicar

possível falta de ajuste do modelopresença de outlierspadrões sistemáticos de variação.

1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

ï

Res

íduo

s de

Pea

rson

1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

i

Res

íduo

s de

vian

ce



Sobre a Distribuição dos Resíduos

Assumindo que os resíduos di seguem distribuiçãoaproximada normal ⇒ construir normal Q-Q plot comenvelope simulado (Davison e Gigli, 1989).

−2 −1 0 1 2

−2

−1

01

2

Percentis

Dev

ianc

e

Q−Q PlotQ−Q PlotQ−Q Plot

Se os resíduos estiverem dentro do envelope simulado ⇛

evidências favoráveis ao modelo ajustado.



Sobre a Distribuição dos Resíduos

Ben e Yohai (2004) argumentam, contudo, que paraalguns MLG, tal distribuição pode estar distante danormalidade.

Assim, propuseram uma estimativa da distribuição dosresíduos di, de modo que no Q-Q plot tais resíduos sãograficado versus os quantis da distribuição estimada.

Ben MG, Yohai VJ (2004). Quantile-quantile plot fordeviance residuals in the generalized linear model.J. of Comput. & Graphical Statistics, 13(1): 36-47.



Métodos Auxiliares

Poder Preditivo do Modelo Ajustado

Para avaliar o poder preditivo do modelo é necessárioestabelecer um ponto de corte (0 < pc < 1), tal que:

a) Probabilidades preditas pelo modelo ≥ pc ⇛ Y = 1b) Probabilidades preditas pelo modelo < pc ⇛ Y = 0.

Resposta Resposta Predita pelo ModeloObservada Y = 1 (+) Y = 0 (−) TotaisY = 1 (+) a b (a + b)Y = 0 (−) c d (c + d)Totais (a + c) (b + d) n

⇛ Sensibilidade = aa+b = taxa de verdadeiros +

⇛ Especificidade = dc+d = taxa de verdadeiros −

⇛ Valor Preditivo = a+dn = proporção geral de acertos



Métodos Auxiliares

Para diversos pontos de corte ⇛ Curva ROC

Pares (x, y) = (1 − especificidade, sensibilidade).Modelo com discriminação perfeita ⇛ (x, y) = (0,1).Pontos de corte próximos ao canto superior esquerdo,produzirão os maiores % de acertos (V+ e V−).Quanto mais próxima de 1 for a área abaixo da curva,melhor o poder de predição do modelo.

1 − especificidade

sens

ibili

dade

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0



Ilustração 1: Dados sobre Doença Coronária vs Idade

Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais E(Y | x)

20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43

Fonte: Hosmer e Lemeshow (1989)

β0 = −5,123 (e.p. = 1,11) e β1 = 0,1058 (e.p. = 0,023).

θ (x) =exp{−5,123+0,1058x}

1+exp{−5,123+0,1058x}

ln

(θ (x)

1− θ(x)

)=−5,123+0,1058x




Tabela 1. Diferenças de deviances

Modelos g.l. Deviances Diferenças 6= g.l.Nulo 7 28,7015X: idade 6 0,5838 28,1177 1

Tabela 2. Análise de Deviance (ANODEV)

Fonte de variação g.l. Deviances TRV valor pRegressão 1 28,1177 28,1177 < 0,00001Deviance residual 6 0,5838Deviance total 7 28,7015

Evidências de associação entre idade e doença coronária.

Ainda, teste de Wald ⇛ W = 20,49 (g.l. = 1, p < 0,00001)




Qp = 0,59 (p = 0,9965) e QL = 0,58 (p = 0,9967), g.l.= 6.

Resíduos ci e di entre −2,5 e 2,5.

1 2 3 4 5 6 7 8

−2

−1

01

2

Index

resí

duos

Pea

rson

1 2 3 4 5 6 7 8

−2

−1

01

2

Index

resí

duos

dev

ianc

e

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−3

−2

−1

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

Área abaixo da curva ROC: AUC = 0,7838.

Evidências favoráveis ao modelo ajustado.




30 40 50 60

0.0

0.2

0.4

0.6

0.8

idade

E(Y

|x)

A partir do modelo ajustado tem-se, por exemplo:

xi θ (xi) 1− θ(xi)θ(xi)

1−θ(xi)= exp{β0+ β1xi}

26 0,0853 0,9147 exp{β0+ β1∗26}= 0,09327 0,0939 0,9061 exp{β0+ β1∗27}= 0,10365 0,8524 0,1476 exp{β0+ β1∗65}= 5,774




Relembrando queθ(xi)

1−θ(xi)= odds, segue que:

OR =odds(27)odds(26)

= exp{β1(27−26)} = exp{β1} ≈ 1,11

OR =odds(65)odds(26)

= exp{β1(65−26)} = exp{β1∗39} ≈ 62

A odds de doença coronária entre indivíduos com 65 anosde idade é ≈ 62 vezes a dos indivíduos com 26 anos.

Obs: OR nos modelos de regressão logística são denominadasOR ajustadas, uma vez que o efeito βk associado à covariável ké estimado na presença dos demais no modelo.



Ajustando Modelo Binomial com Link Logit

Comandos R> resim<-c(1,2,3,5,6,5,13,8)> resnao<-c(9,13,9,10,7,3,4,2)> idade<-c(25,32,38,43,47,53,57,65)> dados<-as.data.frame(cbind(resim,resnao,idade))> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,

family=binomial(link="logit"),data=dados)> anova(ajust,test="Chisq")> summary(ajust)> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch= 16)> abline(h=0, lty=3)




Comandos R

> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)

> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pc h=16)> abline(h=0,lty=3)

> theta<-resim/(resim+resnao)> plot(idade,theta,ylim=range(0,0.9),xlab="idade",

ylab="E(Y|x)",pch=16)> idade<-20:70> modajust<-(exp(-5.123+0.1058 * idade))/(1+ exp(-5.123+

0.1058 * idade))> lines(idade,modajust)




Comandos R

> ntot<-c(10,15,12,15,13,8,17,10)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> dados1<-read.table("coronaria.txt",h=T)# dados 1 = arquivo com 1 indivíduo por linha (100 x 2)

> attach(dados1)> dados1[1:3,]

y idade1 250 250 25...

> require(Epi)> ROC(form=y~idade,plot="ROC")



Ilustração 2: Estudo sobre Infecções Urinárias

Ensaio Clinico aleatorizado em que três tratamentos foramavaliados em pacientes que no diagnóstico apresentaraminfecção urinária complicada ou não de ser curada.

CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40Fonte: Koch et al. (1985)




Resposta dicotômica e duas covariáveis em que:

xi1 =

{1 se infecção complicada0 caso contrário.

xi2 =

(xi21,xi22) = (1,0) se tratamento A(xi21,xi22) = (0,1) se tratamento B(xi21,xi22) = (0,0) se tratamento C ⇛ refêrencia.

Tabela 1. Diferenças de deviances.

Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 5 44,473 – – –X1 4 30,628 13,844 1 0,0002X2 | X1 2 2,515 28,114 2 < 0,0001X1∗X2 | X1,X2 0 0,000 2,515 2 0,2843




Efeito da interação ⇛ não significativo (p = 0,2843).

Foram então testados os efeitos principais

Efeito de X1 ⇛ significativo (p = 0,0002).Efeito de X2|X1 ⇛ significativo (p < 0,0001).

Tabela 2. Análise de Deviance (ANODEV).

Fonte de variação g.l. deviances TRV valor pRegressão 3 41,958 41,958 < 0,00001Deviance residual 2 2,515Deviance total 5 44,473

As variáveis X1 = diagnóstico e X2 = tratamento reduzemsubstancialmente a deviance total.




Estatísticas de qualidade de ajuste do modelo

QL = 2,515 (p = 0,2844) e QP = 2,757 (p = 0,2519).

Valores observados e preditos pelo modelo e resíduosdeviance e de Pearson.

θ (xi) θ(xi) di ci

0,735 0,739 −0,077 −0,0770,902 0,882 0,646 0,6300,596 0,612 −0,344 −0,3450,889 0,881 0,162 0,1610,915 0,951 −1,182 −1,3020,850 0,805 0,740 0,717




Gráfico dos resíduos deviance e Normal QQ-Plot

1 2 3 4 5 6

−3

−2

−1

01

23

Index

rsíd

uos

devi

ance

−1.0 −0.5 0.0 0.5 1.0

−2

−1

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o


Área abaixo da curva ROC ⇛ AUC = 0,70.

Evidências favoráveis ao modelo ajustado.




Tabela 3. Estimativas dos parâmetros do modelo ajustado.

Parâmetros Estimativas erro padrãoβ0: constante 1,4184 0,2986β1: infecção complicada −0,9616 0,2997β2: tratamento A 0,5847 0,2641β3: tratamento B 1,5608 0,3158

ln

(θ(xi)

1− θ (xi)

)= 1,4184−0,9616xi1+0,5847xi21+1,5608xi22

θ(xi) =exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}

1+exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}




Infecção Tratamentos θ(xi)

1−θ(xi)= odds

Complicada A exp{β0+ β1+ β2}

Complicada B exp{β0+ β1+ β3}

Complicada C exp{β0+ β1}

Não complicada A exp{β0+ β2}

Não complicada B exp{β0+ β3}

Não complicada C exp{β0}

ORC|NC = exp{β1}= 0,38

⇓ORNC|C = exp{−β1}= 2,6

ORA|C = exp{β2}= 1,79

ORB|C = exp{β3}= 4,76

ORB|A = exp{β3− β2}= 2,65




Comandos R> resim<-c(78,101,68,40,54,34)> resnao<-c(28,11,46,5,5,6)> diag<-c(1,1,1,0,0,0)> trat<-c(2,3,1,2,3,1)> dados<-as.data.frame(cbind(resim,resnao,diag,trat) )> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+

factor(trat),family=binomial(link="logit"),data=dad os)> summary(ajust)> anova(ajust,test="Chisq")> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,2)> cbind(QL,p1)> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos devianc e")




Comandos R> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,2)> cbind(QP,p2)> ntot<-c(106,112,114,45,59,40)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")> dados1<-read.table("infec.txt", h=T)> dados1 # arquivo com 1 indivíduo por linha (476 x 3)

x1 x2 y # x1 = diag e x2 = trat1 2 11 2 1...

> attach(dados1)> require(Epi)> ROC(form=y~factor(x1)+factor(x2),plot="ROC")



Ilustração 3: Estudo sobre Bronquite

Objetivo: estudar associação de bronquite com

smk = status de fumo (0 se não usa e 1 se usa),ses = status sócio-econômico (0 se alto e 1 se baixo)idade = 0 se < 40 anos e 1 se ≥ 40 anos.

Bronquitesmk ses idade Sim Não Totais

0 1 0 38 73 1110 1 1 48 86 1340 0 0 28 67 950 0 1 40 84 1241 1 0 84 89 1731 1 1 102 46 1481 0 0 47 96 1431 0 1 59 53 112

Fonte: Kleinbaum (1994)




Tabela 1. Diferenças de deviances - modelos sequenciais.Modelos g.l. Dev. TRV 6= g.l. valor pNulo 7 72,798X1 6 40,336 32,462 1 < 0,0001X2 | X1 5 27,511 12,825 1 0,0003X3 | X1,X2 4 11,025 16,486 1 < 0,0001X1 ∗X2 | X1,X2,X3 3 7,910 3,115 1 0,0775X1 ∗X3 | X1,X2,X3,X1 ∗X2 2 0,032 7,879 1 0,0050X2 ∗X3 | X1,X2,X3,X1 ∗X2,X1 ∗X3 1 0,031 0,001 1 0,9763X1 ∗X2 ∗X3 | X1,X2,X3 + duplas 0 0,000 0,031 1 0,8602

X1 = smk, X2 = ses e X3 = idade

Modelo ⇛ X1,X2,X3+X1∗X3+X1∗X2




θ (xi) θ(xi)0.3389166 0.34234230.3610467 0.35820900.2987395 0.29473680.3195141 0.32258060.4870962 0.48554910.6873808 0.68918920.3267997 0.32867130.5291753 0.5267857 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−2

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o


1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

Index

Res

iduo

s de

vian

ce

QL = QP = 0,0318 (p = 0,999).

Área abaixo curva ROC = 0.64.

Evidências a favor do modelo.




Parâmetros Estimativas Erro-padrãoβ0 −0,8533 0,1856β1: x1 = smk 0,1306 0,2408β2: x2 = ses 0,1852 0,1982β3: x3 = idade 0,0973 0,1991β4: (x1 ∗x2) = smk∗ses 0,4859 0,2637β5: (x1 ∗x3) = smk∗idade 0,7422 0,2643

smk ses idade smk∗ses smk∗idade odds = θ (xi)

1−θ(xi)

0 1 0 0 0 exp{β0+ β2}

0 1 1 0 0 exp{β0+ β2+ β3}

0 0 0 0 0 exp{β0}

0 0 1 0 0 exp{β0+ β3}

1 1 0 1 0 exp{β0+ β1+ β2+ β4}

1 1 1 1 1 exp{β0+ β1+ β2+ β3+ β4+ β5}

1 0 0 0 0 exp{β0+ β1}

1 0 1 0 1 exp{β0+ β1+ β3+ β5}




Na presença de interações significativas:

ORsmk(1|0) =

exp{β1} se ses = 0 e idade = 0exp{β1+ β4} se ses = 1 e idade = 0exp{β1+ β5} se ses = 0 e idade = 1exp{β1+ β4+ β5} se ses = 1 e idade = 1

ORsmk(1|0) = exp{β1+ β4 ses+ β5 idade}

Assim, para, por exemplo, pacientes com ses alto = 0 e idade> 40 anos (idade = 1), a odds de bronquite entre os que fumamé exp{0,1306+0,7422}= 2,4 vezes a dos que não fumam.




ORses(1|0) =

{exp{β2} se smk = 0exp{β2+ β4} se smk = 1

ORses(1|0) = exp{β2+ β4 smk}

Assim, para pacientes que fumam, a odds de bronquite entre oscom ses baixo (ses = 1) é exp{0,1852+0,4859}= 1,95 vezes ados com ses alto (ses = 0).

Para os que não fumam (smk = 0), tal odds é exp{0,1852}= 1,2.




ORidade(1|0) =

{exp{β3} se smk = 0exp{β3+ β5} se smk = 1

ORidade(1|0) = exp{β3+ β5 smk}

Desse modo, para os que fumam, a odds de bronquite entre oscom idade ≥ 40 anos é exp{0,0973+0,7422}= 2,3 vezes a doscom idade < 40 anos.

Para os que não fumam tal odds é exp{0,0973}= 1,1.




Comandos R> brc<-read.table("bronquite.txt",h=T)> attach(brc)> brc

sim nao smk ses idade38 73 0 1 048 86 0 1 128 67 0 0 040 84 0 0 184 89 1 1 0

102 46 1 1 147 96 1 0 059 53 1 0 1

> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+smk* ses+smk * idade,family=binomial,data=brc)

> anova(ajust,test="Chisq")> summary(ajust)




Comandos R> ajust$y> ajust$fitted.values

> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)

> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)

> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos dev iance")




Comandos R> ntot<-c(111,134,95,124,173,148,143,112)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> brc1<-read.table("bronquite1.txt",h=T)> attach(brc1)# brc1 = arquivo com 1 indivíduo por linha (1040 x 4)> brc1

x1 x2 x3 y0 1 0 10 1 0 1...1 0 1 0

> require(Epi)> ROC(form=y~x1+x2+x3+x1 * x2+x1 * x3,plot="ROC")



Links Paramétricos Alternativos para Dados Binários

Alguns links para dados com resposta binária.

θ (x) = F(β ′x) links paramétricos alternativosexp{β ′x}

1+ exp{β ′x}logito ⇒ ln

(θ (x)

1−θ (x)

)

Φ(β ′x) probito ⇒ Φ−1(θ (x))

1−exp{−exp{β ′x}} clog-log ⇒ ln(− ln(1−θ (x)))

12 +

arctg(β ′x)

π cauchy ⇒ F−1(θ (x))

Φ(·) denota a função de distribuição da N(0,1), arctg = arco tangente

F(·)denota a função de distribuição da Cauchy(0,1) ∼ t-Student(1g.l.)

⇛ Simétricos: logístico, probito e cauchy⇛ Assimétrico: complemento log-log.



Links Alternativos para Dados Binários

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

thet

a(x)

logísticoprobitoclog−logcauchy

Procedimentos de estimação, qualidade e diagnóstico sãoanálogos aos do modelo logístico.

Interpretação dos parâmetros difere da apresentada parao modelo logístico.



Ilustrando links Alternativos - Bioensaio

Bioensaio conduzido em laboratório por Machado (2006).

Objetivo: concentração ideal de uma suspensão viral.

MortesDiluições (CPI/ml) Sim Não Totais

Testemunha 0 30 30103 1 29 30106 4 26 30107 15 15 30108 28 2 30109 29 1 30

xi = logaritmo neperiano das diluições.



Ilustrando Links Alternativos - Bioensaio

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

ln(diluição)

Pro

porç

ão d

e m

orte

s

Logístico ⇒ θ (xi) =exp{β0+β1xi}

1+exp{β0+β1xi}

Probito ⇒ θ (xi) = Φ(β0+β1xi)

Clog-log ⇒ θ (xi) = 1−exp{−exp{β0+β1xi}}

Cauchy ⇒ θ (xi) =12+

arctan(β0+β1xi)

π



Ilustrando Links Alternativos - Bioensaio

Estatística deviance de qualidade de ajuste

Logito Probito Clog-log CauchyQL 6,59 10,99 6,18 1,72

p-valor 0,158 0,027 0,186 0,787

−1.0 0.0 1.0

−2

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e


−1.0 0.0 1.0

−3

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e


−1.0 0.0 1.0

−2

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e


−1.0 0.0 1.0

−4

−2

02

4

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e


a) logito b) probito c) clog-log d) Cauchy




Evidências a favor do modelo Binomial com link cauchy.

Estimativaslinks β0 (e.p.) β1 (e.p.)Logito −12,863 (2,27) 0,708 (0,12)Probito − 6,244 (1,07) 0,347 (0,06)Clog-log − 8,143 (1,26) 0,422 (0,06)Cauchy −26,678 (9,47) 1,451 (0,51)

Usual nos bioensaios: dose letal mediana ⇛ LD50




x50 = ln(LD50) LD50

Logito ln

(0,50

1−0,50

)= β0+ β1x − β0

β1≈ 18,17 (7,7)7

Probito Φ−1(0,50) = β0+ β1x − β0

β1≈ 18,00 (6,6)7

Clog-log ln(− ln(1−0,50)) = β0+ β1x −0,3665−β0

β1≈ 18,43 (10)7

Cauchy F−1(0,50) = β0+ β1x − β0

β1≈ 18,39 (9,7)7

Obs : para os modelos com links simétricos ⇛ x50 =− β0

β1.

Estimação por ponto e intervalo da LD50: Finney (1971),Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...

Koenker, R. Parametric links for binary response. URL:

www.econ.uiuc.edu/∼roger/research/links/Rnews.pdf




0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

ln(diluições)

prop

orçã

o de

mor

tes logístico

probitoclog−logcauchy

(18.386, 0.5)



Ajustando Modelo Binomial com Link Cauchy

Comandos R

> resim<-c(0,1,4,15,28,29)> resnao<-c(30,29,26,15,2,1)> lnd<-c(0,9.21,16.12,18.42,20.72,23.02)> dados<-as.data.frame(cbind(resim,resnao,lnd))> attach(dados)

> ajuste4<-glm(as.matrix(dados[,c(1,2)])~lnd,family=binomial(link="cauchit"),data=dados)

> ajuste4> anova(ajuste4,test="Chisq")> summary(ajuste4)

# Obs: link="logit", "probit" e "cloglog"para ajustar os demais modelos.



Ajustando Modelo Binomial com Link Cauchy

Comandos R

> ntot<-c(30,30,30,30,30,30)> fit.model<-ajuste4> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> x<-seq(0,25,0.1)> m4<- pcauchy(-26.678+1.451 * x)

> plot(lnd,resim/(resim+resnao),pch=16, ylab="proporç ão demortes",xlab="ln(diluições)",xlim=c(0,28),ylim=c(0, 1.05))

> lines(x,m4,lty=1,lwd=2,col=1)> legend(1,0.8,lty=c(1),col=c(1),lwd=2,c("cauchy"),b ty="n")

> lines(c(18.386,18.386),c(0,0.50),lty=3)> lines(c(0,18.386),c(0.50,0.50),lty=3)> legend(17.7,0.55,c("(18.386, 0.5)"),bty="n",cex=0.8 )



Modelos para Dados comResposta Politômica



Modelos para Dados com Resposta Politômica

Considere, agora, que o interesse seja o de estudar aexistência de associação entre um conjunto de variáveisX = (X1, X2, ..., Xk) e uma resposta politômica Y, a qualpode ser nominal ou ordinal.

X1 X2 ... Xk︸︷︷︸ Y︸︷︷︸

H

Modelos de regressão quepodem ser úteis nesses casos



Situação 1 - Resposta Politômica Nominal

Resposta politômica nominal

H

Considere os dados a seguir em que se deseja avaliar se oprograma de aprendizado que as crianças preferem estariaassociado com a escola e o período escolar.

Programa de AprendizadoEscola Período Individual Grupo Sala Aula Totais

1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44



Resposta politômica nominal

Denotando por πhik a probabilidade de um aluno da escola h(h = 1,2,3) e período escolar i (i = 1,2) preferir o programa deaprendizado k (k = 1,2,3), em que ∑3

k=1 πhik = 1, tem-se:

H

Programa de AprendizadoEscola Período k

h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 13 1 π311 π312 π313 13 2 π321 π322 π323 1



Modelo de Logitos Generalizados

Possível modelo para análise desses dadosModelo de Logitos Generalizados

Esse modelo considera (r−1) logitos generalizados tq:

logithik = ln

(πhik

πhir

)= β0k +β ′

kxhi, k = 1, . . . ,r−1

sendo r = no de categorias da resposta.

Note que cada logito k (k = 1, . . . ,r−1) é definido a partir daprobabilidade associada à k−ésima categoria de respostasobre a da última categoria (k = r).

Note, também, que há diferentes interceptos e diferentesvetores de parâmetros β k associados aos r−1 logitos.




Como mais de um logito está sendo definido para cadasubpopulação ⇛ necessário tamanho amostral grandepara acomodar o no de logitos sendo modelados.

Quando não houver dados suficientes que justifiquem aanálise por meio de logitos generalizados ⇛ pode haverproblemas quanto a estimação dos parâmetros.

Nesses casos, uma alternativa seria simplificar a estruturada variável resposta (grupar categorias) e utilizar, porexemplo, o modelo de regressão logística dicotômica.



Ilustrando o Modelo de Logitos Generalizados

No estudo sobre preferência de aprendizado r = 3. Então:

logithi1 = ln

(πhi1

πhi3

)e logithi2 = ln

(πhi2

πhi3

)

⇓

logithik = β0k +β ′kxhi

k = 1,2, h = 1, 2, 3 e i = 1, 2.

X1 = escolas e X2 = períodos ⇛ variáveis dummy

x11 =

{0 escola 11 escola 2,0 escola 3

x12 =

{0 escola 10 escola 2,1 escola 3

x2 =

{1 padrão0 integral.




Tabela 1 - Diferenças de deviances.Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 10 30,2480 – – –X1 6 12,8716 17,3764 4 0,0016X2 | X1 4 1,7776 11,0940 2 0,0039X1∗X2 | X1,X2 0 0,0000 1,7776 4 0,7766

g.l. = (r−1) × g.l. esperados para um único logito.

⇓

Modelo selecionado ⇛ X1+X2




Tabela 2 - Probabilidades observadas e preditas a partir do modelo.Observadas Preditas

Escolas Períodos Pref. Probabilidade e.p. Probabilidade e.p Obs−Pred1 pad indiv 0,1887 0,0537 0,1580 0,0403 0,0306

grupo 0,3208 0,0641 0,3049 0,0527 0,0159aula 0,4906 0,0687 0,5371 0,0560 −0,0470

1 int indiv 0,0746 0,0321 0,0989 0,0279 −0,0240grupo 0,1791 0,0468 0,1917 0,0393 −0,0130aula 0,7463 0,0532 0,7095 0,0459 0,0368

2 pad indiv 0,3281 0,0587 0,3409 0,0515 −0,0130grupo 0,2656 0,0552 0,2667 0,0469 −0,0010aula 0,4063 0,0614 0,3924 0,0509 0,0139

2 int indiv 0,2500 0,0541 0,2372 0,0444 0,0128grupo 0,1875 0,0488 0,1864 0,0389 0,0011aula 0,5625 0,0620 0,5764 0,0518 −0,0140

3 pad indiv 0,3261 0,0691 0,3436 0,0587 −0,0170grupo 0,3261 0,0691 0,3429 0,0582 −0,0170aula 0,3478 0,0702 0,3136 0,0536 0,0343

3 int indiv 0,2727 0,0671 0,2545 0,0521 0,0183grupo 0,2727 0,0671 0,2552 0,0517 0,0176aula 0,4545 0,0751 0,4904 0,0608 −0,0360

Probabilidades observadas e preditas estão próximas,indicando evidências favoráveis ao modelo ajustado.




Tabela 3 - Estimativas dos parâmetros do modelo ajustado.

logito 1 logito 2estimativas erro-padrão estimativas erro-padrão

Intercepto −1,9711 0,320 −1,3088 0,259Escola 2 1,0828 0,353 0,1801 0,317Escola 3 1,3147 0,384 0,6556 0,339Período padrão 0,7474 0,282 0,7426 0,270

ln

(πhi1

πhi3

)= β01+β ′

1xhi e ln

(πhi2

πhi3

)= β02+β ′

2xhi

⇓

πhi1

πhi3= exp{β01+β ′

1xhi} eπhi2

πhi3= exp{β02+β ′

2xhi}




Tabela 4 - Odds associadas aos logitos 1 e 2.logito 1 logito 2

Escola Período odds = πhi1/πhi3 odds = πhi2/πhi31 Padrão exp{β01+β31} exp{β02+β32}1 Integral exp{β01} exp{β02}2 Padrão exp{β01+β11+β31} exp{β02+β12+β32}2 Integral exp{β01+β11} exp{β02+β12}3 Padrão exp{β01+β21+β31} exp{β02+β22+β32}3 Integral exp{β01+β21} exp{β02+β22}




logito 1 logito 2entre períodos individual / sala de aula grupo / sala de aula

ORP/I eβ31 = 2,11 eβ32 = 2,10

Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral,

Entre aprendizado em grupo ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral.

Entre aprendizado individual ou em grupo◮ odds de preferência entre esses dois métodos deaprendizado não diferiu entre os alunos.




logito 1 logito 2entre escolas individual / sala de aula grupo / sala de aula

OR2/1 eβ11 = 2,95 eβ12 = 1,19

OR3/1 eβ21 = 3,72 eβ22 = 1,93

OR3/2 eβ21−β11 = 1,26 eβ22−β12 = 1,61

Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos da escola 2 éde ≈ 3 vezes a dos alunos da escola 1. Já entre os daescola 3, tal odds é de ≈ 4 vezes a daqueles na escola 1e, entre os das escolas 3 e 2, de ≈ 1,3 vezes.

Por analogia tem-se as demais interpretações.



Ajustando o Modelo de Logitos Generalizados

Comandos R> require(VGAM)> esc<-read.table("escolas.txt", h=T)> attach(esc)> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +

factor(periodo),multinomial,esc)> summary(fit1)> coef(fit1,matrix=TRUE)> fitted(fit1)> fit1@y - fitted(fit1)> model.matrix(fit1)> residuals(fit1)

Obs: A última categoria de resposta é considerada no Rcomo a categoria de referência. Para consideraroutra (por ex., grupo 2), use refLevel.

> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +factor(periodo),multinomial(refLevel=2),esc)



Situação 2 - Resposta Politômica Ordinal

Para abordar essa situação, considere os dados a seguir emque se deseja avaliar se o grau de melhora de pacientes comartrite estaria associado com genêro e tratamento.

Grau de melhoraSexo Tratamentos Acentuada Alguma Nenhuma Totais

F A 16 5 6 27F Placebo 6 7 19 32M A 5 2 7 14M Placebo 1 0 10 11

As categorias de resposta estão ordenadas apartir da situação mais favorável para a menosfavorável aos pacientes.



Resposta politômica ordinal

Denotando por πhik a probabilidade de um paciente do sexo h(h = 1,2) com tratamento i (i = 1,2) apresentar grau de melhorak (k = 1,2,3). Então, segue que:

Grau de MelhoraSexo Tratamento k Totais

h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 1

Considerando os totais nhi+ fixos ⇛ multinomial associada acada subpopulação, de modo que ∑3

k=1 πhik = 1.



Situação 2 - Resposta Politômica Ordinal

Considerando, ainda, as seguintes quantidades:

θhi1 = πhi1 e θhi2 = πhi1+πhi2

θhi1 =probabilidade de melhora acentuadaθhi2 =probabilidade de melhora acentuada ou alguma melhora

H

θhik, k = 1, . . . ,r−1 ⇛ probabilidades cumulativas

H

modelo sugerido na literatura

Modelo de Logitos Cumulativos



Modelo de Logitos Cumulativos (MLC)

Esse modelo considera (r−1) logitos cumulativos.Assim, para r = 3, tem-se:

logit(θhi1) = ln

(πhi1

πhi2+πhi3

)e logit(θhi2) = ln

(πhi1+πhi2

πhi3

)

H

logit(θhik) = β0k +β ′kxhi, k = 1, . . . ,r−1

sendo r = no de categorias da resposta.

É usual que as categorias de resposta mais favoráveissejam avaliadas em relação às menos favoráveis.

Neste modelo, os interceptos são distintos e existem 6=vetores de parâmetros de regressão para cada logito.



Modelo de Odds Proporcionais (MOP)

Na realidade, o modelo de logitos cumulativos é similar aomodelo de logitos generalizados.

Contudo, se proporcionalidade das odds for válida, o queequivale a supor que β k = β para k = 1, . . . ,r−1, então,

logit(θhik) = β0k +β ′xhi

⇓

θhik =exp{

β0k +β ′xhi

}

1+exp{

β0k +β ′xhi

}

N





Qual o significado da suposição de oddsproporcionais ou de regressão paralela?

Grau de melhoraTratamento Acentuada Alguma Nenhuma Totais

A 21 7 13 41Placebo 7 7 29 43

Note que: ORac/ac = 1, ORal/ac = 3 e ORac/nenh = 6.7.

crescimento aproximadamente linear das OR

Desse modo, ORac/al+nenh = 5.4 ≈ ORac+al/nenh = 4.5

odds proporcionais

Se for válido para todas as covariáveis no modelo ⇛ MOP.




Para testar a suposição de odds proporcionais, isto é,

{H0 : βk = β , ∀ k ⇒ MOPHa : βk 6= β ⇒ MLC

TRV =−2ln[

LH0LHa

]∼ χ2

m

m = diferença de parâmetros entre os modelos sob H0 e Ha.

As probabilidades πhij são determinadas fazendo-sesubtrações dos θhik. Assim, se r = 3,

πhi1 = θhi1

πhi2 = θhi2−θhi1

πhi3 = 1−θhi2



Ilustrando o Modelo de Odds Proporcionais (MOP)

Para os dados de artrite foram consideradas:

X1 ={

1 se feminino0 se masculino X2 =

{1 se tratamento A0 se placebo

Como não foram encontradas evidências contrárias asuposição de odds proporcionais, i.e., H0: βk = β ,∀ k

TRV = 1,88 (p = 0,39, g.l.= 2)

⇓

Foi considerado o modelo de odds proporcionais (MOP)




Tabela 1 - Diferenças de deviances (X1 = sexo, X2 = tratamento).

Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 6 (8−2) 22,5986X1 5 (8−3) 18,7933 3,8053 1 0,0511X2 | X1 4 (8−4) 2,7121 16,0812 1 < 0,0001X1 ∗X2 | X1,X2 3 (8−5) 2,4037 0,3084 1 0,5786

g.l. = (s× (r−1))−q, com s = no de subpopulações, r = no de categorias da resposta

e q = no de parâmetros do modelo.

Modelo ⇛ MOP com X1 e X2

Estatísticas QL e QP ∼ χ2 com ((r−1)(s−1)−q) g.l.

QL = 2,71 (p = 0,607, g.l.= 4)QP = 1,91 (p = 0,752, g.l.= 4).




Ainda, probabilidades observadas ≈ das preditas pelo modelo.

Observadas Preditas Observadas − Preditas0,59259 0,61036 −0,017770,18518 0,17601 0,009170,22222 0,21361 0,008600,18750 0,20612 −0,018620,21875 0,17281 0,045930,59375 0,62106 −0,027310,35714 0,29527 0,061860,14285 0,20084 −0,057990,50000 0,50387 −0,003870,09090 0,06493 0,025970,00000 0,07536 −0,075360,90909 0,85970 0,04939

Evidências favoráveis aos MOP ajustado.




Tabela 2 - Estimativas obtidas para o MOP ajustado.

Parâmetros Estimativas Erro-padrãoβ01: intercepto 1 −2,6672 0,5997β02: intercepto 2 −1,8128 0,5566β1: sexo feminino 1,3187 0,5292β2: tratamento A 1,7973 0,4728

Tabela 3 - Probabilidades θhik e πhij preditas pelo MOP.

Sexo Tratamentos θhi1 θhi2 πhi1 πhi2 πhi3

F A 0,6104 0,7864 0,6104 0,1760 0,2136F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211M A 0,2953 0,4961 0,2953 0,2008 0,5039M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597




Tabela 4 -Odds associadas ao MOP ajustado.

Sexo Tratamentos πhi1/(πhi2+πhi3) (πhi1+πhi2)/πhi3F A exp{β01+β1+β2} exp{β02+β1+β2}F Placebo exp{β01+β1} exp{β02+β1}M A exp{β01+β2} exp{β02+β2}M Placebo exp{β01} exp{β02}

Melhora acentuada versus alguma ou nenhuma melhora

⇒ a odds de melhora acentuada entre as mulheres éexp{β1} ≈ 4 vezes a dos homens.

⇒ a odds de melhora acentuada entre os pacientes sobtratamento A é exp{β2} ≈ 6 vezes a daqueles sob placebo.




Melhora acentuada ou alguma melhora versus nenhuma

Devido à suposição de odds proporcionais, as estimativassão as mesmas obtidas anteriormente. Logo,

⇒ a odds de melhora acentuada ou alguma melhoraentre as mulheres é ≈ 4 vezes a dos homens.

⇒ a odds de melhora acentuada ou alguma melhora entreos pacientes sob trat. A é ≈ 6 vezes a daqueles sob placebo.



Ajustando os Modelos: MLC e MOP

Comandos RObs: Instalar package VGAM (www.r-project.org)

> require(VGAM)> data<-read.table("artrite.txt", h=T)> data

ac alg nenh sexo trat16 5 6 2 2

6 7 19 2 15 2 7 1 21 0 10 1 1

> fit <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(t rat),cumulative(parallel=TRUE),data) # MOP

> fit1 <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor( trat),cumulative(parallel=FALSE),data) # MLC




Comandos R

> TRV <- 2 * (logLik(fit1)-logLik(fit))> gl <- length(coef(fit1))-length(coef(fit))> p <- 1-pchisq(TRV,gl)> cbind(TRV, gl, p)

> summary(fit)> coef(fit, matrix = TRUE)

> residuals(fit)> fitted(fit)> fit@y> fit@y - fitted(fit)> model.matrix(fit)




Comandos RObs: Instalar package Design (www.r-project.org)

> data1<-read.table("artrite1.txt", h = T)# artrite1 = arquivo com 1 indivíduo por linha (84 x 3)> data1[1:3,]

melhora sexo tratamento1 3 2 22 3 2 23 3 2 2...> require(Design)> mop<-lrm(melhora~sexo+tratamento, x=TRUE, y=TRUE)> mop> par(mfrow=c(1,2))> residuals(mop, type="score.binary", pl=TRUE)> residuals(mop, type="partial", pl=TRUE)



melhora

sexo

−0.

15−

0.05

0.05

0.15

alg nenh

melhora

sexo

melhora

trat

amen

to

−0.

15−

0.05

0.05

0.15

alg nenh

melhora

trat

amen

to

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.5

2.0

2.5

3.0

sexo

Par

tial R

esid

ual

y>=2

y>=3

1.0 1.2 1.4 1.6 1.8 2.0

1.5

2.0

2.5

3.0

3.5

4.0

tratamento

Par

tial R

esid

ual

y>=2

y>=3

Obs: Certo desvio da suposição de odds proporcionais para acovariável sexo. Se considerá-lo sério, um modelo alternativoseria: Modelo de odds proporcionais parciais (MOPP)

Abreu et al. (2009). Rev Saúde Pública, 43(1): 183-194.



Dados Pareados comResposta Binária



Introdução

Em algumas situações, dados com resposta bináriapodem apresentar informações pareadas.

⇛ Estudos com gêmeos fraternos⇛ Estudos que avaliam lados direito e esquerdo do corpo⇛ Estudos do tipo antes e após um acontecimento⇛ Estudos caso-controle com pareamento 1-1⇛ Estudos crossover, dentre outros.

⇓

pares de observações relacionadas

⇓

clusters de tamanho = 2



Situações Simples - Teste de McNemar

Situações simples ⇛ ausência de variáveis explicativas

apósantes Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

lado lado esquerdodireito Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

controlecaso E = 1 E = 0 TotaisE = 1 n11 n12 n1+E = 0 n21 n22 n2+

Totais n+1 n+2 n

período 2per. 1 Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

testar:{

H0: p1+ = p+1

HA: p1+ 6= p+1



Situações Simples - Teste de McNemar

(1,1)︸︷︷︸ (1,0)︸︷︷︸ (0,1)︸︷︷︸ (0,0)︸︷︷︸não-informativo informativo informativo não-informativo

H

Teste foi proposto por McNemar (1947)

H

se baseia nos pares informativos, ou seja,nos elementos fora da diagonal principal

Estatística de Teste

QMc =(n12−n21)

2

(n12+n21)∼ χ2

(1)



Situações Gerais - Outras Abordagens

Na presença de variáveis explicativas, poder-se-ia pensarno modelo de regressão logística usual, em que o efeitode par seria incorporado como fixo ou aleatório, isto é,

P(Yij = 1) =exp{αi +β ′xij}

1+exp{αi +β ′xij}

sendo αi o efeito do i-ésimo par (i = 1, . . . ,q) e β o vetor deparâmetros associados às variáveis explicativas X.

Obs: o efeito de par não é aqui de interesse primário,mas sim o de estimar os demais efeitos de interessecontrolando (ou removendo) o efeito de par.

↓

Analogia com variáveis estratificadoras



Situações Gerais - Outras Abordagens

Se tal abordagem fosse considerada, o tamanho amostralde cada cluster (n = 2) seria insuficiente para estimar αi

sem vício ⇛ tal abordagem não seria apropriada.

Se, no entanto, for feito uso de argumentos condicionais

efeitos dos pares ⇛ parâmetros nuisance

⇓

tais efeitos serão removidos e os demaisestimados sem vício.

⇓

Regressão Logística Condicional



Modelo de Regressão Logística Condicional

Para apresentar tal modelo considere um ensaio clínicoaleatorizado multicentros em que:

⇛ q centros médicos foram escolhidos para sua realização.⇛ dois pacientes foram selecionados de cada centro tq:

um recebeu o tratamento A e, o outro, um placebo.

Yij =

{1 se melhora0 se não melhora,

j = 1 indexa o tratamento A e j = 2 o placeboi = 1, . . . ,q indexa os q centros médicos.

Xij =

{1 se tratamento A0 se placebo,




Representação dos dados associados ao ensaio clínico descrito.

demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij

1 1 11 0 02 0 12 0 03 0 13 1 0...

......

... . . ....

q 1 1q 1 0




(Yi1,Yi2)︸︷︷︸(1,1)︸︷︷︸ (1,0)︸︷︷︸ (0,1)︸︷︷︸ (0,0)︸︷︷︸

não-informativo informativo informativo não-informativo

⇈

P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))

=P(Yi1 = 1)P(Yi2 = 0)

P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)




Como as probabilidades envolvidas são dadas por

P(Yi1 = 1) =exp{αi +β + γ ′xi1}

1+exp{αi +β + γ ′xi1}

P(Yi1 = 0) =1

1+exp{αi +β + γ ′xi1}

P(Yi2 = 1) =exp{αi + γ ′xi2}

1+exp{αi + γ ′xi2}

P(Yi2 = 0) =1

1+exp{αi + γ ′xi2}




Segue que:

P(Yi1 = 1)P(Yi2 = 0)P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)

=exp{αi +β + γ ′xi1}

exp{αi +β + γ ′xi1}+exp{αi + γ ′xi2}=

× e ÷ por exp{−αi − γ ′xi2} tem-se:

=exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}

que não inclui os parâmetros αi (i = 1, · · · ,q).

Sob esta abordagem ⇛ modelo com um número reduzidode parâmetros que podem ser estimados sem vício.




Função de verossimilhança associada ao modelo condicional

L(β ,γ) =q

∏i=1

{exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}

}yi1(1−yi2)

×

{1

1+exp{β + γ ′(xi1−xi2)}

}(1−yi1)yi2

Note que a contribuição para L(β ,γ) dos pares com respostaconcordantes, i.e., (Yi1 = 1, Yi2 = 1) e (Yi1 = 0, Yi2 = 0) é iguala 1 ⇛ pares concordantes são não-informativos.




A função L(β ,γ) é, na realidade, a fç de verossimilhançado modelo de regressão logística usual, em que:

Yi =

{1 se (Yi1 = 1,Yi2 = 0)0 se (Yi1 = 0,Yi2 = 1)

intercepto β : efeito do tratamentozi = (xi1−xi2): 6= dos valores das variáveis x dos pacientes

tratado e placebo.




demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij

1 1 11 0 02 0 12 0 03 0 13 1 0...

......

... . . ....

demais variáveisCentro Yi = Melhora Z1i = Tratamento Z2i . . . Zmi

1 1 1 (x2i1− x2i2) . . . (xmi1− xmi2)3 0 1 (x2i1− x2i2) . . . (xmi1− xmi2)...

......

... . . ....




Note que na ausência das covariáveis X2, . . . ,Xk, os dadospodem ser representados em uma tabela de contingência2×2 em que as respostas para o tratamento são cruzadascom as respostas para o placebo.

PlaceboTratamento Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

Assim, testar H0: β1 = 0 é equivalente ao teste de McNemar.

Ainda, exp{β1} é estimado por n12/n21, sendo n12 e n21 ascontagens fora da diagonal principal da tabela.



Ilustração 1 - Ensaio Clínico Multicentros

Para avaliar um novo tratamento para um problema depele ⇒ 79 clínicas. Em cada uma, um paciente recebeuo tratamento e, o outro, um placebo).

⇒ Resposta : melhora ou não do problema.

clinica trat idade melhora grauini1 1 27 0 11 0 32 0 22 1 41 1 32 0 47 0 13 1 19 1 43 0 31 0 4... ... ... ... ...79 1 22 0 179 0 19 1 4

grau inicial do problema (1 a 4 para leve a severo).




Tabela 1. TRV obtidos nos dados sobre tratamento de pele.

Modelos − ln(L(β ,γ)) TRV valor pNulo 37,4299Tratamento 35,5942 3,67 0,055Idade | Trat 34,5466 2,09 0,148Grau inicial | Trat, Idade 25,7545 17,58 < 0,001

Tratamento + Grau Inicial

Interação dupla não significativa

Modelo ⇒ trat + grauini




Tabela 2. Estimativas associadas ao modelo ajustado.

estimativas erros-padrão Z valor pTratamento (β1) 0,711 0,349 2,04 0,0410Grau inicial (γ1) 1,077 0,321 3,35 0,0008

Análise dos resíduos ⇛ evidências a favor do modelo.

a) a odds de melhora dos pacientes sob tratamento éexp{0,711} ≈ 2 vezes a daqueles recebendo placebo.

b) a odds de melhora também cresce exp{1.077} ≈ 3vezes para cada unidade de acréscimo no grau inicial.




Comandos R

> require(survival)> skin<-read.table("skin.txt",h=T)> attach(skin)> model1<-clogit(melhora~trat+idade+grauini+strata(c linica))> model1> summary(model1)> plot(model1$residuals, pch=16)> model2<-clogit(melhora~trat+grauini+strata(clinica ))> model2> summary(model2)> plot(model2$residuals,pch=16,ylab="residuos",xlab= "i")

## Teste de Mcnemar ##> dados<-matrix(c(20,10,5,10),nc=2)> dados> mcnemar.test(dados,correct=F)



Ilustração 2 - Estudo Crossover

Estudo crossover de 2 períodos para avaliação dos tratamentosA, B e P = Placebo em pacientes estratificados de acordo comdois grupos de idade: jovens e adultos.

A sequência A:B significa que a droga A foi administradadurante o 1o período e a B no 2o período. P indica placebo.

Grupos de Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50


FF = (1,1) = favorável nos dois períodos; FU = (1,0) = favorável no 1o período e não-favorável no 2o ;UF = (0,1) = não favorável no 1o período e favorável no 2o , UU = (0, 0) = não favorável nos dois períodos.




Efeitos de interesse nesse estudo

efeito dos períodos

efeito das drogas

efeito dos grupos de idade

efeitos residuais das drogas A e B que resultamda passagem do período 1 para o período 2.




obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 03 1 1 1 0 1 0 03 1 0 0 1 0 1 0...12 1 1 1 0 1 0 012 1 0 0 1 0 1 013 1 1 1 0 1 0 013 0 0 0 1 0 1 0...24 1 1 1 0 1 0 024 0 0 0 1 0 1 025 0 1 1 0 1 0 025 1 0 0 1 0 1 0...

300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0

Obs: gpidade foi representado por (1,0) se adulto e (0,0) se jovem.




Análogo à situação anterior tem-se:

(Yi1,Yi2)︸︷︷︸(F,F) (F,U) (U,F) (U,U)(1,1)︸︷︷︸ (1,0)︸︷︷︸ (0,1)︸︷︷︸ (0,0)︸︷︷︸

não-informativo informativo informativo não-informativo

⇈




P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))

=P(Yi1 = 1)P(Yi2 = 0)

P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)

=exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}=

exp{β + γ ′zi}

1+exp{β + γ ′zi}

◮ zi = diferenças entre os valores das covariáveis droga A,droga B, gpidade, res A e res B, registrados nos períodos1 e 2.

◮ β = efeito de períodos◮ γ1 e γ2 = efeito das drogas A e B, respectivamente◮ γ3 = efeito de grupos de idade◮ γ4 e γ5 = efeito residual das drogas A e B, respectivamente.




Para adultos foram associados aos períodos 1 e 2 os valores 1e 0, respectivamente. E, para jovens, 0 para ambos os períodos,de modo que ⇛ zidade = 1, se adulto e zidade = 0, se jovem.

obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 0...

300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0




Estimativas de máxima verossimilhança - modelo inicial.estimativas erros-padrão Wald valor p

Período (p1) (β ) −1,4370 0,703 4,183 0,041Droga A (γ1) 1,2467 0,681 3,354 0,067Droga B (γ2) −0,0019 0,641 0,000 0,997Gpidade (adultos) (γ3) 0,6912 0,465 2,205 0,137Residual droga A (γ4) −0,1903 1,112 0,029 0,864Residual droga B (γ5) −0,5653 1,156 0,239 0,624

Estimativas de máxima verossimilhança - modelo final.Estimativas Erros-padrão Wald valor p

Período (p1) (β ) −0,845 0,231 13,45 0,00024Droga A (γ1) 1,408 0,341 17,09 < 0,0001Droga B (γ2) 0,296 0,316 0,87 0,35




Análise de resíduos ⇒ evidências favoráveis ao modelo.

Efeitos das drogas A e B ⇛ H0: γ1 = γ2 versus HA: γ1 6= γ2

W =(γ1− γ2)

2

Var(γ1− γ2)=

(γ1− γ2)2

Var(γ1)+ Var(γ2)−2Cov(γ1, γ2)= 12,41

valor p = 0,0004 (g.l.= 1) ⇛ indicando efeitos diferentes.

Odds ratios podem ser obtidas e interpretadas de modosimilar a dos demais estudos analisados. Por exemplo,

A odds de resposta favorável dos pacientes sob a droga A foiexp{1,408} ≈ 4 vezes a dos que usaram placebo e, ainda,exp{1,408−0,296} ≈ 3 vezes a dos que usaram a droga B.




Comandos R

> require(survival)> match<-read.table("cross.txt",h=T)> attach(cross)> model3<-clogit(resp~periodo+drogaA+drogaB+strata(o bs),

data=cross)> model3> summary(model3)> model3$loglik> plot(model3$residuals, pch=16)

## testando H_0: gamma_1 = gamma_2 ##> model3$var> vardif<-model3$var[2,2] + model3$var[3,3]

-2 * (model3$var[2,3])> teste<-((1.408-0.296)/sqrt(vardif))^2> cbind(teste, 1-pchisq(teste,1))



Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Estudo realizado nos anos 70 em uma comunidade deaposentadas para estudar a associação entre o uso deestrogênio e o câncer do endométrio.

Nesse estudo, cada caso foi pareado a um controle que:

estava no mesmo ano de idade do casotinha o mesmo status marital do casovivia na mesma comunidade do caso quando do diagnóstico.

Pareamento 1:1 ⇛ 63 casos / 63 controles.

Algumas das informações coletadas foram sobre:hipertensão (1 se sim e 0 se não)histórico de vesícula biliar (1 se sim e 0 se não)uso de estrogênio (1 se sim e 0 se não).




Endométrio ⇛ membrana que reveste a parede do útero.

Câncer do endométrio ⇛ incidência crescente nas últimasduas décadas, sendo o 2o tumor pélvico mais frequenteentre as brasileiras. A maioria dos casos ocorre entre 60 e70 anos, mas alguns casos podem ocorrer antes dos 40.

Estudos em animais têm mostrado que altosníveis de estrogênio resultam em crescimentoendometrial excessivo e câncer.

Sugerem atenção com anticoncepcionaise terapias de reposição hormonais comaltos níveis de estrogênio.




par caso-controle estrogênio histórico vesícula biliar hipertensãocc est hvb hip

1 1 1 0 01 0 0 0 02 1 1 0 02 0 0 0 13 1 1 0 13 0 1 0 1...47 1 1 1 147 0 0 0 0...63 1 1 1 063 0 1 0 0

Fonte: Stokes et al. (2000).

Pares não-informativos nesses estudos são aquelesem que xi1 = xi2. Por exemplo, o par 3.




Função de verossimilhança associada ao estudo.

L(β ) =q

∏i=1

{exp{β ′(xi1−xi2)}

1+exp{β ′(xi1−xi2)}

}

(xi1− xi2) = diferenças dos valores das covariáveisdo i-ésimo par caso-controle (i = 1, · · · ,q).

Esta função corresponde à função de verossimilhança deum modelo de regressão logística não-condicional sem ointercepto, em que a resposta Y é sempre 1 e os valoresdas covariáveis são iguais a (xi1−xi2).

Note que a contribuição para L(β ) dos pares em quexi1 = xi2 é constante (= 0,5).




Estimativas associadas ao modelo final ajustado.estimativas erros-padrão Wald valor p

HVB (β1) 1,66 0,798 2,07 0,0381EST (β2) 2,78 0,760 3,65 0,0003

Análise dos resíduos ⇛ favorável ao modelo.

A odds de câncer endometrial das aposentadas comhistórico de vesícula biliar foi exp{1,66} ≈ 5 vezes adaquelas sem tal histórico.

A odds de câncer endometrial das aposentadas queusaram estrogênio foi exp{2,78} ≈ 16 vezes a das quenão usaram.




Comandos R

> require(survival)

> match<-read.table("match.txt",h=T)> attach(match)

> model<-clogit(cc~hvb+est+strata(par),data=match)> model> model$loglik> summary(model)

> plot(model$residuals, pch=16)



Referências Bibliográficas

Abreu, MNS; Siqueira, AL; Caiaffa, WT (2009). Regressão logística ordinal emestudos epidemiológicos. Rev Saúde Pública, 43(1): 183-194.Davison, AC; Gigli, A (1989). Deviance residuals and normal scores plots.Biometrika, 76(2): 211-221.Ben, MG; Yohai, VJ (2004). Quantile-quantile plot for deviance residuals in thegeneralized linear model. Journal of Computational & Graphical Statistics, 13(1):36-47.Finney, DJ (1971). Estimation of the Median Effective Dose. Probit Analysis.Cambridge University Press: London, 3rd ed., 1971.Hosmer, DW; Lemeshow, S (1989, 2nd ed. 2000). Applied Logistic Regression.New York: John Wiley & Sons.Kelly, GE (2001). The Median Lethal Dose-Design and Estimation. J. R. Stat.Soc., Ser. D, 50:41-50.Kelly, GE; Lindsey, JK (2002). Robust estimation of the median lethal dose.Journal of Biopharmaceutical Statistics, 12(2):137-147.Kleibaum, DG (1994) Logistic Regression: a self-learning text. New York:Springer Verlag.Koch, GG; Imrey, PB; Singer, JM; Atkinson SS; Stokes ME (1985). Analysis ofcategorical data. Montréal: Les Presses de l′Université de Montréal.Mantel, N (1963). Chi-square tests with one degree of freedom: Extensions ofthe Mantel-Haenszel procedure, JASA, 58:690-700.



Referências Bibliográficas

Machado, EB (2006) Controle de Condylorrhiza vestigialis, a mariposa do álamo,com o uso de C. vestigialis multiplenucleopolyhedrovirus em condições delaboratório e Campo. Dissertação de Mestrado, Engenharia Florestal, UFPR.

Mantel, N; Haenszel, W (1959). Statistical Aspects of the analysis of data fromretrospective studies of disease, J. of the National Cancer Institute, 22:719-748.

Pregibon, D (1981). Logistic regression diagnostics, Annals of Statistics,9:705-724.

Santner, TJ; Duffy, DE (1989). The statistical analysis of discrete data. NewYork: Springer-Verlag.

Silveira Neto, S; Nakano, O; Barbin, D; Villa Nova, NA (1976). Manual deEcologia dos Insetos. São Paulo: Agronômica Ceres, 419p.

Stokes, ME; Davis, CS; Koch, GG (2000). Categorical Data Analysis using theSAS System. SAS Institute Inc., Cary, NC. USA.

Tuyns, AJ; Pequinot, G; Jensen, OM (1977). Le cancer de l’oesophage en Ille etVilaine en fonction del niveaux de consommation d’alcool et de tabac: desrisques que se multiplient. Bull Cancer, 64: 45-60.

Wald, A (1943). Tests of Statistical Hypotheses concerning Several Parameterswhen the Number of Observations is Large. Trans Amer Math Soc., 54:426-482.

Williams, DH (1986). Interval estimation of the median lethal dose. Biometrics,42:641-645.


introdução à análise de dados categóricos

Documents