introdução à análise de dados categóricos

212
I NTRODUÇÃO À A NÁLISE DE DADOS CATEGÓRICOS SUELY RUIZ GIOLO Departamento de Estatística Universidade Federal do Paraná [email protected] 57 a Reunião Anual da RBras ESALQ/USP - Piracicaba/SP 05 a 09 de maio de 2012 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Upload: dinhkien

Post on 07-Jan-2017

247 views

Category:

Documents


25 download

TRANSCRIPT

Page 1: Introdução à Análise de Dados Categóricos

INTRODUÇÃO À ANÁLISE DE DADOS

CATEGÓRICOS

SUELY RUIZ GIOLO

Departamento de EstatísticaUniversidade Federal do Paraná

[email protected]

57a Reunião Anual da RBrasESALQ/USP - Piracicaba/SP

05 a 09 de maio de 2012

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 2: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Conteúdo

1 Conceitos Introdutórios, Notação e Exemplos

2 Delineamentos Amostrais e Modelos Associados

3 Dados em Tabelas de ContingênciaTestes e Medidas de Associação

4 Alguns Modelos de RegressãoResposta Binária ou DicotômicaResposta PolitômicaResposta Dicotômica em Dados Pareados

5 Diversas Ilustrações (Resultados - Software R)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 3: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Bibliografia Básica

Agresti, A. (1995). Introduction to the Analysis of CategoricalData. New York: Wiley.

Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:Wiley.

Everitt, B.S. (1977). The Analysis of Contingency Tables.London: Chapman and Hall.

Hosmer, D.W.; Lemeshow, S. (2000). Applied LogisticRegression. New York: John Wiley & Sons.

Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.New York: Marcel Dekker.

Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis ofDiscrete Data. New York: Springer-Verlag.

Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical DataAnalysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 4: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Bibliografia Complementar

Demétrio, C.G.B. (2001). Modelos Lineares Generalizados emExperimentação Agronômica. Piracicaba: Minicurso 46a Rbrase 9o SEAGRO.

Giolo, S.R. (2012). Introdução à Análise de Dados Categóricoscom Aplicações. Material Didático, 190p.

Paula, G.A. (2010). Modelos de Regressão com ApoioComputacional. URL: http://www.ime.usp.br/ giapaula/

Paulino, C.D.M.; Singer, J.M. (2006). Análise de DadosCategorizados. São Paulo: Blucher.

Poleto, F.Z. (2006). Análise de Dados Categorizados comOmissão. Dissertação de mestrado. São Paulo: Depto deEstatística, IME/USP.

Dentre outros ....

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 5: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Conceitos Introdutórios

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 6: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Introdução

Em diversos estudos é comum o registro de variáveisqualitativas e quantitativas (contínuas ou discretas)

⇒ melhora do paciente (sim ou não)⇒ desempenho do candidato (bom, regular ou péssimo)⇒ local de moradia (norte, sul, leste, oeste)⇒ horas de alívio de dor de cabeça (0, 1, 2, 3 ou > 4)⇒ idade (em anos)

Tais variáveis são comumente classificadas de acordocom suas respectivas escalas de mensuração

⇒ dicotômicas ou binárias⇒ politômicas (ordinais ou nominais)⇒ contagens discretas⇒ contínuas

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 7: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Introdução

Por interesse do pesquisador, ou por conveniência,variáveis contínuas podem ser categorizadas.

⇒ idade: faixas etárias⇒ resultado de um exame médico: normal ou anormal⇒ peso: obeso e não-obeso⇒ peso: < 60, [60, 100), [100, 150) e ≥ 150kg.

Grupar categorias pode ser necessário quando houvercategorias com frequências muito pequenas ou nulas.

Em função do delineamento amostral e dos objetivos, asvariáveis podem ser, ainda, classificadas em:

⇒ variáveis resposta⇒ variáveis explicativas .

Nem sempre tal classificação é simples ou óbvia.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 8: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Objetivos do Minicurso

Apresentar testes, medidas de associação e modelos deregressão utilizados com frequência em estudos em que:

⇒ variável resposta : categórica⇒ variáveis explicativas : categóricas e/ou contínuas.

Análise de dados dessa natureza

⇒ análise de dados categóricos⇒ análise de dados discretos

Justificativa: distribuições discretas de probabilidade (binomial,multinomial, poisson, binomial negativa etc.) são usualmenteassociadas à variável resposta.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 9: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Estudo sobre exposição ao álcool e câncer de esôfago.

Câncer de EsôfagoConsumo de Álcool Sim Não Totais

Sim 96 109 205Não 104 666 770

Totais 200 775 975Fonte: Tuyns et al. (1977), Santner e Duffy (1989)

RELAÇÃO

CAUSA︸ ︷︷ ︸ − EFEITO︸ ︷︷ ︸consumo álcool câncer esôfago

⇓ ⇓variável explicativa variável resposta

⇓ ⇓dicotômica dicotômica

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 10: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Avaliação de medicamentos no tratamento de pacientes comdiagnóstico de infecção urinária.

CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40

Fonte: Koch et al. (1985)

variável resposta ⇛{

Cura ⇒ dicotômica

variáveis explicativas ⇛

{Diagnóstico da Infecção ⇒ dicotômica

Medicamentos ⇒ politômica nominal

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 11: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Estudo multicentros para avaliacão de medicamentos notratamento de infecções respiratórias.

EfeitoCentros Medicamentos Favorável Não favorável Totais

1 Novo 29 16 451 Padrão 14 31 45

Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45

Totais 61 29 90Fonte: Stokes et al. (2000)

variável resposta ⇛{

Efeito ⇒ dicotômica

variável explicativa ⇛{

Medicamentos ⇒ politômica nominal

variável estratificadora ⇛{

Centros

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 12: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Estudo sobre medicamentos para dores de cabeça.Horas de alívio

Medicamentos 0 1 2 3 4 TotaisPlacebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77

Fonte: Stokes et al. (2000)

variável resposta ⇛{

Horas de Alívio ⇒ contagem discreta

⇓politômica ordinal

variável explicativa ⇛{

Medicamentos ⇒ politômica nominal

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 13: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Influência de aditivos na água sobre a limpeza das roupas.Limpeza

Tratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166Fonte: Stokes et al. (2000)

variável resposta ⇛{

Limpeza das Roupas ⇒ politômica ordinal

variável explicativa ⇛{

Tratamentos ⇒ politômica ordinal

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 14: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Estudo sobre preferência de programa de aprendizado.Preferência de Aprendizado

Escola Período Individual Grupo Sala Aula Totais1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44

Fonte: Stokes et al. (2000)

variável resposta ⇛{

Preferência Aprendizado ⇒ politômica nominal

variáveis explicativas ⇛

{Escola ⇒ politômica nominal

Período Escolar ⇒ politômica nominal

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 15: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplos de Dados Categóricos

Estudo crossover de dois períodos para avaliação detratamentos (A, B e P = Placebo) em jovens e adultos.

Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50

Fonte: Stokes et al. (2000)

FF = favorável nos dois períodos; FU = favorável no 1o período e não-favorável no 2o;

UF = não favorável no 1o período e favorável no 2o, UU = não favorável nos dois períodos.

Indivíduo é considerado como sendo seu próprio controle.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 16: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Terminologia e Notação

A partir dos exemplos ⇛ dados de estudos em que aresposta e as variáveis explicativas são categóricas (ouforam categorizadas) são, sempre que possível, organi-zados em Tabelas de Contingência .

Nos casos em que se tem duas variáveis, X e Y, comambas apresentando duas categorias cada.

Tabela de Contingência 2 × 2.

Categorias da Categorias da resposta Yvariável X j = 1 j = 2 Totais

i = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n++ = n

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 17: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Terminologia e Notação

Por conveniência, as categorias de X estarão dispostasnas linhas da tabela, enquanto as de Y, nas colunas.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n

Frequências nij ⇛ indivíduos na categoria i de X ecategoria j de Y, i, j = 1,2.

Totais marginais-linha ⇛ frequências ni+ (i = 1,2).

Totais marginais-coluna ⇛ frequências n+j (j = 1,2).

Total geral ou amostral n ⇛ soma dos nij, i, j = 1,2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 18: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Terminologia e Notação

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+

i = 2 n21 n22 n2+

Totais n+1 n+2 n

pij = P(X = i,Y = j) ⇛ probabilidades conjunta.

p(i)j = P(Y = j | X = i) ⇛ probabilidades condicionais

pi(j) = P(X = i | Y = j) ⇛ probabilidades condicionais

pi+ = P(X = i) ⇛ probabilidades marginais-linha

p+j = P(Y = j) ⇛ probabilidades marginais-coluna

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 19: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Terminologia e Notação

Nos casos mais gerais ⇒ Y e X1, . . . ,Xk

Tabelas de Contingência s× r

Categorias da variável respostaSubpopulações 1 2 · · · r Totais

1 n11 n12 · · · n1r n1+

2 n21 n22 · · · n2r n2+...

......

......

...s ns1 ns2 · · · nsr ns+

Totais n+1 n+2 · · · n+r n

Subpopulações = combinações das categorias de X1, . . . ,Xk.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 20: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Alguns Delineamentos Amostraise

Modelos Associados

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 21: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Delineamentos Amostrais

Um estudo pode ser planejado de diferentes formas.

A escolha por uma delas depende, dentre outros:

Objetivos do estudoCustos e tempo envolvidos para obtenção dos resultadosDisponibilidade de uma equipe para condução do estudoDisponibilidade das unidades amostraisViabilidade de acompanhamento das unidades amostrais

A seguir, são apresentados alguns delineamentos .

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 22: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Clínico-Epidemiológicos

Estudos de Coorte

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 23: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Assim, para esses estudos tem-se:

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) n1+i = 2 (E) n2+

Totais

Desse modo, a probabilidade de um indivíduo pertencer acategoria j de Y, estando na categoria i de X, é dada por:

p(i)j = P(Y = j | X = i)

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1

p(1)1 ⇒ incidência entre os expostosp(2)1 ⇒ incidência entre os não-expostos

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 24: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Sendo assim:{

N11 ∼ Bin(n1+,p(1)1)N21 ∼ Bin(n2+,p(2)1)

Modelo probabilístico: produto de binomias

P(N1 = n1,N2 = n2) =2

∏i=1

P(Ni1 = ni1,Ni2 = ni2)

=2

∏i=1

[(ni+)!

2

∏j=1

(p(i)j)nij

(nij)!

]

com (Ni = ni) = (Ni1 = ni1,Ni2 = ni2), i = 1, 2.

Probabilidades p(i)j estimadas por:

p(i)j =nij

ni+i, j = 1,2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 25: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1

{H0: p(1)1 = p(2)1 (= p+1) ⇛ hipótese de homogeneidadeHA: p(1)1 6= p(2)1

Karl Pearson propôs

Qp =2

∑i=1

2

∑j=1

(nij − eij)2

eij∼ χ2

(1)

Sob H0 ⇛ E(Ni1) = ni+(p+1) e E(Ni2) = ni+(p+2)

Estimativas ⇛ eij =(ni+)(n+j)

ni, j = 1,2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 26: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Duas outras estatísticas comumente utilizadas são:

1 Estatística da Razão de Verossimilhanças

QL =−22

∑i=1

2

∑j=1

nij log

(eij

nij

)∼ χ2

(1)

2 Estatística de Neyman

QN =2

∑i=1

2

∑j=1

(nij − eij)2

nij∼ χ2

(1)

Em certas situações ⇛ Teste Exato de Fisher .

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 27: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Categorias Categorias de Y

de X j = 1 (D) j = 2 (D) Totaisi = 1 (E) p(1)1 p(1)2 = (1−p(1)1) 1i = 2 (E) p(2)1 p(2)2 = (1−p(2)1) 1Totais p+1 p+2 1

Note que H0: p(1)1 = p(2)1 pode também ser expressa por:

a) H0: p(1)1−p(2)1︸ ︷︷ ︸= 0

diferença entre incidências ⇒ risco atribuível

b) H0:p(1)1p(2)1︸︷︷︸

= 1

razão de incidências ⇒ risco relativo

c) H0:p(1)1/(1−p(1)1)

p(2)1/(1−p(2)1)=

p(1)1/p(1)2p(2)1/p(2)2

=p(1)1 p(2)2p(1)2 p(2)1︸ ︷︷ ︸

= 1

razão dos produtos cruzados ⇒ odds ratio ou razão de chances

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 28: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

odds ou chance =probabilidade evento ocorrer

probabilidade evento não ocorrer

Status de Evento de Interesse

Exposição Sim (D) Não (D) TotaisE 80 20 100E 25 75 100

Totais 105 95 200

oddsE =p(1)1

1−p(1)1⇒ oddsE = 0,8/0,2 = 4/1

oddsE =p(2)1

1−p(2)1⇒ oddsE = 0,25/0,75 = 1/3

odds ratioE|E = oddsEoddsE

⇒ OR = 12

risco relativoE|E =p(1)1p(2)1

⇒ RR = 0,8/0,25 = 3,2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 29: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1

ORE|E =oddsE

oddsE=

p(1)1/p(1)2p(2)1/p(2)2

=p(1)1 p(2)2p(1)2 p(2)1

ORE|E =n11n22

n12n21

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 30: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Se RR = 1, a probabilidade de resposta positiva nãodifere entre os indivíduos expostos e não-expostos.

Se RR > 1, a probabilidade de resposta positiva émaior entre os indivíduos expostos.

Se RR < 1, a probabilidade de resposta positiva émaior entre os indivíduos não-expostos.

Se OR = 1, a chance de resposta positiva não difereentre os indivíduos expostos e não-expostos.

Se OR > 1, a chance de resposta positiva é maiorentre os indivíduos expostos.

Se OR < 1, a chance de resposta positiva é maiorentre os indivíduos não-expostos.

Chance e probabilidade não têm o mesmo significado!Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 31: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estimação por Intervalo - Medidas de Associação

Risco Relativo ⇛ IC = exp(

f ± zα/2

√V(f )

)

f = ln(RR) = ln(p(1)1)− ln(p(2)1)

V(f ) =(1−p(1)1)

(n1+)(p(1)1)+

(1−p(2)1)(n2+)(p(2)1)

zα/2 = 100(1−α/2) percentil da N(0,1)

Odds Ratio ⇛ IC = exp(

f ± zα/2

√V(f )

)

f = ln(OR)

V(f ) =(

1n11

+ 1n12

+ 1n21

+ 1n22

)

zα/2 = 100(1−α/2) percentil da N(0,1)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 32: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

Obs: instalar package epiR http://www.r-project.org/

> require(epiR)> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,

conf.level=0.95, units=100, verbose=FALSE)

Disease + Disease - Total Inc risk OddsExposed + 80 20 100 80.0 4.000Exposed - 25 75 100 25.0 0.333Total 105 95 200 52.5 1.105

Point estimates and 95% CIs:--------------------------------------------------- ------Inc risk ratio 3.2 (2.25, 4.56)Odds ratio 12 (6.16, 23.38)--------------------------------------------------- ------

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 33: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,conf.level=0.95, units=100, verbose=TRUE)

$RRest se lower upper

1 3.2 1.197550 2.247488 4.556197$OR

est se lower upper1 12 1.405430 6.158583 23.38200$chisq

test.statistic df p.value1 60.65163 1 6.77236e-15

-------------------------------------# Testes de Pearson e Fisher> dados<-matrix(c(80,25,20,75),nc=2)> chisq.test(dados,correct=F)> fisher.test(dados)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 34: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Clínico-Epidemiológicos

Ensaio Clínico Aleatorizado

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 35: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Clínico-Epidemiológicos

X Y = DesfechoGrupos j = 1 (Com) j = 2 (Sem) Totais

i = 1 (Tratado) p(1)1 p(1)2 1i = 2 (Controle) p(2)1 p(2)2 1

Totais p+1 p+2 1

Delineamento Similar ao dos Estudos de Coorte

Hipóteses, Testes e Medidas são similares com as devidasinterpretações no contexto do ensaio clínico realizado.

Estudos de Coorte ⇛ ObservacionaisEnsaios Clínicos ⇛ Experimentais

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 36: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Clínico-Epidemiológicos

Estudos Caso-Controle

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 37: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Caso-Controle

Nesses estudos, amostras de tamanhos n+1 e n+2 sãoobtidas das subpopulações de casos e controles.

Categorias Categorias de Y

de X j = 1 (C) j = 2 (C) Totaisi = 1 (E)i = 2 (E)Totais n+1 n+2

Categorias Categorias de Y

de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

{N11 ∼ Bin(n+1,p1(1))N12 ∼ Bin(n+2,p1(2))

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 38: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Caso-Controle

Modelo probabilístico: produto de binomiais tal que:

P(N1 = n1,N2 = n2) =2

∏j=1

[(n+j)!

2

∏i=1

(pi(j))nij

(nij)!

]

com (Nj = nj) = (N1j = n1j,N2j = n2j) e ∑2i=1 pi(j) = 1, j = 1, 2.

Probabilidades pi(j), i, j = 1, 2, estimadas por:

pi(j) =nij

n+j

Se a suposição de independência entre casos e controlesnão for razoável ⇛ metodologias mais apropriadas.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 39: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Caso-Controle

Categorias Categorias de Y

de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

{H0: p1(1) = p1(2) (= p1+) ⇛ hipótese de homogeneidadeHA: p1(1) 6= p1(2)

Qp =2

∑i=1

2

∑j=1

(nij − eij)2

eij∼ χ2

(1)

Sob H0 ⇛ E(N1j) = n+j(p1+) e E(N2j) = n+j(p2+)

Estimativas ⇛ eij =(ni+)(n+j)

ni, j = 1,2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 40: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Caso-Controle

Categorias Categorias de Y

de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

Note que H0: p1(1) = p1(2) pode também ser expressa por:

H0:p1(1)/(1−p1(1))

p1(2)/(1−p1(2))=

p1(1)/p2(1)

p1(2)/p2(2)=

p1(1) p2(2)

p2(1) p1(2)︸ ︷︷ ︸= 1

odds ratio ou razão de chances ou dos produtos cruzados

RR = P(D|E)/P(D|E) não se aplica a esses estudos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 41: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Caso-Controle

odds ou chance =probabilidade exposição ao fator

probabilidade não-exposição ao fator

Status de GruposExposição Casos Controles Totais

E 60 20 80E 40 80 120

Totais 100 100 200

oddsC =p1(1)

1−p1(1)⇒ oddsC = 0,6/0,4 = 3/2

oddsC =p1(2)

1−p1(2)⇒ oddsE = 0,20/0,80 = 1/4

odds ratioC|C = oddsCoddsC

⇒ OR = 6

Nesse exemplo, a chance de exposição ao fator sob estudofoi maior entre os casos do que entre os controles.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 42: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos de Coorte

Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais

i = 1 (E) p1(1) p1(2) p1+

i = 2 (E) p2(1) p2(2) p2+

Totais 1 1 1

ORC|C =oddsC

oddsC=

p1(1)/p2(1)

p1(2)/p2(2)=

p1(1) p2(2)

p1(2) p2(1)

ORC|C =n11n22

n12n21

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 43: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R> require(epiR)> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control" ,

conf.level = 0.95, units=100, verbose = FALSE)Disease + Disease - Total Prevalence Odds

Exposed + 60 20 80 75.0 3.0 ?Exposed - 40 80 120 33.3 0.5 ?Total 100 100 200 50.0 1.0 ?

> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control" ,conf.level = 0.95, units=100, verbose = FALSE)

Exposed + Exposed - Total Prevalence OddsDisease + 60 40 100 60 1.500Disease - 20 80 100 20 0.250Total 80 120 200 40 0.667Point estimates and 95% CIs:--------------------------------------------------- ------Odds ratio 6 (3.19, 11.29)--------------------------------------------------- ------

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 44: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Relação entre odds ratio e risco relativo

Doenças raras ⇒ Estudos de Coorte são inviáveis.Nesses casos ⇒ Estudos Caso-Controle são usuais.

Resultado: Se doença rara ⇛ RR ≈ OR

De fato,⇛ D = doença, D = não doença, P(D) = 1−P(D)⇛ E = exposição e E = não-exposição

RR =p(1)1p(2)1

=P(D|E)

P(D|E)=

P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]

P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]

=P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}

P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}

Se doença rara, P(D) → 0︸ ︷︷ ︸

RR ≈P(E|D)P(E|D)

P(E|D)P(E|D)=

p1(1)p2(2)

p2(1)p1(2)= OR

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 45: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Clínico-Epidemiológicos

Estudos Transversais ou Cross-Sectional

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 46: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross-Sectional

Embora ambas as variáveis sejam respostas, uma delasé usualmente classificada como variável explicativa.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2

Totais n

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22

Totais 1

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 47: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross-Sectional

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22

Totais 1

Categorias de Xi = 1 i = 2

Categorias de Y j = 1 j = 2 j = 1 j = 2 Totalp11 p12 p21 p22 1

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 48: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross-Sectional

Modelo probabilístico: Multinomial tal que:

P(N = n) = P(N11 = n11,N12 = n12,N21 = n21,N22 = n22)

= n!2

∏i=1

2

∏j=1

(pij)nij

(nij)!

em que nij ≥ 0,2

∑i,j=1

nij = n e2

∑i,j=1

pij = 1.

Probabilidades pij (i, j = 1, 2) estimadas por:

pij =nij

n

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 49: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross-Sectional

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12 p1+i = 2 p21 p22 p2+

Totais p+1 p+2 1

{H0: pij = (pi+)(p+j), para i, j = 1,2HA: pij 6= (pi+)(p+j), para pelo menos um par (i, j),

H0 é usualmente denominada hipótese de independência,pois a ausência de associação, em termos probabilísticos,significa independência mútua.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 50: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross-Sectional

Considerando o modelo Multinomial a tais estudos

⇛ Frequências esperadas: E(Nij) = n(pij), i, j = 1,2.

⇛ Desse modo, sob H0 7→ E(Nij) = n(pi+)(p+j), i, j = 1,2.

⇛ Estimativas:

eij = n

(ni+

n

)(n+j

n

)=

(ni+)(n+j)

ni, j = 1,2

Para testar H0 ⇛ Estatísticas de teste QP, QL e QN .

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 51: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos Transversais ou Cross Sectional

Das definições de risco relativo e odds ratio, pode-se notarque ambas não são apropriadas aos estudos transversais.Em epidemiologia, contudo, a prevalência de doenças éuma medida de interesse nesses estudos.

prevalência = proporção de indivíduos que ESTÃO doentes em um

determinado tempo específico (época da realização do estudo).

incidência = proporção de indivíduos que TORNARAM-SE doentes no

decorrer de um período de tempo específico de acompanhamento.

Assim, se condicionarmos aos totais ni+ e se for dada adevida atenção às interpretações, é comum o uso da ORe da razão de prevalências (RP) nesses estudos.

OR =n11n22

n12n21e RP =

n11/n1+

n21/n2+

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 52: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> epi.2by2(a=60, b=20, c=40, d=80, method="cross.section al",conf.level = 0.95, units=100, verbose = FALSE)

Disease + Disease - Total Prevalence OddsExposed + 60 20 80 75.0 3.0Exposed - 40 80 120 33.3 0.5Total 100 100 200 50.0 1.0

Point estimates and 95% CIs:--------------------------------------------------- --------Prevalence ratio 2.25 (1.70, 2.99)Odds ratio 6 (3.19, 11.29)--------------------------------------------------- --------

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 53: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos com Tempo de Duração Fixado

Durante o planejamento e execução dos estudos, nemsempre é possível estabelecer o total de participantes.

Tempo de duração do estudo é, então, pré-estabelecido.

Sendo assim, Nij, i, j = 1,2, são contagens aleatórias, comNij, e também N, conhecidas somente após o término dacoleta dos dados.

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2

Totais

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 54: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos com Tempo de Duração Fixado

Insetos coletados em armadilhas e sexados.

SexoArmadilha Machos Fêmeas TotaisAlaranjada 246 17 263Amarela 458 32 490Totais 704 49 753

Fonte: Silveira Neto et al. (1976), Demétrio (2001)

Assumindo que certas suposições são válidas/razoáveis.em um determinado intervalo de tempo, o no de insetos é independente do no

de insetos em qualquer outro intervalo disjunto,

a distribuição do número de insetos depende somente do comprimento dointervalo de tempo considerado e não do seu instante inicial,

a probabilidade de um inseto passar em um intervalo de tempo suficientementepequeno é proporcional ao comprimento do intervalo,

a probabilidade de que dois ou mais insetos passem simultaneamente em umintervalo de tempo suficientemente pequeno é desprezível.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 55: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos com Tempo de Duração Fixado

Então, é usual assumir

Nij ∼ Poisson (µij = tλij), i, j = 1, 2

⇒ λij a taxa média por unidade de tempo⇒ t a duração do experimento.

Considerando Nij independentes, i, j = 1, 2

Modelo Produto de Poisson independentes

P(N = n) =2

∏i=1

2

∏j=1

P(Nij = nij) =2

∏i=1

2

∏j=1

e−µij(µij)nij

(nij)!, µij > 0

com (N = n) = (N11 = n11,N12 = n12,N21 = n21,N22 = n22).

Estimativas ⇛ µij = nij, i, j = 1, 2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 56: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos com Tempo de Duração Fixado

Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 µ11 µ12 µ1+i = 2 µ21 µ22 µ2+

Totais µ+1 µ+2 µ

Sob este modelo, ausência de associação entre X e Y{

H0: µ1j

µ1+=

µ2j

µ2+

(=

µ+j

µ

), para j = 1,2.

HA: µ1j

µ1+6=

µ2j

µ2+{H0 : µij =

(µi+) (µ+j)µ , para i, j = 1,2.

HA: µij 6=(µi+) (µ+j)

µ , para ao menos um par ij.

Hipótese H0 ⇛ hipótese de multiplicatividade

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 57: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estudos com Tempo de Duração Fixado

Para testar tais hipóteses

Estatísticas QP, QL e QN

Como Nij ∼ Poisson(µij), i, j = 1,2, segue que:

⇛ E(Nij) = µij

⇛ Assim, sob H0, E(Nij) =(µi+)(µ+j)

µ

⇛ Logo, eij =(ni+)(n+j)

n , pois µi+ = ni+, µ+j = n+j e µ = n.

Obs : estudos dessa natureza são frequentementeanalisados assumindo-se o modelo Multinomial.

Justificativa: a distribuição de probabilidades do vetor(N11, . . . ,N22), Nij Poisson independentes, condicional àsoma N = ∑i,j Nij, segue distribuição Multinomial (N, p),com p = (p11, . . . ,p22), em que pij =

µij

∑i,j µij, para i, j = 1, 2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 58: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Considerações sobre os Delineamentos Amostrais

Os delineamentos amostrais apresentados estão dentreos mais usuais. Como visto, seus respectivos modelosprobabilísticos são obtidos com base nos esquemasamostrais adotados.

Naturalmente, em estudos com outros esquemas, haveráa necessidade de se considerar outros modelos.

As conclusões estarão, contudo, condicionadas à validadedas suposições distribucionais.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 59: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Alguns Estudos Descritos na Literatura

1 Framingham Heart Study⇛ fatores associados à doenças cardiovasculares.

2 Nurses’ Health Study⇛ consequências do uso de contraceptivos orais a longo prazo.

3 Life Span Study⇛ expectativa de vida - efeito radiação bomba atômica Japão.

4 Pelotas Birth Cohort Study⇛ saúde infantil e materna.

5 Baependi Heart Study⇛ fatores associados à doenças cardiovasculares - população miscigenada.

6 Medicine, Angioplasty, or Surgery Study (MASS-II).⇛ comparação de tratamentos - pacientes c/ doença coronária multiarterial.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 60: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Extensões

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 61: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Tabelas de Contingência s× r ( > 2)

1. Variáveis Y e X nominais

Estabelecidas as hipóteses apropriadas:

Se ni+ fixos ⇛ hipótese de homogeneidadeSe n fixo ⇛ hipótese de independênciaSe totais aleatórios ⇛ hipótese de multiplicatividade

QP =s

∑i=1

r

∑j=1

(nij − eij)2

eij∼ χ2

(s−1)(r−1)

com eij =(ni+)(n+j)

n , i = 1, . . . ,s e j = 1, . . . ,r.

Alternativamente ⇛ Estatísticas QL ou QN .

Em algumas situações ⇛ Teste Exato de Fisher.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 62: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplo: X e Y nominais e n fixo (s e r > 2

Estudo transversal para avaliar a presença de associaçãoentre partido político e local de moradia.

Local de MoradiaPartido Político A B C D TotaisDemocrata 221 160 360 140 881Independente 200 291 160 311 962Republicano 208 106 316 97 727Totais 629 557 836 548 2570

Fonte: Stokes et al. (2000)

Modelo associado ⇛ Multinomial{H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2,3,4HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).

QP = 273,92 (p < 0,0001, g.l = 6) ⇛ há evidências deassociação entre partido político e local de moradia.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 63: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> dados<-matrix(c(221,200,208,160,291,106,360,160,31 6,140,311,97),nc=4)

> dados

[,1] [,2] [,3] [,4][1,] 221 160 360 140[2,] 200 291 160 311[3,] 208 106 316 97

> chisq.test(dados,correct=F)

Pearson’s Chi-squared test

data: dadosX-squared = 273.9188, df = 6, p-value < 2.2e-16

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 64: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Tabelas de Contingência s× r

2. Variável Y ordinal e X nominal com totais ni+ fixos

Avaliação de tratamentos em pacientes com artrite reumatóide.

Melhora do PacienteTratamentos Nenhuma Alguma Acentuada TotaisAtivo 13 7 21 41Placebo 29 7 7 43Totais 42 14 28 84

Fonte: Stokes et al. (2000)

Nesses casos, a estatística QP pode ser utilizada paratestar H0 : p1 = p2 = ...= pr (hípótese de homogeneidade)

Modelo associado ⇛ Produto de multinomiais.

Contudo, a natureza ordinal da variável resposta nãoestaria sendo levada em consideração.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 65: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variável Y ordinal e X nominal com totais ni+ fixos

Alternativa ⇛ atribuir escores a = (a1,a2, . . . ,ar) para ascategorias de Y e definir um escore médio Fi para cadasubpopulação tal que:

Fi =r

∑j=1

aj (p(i)j) i = 1, . . . ,s.

Se s = 2, como no exemplo da artrite ⇛ H0: F1 = F2.

f i = ∑rj=1 aj (p(i)j) = ∑r

j=1aj( nij

ni+

), i = 1,2

E(f 1|H0) = ∑rj=1 aj

(E(N1j)

n1+

)= ∑r

j=1 aj

(n+jn

)= µa

V(f 1|H0) =(n − n1+)(n1+)(n−1)

r

∑j=1

(aj −µa)2( n+j

n

)

︸ ︷︷ ︸=

(n − n1+)(n1+)(n−1)νa.

νa

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 66: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variável Y ordinal e X nominal com totais ni+ fixos

Desse modo, para testar H0: F1 = F2 foi proposto:

QS =(f 1−µa)

2

(n − n1+)(n1+)(n−1)νa

=(n−1)(n−n1+)

(n1+)(f 1−µa)2

va

︸ ︷︷ ︸∼ χ2

1

estatística escore médio

Se s > 2 ⇛ H0: F1 = F2 = . . .= Fs.

QS =(n−1)

n∑s

i=1(ni+)(f i −µa)2

va︸ ︷︷ ︸∼ χ2

(s−1)

estatística escore médio

Se H0 for rejeitada ⇒ comparações dois a dois.⇑

paralelo com análise de variância um-fator

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 67: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R> dados<-matrix(c(13,29,7,7,21,7),nc=3)> escore<-c(0,1,2)> fb1<-(sum(dados[1,] * escore))/sum(dados[1,])> fb2<-(sum(dados[2,] * escore))/sum(dados[2,])> cbind(fb1,fb2)

fb1 fb2[1,] 1.195122 0.4883721> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3 ])))/

sum(dados)> mua<-sum(escore * esp); va<-sum((escore-mua)^2 * esp)> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,]) *

(sum(dados)-1))) * va> QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1> p<-1-pchisq(QS,gl)> cbind(QS, p)

QS p[1,] 12.85902 0.0003358568

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 68: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variável Y ordinal e X nominal com totais ni+ fixos

Ensaio clínico aleatorizado realizado para avaliar um novomedicamento utilizado para aliviar dores de cabeça.

Horas de alívioMedicamentos 0 1 2 3 4 Totais

Placebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77

Fonte: Stokes et al. (2000)

Modelo associado ⇛ Produto de Multinomiais.Devido a natureza discreta das categorias de Y

Pode-se utilizar a estatística escore médio

H0: F1 = F2 = F3.

QS = 13,7346(p = 0,001, g.l. = 2) ⇛ há evidências de quepelo menos dois medicamentos diferem entre si.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 69: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variável Y ordinal e X nominal com totais ni+ fixos

Mas quais medicamentos diferem entre si?

Comparações dois a dois, controlando erro do tipo I(por ex., pelo método de Bonferroni).

⇛ Estimativas: f 1 = 1,36, f 2 = 2,64 e f 3 = 2,41⇛ Considerando α = 0,05⇒ 0,05/3 = 0,017.⇛ Placebo vs padrão: QS = 11,66 (p = 0,0006, g.l. = 1)⇛ Placebo vs novo: QS = 8,60 (p = 0,0034, g.l. = 1)⇛ Padrão vs novo: QS = 0,46 (p = 0,4950, g.l. = 1).

Há evidências de que placebo 6= novo e padrão.

Note que existem frequências esperadas < 5⇛ inviabiliza uso de QP, mas não o de QS.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 70: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Tabelas de Contingência s× r

3.1 Variáveis Y e X ordinais e total n fixo

Estudo transversal realizado para investigar associaçãoentre uso de tabaco e a consciência do risco em usá-lo.

TabacoConsciência do risco Não usa Usa TotaisMínima 70 33 103Moderada 202 40 242Substancial 218 11 229Totais 490 84 574

Fonte: Stokes et al. (2000)

Modelo associado: multinomial.{

H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).

Estatísticas QP, QL ou QN .

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 71: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variáveis Y e X ordinais e total n fixo

Porém, a variável uso de tabaco é dicotômica, enquantoconsciência do risco em usá-lo é ordinal ⇛ pode-sepensar em considerar escores para ambas.

Por exemplo, c = (c1,c2,c3) = (1,2,3) para as categorias deconsciência do risco de uso do tabaco e a = (a1,a2) = (0,1)para as categorias não usa e usa tabaco.

Desse modo, pode-se definir o escore médio

F =3

∑i=1

2

∑j=1

ci aj pij

Estimativa ⇛ f =3

∑i=1

2

∑j=1

ci aj pij =3

∑i=1

2

∑j=1

ci aj nij

n.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 72: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variáveis Y e X ordinais e total n fixo

Sob H0 segue que:

E(f ) =3

∑i=1

2

∑j=1

ci aj

nE(Nij) =

3

∑i=1

ci

(ni+

n

) 2

∑j=1

aj

(n+j

n

)= µc µa

V(f ) =

{3

∑i=1

(ci −µc)2(ni+

n

) 2

∑j=1

(aj −µa)2(n+j/n)

(n−1)

}.

Para amostras grandes ⇛ f ∼ Normal.

QCS =(f − µc µa)

2

V(f )= . . .= (n−1)(rac)

2

︸ ︷︷ ︸∼ χ2

1

estatística da correlação

com rac o coeficiente de correlação de Pearson.Dados de tabaco ⇛ QCS = 42,94 (p < 0,0001)⇛ Há associação entre a consciência do risco e o uso de tabaco.

⇛ Uso tabaco ⇓ à medida que consciência do risco ⇑ (rac =−0,274).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 73: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> x<-c(rep(1,103),rep(2,242),rep(3,229))> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),

rep(0,218),rep(1,11))

> rac<-cor(y,x)> rac[1] -0.2737401

> n<-length(x)> QCS<-(n-1) * rac^2> p<-1-pchisq(QCS,1)

> cbind(QCS,p)QCS p

[1,] 42.93697 5.653222e-11

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 74: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Outra situação em que Y e X ordinais

3.2 Variáveis Y e X ordinais e totais ni+ fixos

Influência de aditivos na água sobre a limpeza das roupas.

LimpezaTratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166

Fonte: Stokes et al. (2000)

Assumindo: a = (1, 2, 3) categorias de limpeza das roupasc = (1, 2, 3) categorias de tratamento.

⇛ QCS = 50,6 (p < 0,0001, g.l.=1), com rac = 0,554.⇛ Há evidencias de associação entre X e Y.⇛ Limpeza ⇑ com o ⇑ da dosagem pois rac > 0.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 75: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variáveis Y e X ordinais e totais ni+ fixos)

Em contrapartida, como os ni+ são fixos

⇛ QS = 52,77 (p < 0,00001, g.l.= 2).

⇛ Comparações dos tratamentos, dois a dois:

H0 : F1 = F2 ⇒ QS = 21,71 (p < 0,0001, g.l. = 1)H0 : F1 = F3 ⇒ QS = 49,06 (p < 0,0001, g.l. = 1)H0 : F2 = F3 ⇒ QS = 8,02 (p = 0,0046, g.l. = 1).

Para α = 0,05⇛ 0,05/3 = 0,017.

Rejeita-se as três hipóteses nulas testadas.

Como f1 = 1,52 < f2 = 2,30 < f3 = 2,67

Limpeza das roupas ⇑ com o ⇑ da dosagem do aditivo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 76: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Tabelas de Contingência s× r

Assim, se as variáveis Y e X forem ordinais e escorespuderem ser assumidos para as categorias de ambas

Se total n fixo ⇛ estatística da correlação

QCS = (n−1)(rac)2 ∼ χ2

1

rac = coeficiente de correlação de Pearson.

Se ni+ fixos ⇛ estatísticas escore e/ou da correlação

QS e/ou QCS.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 77: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Análise Estratificada

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 78: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Variáveis de Confundimento ou Estratificadoras

Nos estudos em geral ⇛ atenção deve ser dada àsvariáveis de confundimento ou estratificadoras.

Tais variáveis podem confundir uma aparente relação causal.Sendo assim, é necessário controlar ou minimizar o efeito dasmesmas para obtenção de conclusões mais confiáveis.

Análises que consideram o efeito dessas variáves sãousualmente denominadas análises estratificadas.

Isto porque as análises são realizadas com os dadosestratificados pelas categorias dessas variáveis.

A estratificação pode ser resultado do delineamento adotadoou sua necessidade pode aparecer após a coleta dos dados.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 79: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplo de Variável de Confundimento

Câncer de PulmãoFumo Passivo Fumo Voluntário Sim Não Totais

Sim SimSim Não

TotaisNão SimNão Não

Totais

variável resposta ⇛{

Câncer de Pulmão

variável explicativa ⇛{

Fumo Voluntário

variável confundimento ⇛{

Fumo Passivo

Obs : caso a influência do confundimento entre fumo voluntárioe fumo passivo não seja considerada, associação entre tabacoe câncer de pulmão pode até mesmo não ser detectada, ou suaintensidade não ser bem avaliada.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 80: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Exemplo de Variável Estratificadora

EfeitoCentros Medicamentos Favorável Não favorável Totais

1 Novo 29 16 451 Padrão 14 31 45

Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45

Totais 61 29 90

variável resposta ⇛{

Efeito

variável explicativa ⇛{

Medicamentos

variável estratificadora ⇛{

Centros Médicos

Há diferenças entre os centros e entre os pacientes atendidos neles

⇛ razoável que seu efeito seja controlado na análise.Analogia com a análise de delineamentos experimentais ⇛ centros

médicos têm o sentido de blocos.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 81: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Mantel-Haenszel no Ensaio Clínico Multicentros

Em tais situações ⇛ Estatística Mantel-Haenszel (1959).No estudo multicentros tem-se:

conjunto de q = 2 tabelas de cont. 2 × 2 (h = 1, . . . ,q)

RespostaTratamentos j = 1 j = 2 Totais

i = 1 nh11 nh12 nh1+i = 2 nh21 nh22 nh2+

Totais nh+1 nh+2 nh

totais marginais-linha nhi+ fixos nas q = 2 tabelas.interesse em testar H0: ph(1)1 = ph(2)1, h = 1, . . . ,q

condicional a H0, Nh11 ∼ Hipergeométrica tal que

eh11= E(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh+1)

nh

vh11 = V(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh2+)(nh+1)(nh+2)

(nh)2(nh −1).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 82: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estatística de Mantel-Haenszel

Sob H0 e para ∑qh=1nh suficientemente grande

QMH =

(q

∑h=1

nh11−q

∑h=1

eh11

)2

q

∑h=1

vh11

∼ χ2(1)

QMH é eficaz para avaliar associações se a maioria dasdiferenças (ph(1)1− ph(2)1) apresentar o mesmo sinal.Havendo homogeneidade das OR nas q tabelas 2 × 2

ORMH =

q

∑h=1

nh11nh22

nhq

∑h=1

nh12nh21

nh

.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 83: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resultados - Ensaio Clínico Multicentros

QMH = 18,41 (p < 0,0001), indicando associação entre asvariáveis tratamento e resposta do paciente, controlandopela variável estratificadora centro médico.

Também, o medicamento novo apresenta proporção deresposta favorável maior do que a do placebo, uma vezque ph(1)1 > ph(2)1, para h = 1,2.

OR1 = 4,01 e OR2 = 4,04 (homogêneas)

ORMH = 4,028 ⇒ a odds de melhora dospacientes que receberam o novo tratamentofoi ≈ 4 vezes a dos que receberam placebo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 84: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))> mantelhaen.test(tab, correct=F)

Mantel-Haenszel test without continuity correction

data: tabX-squared = 18.4106, df = 1, p-value = 1.781e-05

alternative hypothesis: true common odds ratiois not equal to 195 percent confidence interval:

2.105716 7.708353

sample estimates:common odds ratio

4.028846

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 85: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Extensões da Estatística de Mantel-Haenszel

Extensões na presença de uma variável estratificadora

Y ordinal e X nominal com totais ni+ fixos ⇛ QSMH

Y e X ordinais com totais ni+ fixos ⇛ QSMH ou QCSMH

Y e X ordinais com total n fixo ⇛ QCSMH

QSMH ⇛ Estatística escore médio estendida de M-HQSMH ⇛ Estatística da correlação estendida de M-H

Para mais detalhes ⇒ Stokes et al. (2000).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 86: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelos para Dados comResposta Dicotômica

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 87: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Dados com Resposta Binária ou Dicotômica

Para estudar a existência de associação entre um con-junto de variáveis X = (X1, X2, ..., Xk) e uma respostadicotômica Y ⇒ modelos de regressão são usuais.

X1 X2 ... Xk︸ ︷︷ ︸ Y︸︷︷︸

O modelo de regressão logística é um dos mais popularesnestas situações.

Quanto às variáveis X, estas podem ser ummisto de variáveis categóricas e contínuas.

As categóricas são incorporadas aos modelospor meio de variáveis dummy.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 88: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Dicotômica

Para introduzir o modelo de regressão logística, considereos dados de um estudo sobre doença coronariana.

Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais P(Y = 1 | x)

20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43

Fonte: Hosmer e Lemeshow (1989)

E(Y | x)︸ ︷︷ ︸ = 1 × P(Y = 1 | x) + 0 × P(Y = 0 | x) = P(Y = 1 | x)︸ ︷︷ ︸.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 89: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Dicotômica

30 40 50 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Idade(em anos)

E[Y

|x]

Note que à medida que a x = idade cresce, E(Y | x) também cresce.

A mudança na E(Y | x) por unidade de mudança em x se tornaprogressivamente menor quando E(Y | x) próxima de 0 ou 1.

Relação entre idade e E(Y | x) não é, portanto, linear, mas simsigmoidal (forma de S).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 90: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Dicotômica

Similar à regressão linear ⇛ interesse em modelar E(Y | x).

Necessário, contudo, considerar que:

E(Y | x) pertence ao intervalo [0, 1].

Relação entre X e E(Y | x) tem a forma de S.

⇓Sugere distribuição acumulada de uma v.a.

⇓Distribuição logística se tornou popular por:

ser extremamente flexível e fácil de ser utilizada.

conduzir a interpretações simples.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 91: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Dicotômica

E(Y | x) = P(Y = 1 | x)︸ ︷︷ ︸= θ (x) =exp{

β0+p

∑k=1

βkxk

}

1+exp{

β0+p

∑k=1

βkxk

}

1−θ (x) =1

1+exp

{β0+

p

∑k=1

βkxk

} .

sendo x = (x1, x2, . . . , xp) = valores observados das variáveis X,β0 = constante e βk (k = 1, . . . ,p) os p parâmetros de regressão.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 92: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Dicotômica

θ(x) =exp{β ′x}

1+exp{β ′x}e 1−θ(x) =

1

1+exp{β ′x}

ln

(θ(x)

1−θ(x)

)= β0+

p

∑k=1

βkxk = β ′x.

Esta transformação é denominada logito .

A razão entre θ(x) e 1−θ(x) ⇒ definição de odds⇓

odds =θ(x)

1−θ(x)= exp

{β ′x}.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 93: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Estimação do vetor β e das variâncias-covariâncias de β

Estimação de β ⇒ Método da Máxima Verossimilhança

L(β ) =n

∏ℓ=1

P(Y = yℓ | xℓ) =n

∏ℓ=1

(θ(xℓ)

)yℓ (1−θ(xℓ))1−yℓ

yℓ = 1, se indivíduo l apresentou a resposta e yℓ = 0, c.c.

Valores de β que maximizam lnL(β ) ⇒ β .

Distribuição assintótica de β ⇛ Normal

Estimação da matriz de variâncias-covariâncias de β

Σ(β ) = [I(β )]−1 = matriz de variâncias-covariâncias

I(β ) = matriz contendo o negativo das derivadasparciais de 2a ordem de lnL(β ).Estimadores são obtidos por avaliar Σ(β ) em β .

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 94: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Significância dos Efeitos das Variáveis

Testar hipóteses relativas aos parâmetros βk (k = 1, . . . ,p)

1. Teste da Razão de Verossimilhanças (TRV)

TRV =−2ln

[LS

LC

]= 2ln(LC)−2ln(LS)︸ ︷︷ ︸ ∼ χ2

(q)

diferença de deviances

LS: função de verossimilhança associada ao modelo sem a(s)variável(is) sob investigação

LC: função de verossimilhança associada ao modelo com a(s)variável(is) sob investigação

q = diferença de parâmetros entre os dois modelos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 95: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Análise de Deviances e Seleção de Modelos

Considere que modelos encaixados sejam ajustados aosdados de um estudo em que Y é binária e X1 e X2 sãocategóricas com duas categorias cada.

Tabela de Análise de Deviances (ANODEV).

Modelos g.l. Deviances TRV 6= g.l.Nulo glN DNX1 glN −1 D1 DN −D1 1X2 | X1 glN −2 D2 D1−D2 1X1 ∗X2 | X1,X2 glN −3 D3 D2−D3 1

glN = g.l. do modelo nulo = número de subpopulações − 1

Obs: na presença de dados faltantes, o tamanho amostralnos modelos sequenciais dependerá das variáveis Xk queos compõem ⇛ TRV apresentará problemas.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 96: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Significância dos Efeitos das Variáveis

2. Teste de Wald (Wald, 1943)

i) Para testar hipóteses relativas a um parâmetro

H0 : βk = 0, k = 1, . . . ,p

W =(βj)

2

Var(βj)∼ χ2

1

ii) Para hipóteses relativas a q ≥ 2 parâmetros

H0 : β ∗ = 0 (β ∗ = vetor q×1)

W = (β ∗)′[Σ(β ∗)]−1(β ∗)∼ χ2q

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 97: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Diagnóstico do Modelo Ajustado

Sob a hipótese H0: modelo ajustado é satisfatório, faz-seuso de estatisticas que resumem a concordância entre osvalores observados e os preditos pelo modelo.

QP = ∑i,j

(nij−eij

)2

eij∼ χ2

m

QL = 2∑i,j nij ln

(nij

eij

)∼ χ2

m

eij = ni+ θ (xi), j = 1 e eij = ni+ (1− θ(xi)), j = 2.

ni+ = sujeitos na i-ésima subpopulação da tabela de dados s×2.θ(xi) = probabilidade P(Y = 1 | xi) predita pelo modelo ajustado.eij = frequências esperadas sob o modelo ajustado.m = no subpopulações − no parâmetros do modelo ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 98: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Diagnóstico do Modelo Ajustado

Na presença de variáveis contínuas ⇛ frequências muitopequenas para a grande maioria das s subpopulações.

inviabiliza o uso de QL e QP

Hosmer e Lemeshow (1989) propuseram uma estatísticaalternativa , QHL, que é obtida calculando-se a estatísticaqui-quadrado de Pearson a partir de uma tabela g×2 defrequências observadas e preditas

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 99: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Diagnóstico do Modelo Ajustado

Inicialmente, as n observações são ordenadas em ordemcrescente das probabilidades θ(x) preditas pelo modelo.

Tais observações são, então, divididas em g grupos (g =10, por exemplo). No 10 grupo ficam as n1 observaçõescom probabilidades estimadas < 0,1 e, no último, as ng

observações com probabilidades ≥ 0,9.

QHL =g

∑i=1

(oi −niθ (xi))2

ni θ (xi)(1−θ (xi))∼ χ2

(g−2)

ni = frequência de observações no grupo ioi = frequência de resposta Y = 1 no grupo iθ (xi) = probab. média estimada de resposta Y = 1 no grupo i.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 100: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> dados1<-read.table("chd4a.txt",h=T)> attach(dados1)

> dados1dc sexo ecg idade

1 0 0 0 282 0 0 0 343 0 0 0 384 1 0 0 41

...76 1 1 2 5877 1 1 2 5978 1 1 2 60

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 101: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Recursos do Software R

Comandos R

> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link= "logit"),data=dados1)

> summary(ajust)> anova(ajust, test="Chisq")

> source("http://www.poleto.com/funcoes/gof.bino.txt ")> gof.bino(ajust, grupos=10)$x2[1] 5.754939$df[1] 8$pvalue[1] 0.6746605

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 102: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resíduos de Pearson e Resíduos Deviance

Limitação das estatísticas Qp e QL ⇛ único valor é utilizadopara resumir uma quantidade considerável de informação.Pregibon (1981) estendeu os métodos de diagnóstico deregressão linear para a regressão logística, fazendo usodos componentes individuais das estatísticas Qp e QL.

ci =ni1− (ni+) θ (xi)√

(ni+) θ (xi)(1− θ (xi))︸ ︷︷ ︸

, i = 1, · · · ,s.

resíduos de Pearson

Componentes ci são denominados resíduos de Pearson ,pois a soma deles ao quadrado resulta em QP, i.e.,

QP =s

∑i=1

(ci)2

.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 103: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resíduos deviance

Analogamente, os componentes di são denominadosresíduos deviance , pois a soma deles ao quadradoresulta em QL, isto é,

QL =s

∑i=1

(di)2.

di =±

[2ni1 ln

(ni1

ei1

)+2(ni+−ni1) ln

(ni+−ni1

ni+− ei1

)]1/2

︸ ︷︷ ︸resíduos deviance

ei1 = (ni+) θ (xi), para i = 1, . . . ,s.sinal de di ⇛ definido a partir das diferenças (ni1− ei1).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 104: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resíduos deviance

Distribuição aproximada dos resíduos ci e di ∼ N(0,1).Resíduos excedendo ± 2,5 pode indicar

possível falta de ajuste do modelopresença de outlierspadrões sistemáticos de variação.

1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

ï

Res

íduo

s de

Pea

rson

1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

i

Res

íduo

s de

vian

ce

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 105: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Sobre a Distribuição dos Resíduos

Assumindo que os resíduos di seguem distribuiçãoaproximada normal ⇒ construir normal Q-Q plot comenvelope simulado (Davison e Gigli, 1989).

−2 −1 0 1 2

−2

−1

01

2

Percentis

Dev

ianc

e

Q−Q PlotQ−Q PlotQ−Q Plot

Se os resíduos estiverem dentro do envelope simulado ⇛

evidências favoráveis ao modelo ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 106: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Sobre a Distribuição dos Resíduos

Ben e Yohai (2004) argumentam, contudo, que paraalguns MLG, tal distribuição pode estar distante danormalidade.

Assim, propuseram uma estimativa da distribuição dosresíduos di, de modo que no Q-Q plot tais resíduos sãograficado versus os quantis da distribuição estimada.

Ben MG, Yohai VJ (2004). Quantile-quantile plot fordeviance residuals in the generalized linear model.J. of Comput. & Graphical Statistics, 13(1): 36-47.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 107: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Métodos Auxiliares

Poder Preditivo do Modelo Ajustado

Para avaliar o poder preditivo do modelo é necessárioestabelecer um ponto de corte (0 < pc < 1), tal que:

a) Probabilidades preditas pelo modelo ≥ pc ⇛ Y = 1b) Probabilidades preditas pelo modelo < pc ⇛ Y = 0.

Resposta Resposta Predita pelo ModeloObservada Y = 1 (+) Y = 0 (−) TotaisY = 1 (+) a b (a + b)Y = 0 (−) c d (c + d)Totais (a + c) (b + d) n

⇛ Sensibilidade = aa+b = taxa de verdadeiros +

⇛ Especificidade = dc+d = taxa de verdadeiros −

⇛ Valor Preditivo = a+dn = proporção geral de acertos

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 108: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Métodos Auxiliares

Para diversos pontos de corte ⇛ Curva ROC

Pares (x, y) = (1 − especificidade, sensibilidade).Modelo com discriminação perfeita ⇛ (x, y) = (0,1).Pontos de corte próximos ao canto superior esquerdo,produzirão os maiores % de acertos (V+ e V−).Quanto mais próxima de 1 for a área abaixo da curva,melhor o poder de predição do modelo.

1 − especificidade

sens

ibili

dade

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 109: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1: Dados sobre Doença Coronária vs Idade

Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais E(Y | x)

20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43

Fonte: Hosmer e Lemeshow (1989)

β0 = −5,123 (e.p. = 1,11) e β1 = 0,1058 (e.p. = 0,023).

θ (x) =exp{−5,123+0,1058x}

1+exp{−5,123+0,1058x}

ln

(θ (x)

1− θ(x)

)=−5,123+0,1058x

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 110: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1: Dados sobre Doença Coronária vs Idade

Tabela 1. Diferenças de deviances

Modelos g.l. Deviances Diferenças 6= g.l.Nulo 7 28,7015X: idade 6 0,5838 28,1177 1

Tabela 2. Análise de Deviance (ANODEV)

Fonte de variação g.l. Deviances TRV valor pRegressão 1 28,1177 28,1177 < 0,00001Deviance residual 6 0,5838Deviance total 7 28,7015

Evidências de associação entre idade e doença coronária.

Ainda, teste de Wald ⇛ W = 20,49 (g.l. = 1, p < 0,00001)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 111: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1: Dados sobre Doença Coronária vs Idade

Qp = 0,59 (p = 0,9965) e QL = 0,58 (p = 0,9967), g.l.= 6.

Resíduos ci e di entre −2,5 e 2,5.

1 2 3 4 5 6 7 8

−2

−1

01

2

Index

resí

duos

Pea

rson

1 2 3 4 5 6 7 8

−2

−1

01

2

Index

resí

duos

dev

ianc

e

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−3

−2

−1

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

Área abaixo da curva ROC: AUC = 0,7838.

Evidências favoráveis ao modelo ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 112: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1: Dados sobre Doença Coronária vs Idade

30 40 50 60

0.0

0.2

0.4

0.6

0.8

idade

E(Y

|x)

A partir do modelo ajustado tem-se, por exemplo:

xi θ (xi) 1− θ(xi)θ(xi)

1−θ(xi)= exp{β0+ β1xi}

26 0,0853 0,9147 exp{β0+ β1∗26}= 0,09327 0,0939 0,9061 exp{β0+ β1∗27}= 0,10365 0,8524 0,1476 exp{β0+ β1∗65}= 5,774

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 113: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1: Dados sobre Doença Coronária vs Idade

Relembrando queθ(xi)

1−θ(xi)= odds, segue que:

OR =odds(27)odds(26)

= exp{β1(27−26)} = exp{β1} ≈ 1,11

OR =odds(65)odds(26)

= exp{β1(65−26)} = exp{β1∗39} ≈ 62

A odds de doença coronária entre indivíduos com 65 anosde idade é ≈ 62 vezes a dos indivíduos com 26 anos.

Obs: OR nos modelos de regressão logística são denominadasOR ajustadas, uma vez que o efeito βk associado à covariável ké estimado na presença dos demais no modelo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 114: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> resim<-c(1,2,3,5,6,5,13,8)> resnao<-c(9,13,9,10,7,3,4,2)> idade<-c(25,32,38,43,47,53,57,65)> dados<-as.data.frame(cbind(resim,resnao,idade))> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,

family=binomial(link="logit"),data=dados)> anova(ajust,test="Chisq")> summary(ajust)> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch= 16)> abline(h=0, lty=3)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 115: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R

> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)

> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pc h=16)> abline(h=0,lty=3)

> theta<-resim/(resim+resnao)> plot(idade,theta,ylim=range(0,0.9),xlab="idade",

ylab="E(Y|x)",pch=16)> idade<-20:70> modajust<-(exp(-5.123+0.1058 * idade))/(1+ exp(-5.123+

0.1058 * idade))> lines(idade,modajust)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 116: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R

> ntot<-c(10,15,12,15,13,8,17,10)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> dados1<-read.table("coronaria.txt",h=T)# dados 1 = arquivo com 1 indivíduo por linha (100 x 2)

> attach(dados1)> dados1[1:3,]

y idade1 250 250 25...

> require(Epi)> ROC(form=y~idade,plot="ROC")

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 117: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Ensaio Clinico aleatorizado em que três tratamentos foramavaliados em pacientes que no diagnóstico apresentaraminfecção urinária complicada ou não de ser curada.

CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40Fonte: Koch et al. (1985)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 118: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Resposta dicotômica e duas covariáveis em que:

xi1 =

{1 se infecção complicada0 caso contrário.

xi2 =

(xi21,xi22) = (1,0) se tratamento A(xi21,xi22) = (0,1) se tratamento B(xi21,xi22) = (0,0) se tratamento C ⇛ refêrencia.

Tabela 1. Diferenças de deviances.

Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 5 44,473 – – –X1 4 30,628 13,844 1 0,0002X2 | X1 2 2,515 28,114 2 < 0,0001X1∗X2 | X1,X2 0 0,000 2,515 2 0,2843

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 119: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Efeito da interação ⇛ não significativo (p = 0,2843).

Foram então testados os efeitos principais

Efeito de X1 ⇛ significativo (p = 0,0002).Efeito de X2|X1 ⇛ significativo (p < 0,0001).

Tabela 2. Análise de Deviance (ANODEV).

Fonte de variação g.l. deviances TRV valor pRegressão 3 41,958 41,958 < 0,00001Deviance residual 2 2,515Deviance total 5 44,473

As variáveis X1 = diagnóstico e X2 = tratamento reduzemsubstancialmente a deviance total.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 120: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Estatísticas de qualidade de ajuste do modelo

QL = 2,515 (p = 0,2844) e QP = 2,757 (p = 0,2519).

Valores observados e preditos pelo modelo e resíduosdeviance e de Pearson.

θ (xi) θ(xi) di ci

0,735 0,739 −0,077 −0,0770,902 0,882 0,646 0,6300,596 0,612 −0,344 −0,3450,889 0,881 0,162 0,1610,915 0,951 −1,182 −1,3020,850 0,805 0,740 0,717

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 121: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Gráfico dos resíduos deviance e Normal QQ-Plot

1 2 3 4 5 6

−3

−2

−1

01

23

Index

rsíd

uos

devi

ance

−1.0 −0.5 0.0 0.5 1.0

−2

−1

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

Área abaixo da curva ROC ⇛ AUC = 0,70.

Evidências favoráveis ao modelo ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 122: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Tabela 3. Estimativas dos parâmetros do modelo ajustado.

Parâmetros Estimativas erro padrãoβ0: constante 1,4184 0,2986β1: infecção complicada −0,9616 0,2997β2: tratamento A 0,5847 0,2641β3: tratamento B 1,5608 0,3158

ln

(θ(xi)

1− θ (xi)

)= 1,4184−0,9616xi1+0,5847xi21+1,5608xi22

θ(xi) =exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}

1+exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 123: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2: Estudo sobre Infecções Urinárias

Infecção Tratamentos θ(xi)

1−θ(xi)= odds

Complicada A exp{β0+ β1+ β2}

Complicada B exp{β0+ β1+ β3}

Complicada C exp{β0+ β1}

Não complicada A exp{β0+ β2}

Não complicada B exp{β0+ β3}

Não complicada C exp{β0}

ORC|NC = exp{β1}= 0,38

⇓ORNC|C = exp{−β1}= 2,6

ORA|C = exp{β2}= 1,79

ORB|C = exp{β3}= 4,76

ORB|A = exp{β3− β2}= 2,65

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 124: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> resim<-c(78,101,68,40,54,34)> resnao<-c(28,11,46,5,5,6)> diag<-c(1,1,1,0,0,0)> trat<-c(2,3,1,2,3,1)> dados<-as.data.frame(cbind(resim,resnao,diag,trat) )> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+

factor(trat),family=binomial(link="logit"),data=dad os)> summary(ajust)> anova(ajust,test="Chisq")> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,2)> cbind(QL,p1)> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos devianc e")

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 125: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,2)> cbind(QP,p2)> ntot<-c(106,112,114,45,59,40)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")> dados1<-read.table("infec.txt", h=T)> dados1 # arquivo com 1 indivíduo por linha (476 x 3)

x1 x2 y # x1 = diag e x2 = trat1 2 11 2 1...

> attach(dados1)> require(Epi)> ROC(form=y~factor(x1)+factor(x2),plot="ROC")

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 126: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

Objetivo: estudar associação de bronquite com

smk = status de fumo (0 se não usa e 1 se usa),ses = status sócio-econômico (0 se alto e 1 se baixo)idade = 0 se < 40 anos e 1 se ≥ 40 anos.

Bronquitesmk ses idade Sim Não Totais

0 1 0 38 73 1110 1 1 48 86 1340 0 0 28 67 950 0 1 40 84 1241 1 0 84 89 1731 1 1 102 46 1481 0 0 47 96 1431 0 1 59 53 112

Fonte: Kleinbaum (1994)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 127: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

Tabela 1. Diferenças de deviances - modelos sequenciais.Modelos g.l. Dev. TRV 6= g.l. valor pNulo 7 72,798X1 6 40,336 32,462 1 < 0,0001X2 | X1 5 27,511 12,825 1 0,0003X3 | X1,X2 4 11,025 16,486 1 < 0,0001X1 ∗X2 | X1,X2,X3 3 7,910 3,115 1 0,0775X1 ∗X3 | X1,X2,X3,X1 ∗X2 2 0,032 7,879 1 0,0050X2 ∗X3 | X1,X2,X3,X1 ∗X2,X1 ∗X3 1 0,031 0,001 1 0,9763X1 ∗X2 ∗X3 | X1,X2,X3 + duplas 0 0,000 0,031 1 0,8602

X1 = smk, X2 = ses e X3 = idade

Modelo ⇛ X1,X2,X3+X1∗X3+X1∗X2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 128: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

θ (xi) θ(xi)0.3389166 0.34234230.3610467 0.35820900.2987395 0.29473680.3195141 0.32258060.4870962 0.48554910.6873808 0.68918920.3267997 0.32867130.5291753 0.5267857 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−2

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Com

pone

nte

do D

esvi

o

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

1 2 3 4 5 6 7 8

−0.

4−

0.2

0.0

0.2

0.4

Index

Res

iduo

s de

vian

ce

QL = QP = 0,0318 (p = 0,999).

Área abaixo curva ROC = 0.64.

Evidências a favor do modelo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 129: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

Parâmetros Estimativas Erro-padrãoβ0 −0,8533 0,1856β1: x1 = smk 0,1306 0,2408β2: x2 = ses 0,1852 0,1982β3: x3 = idade 0,0973 0,1991β4: (x1 ∗x2) = smk∗ses 0,4859 0,2637β5: (x1 ∗x3) = smk∗idade 0,7422 0,2643

smk ses idade smk∗ses smk∗idade odds = θ (xi)

1−θ(xi)

0 1 0 0 0 exp{β0+ β2}

0 1 1 0 0 exp{β0+ β2+ β3}

0 0 0 0 0 exp{β0}

0 0 1 0 0 exp{β0+ β3}

1 1 0 1 0 exp{β0+ β1+ β2+ β4}

1 1 1 1 1 exp{β0+ β1+ β2+ β3+ β4+ β5}

1 0 0 0 0 exp{β0+ β1}

1 0 1 0 1 exp{β0+ β1+ β3+ β5}

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 130: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

Na presença de interações significativas:

ORsmk(1|0) =

exp{β1} se ses = 0 e idade = 0exp{β1+ β4} se ses = 1 e idade = 0exp{β1+ β5} se ses = 0 e idade = 1exp{β1+ β4+ β5} se ses = 1 e idade = 1

ORsmk(1|0) = exp{β1+ β4 ses+ β5 idade}

Assim, para, por exemplo, pacientes com ses alto = 0 e idade> 40 anos (idade = 1), a odds de bronquite entre os que fumamé exp{0,1306+0,7422}= 2,4 vezes a dos que não fumam.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 131: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

ORses(1|0) =

{exp{β2} se smk = 0exp{β2+ β4} se smk = 1

ORses(1|0) = exp{β2+ β4 smk}

Assim, para pacientes que fumam, a odds de bronquite entre oscom ses baixo (ses = 1) é exp{0,1852+0,4859}= 1,95 vezes ados com ses alto (ses = 0).

Para os que não fumam (smk = 0), tal odds é exp{0,1852}= 1,2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 132: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3: Estudo sobre Bronquite

ORidade(1|0) =

{exp{β3} se smk = 0exp{β3+ β5} se smk = 1

ORidade(1|0) = exp{β3+ β5 smk}

Desse modo, para os que fumam, a odds de bronquite entre oscom idade ≥ 40 anos é exp{0,0973+0,7422}= 2,3 vezes a doscom idade < 40 anos.

Para os que não fumam tal odds é exp{0,0973}= 1,1.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 133: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> brc<-read.table("bronquite.txt",h=T)> attach(brc)> brc

sim nao smk ses idade38 73 0 1 048 86 0 1 128 67 0 0 040 84 0 0 184 89 1 1 0

102 46 1 1 147 96 1 0 059 53 1 0 1

> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+smk* ses+smk * idade,family=binomial,data=brc)

> anova(ajust,test="Chisq")> summary(ajust)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 134: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> ajust$y> ajust$fitted.values

> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)

> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)

> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos dev iance")

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 135: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Logit

Comandos R> ntot<-c(111,134,95,124,173,148,143,112)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> brc1<-read.table("bronquite1.txt",h=T)> attach(brc1)# brc1 = arquivo com 1 indivíduo por linha (1040 x 4)> brc1

x1 x2 x3 y0 1 0 10 1 0 1...1 0 1 0

> require(Epi)> ROC(form=y~x1+x2+x3+x1 * x2+x1 * x3,plot="ROC")

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 136: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Links Paramétricos Alternativos para Dados Binários

Alguns links para dados com resposta binária.

θ (x) = F(β ′x) links paramétricos alternativosexp{β ′x}

1+ exp{β ′x}logito ⇒ ln

(θ (x)

1−θ (x)

)

Φ(β ′x) probito ⇒ Φ−1(θ (x))

1−exp{−exp{β ′x}} clog-log ⇒ ln(− ln(1−θ (x)))

12 +

arctg(β ′x)

π cauchy ⇒ F−1(θ (x))

Φ(·) denota a função de distribuição da N(0,1), arctg = arco tangente

F(·)denota a função de distribuição da Cauchy(0,1) ∼ t-Student(1g.l.)

⇛ Simétricos: logístico, probito e cauchy⇛ Assimétrico: complemento log-log.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 137: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Links Alternativos para Dados Binários

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

thet

a(x)

logísticoprobitoclog−logcauchy

Procedimentos de estimação, qualidade e diagnóstico sãoanálogos aos do modelo logístico.

Interpretação dos parâmetros difere da apresentada parao modelo logístico.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 138: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando links Alternativos - Bioensaio

Bioensaio conduzido em laboratório por Machado (2006).

Objetivo: concentração ideal de uma suspensão viral.

MortesDiluições (CPI/ml) Sim Não Totais

Testemunha 0 30 30103 1 29 30106 4 26 30107 15 15 30108 28 2 30109 29 1 30

xi = logaritmo neperiano das diluições.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 139: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando Links Alternativos - Bioensaio

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

ln(diluição)

Pro

porç

ão d

e m

orte

s

Logístico ⇒ θ (xi) =exp{β0+β1xi}

1+exp{β0+β1xi}

Probito ⇒ θ (xi) = Φ(β0+β1xi)

Clog-log ⇒ θ (xi) = 1−exp{−exp{β0+β1xi}}

Cauchy ⇒ θ (xi) =12+

arctan(β0+β1xi)

π

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 140: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando Links Alternativos - Bioensaio

Estatística deviance de qualidade de ajuste

Logito Probito Clog-log CauchyQL 6,59 10,99 6,18 1,72

p-valor 0,158 0,027 0,186 0,787

−1.0 0.0 1.0

−2

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

−1.0 0.0 1.0

−3

−1

01

2

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

−1.0 0.0 1.0

−2

01

23

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

−1.0 0.0 1.0

−4

−2

02

4

Normal Q−Q Plot

Percentis da N(0,1)

Dev

ianc

e

Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

a) logito b) probito c) clog-log d) Cauchy

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 141: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando links Alternativos - Bioensaio

Evidências a favor do modelo Binomial com link cauchy.

Estimativaslinks β0 (e.p.) β1 (e.p.)Logito −12,863 (2,27) 0,708 (0,12)Probito − 6,244 (1,07) 0,347 (0,06)Clog-log − 8,143 (1,26) 0,422 (0,06)Cauchy −26,678 (9,47) 1,451 (0,51)

Usual nos bioensaios: dose letal mediana ⇛ LD50

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 142: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando links Alternativos - Bioensaio

x50 = ln(LD50) LD50

Logito ln

(0,50

1−0,50

)= β0+ β1x − β0

β1≈ 18,17 (7,7)7

Probito Φ−1(0,50) = β0+ β1x − β0

β1≈ 18,00 (6,6)7

Clog-log ln(− ln(1−0,50)) = β0+ β1x −0,3665−β0

β1≈ 18,43 (10)7

Cauchy F−1(0,50) = β0+ β1x − β0

β1≈ 18,39 (9,7)7

Obs : para os modelos com links simétricos ⇛ x50 =− β0

β1.

Estimação por ponto e intervalo da LD50: Finney (1971),Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...

Koenker, R. Parametric links for binary response. URL:

www.econ.uiuc.edu/∼roger/research/links/Rnews.pdf

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 143: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando links Alternativos - Bioensaio

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

ln(diluições)

prop

orçã

o de

mor

tes logístico

probitoclog−logcauchy

(18.386, 0.5)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 144: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Cauchy

Comandos R

> resim<-c(0,1,4,15,28,29)> resnao<-c(30,29,26,15,2,1)> lnd<-c(0,9.21,16.12,18.42,20.72,23.02)> dados<-as.data.frame(cbind(resim,resnao,lnd))> attach(dados)

> ajuste4<-glm(as.matrix(dados[,c(1,2)])~lnd,family=binomial(link="cauchit"),data=dados)

> ajuste4> anova(ajuste4,test="Chisq")> summary(ajuste4)

# Obs: link="logit", "probit" e "cloglog"para ajustar os demais modelos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 145: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando Modelo Binomial com Link Cauchy

Comandos R

> ntot<-c(30,30,30,30,30,30)> fit.model<-ajuste4> source("http://www.ime.usp.br/~giapaula/envelr_bin o")

> x<-seq(0,25,0.1)> m4<- pcauchy(-26.678+1.451 * x)

> plot(lnd,resim/(resim+resnao),pch=16, ylab="proporç ão demortes",xlab="ln(diluições)",xlim=c(0,28),ylim=c(0, 1.05))

> lines(x,m4,lty=1,lwd=2,col=1)> legend(1,0.8,lty=c(1),col=c(1),lwd=2,c("cauchy"),b ty="n")

> lines(c(18.386,18.386),c(0,0.50),lty=3)> lines(c(0,18.386),c(0.50,0.50),lty=3)> legend(17.7,0.55,c("(18.386, 0.5)"),bty="n",cex=0.8 )

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 146: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelos para Dados comResposta Politômica

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 147: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelos para Dados com Resposta Politômica

Considere, agora, que o interesse seja o de estudar aexistência de associação entre um conjunto de variáveisX = (X1, X2, ..., Xk) e uma resposta politômica Y, a qualpode ser nominal ou ordinal.

X1 X2 ... Xk︸ ︷︷ ︸ Y︸︷︷︸

H

Modelos de regressão quepodem ser úteis nesses casos

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 148: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situação 1 - Resposta Politômica Nominal

Resposta politômica nominal

H

Considere os dados a seguir em que se deseja avaliar se oprograma de aprendizado que as crianças preferem estariaassociado com a escola e o período escolar.

Programa de AprendizadoEscola Período Individual Grupo Sala Aula Totais

1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 149: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resposta politômica nominal

Denotando por πhik a probabilidade de um aluno da escola h(h = 1,2,3) e período escolar i (i = 1,2) preferir o programa deaprendizado k (k = 1,2,3), em que ∑3

k=1 πhik = 1, tem-se:

H

Programa de AprendizadoEscola Período k

h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 13 1 π311 π312 π313 13 2 π321 π322 π323 1

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 150: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Logitos Generalizados

Possível modelo para análise desses dadosModelo de Logitos Generalizados

Esse modelo considera (r−1) logitos generalizados tq:

logithik = ln

(πhik

πhir

)= β0k +β ′

kxhi, k = 1, . . . ,r−1

sendo r = no de categorias da resposta.

Note que cada logito k (k = 1, . . . ,r−1) é definido a partir daprobabilidade associada à k−ésima categoria de respostasobre a da última categoria (k = r).

Note, também, que há diferentes interceptos e diferentesvetores de parâmetros β k associados aos r−1 logitos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 151: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Logitos Generalizados

Como mais de um logito está sendo definido para cadasubpopulação ⇛ necessário tamanho amostral grandepara acomodar o no de logitos sendo modelados.

Quando não houver dados suficientes que justifiquem aanálise por meio de logitos generalizados ⇛ pode haverproblemas quanto a estimação dos parâmetros.

Nesses casos, uma alternativa seria simplificar a estruturada variável resposta (grupar categorias) e utilizar, porexemplo, o modelo de regressão logística dicotômica.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 152: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

No estudo sobre preferência de aprendizado r = 3. Então:

logithi1 = ln

(πhi1

πhi3

)e logithi2 = ln

(πhi2

πhi3

)

logithik = β0k +β ′kxhi

k = 1,2, h = 1, 2, 3 e i = 1, 2.

X1 = escolas e X2 = períodos ⇛ variáveis dummy

x11 =

{0 escola 11 escola 2,0 escola 3

x12 =

{0 escola 10 escola 2,1 escola 3

x2 =

{1 padrão0 integral.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 153: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

Tabela 1 - Diferenças de deviances.Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 10 30,2480 – – –X1 6 12,8716 17,3764 4 0,0016X2 | X1 4 1,7776 11,0940 2 0,0039X1∗X2 | X1,X2 0 0,0000 1,7776 4 0,7766

g.l. = (r−1) × g.l. esperados para um único logito.

Modelo selecionado ⇛ X1+X2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 154: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

Tabela 2 - Probabilidades observadas e preditas a partir do modelo.Observadas Preditas

Escolas Períodos Pref. Probabilidade e.p. Probabilidade e.p Obs−Pred1 pad indiv 0,1887 0,0537 0,1580 0,0403 0,0306

grupo 0,3208 0,0641 0,3049 0,0527 0,0159aula 0,4906 0,0687 0,5371 0,0560 −0,0470

1 int indiv 0,0746 0,0321 0,0989 0,0279 −0,0240grupo 0,1791 0,0468 0,1917 0,0393 −0,0130aula 0,7463 0,0532 0,7095 0,0459 0,0368

2 pad indiv 0,3281 0,0587 0,3409 0,0515 −0,0130grupo 0,2656 0,0552 0,2667 0,0469 −0,0010aula 0,4063 0,0614 0,3924 0,0509 0,0139

2 int indiv 0,2500 0,0541 0,2372 0,0444 0,0128grupo 0,1875 0,0488 0,1864 0,0389 0,0011aula 0,5625 0,0620 0,5764 0,0518 −0,0140

3 pad indiv 0,3261 0,0691 0,3436 0,0587 −0,0170grupo 0,3261 0,0691 0,3429 0,0582 −0,0170aula 0,3478 0,0702 0,3136 0,0536 0,0343

3 int indiv 0,2727 0,0671 0,2545 0,0521 0,0183grupo 0,2727 0,0671 0,2552 0,0517 0,0176aula 0,4545 0,0751 0,4904 0,0608 −0,0360

Probabilidades observadas e preditas estão próximas,indicando evidências favoráveis ao modelo ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 155: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

Tabela 3 - Estimativas dos parâmetros do modelo ajustado.

logito 1 logito 2estimativas erro-padrão estimativas erro-padrão

Intercepto −1,9711 0,320 −1,3088 0,259Escola 2 1,0828 0,353 0,1801 0,317Escola 3 1,3147 0,384 0,6556 0,339Período padrão 0,7474 0,282 0,7426 0,270

ln

(πhi1

πhi3

)= β01+β ′

1xhi e ln

(πhi2

πhi3

)= β02+β ′

2xhi

πhi1

πhi3= exp{β01+β ′

1xhi} eπhi2

πhi3= exp{β02+β ′

2xhi}

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 156: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

Tabela 4 - Odds associadas aos logitos 1 e 2.logito 1 logito 2

Escola Período odds = πhi1/πhi3 odds = πhi2/πhi31 Padrão exp{β01+β31} exp{β02+β32}1 Integral exp{β01} exp{β02}2 Padrão exp{β01+β11+β31} exp{β02+β12+β32}2 Integral exp{β01+β11} exp{β02+β12}3 Padrão exp{β01+β21+β31} exp{β02+β22+β32}3 Integral exp{β01+β21} exp{β02+β22}

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 157: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Logitos Generalizados

logito 1 logito 2entre períodos individual / sala de aula grupo / sala de aula

ORP/I eβ31 = 2,11 eβ32 = 2,10

Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral,

Entre aprendizado em grupo ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral.

Entre aprendizado individual ou em grupo◮ odds de preferência entre esses dois métodos deaprendizado não diferiu entre os alunos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 158: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Logitos Generalizados

logito 1 logito 2entre escolas individual / sala de aula grupo / sala de aula

OR2/1 eβ11 = 2,95 eβ12 = 1,19

OR3/1 eβ21 = 3,72 eβ22 = 1,93

OR3/2 eβ21−β11 = 1,26 eβ22−β12 = 1,61

Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos da escola 2 éde ≈ 3 vezes a dos alunos da escola 1. Já entre os daescola 3, tal odds é de ≈ 4 vezes a daqueles na escola 1e, entre os das escolas 3 e 2, de ≈ 1,3 vezes.

Por analogia tem-se as demais interpretações.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 159: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando o Modelo de Logitos Generalizados

Comandos R> require(VGAM)> esc<-read.table("escolas.txt", h=T)> attach(esc)> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +

factor(periodo),multinomial,esc)> summary(fit1)> coef(fit1,matrix=TRUE)> fitted(fit1)> fit1@y - fitted(fit1)> model.matrix(fit1)> residuals(fit1)

Obs: A última categoria de resposta é considerada no Rcomo a categoria de referência. Para consideraroutra (por ex., grupo 2), use refLevel.

> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +factor(periodo),multinomial(refLevel=2),esc)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 160: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situação 2 - Resposta Politômica Ordinal

Para abordar essa situação, considere os dados a seguir emque se deseja avaliar se o grau de melhora de pacientes comartrite estaria associado com genêro e tratamento.

Grau de melhoraSexo Tratamentos Acentuada Alguma Nenhuma Totais

F A 16 5 6 27F Placebo 6 7 19 32M A 5 2 7 14M Placebo 1 0 10 11

As categorias de resposta estão ordenadas apartir da situação mais favorável para a menosfavorável aos pacientes.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 161: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Resposta politômica ordinal

Denotando por πhik a probabilidade de um paciente do sexo h(h = 1,2) com tratamento i (i = 1,2) apresentar grau de melhorak (k = 1,2,3). Então, segue que:

Grau de MelhoraSexo Tratamento k Totais

h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 1

Considerando os totais nhi+ fixos ⇛ multinomial associada acada subpopulação, de modo que ∑3

k=1 πhik = 1.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 162: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situação 2 - Resposta Politômica Ordinal

Considerando, ainda, as seguintes quantidades:

θhi1 = πhi1 e θhi2 = πhi1+πhi2

θhi1 =probabilidade de melhora acentuadaθhi2 =probabilidade de melhora acentuada ou alguma melhora

H

θhik, k = 1, . . . ,r−1 ⇛ probabilidades cumulativas

H

modelo sugerido na literatura

Modelo de Logitos Cumulativos

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 163: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Logitos Cumulativos (MLC)

Esse modelo considera (r−1) logitos cumulativos.Assim, para r = 3, tem-se:

logit(θhi1) = ln

(πhi1

πhi2+πhi3

)e logit(θhi2) = ln

(πhi1+πhi2

πhi3

)

H

logit(θhik) = β0k +β ′kxhi, k = 1, . . . ,r−1

sendo r = no de categorias da resposta.

É usual que as categorias de resposta mais favoráveissejam avaliadas em relação às menos favoráveis.

Neste modelo, os interceptos são distintos e existem 6=vetores de parâmetros de regressão para cada logito.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 164: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Odds Proporcionais (MOP)

Na realidade, o modelo de logitos cumulativos é similar aomodelo de logitos generalizados.

Contudo, se proporcionalidade das odds for válida, o queequivale a supor que β k = β para k = 1, . . . ,r−1, então,

logit(θhik) = β0k +β ′xhi

θhik =exp{

β0k +β ′xhi

}

1+exp{

β0k +β ′xhi

}

N

Modelo de Odds Proporcionais (MOP)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 165: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Odds Proporcionais (MOP)

Qual o significado da suposição de oddsproporcionais ou de regressão paralela?

Grau de melhoraTratamento Acentuada Alguma Nenhuma Totais

A 21 7 13 41Placebo 7 7 29 43

Note que: ORac/ac = 1, ORal/ac = 3 e ORac/nenh = 6.7.

crescimento aproximadamente linear das OR

Desse modo, ORac/al+nenh = 5.4 ≈ ORac+al/nenh = 4.5

odds proporcionais

Se for válido para todas as covariáveis no modelo ⇛ MOP.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 166: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Odds Proporcionais (MOP)

Para testar a suposição de odds proporcionais, isto é,

{H0 : βk = β , ∀ k ⇒ MOPHa : βk 6= β ⇒ MLC

TRV =−2ln[

LH0LHa

]∼ χ2

m

m = diferença de parâmetros entre os modelos sob H0 e Ha.

As probabilidades πhij são determinadas fazendo-sesubtrações dos θhik. Assim, se r = 3,

πhi1 = θhi1

πhi2 = θhi2−θhi1

πhi3 = 1−θhi2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 167: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Para os dados de artrite foram consideradas:

X1 ={

1 se feminino0 se masculino X2 =

{1 se tratamento A0 se placebo

Como não foram encontradas evidências contrárias asuposição de odds proporcionais, i.e., H0: βk = β ,∀ k

TRV = 1,88 (p = 0,39, g.l.= 2)

Foi considerado o modelo de odds proporcionais (MOP)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 168: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Tabela 1 - Diferenças de deviances (X1 = sexo, X2 = tratamento).

Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 6 (8−2) 22,5986X1 5 (8−3) 18,7933 3,8053 1 0,0511X2 | X1 4 (8−4) 2,7121 16,0812 1 < 0,0001X1 ∗X2 | X1,X2 3 (8−5) 2,4037 0,3084 1 0,5786

g.l. = (s× (r−1))−q, com s = no de subpopulações, r = no de categorias da resposta

e q = no de parâmetros do modelo.

Modelo ⇛ MOP com X1 e X2

Estatísticas QL e QP ∼ χ2 com ((r−1)(s−1)−q) g.l.

QL = 2,71 (p = 0,607, g.l.= 4)QP = 1,91 (p = 0,752, g.l.= 4).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 169: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Ainda, probabilidades observadas ≈ das preditas pelo modelo.

Observadas Preditas Observadas − Preditas0,59259 0,61036 −0,017770,18518 0,17601 0,009170,22222 0,21361 0,008600,18750 0,20612 −0,018620,21875 0,17281 0,045930,59375 0,62106 −0,027310,35714 0,29527 0,061860,14285 0,20084 −0,057990,50000 0,50387 −0,003870,09090 0,06493 0,025970,00000 0,07536 −0,075360,90909 0,85970 0,04939

Evidências favoráveis aos MOP ajustado.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 170: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Tabela 2 - Estimativas obtidas para o MOP ajustado.

Parâmetros Estimativas Erro-padrãoβ01: intercepto 1 −2,6672 0,5997β02: intercepto 2 −1,8128 0,5566β1: sexo feminino 1,3187 0,5292β2: tratamento A 1,7973 0,4728

Tabela 3 - Probabilidades θhik e πhij preditas pelo MOP.

Sexo Tratamentos θhi1 θhi2 πhi1 πhi2 πhi3

F A 0,6104 0,7864 0,6104 0,1760 0,2136F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211M A 0,2953 0,4961 0,2953 0,2008 0,5039M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 171: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Tabela 4 -Odds associadas ao MOP ajustado.

Sexo Tratamentos πhi1/(πhi2+πhi3) (πhi1+πhi2)/πhi3F A exp{β01+β1+β2} exp{β02+β1+β2}F Placebo exp{β01+β1} exp{β02+β1}M A exp{β01+β2} exp{β02+β2}M Placebo exp{β01} exp{β02}

Melhora acentuada versus alguma ou nenhuma melhora

⇒ a odds de melhora acentuada entre as mulheres éexp{β1} ≈ 4 vezes a dos homens.

⇒ a odds de melhora acentuada entre os pacientes sobtratamento A é exp{β2} ≈ 6 vezes a daqueles sob placebo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 172: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustrando o Modelo de Odds Proporcionais (MOP)

Melhora acentuada ou alguma melhora versus nenhuma

Devido à suposição de odds proporcionais, as estimativassão as mesmas obtidas anteriormente. Logo,

⇒ a odds de melhora acentuada ou alguma melhoraentre as mulheres é ≈ 4 vezes a dos homens.

⇒ a odds de melhora acentuada ou alguma melhora entreos pacientes sob trat. A é ≈ 6 vezes a daqueles sob placebo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 173: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando os Modelos: MLC e MOP

Comandos RObs: Instalar package VGAM (www.r-project.org)

> require(VGAM)> data<-read.table("artrite.txt", h=T)> data

ac alg nenh sexo trat16 5 6 2 2

6 7 19 2 15 2 7 1 21 0 10 1 1

> fit <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(t rat),cumulative(parallel=TRUE),data) # MOP

> fit1 <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor( trat),cumulative(parallel=FALSE),data) # MLC

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 174: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando os Modelos: MLC e MOP

Comandos R

> TRV <- 2 * (logLik(fit1)-logLik(fit))> gl <- length(coef(fit1))-length(coef(fit))> p <- 1-pchisq(TRV,gl)> cbind(TRV, gl, p)

> summary(fit)> coef(fit, matrix = TRUE)

> residuals(fit)> fitted(fit)> fit@y> fit@y - fitted(fit)> model.matrix(fit)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 175: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ajustando os Modelos: MLC e MOP

Comandos RObs: Instalar package Design (www.r-project.org)

> data1<-read.table("artrite1.txt", h = T)# artrite1 = arquivo com 1 indivíduo por linha (84 x 3)> data1[1:3,]

melhora sexo tratamento1 3 2 22 3 2 23 3 2 2...> require(Design)> mop<-lrm(melhora~sexo+tratamento, x=TRUE, y=TRUE)> mop> par(mfrow=c(1,2))> residuals(mop, type="score.binary", pl=TRUE)> residuals(mop, type="partial", pl=TRUE)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 176: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

melhora

sexo

−0.

15−

0.05

0.05

0.15

alg nenh

melhora

sexo

melhora

trat

amen

to

−0.

15−

0.05

0.05

0.15

alg nenh

melhora

trat

amen

to

1.0 1.2 1.4 1.6 1.8 2.0

1.0

1.5

2.0

2.5

3.0

sexo

Par

tial R

esid

ual

y>=2

y>=3

1.0 1.2 1.4 1.6 1.8 2.0

1.5

2.0

2.5

3.0

3.5

4.0

tratamento

Par

tial R

esid

ual

y>=2

y>=3

Obs: Certo desvio da suposição de odds proporcionais para acovariável sexo. Se considerá-lo sério, um modelo alternativoseria: Modelo de odds proporcionais parciais (MOPP)

Abreu et al. (2009). Rev Saúde Pública, 43(1): 183-194.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 177: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Dados Pareados comResposta Binária

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 178: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Introdução

Em algumas situações, dados com resposta bináriapodem apresentar informações pareadas.

⇛ Estudos com gêmeos fraternos⇛ Estudos que avaliam lados direito e esquerdo do corpo⇛ Estudos do tipo antes e após um acontecimento⇛ Estudos caso-controle com pareamento 1-1⇛ Estudos crossover, dentre outros.

pares de observações relacionadas

clusters de tamanho = 2

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 179: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situações Simples - Teste de McNemar

Situações simples ⇛ ausência de variáveis explicativas

apósantes Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

lado lado esquerdodireito Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

controlecaso E = 1 E = 0 TotaisE = 1 n11 n12 n1+E = 0 n21 n22 n2+

Totais n+1 n+2 n

período 2per. 1 Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

testar:{

H0: p1+ = p+1

HA: p1+ 6= p+1

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 180: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situações Simples - Teste de McNemar

(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸não-informativo informativo informativo não-informativo

H

Teste foi proposto por McNemar (1947)

H

se baseia nos pares informativos, ou seja,nos elementos fora da diagonal principal

Estatística de Teste

QMc =(n12−n21)

2

(n12+n21)∼ χ2

(1)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 181: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situações Gerais - Outras Abordagens

Na presença de variáveis explicativas, poder-se-ia pensarno modelo de regressão logística usual, em que o efeitode par seria incorporado como fixo ou aleatório, isto é,

P(Yij = 1) =exp{αi +β ′xij}

1+exp{αi +β ′xij}

sendo αi o efeito do i-ésimo par (i = 1, . . . ,q) e β o vetor deparâmetros associados às variáveis explicativas X.

Obs: o efeito de par não é aqui de interesse primário,mas sim o de estimar os demais efeitos de interessecontrolando (ou removendo) o efeito de par.

Analogia com variáveis estratificadoras

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 182: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Situações Gerais - Outras Abordagens

Se tal abordagem fosse considerada, o tamanho amostralde cada cluster (n = 2) seria insuficiente para estimar αi

sem vício ⇛ tal abordagem não seria apropriada.

Se, no entanto, for feito uso de argumentos condicionais

efeitos dos pares ⇛ parâmetros nuisance

tais efeitos serão removidos e os demaisestimados sem vício.

Regressão Logística Condicional

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 183: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Para apresentar tal modelo considere um ensaio clínicoaleatorizado multicentros em que:

⇛ q centros médicos foram escolhidos para sua realização.⇛ dois pacientes foram selecionados de cada centro tq:

um recebeu o tratamento A e, o outro, um placebo.

Yij =

{1 se melhora0 se não melhora,

j = 1 indexa o tratamento A e j = 2 o placeboi = 1, . . . ,q indexa os q centros médicos.

Xij =

{1 se tratamento A0 se placebo,

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 184: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Representação dos dados associados ao ensaio clínico descrito.

demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij

1 1 11 0 02 0 12 0 03 0 13 1 0...

......

... . . ....

q 1 1q 1 0

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 185: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

(Yi1,Yi2)︸ ︷︷ ︸(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸

não-informativo informativo informativo não-informativo

P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))

=P(Yi1 = 1)P(Yi2 = 0)

P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 186: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Como as probabilidades envolvidas são dadas por

P(Yi1 = 1) =exp{αi +β + γ ′xi1}

1+exp{αi +β + γ ′xi1}

P(Yi1 = 0) =1

1+exp{αi +β + γ ′xi1}

P(Yi2 = 1) =exp{αi + γ ′xi2}

1+exp{αi + γ ′xi2}

P(Yi2 = 0) =1

1+exp{αi + γ ′xi2}

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 187: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Segue que:

P(Yi1 = 1)P(Yi2 = 0)P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)

=exp{αi +β + γ ′xi1}

exp{αi +β + γ ′xi1}+exp{αi + γ ′xi2}=

× e ÷ por exp{−αi − γ ′xi2} tem-se:

=exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}

que não inclui os parâmetros αi (i = 1, · · · ,q).

Sob esta abordagem ⇛ modelo com um número reduzidode parâmetros que podem ser estimados sem vício.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 188: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Função de verossimilhança associada ao modelo condicional

L(β ,γ) =q

∏i=1

{exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}

}yi1(1−yi2)

×

{1

1+exp{β + γ ′(xi1−xi2)}

}(1−yi1)yi2

Note que a contribuição para L(β ,γ) dos pares com respostaconcordantes, i.e., (Yi1 = 1, Yi2 = 1) e (Yi1 = 0, Yi2 = 0) é iguala 1 ⇛ pares concordantes são não-informativos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 189: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

A função L(β ,γ) é, na realidade, a fç de verossimilhançado modelo de regressão logística usual, em que:

Yi =

{1 se (Yi1 = 1,Yi2 = 0)0 se (Yi1 = 0,Yi2 = 1)

intercepto β : efeito do tratamentozi = (xi1−xi2): 6= dos valores das variáveis x dos pacientes

tratado e placebo.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 190: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij

1 1 11 0 02 0 12 0 03 0 13 1 0...

......

... . . ....

demais variáveisCentro Yi = Melhora Z1i = Tratamento Z2i . . . Zmi

1 1 1 (x2i1− x2i2) . . . (xmi1− xmi2)3 0 1 (x2i1− x2i2) . . . (xmi1− xmi2)...

......

... . . ....

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 191: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Modelo de Regressão Logística Condicional

Note que na ausência das covariáveis X2, . . . ,Xk, os dadospodem ser representados em uma tabela de contingência2×2 em que as respostas para o tratamento são cruzadascom as respostas para o placebo.

PlaceboTratamento Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+

Totais n+1 n+2 n

Assim, testar H0: β1 = 0 é equivalente ao teste de McNemar.

Ainda, exp{β1} é estimado por n12/n21, sendo n12 e n21 ascontagens fora da diagonal principal da tabela.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 192: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1 - Ensaio Clínico Multicentros

Para avaliar um novo tratamento para um problema depele ⇒ 79 clínicas. Em cada uma, um paciente recebeuo tratamento e, o outro, um placebo).

⇒ Resposta : melhora ou não do problema.

clinica trat idade melhora grauini1 1 27 0 11 0 32 0 22 1 41 1 32 0 47 0 13 1 19 1 43 0 31 0 4... ... ... ... ...79 1 22 0 179 0 19 1 4

grau inicial do problema (1 a 4 para leve a severo).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 193: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1 - Ensaio Clínico Multicentros

Tabela 1. TRV obtidos nos dados sobre tratamento de pele.

Modelos − ln(L(β ,γ)) TRV valor pNulo 37,4299Tratamento 35,5942 3,67 0,055Idade | Trat 34,5466 2,09 0,148Grau inicial | Trat, Idade 25,7545 17,58 < 0,001

Tratamento + Grau Inicial

Interação dupla não significativa

Modelo ⇒ trat + grauini

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 194: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1 - Ensaio Clínico Multicentros

Tabela 2. Estimativas associadas ao modelo ajustado.

estimativas erros-padrão Z valor pTratamento (β1) 0,711 0,349 2,04 0,0410Grau inicial (γ1) 1,077 0,321 3,35 0,0008

Análise dos resíduos ⇛ evidências a favor do modelo.

a) a odds de melhora dos pacientes sob tratamento éexp{0,711} ≈ 2 vezes a daqueles recebendo placebo.

b) a odds de melhora também cresce exp{1.077} ≈ 3vezes para cada unidade de acréscimo no grau inicial.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 195: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 1 - Ensaio Clínico Multicentros

Comandos R

> require(survival)> skin<-read.table("skin.txt",h=T)> attach(skin)> model1<-clogit(melhora~trat+idade+grauini+strata(c linica))> model1> summary(model1)> plot(model1$residuals, pch=16)> model2<-clogit(melhora~trat+grauini+strata(clinica ))> model2> summary(model2)> plot(model2$residuals,pch=16,ylab="residuos",xlab= "i")

## Teste de Mcnemar ##> dados<-matrix(c(20,10,5,10),nc=2)> dados> mcnemar.test(dados,correct=F)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 196: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Estudo crossover de 2 períodos para avaliação dos tratamentosA, B e P = Placebo em pacientes estratificados de acordo comdois grupos de idade: jovens e adultos.

A sequência A:B significa que a droga A foi administradadurante o 1o período e a B no 2o período. P indica placebo.

Grupos de Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50

Fonte: Stokes et al. (2000)

FF = (1,1) = favorável nos dois períodos; FU = (1,0) = favorável no 1o período e não-favorável no 2o ;UF = (0,1) = não favorável no 1o período e favorável no 2o , UU = (0, 0) = não favorável nos dois períodos.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 197: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Efeitos de interesse nesse estudo

efeito dos períodos

efeito das drogas

efeito dos grupos de idade

efeitos residuais das drogas A e B que resultamda passagem do período 1 para o período 2.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 198: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 03 1 1 1 0 1 0 03 1 0 0 1 0 1 0...12 1 1 1 0 1 0 012 1 0 0 1 0 1 013 1 1 1 0 1 0 013 0 0 0 1 0 1 0...24 1 1 1 0 1 0 024 0 0 0 1 0 1 025 0 1 1 0 1 0 025 1 0 0 1 0 1 0...

300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0

Obs: gpidade foi representado por (1,0) se adulto e (0,0) se jovem.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 199: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Análogo à situação anterior tem-se:

(Yi1,Yi2)︸ ︷︷ ︸(F,F) (F,U) (U,F) (U,U)(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸

não-informativo informativo informativo não-informativo

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 200: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))

=P(Yi1 = 1)P(Yi2 = 0)

P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)

=exp{β + γ ′(xi1−xi2)}

1+exp{β + γ ′(xi1−xi2)}=

exp{β + γ ′zi}

1+exp{β + γ ′zi}

◮ zi = diferenças entre os valores das covariáveis droga A,droga B, gpidade, res A e res B, registrados nos períodos1 e 2.

◮ β = efeito de períodos◮ γ1 e γ2 = efeito das drogas A e B, respectivamente◮ γ3 = efeito de grupos de idade◮ γ4 e γ5 = efeito residual das drogas A e B, respectivamente.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 201: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Para adultos foram associados aos períodos 1 e 2 os valores 1e 0, respectivamente. E, para jovens, 0 para ambos os períodos,de modo que ⇛ zidade = 1, se adulto e zidade = 0, se jovem.

obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 0...

300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 202: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Estimativas de máxima verossimilhança - modelo inicial.estimativas erros-padrão Wald valor p

Período (p1) (β ) −1,4370 0,703 4,183 0,041Droga A (γ1) 1,2467 0,681 3,354 0,067Droga B (γ2) −0,0019 0,641 0,000 0,997Gpidade (adultos) (γ3) 0,6912 0,465 2,205 0,137Residual droga A (γ4) −0,1903 1,112 0,029 0,864Residual droga B (γ5) −0,5653 1,156 0,239 0,624

Estimativas de máxima verossimilhança - modelo final.Estimativas Erros-padrão Wald valor p

Período (p1) (β ) −0,845 0,231 13,45 0,00024Droga A (γ1) 1,408 0,341 17,09 < 0,0001Droga B (γ2) 0,296 0,316 0,87 0,35

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 203: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Análise de resíduos ⇒ evidências favoráveis ao modelo.

Efeitos das drogas A e B ⇛ H0: γ1 = γ2 versus HA: γ1 6= γ2

W =(γ1− γ2)

2

Var(γ1− γ2)=

(γ1− γ2)2

Var(γ1)+ Var(γ2)−2Cov(γ1, γ2)= 12,41

valor p = 0,0004 (g.l.= 1) ⇛ indicando efeitos diferentes.

Odds ratios podem ser obtidas e interpretadas de modosimilar a dos demais estudos analisados. Por exemplo,

A odds de resposta favorável dos pacientes sob a droga A foiexp{1,408} ≈ 4 vezes a dos que usaram placebo e, ainda,exp{1,408−0,296} ≈ 3 vezes a dos que usaram a droga B.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 204: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 2 - Estudo Crossover

Comandos R

> require(survival)> match<-read.table("cross.txt",h=T)> attach(cross)> model3<-clogit(resp~periodo+drogaA+drogaB+strata(o bs),

data=cross)> model3> summary(model3)> model3$loglik> plot(model3$residuals, pch=16)

## testando H_0: gamma_1 = gamma_2 ##> model3$var> vardif<-model3$var[2,2] + model3$var[3,3]

-2 * (model3$var[2,3])> teste<-((1.408-0.296)/sqrt(vardif))^2> cbind(teste, 1-pchisq(teste,1))

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 205: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Estudo realizado nos anos 70 em uma comunidade deaposentadas para estudar a associação entre o uso deestrogênio e o câncer do endométrio.

Nesse estudo, cada caso foi pareado a um controle que:

estava no mesmo ano de idade do casotinha o mesmo status marital do casovivia na mesma comunidade do caso quando do diagnóstico.

Pareamento 1:1 ⇛ 63 casos / 63 controles.

Algumas das informações coletadas foram sobre:hipertensão (1 se sim e 0 se não)histórico de vesícula biliar (1 se sim e 0 se não)uso de estrogênio (1 se sim e 0 se não).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 206: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Endométrio ⇛ membrana que reveste a parede do útero.

Câncer do endométrio ⇛ incidência crescente nas últimasduas décadas, sendo o 2o tumor pélvico mais frequenteentre as brasileiras. A maioria dos casos ocorre entre 60 e70 anos, mas alguns casos podem ocorrer antes dos 40.

Estudos em animais têm mostrado que altosníveis de estrogênio resultam em crescimentoendometrial excessivo e câncer.

Sugerem atenção com anticoncepcionaise terapias de reposição hormonais comaltos níveis de estrogênio.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 207: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

par caso-controle estrogênio histórico vesícula biliar hipertensãocc est hvb hip

1 1 1 0 01 0 0 0 02 1 1 0 02 0 0 0 13 1 1 0 13 0 1 0 1...47 1 1 1 147 0 0 0 0...63 1 1 1 063 0 1 0 0

Fonte: Stokes et al. (2000).

Pares não-informativos nesses estudos são aquelesem que xi1 = xi2. Por exemplo, o par 3.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 208: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Função de verossimilhança associada ao estudo.

L(β ) =q

∏i=1

{exp{β ′(xi1−xi2)}

1+exp{β ′(xi1−xi2)}

}

(xi1− xi2) = diferenças dos valores das covariáveisdo i-ésimo par caso-controle (i = 1, · · · ,q).

Esta função corresponde à função de verossimilhança deum modelo de regressão logística não-condicional sem ointercepto, em que a resposta Y é sempre 1 e os valoresdas covariáveis são iguais a (xi1−xi2).

Note que a contribuição para L(β ) dos pares em quexi1 = xi2 é constante (= 0,5).

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 209: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Estimativas associadas ao modelo final ajustado.estimativas erros-padrão Wald valor p

HVB (β1) 1,66 0,798 2,07 0,0381EST (β2) 2,78 0,760 3,65 0,0003

Análise dos resíduos ⇛ favorável ao modelo.

A odds de câncer endometrial das aposentadas comhistórico de vesícula biliar foi exp{1,66} ≈ 5 vezes adaquelas sem tal histórico.

A odds de câncer endometrial das aposentadas queusaram estrogênio foi exp{2,78} ≈ 16 vezes a das quenão usaram.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 210: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1

Comandos R

> require(survival)

> match<-read.table("match.txt",h=T)> attach(match)

> model<-clogit(cc~hvb+est+strata(par),data=match)> model> model$loglik> summary(model)

> plot(model$residuals, pch=16)

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 211: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Referências Bibliográficas

Abreu, MNS; Siqueira, AL; Caiaffa, WT (2009). Regressão logística ordinal emestudos epidemiológicos. Rev Saúde Pública, 43(1): 183-194.Davison, AC; Gigli, A (1989). Deviance residuals and normal scores plots.Biometrika, 76(2): 211-221.Ben, MG; Yohai, VJ (2004). Quantile-quantile plot for deviance residuals in thegeneralized linear model. Journal of Computational & Graphical Statistics, 13(1):36-47.Finney, DJ (1971). Estimation of the Median Effective Dose. Probit Analysis.Cambridge University Press: London, 3rd ed., 1971.Hosmer, DW; Lemeshow, S (1989, 2nd ed. 2000). Applied Logistic Regression.New York: John Wiley & Sons.Kelly, GE (2001). The Median Lethal Dose-Design and Estimation. J. R. Stat.Soc., Ser. D, 50:41-50.Kelly, GE; Lindsey, JK (2002). Robust estimation of the median lethal dose.Journal of Biopharmaceutical Statistics, 12(2):137-147.Kleibaum, DG (1994) Logistic Regression: a self-learning text. New York:Springer Verlag.Koch, GG; Imrey, PB; Singer, JM; Atkinson SS; Stokes ME (1985). Analysis ofcategorical data. Montréal: Les Presses de l′Université de Montréal.Mantel, N (1963). Chi-square tests with one degree of freedom: Extensions ofthe Mantel-Haenszel procedure, JASA, 58:690-700.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS

Page 212: Introdução à Análise de Dados Categóricos

Minicurso - 57a Reunião Anual da RBras

Referências Bibliográficas

Machado, EB (2006) Controle de Condylorrhiza vestigialis, a mariposa do álamo,com o uso de C. vestigialis multiplenucleopolyhedrovirus em condições delaboratório e Campo. Dissertação de Mestrado, Engenharia Florestal, UFPR.

Mantel, N; Haenszel, W (1959). Statistical Aspects of the analysis of data fromretrospective studies of disease, J. of the National Cancer Institute, 22:719-748.

Pregibon, D (1981). Logistic regression diagnostics, Annals of Statistics,9:705-724.

Santner, TJ; Duffy, DE (1989). The statistical analysis of discrete data. NewYork: Springer-Verlag.

Silveira Neto, S; Nakano, O; Barbin, D; Villa Nova, NA (1976). Manual deEcologia dos Insetos. São Paulo: Agronômica Ceres, 419p.

Stokes, ME; Davis, CS; Koch, GG (2000). Categorical Data Analysis using theSAS System. SAS Institute Inc., Cary, NC. USA.

Tuyns, AJ; Pequinot, G; Jensen, OM (1977). Le cancer de l’oesophage en Ille etVilaine en fonction del niveaux de consommation d’alcool et de tabac: desrisques que se multiplient. Bull Cancer, 64: 45-60.

Wald, A (1943). Tests of Statistical Hypotheses concerning Several Parameterswhen the Number of Observations is Large. Trans Amer Math Soc., 54:426-482.

Williams, DH (1986). Interval estimation of the median lethal dose. Biometrics,42:641-645.

Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS