introdução à análise de dados categóricos
TRANSCRIPT
INTRODUÇÃO À ANÁLISE DE DADOS
CATEGÓRICOS
SUELY RUIZ GIOLO
Departamento de EstatísticaUniversidade Federal do Paraná
57a Reunião Anual da RBrasESALQ/USP - Piracicaba/SP
05 a 09 de maio de 2012
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Conteúdo
1 Conceitos Introdutórios, Notação e Exemplos
2 Delineamentos Amostrais e Modelos Associados
3 Dados em Tabelas de ContingênciaTestes e Medidas de Associação
4 Alguns Modelos de RegressãoResposta Binária ou DicotômicaResposta PolitômicaResposta Dicotômica em Dados Pareados
5 Diversas Ilustrações (Resultados - Software R)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Bibliografia Básica
Agresti, A. (1995). Introduction to the Analysis of CategoricalData. New York: Wiley.
Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:Wiley.
Everitt, B.S. (1977). The Analysis of Contingency Tables.London: Chapman and Hall.
Hosmer, D.W.; Lemeshow, S. (2000). Applied LogisticRegression. New York: John Wiley & Sons.
Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.New York: Marcel Dekker.
Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis ofDiscrete Data. New York: Springer-Verlag.
Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical DataAnalysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Bibliografia Complementar
Demétrio, C.G.B. (2001). Modelos Lineares Generalizados emExperimentação Agronômica. Piracicaba: Minicurso 46a Rbrase 9o SEAGRO.
Giolo, S.R. (2012). Introdução à Análise de Dados Categóricoscom Aplicações. Material Didático, 190p.
Paula, G.A. (2010). Modelos de Regressão com ApoioComputacional. URL: http://www.ime.usp.br/ giapaula/
Paulino, C.D.M.; Singer, J.M. (2006). Análise de DadosCategorizados. São Paulo: Blucher.
Poleto, F.Z. (2006). Análise de Dados Categorizados comOmissão. Dissertação de mestrado. São Paulo: Depto deEstatística, IME/USP.
Dentre outros ....
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Conceitos Introdutórios
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Introdução
Em diversos estudos é comum o registro de variáveisqualitativas e quantitativas (contínuas ou discretas)
⇒ melhora do paciente (sim ou não)⇒ desempenho do candidato (bom, regular ou péssimo)⇒ local de moradia (norte, sul, leste, oeste)⇒ horas de alívio de dor de cabeça (0, 1, 2, 3 ou > 4)⇒ idade (em anos)
Tais variáveis são comumente classificadas de acordocom suas respectivas escalas de mensuração
⇒ dicotômicas ou binárias⇒ politômicas (ordinais ou nominais)⇒ contagens discretas⇒ contínuas
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Introdução
Por interesse do pesquisador, ou por conveniência,variáveis contínuas podem ser categorizadas.
⇒ idade: faixas etárias⇒ resultado de um exame médico: normal ou anormal⇒ peso: obeso e não-obeso⇒ peso: < 60, [60, 100), [100, 150) e ≥ 150kg.
Grupar categorias pode ser necessário quando houvercategorias com frequências muito pequenas ou nulas.
Em função do delineamento amostral e dos objetivos, asvariáveis podem ser, ainda, classificadas em:
⇒ variáveis resposta⇒ variáveis explicativas .
Nem sempre tal classificação é simples ou óbvia.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Objetivos do Minicurso
Apresentar testes, medidas de associação e modelos deregressão utilizados com frequência em estudos em que:
⇒ variável resposta : categórica⇒ variáveis explicativas : categóricas e/ou contínuas.
⇓
Análise de dados dessa natureza
⇒ análise de dados categóricos⇒ análise de dados discretos
Justificativa: distribuições discretas de probabilidade (binomial,multinomial, poisson, binomial negativa etc.) são usualmenteassociadas à variável resposta.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre exposição ao álcool e câncer de esôfago.
Câncer de EsôfagoConsumo de Álcool Sim Não Totais
Sim 96 109 205Não 104 666 770
Totais 200 775 975Fonte: Tuyns et al. (1977), Santner e Duffy (1989)
RELAÇÃO
CAUSA︸ ︷︷ ︸ − EFEITO︸ ︷︷ ︸consumo álcool câncer esôfago
⇓ ⇓variável explicativa variável resposta
⇓ ⇓dicotômica dicotômica
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Avaliação de medicamentos no tratamento de pacientes comdiagnóstico de infecção urinária.
CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40
Fonte: Koch et al. (1985)
variável resposta ⇛{
Cura ⇒ dicotômica
variáveis explicativas ⇛
{Diagnóstico da Infecção ⇒ dicotômica
Medicamentos ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo multicentros para avaliacão de medicamentos notratamento de infecções respiratórias.
EfeitoCentros Medicamentos Favorável Não favorável Totais
1 Novo 29 16 451 Padrão 14 31 45
Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45
Totais 61 29 90Fonte: Stokes et al. (2000)
variável resposta ⇛{
Efeito ⇒ dicotômica
variável explicativa ⇛{
Medicamentos ⇒ politômica nominal
variável estratificadora ⇛{
Centros
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre medicamentos para dores de cabeça.Horas de alívio
Medicamentos 0 1 2 3 4 TotaisPlacebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
variável resposta ⇛{
Horas de Alívio ⇒ contagem discreta
⇓politômica ordinal
variável explicativa ⇛{
Medicamentos ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Influência de aditivos na água sobre a limpeza das roupas.Limpeza
Tratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166Fonte: Stokes et al. (2000)
variável resposta ⇛{
Limpeza das Roupas ⇒ politômica ordinal
variável explicativa ⇛{
Tratamentos ⇒ politômica ordinal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre preferência de programa de aprendizado.Preferência de Aprendizado
Escola Período Individual Grupo Sala Aula Totais1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44
Fonte: Stokes et al. (2000)
variável resposta ⇛{
Preferência Aprendizado ⇒ politômica nominal
variáveis explicativas ⇛
{Escola ⇒ politômica nominal
Período Escolar ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo crossover de dois períodos para avaliação detratamentos (A, B e P = Placebo) em jovens e adultos.
Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = favorável nos dois períodos; FU = favorável no 1o período e não-favorável no 2o;
UF = não favorável no 1o período e favorável no 2o, UU = não favorável nos dois períodos.
Indivíduo é considerado como sendo seu próprio controle.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
A partir dos exemplos ⇛ dados de estudos em que aresposta e as variáveis explicativas são categóricas (ouforam categorizadas) são, sempre que possível, organi-zados em Tabelas de Contingência .
Nos casos em que se tem duas variáveis, X e Y, comambas apresentando duas categorias cada.
Tabela de Contingência 2 × 2.
Categorias da Categorias da resposta Yvariável X j = 1 j = 2 Totais
i = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n++ = n
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Por conveniência, as categorias de X estarão dispostasnas linhas da tabela, enquanto as de Y, nas colunas.
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n
Frequências nij ⇛ indivíduos na categoria i de X ecategoria j de Y, i, j = 1,2.
Totais marginais-linha ⇛ frequências ni+ (i = 1,2).
Totais marginais-coluna ⇛ frequências n+j (j = 1,2).
Total geral ou amostral n ⇛ soma dos nij, i, j = 1,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n
pij = P(X = i,Y = j) ⇛ probabilidades conjunta.
p(i)j = P(Y = j | X = i) ⇛ probabilidades condicionais
pi(j) = P(X = i | Y = j) ⇛ probabilidades condicionais
pi+ = P(X = i) ⇛ probabilidades marginais-linha
p+j = P(Y = j) ⇛ probabilidades marginais-coluna
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Nos casos mais gerais ⇒ Y e X1, . . . ,Xk
Tabelas de Contingência s× r
Categorias da variável respostaSubpopulações 1 2 · · · r Totais
1 n11 n12 · · · n1r n1+
2 n21 n22 · · · n2r n2+...
......
......
...s ns1 ns2 · · · nsr ns+
Totais n+1 n+2 · · · n+r n
Subpopulações = combinações das categorias de X1, . . . ,Xk.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Alguns Delineamentos Amostraise
Modelos Associados
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Delineamentos Amostrais
Um estudo pode ser planejado de diferentes formas.
A escolha por uma delas depende, dentre outros:
Objetivos do estudoCustos e tempo envolvidos para obtenção dos resultadosDisponibilidade de uma equipe para condução do estudoDisponibilidade das unidades amostraisViabilidade de acompanhamento das unidades amostrais
A seguir, são apresentados alguns delineamentos .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos de Coorte
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Assim, para esses estudos tem-se:
Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais
i = 1 (E) n1+i = 2 (E) n2+
Totais
Desse modo, a probabilidade de um indivíduo pertencer acategoria j de Y, estando na categoria i de X, é dada por:
p(i)j = P(Y = j | X = i)
Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1
p(1)1 ⇒ incidência entre os expostosp(2)1 ⇒ incidência entre os não-expostos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Sendo assim:{
N11 ∼ Bin(n1+,p(1)1)N21 ∼ Bin(n2+,p(2)1)
Modelo probabilístico: produto de binomias
P(N1 = n1,N2 = n2) =2
∏i=1
P(Ni1 = ni1,Ni2 = ni2)
=2
∏i=1
[(ni+)!
2
∏j=1
(p(i)j)nij
(nij)!
]
com (Ni = ni) = (Ni1 = ni1,Ni2 = ni2), i = 1, 2.
Probabilidades p(i)j estimadas por:
p(i)j =nij
ni+i, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1
{H0: p(1)1 = p(2)1 (= p+1) ⇛ hipótese de homogeneidadeHA: p(1)1 6= p(2)1
Karl Pearson propôs
Qp =2
∑i=1
2
∑j=1
(nij − eij)2
eij∼ χ2
(1)
Sob H0 ⇛ E(Ni1) = ni+(p+1) e E(Ni2) = ni+(p+2)
Estimativas ⇛ eij =(ni+)(n+j)
ni, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Duas outras estatísticas comumente utilizadas são:
1 Estatística da Razão de Verossimilhanças
QL =−22
∑i=1
2
∑j=1
nij log
(eij
nij
)∼ χ2
(1)
2 Estatística de Neyman
QN =2
∑i=1
2
∑j=1
(nij − eij)2
nij∼ χ2
(1)
Em certas situações ⇛ Teste Exato de Fisher .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totaisi = 1 (E) p(1)1 p(1)2 = (1−p(1)1) 1i = 2 (E) p(2)1 p(2)2 = (1−p(2)1) 1Totais p+1 p+2 1
Note que H0: p(1)1 = p(2)1 pode também ser expressa por:
a) H0: p(1)1−p(2)1︸ ︷︷ ︸= 0
diferença entre incidências ⇒ risco atribuível
b) H0:p(1)1p(2)1︸︷︷︸
= 1
razão de incidências ⇒ risco relativo
c) H0:p(1)1/(1−p(1)1)
p(2)1/(1−p(2)1)=
p(1)1/p(1)2p(2)1/p(2)2
=p(1)1 p(2)2p(1)2 p(2)1︸ ︷︷ ︸
= 1
razão dos produtos cruzados ⇒ odds ratio ou razão de chances
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
odds ou chance =probabilidade evento ocorrer
probabilidade evento não ocorrer
Status de Evento de Interesse
Exposição Sim (D) Não (D) TotaisE 80 20 100E 25 75 100
Totais 105 95 200
oddsE =p(1)1
1−p(1)1⇒ oddsE = 0,8/0,2 = 4/1
oddsE =p(2)1
1−p(2)1⇒ oddsE = 0,25/0,75 = 1/3
odds ratioE|E = oddsEoddsE
⇒ OR = 12
risco relativoE|E =p(1)1p(2)1
⇒ RR = 0,8/0,25 = 3,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1i = 2 (E) p(2)1 p(2)2 1Totais p+1 p+2 1
ORE|E =oddsE
oddsE=
p(1)1/p(1)2p(2)1/p(2)2
=p(1)1 p(2)2p(1)2 p(2)1
⇓
ORE|E =n11n22
n12n21
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Se RR = 1, a probabilidade de resposta positiva nãodifere entre os indivíduos expostos e não-expostos.
Se RR > 1, a probabilidade de resposta positiva émaior entre os indivíduos expostos.
Se RR < 1, a probabilidade de resposta positiva émaior entre os indivíduos não-expostos.
Se OR = 1, a chance de resposta positiva não difereentre os indivíduos expostos e não-expostos.
Se OR > 1, a chance de resposta positiva é maiorentre os indivíduos expostos.
Se OR < 1, a chance de resposta positiva é maiorentre os indivíduos não-expostos.
Chance e probabilidade não têm o mesmo significado!Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estimação por Intervalo - Medidas de Associação
Risco Relativo ⇛ IC = exp(
f ± zα/2
√V(f )
)
f = ln(RR) = ln(p(1)1)− ln(p(2)1)
V(f ) =(1−p(1)1)
(n1+)(p(1)1)+
(1−p(2)1)(n2+)(p(2)1)
zα/2 = 100(1−α/2) percentil da N(0,1)
Odds Ratio ⇛ IC = exp(
f ± zα/2
√V(f )
)
f = ln(OR)
V(f ) =(
1n11
+ 1n12
+ 1n21
+ 1n22
)
zα/2 = 100(1−α/2) percentil da N(0,1)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
Obs: instalar package epiR http://www.r-project.org/
> require(epiR)> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,
conf.level=0.95, units=100, verbose=FALSE)
Disease + Disease - Total Inc risk OddsExposed + 80 20 100 80.0 4.000Exposed - 25 75 100 25.0 0.333Total 105 95 200 52.5 1.105
Point estimates and 95% CIs:--------------------------------------------------- ------Inc risk ratio 3.2 (2.25, 4.56)Odds ratio 12 (6.16, 23.38)--------------------------------------------------- ------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count" ,conf.level=0.95, units=100, verbose=TRUE)
$RRest se lower upper
1 3.2 1.197550 2.247488 4.556197$OR
est se lower upper1 12 1.405430 6.158583 23.38200$chisq
test.statistic df p.value1 60.65163 1 6.77236e-15
-------------------------------------# Testes de Pearson e Fisher> dados<-matrix(c(80,25,20,75),nc=2)> chisq.test(dados,correct=F)> fisher.test(dados)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Ensaio Clínico Aleatorizado
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
X Y = DesfechoGrupos j = 1 (Com) j = 2 (Sem) Totais
i = 1 (Tratado) p(1)1 p(1)2 1i = 2 (Controle) p(2)1 p(2)2 1
Totais p+1 p+2 1
Delineamento Similar ao dos Estudos de Coorte
⇓
Hipóteses, Testes e Medidas são similares com as devidasinterpretações no contexto do ensaio clínico realizado.
Estudos de Coorte ⇛ ObservacionaisEnsaios Clínicos ⇛ Experimentais
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos Caso-Controle
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Nesses estudos, amostras de tamanhos n+1 e n+2 sãoobtidas das subpopulações de casos e controles.
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totaisi = 1 (E)i = 2 (E)Totais n+1 n+2
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
{N11 ∼ Bin(n+1,p1(1))N12 ∼ Bin(n+2,p1(2))
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Modelo probabilístico: produto de binomiais tal que:
P(N1 = n1,N2 = n2) =2
∏j=1
[(n+j)!
2
∏i=1
(pi(j))nij
(nij)!
]
com (Nj = nj) = (N1j = n1j,N2j = n2j) e ∑2i=1 pi(j) = 1, j = 1, 2.
Probabilidades pi(j), i, j = 1, 2, estimadas por:
pi(j) =nij
n+j
Se a suposição de independência entre casos e controlesnão for razoável ⇛ metodologias mais apropriadas.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
{H0: p1(1) = p1(2) (= p1+) ⇛ hipótese de homogeneidadeHA: p1(1) 6= p1(2)
Qp =2
∑i=1
2
∑j=1
(nij − eij)2
eij∼ χ2
(1)
Sob H0 ⇛ E(N1j) = n+j(p1+) e E(N2j) = n+j(p2+)
Estimativas ⇛ eij =(ni+)(n+j)
ni, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totaisi = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
Note que H0: p1(1) = p1(2) pode também ser expressa por:
H0:p1(1)/(1−p1(1))
p1(2)/(1−p1(2))=
p1(1)/p2(1)
p1(2)/p2(2)=
p1(1) p2(2)
p2(1) p1(2)︸ ︷︷ ︸= 1
odds ratio ou razão de chances ou dos produtos cruzados
RR = P(D|E)/P(D|E) não se aplica a esses estudos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
odds ou chance =probabilidade exposição ao fator
probabilidade não-exposição ao fator
Status de GruposExposição Casos Controles Totais
E 60 20 80E 40 80 120
Totais 100 100 200
oddsC =p1(1)
1−p1(1)⇒ oddsC = 0,6/0,4 = 3/2
oddsC =p1(2)
1−p1(2)⇒ oddsE = 0,20/0,80 = 1/4
odds ratioC|C = oddsCoddsC
⇒ OR = 6
Nesse exemplo, a chance de exposição ao fator sob estudofoi maior entre os casos do que entre os controles.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Yde X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
ORC|C =oddsC
oddsC=
p1(1)/p2(1)
p1(2)/p2(2)=
p1(1) p2(2)
p1(2) p2(1)
⇓
ORC|C =n11n22
n12n21
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R> require(epiR)> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control" ,
conf.level = 0.95, units=100, verbose = FALSE)Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0 ?Exposed - 40 80 120 33.3 0.5 ?Total 100 100 200 50.0 1.0 ?
> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control" ,conf.level = 0.95, units=100, verbose = FALSE)
Exposed + Exposed - Total Prevalence OddsDisease + 60 40 100 60 1.500Disease - 20 80 100 20 0.250Total 80 120 200 40 0.667Point estimates and 95% CIs:--------------------------------------------------- ------Odds ratio 6 (3.19, 11.29)--------------------------------------------------- ------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Relação entre odds ratio e risco relativo
Doenças raras ⇒ Estudos de Coorte são inviáveis.Nesses casos ⇒ Estudos Caso-Controle são usuais.
Resultado: Se doença rara ⇛ RR ≈ OR
De fato,⇛ D = doença, D = não doença, P(D) = 1−P(D)⇛ E = exposição e E = não-exposição
RR =p(1)1p(2)1
=P(D|E)
P(D|E)=
P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]
P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]
=P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}
P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}
Se doença rara, P(D) → 0︸ ︷︷ ︸
RR ≈P(E|D)P(E|D)
P(E|D)P(E|D)=
p1(1)p2(2)
p2(1)p1(2)= OR
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos Transversais ou Cross-Sectional
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Embora ambas as variáveis sejam respostas, uma delasé usualmente classificada como variável explicativa.
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2
Totais n
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22
Totais 1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12i = 2 p21 p22
Totais 1
Categorias de Xi = 1 i = 2
Categorias de Y j = 1 j = 2 j = 1 j = 2 Totalp11 p12 p21 p22 1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Modelo probabilístico: Multinomial tal que:
P(N = n) = P(N11 = n11,N12 = n12,N21 = n21,N22 = n22)
= n!2
∏i=1
2
∏j=1
(pij)nij
(nij)!
em que nij ≥ 0,2
∑i,j=1
nij = n e2
∑i,j=1
pij = 1.
Probabilidades pij (i, j = 1, 2) estimadas por:
pij =nij
n
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 p11 p12 p1+i = 2 p21 p22 p2+
Totais p+1 p+2 1
{H0: pij = (pi+)(p+j), para i, j = 1,2HA: pij 6= (pi+)(p+j), para pelo menos um par (i, j),
H0 é usualmente denominada hipótese de independência,pois a ausência de associação, em termos probabilísticos,significa independência mútua.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Considerando o modelo Multinomial a tais estudos
⇓
⇛ Frequências esperadas: E(Nij) = n(pij), i, j = 1,2.
⇛ Desse modo, sob H0 7→ E(Nij) = n(pi+)(p+j), i, j = 1,2.
⇛ Estimativas:
eij = n
(ni+
n
)(n+j
n
)=
(ni+)(n+j)
ni, j = 1,2
Para testar H0 ⇛ Estatísticas de teste QP, QL e QN .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross Sectional
Das definições de risco relativo e odds ratio, pode-se notarque ambas não são apropriadas aos estudos transversais.Em epidemiologia, contudo, a prevalência de doenças éuma medida de interesse nesses estudos.
prevalência = proporção de indivíduos que ESTÃO doentes em um
determinado tempo específico (época da realização do estudo).
incidência = proporção de indivíduos que TORNARAM-SE doentes no
decorrer de um período de tempo específico de acompanhamento.
Assim, se condicionarmos aos totais ni+ e se for dada adevida atenção às interpretações, é comum o uso da ORe da razão de prevalências (RP) nesses estudos.
OR =n11n22
n12n21e RP =
n11/n1+
n21/n2+
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=60, b=20, c=40, d=80, method="cross.section al",conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence OddsExposed + 60 20 80 75.0 3.0Exposed - 40 80 120 33.3 0.5Total 100 100 200 50.0 1.0
Point estimates and 95% CIs:--------------------------------------------------- --------Prevalence ratio 2.25 (1.70, 2.99)Odds ratio 6 (3.19, 11.29)--------------------------------------------------- --------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Durante o planejamento e execução dos estudos, nemsempre é possível estabelecer o total de participantes.
Tempo de duração do estudo é, então, pré-estabelecido.
Sendo assim, Nij, i, j = 1,2, são contagens aleatórias, comNij, e também N, conhecidas somente após o término dacoleta dos dados.
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1i = 2
Totais
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Insetos coletados em armadilhas e sexados.
SexoArmadilha Machos Fêmeas TotaisAlaranjada 246 17 263Amarela 458 32 490Totais 704 49 753
Fonte: Silveira Neto et al. (1976), Demétrio (2001)
Assumindo que certas suposições são válidas/razoáveis.em um determinado intervalo de tempo, o no de insetos é independente do no
de insetos em qualquer outro intervalo disjunto,
a distribuição do número de insetos depende somente do comprimento dointervalo de tempo considerado e não do seu instante inicial,
a probabilidade de um inseto passar em um intervalo de tempo suficientementepequeno é proporcional ao comprimento do intervalo,
a probabilidade de que dois ou mais insetos passem simultaneamente em umintervalo de tempo suficientemente pequeno é desprezível.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Então, é usual assumir
Nij ∼ Poisson (µij = tλij), i, j = 1, 2
⇒ λij a taxa média por unidade de tempo⇒ t a duração do experimento.
Considerando Nij independentes, i, j = 1, 2
Modelo Produto de Poisson independentes
P(N = n) =2
∏i=1
2
∏j=1
P(Nij = nij) =2
∏i=1
2
∏j=1
e−µij(µij)nij
(nij)!, µij > 0
com (N = n) = (N11 = n11,N12 = n12,N21 = n21,N22 = n22).
Estimativas ⇛ µij = nij, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Categorias Categorias de Yde X j = 1 j = 2 Totaisi = 1 µ11 µ12 µ1+i = 2 µ21 µ22 µ2+
Totais µ+1 µ+2 µ
Sob este modelo, ausência de associação entre X e Y{
H0: µ1j
µ1+=
µ2j
µ2+
(=
µ+j
µ
), para j = 1,2.
HA: µ1j
µ1+6=
µ2j
µ2+{H0 : µij =
(µi+) (µ+j)µ , para i, j = 1,2.
HA: µij 6=(µi+) (µ+j)
µ , para ao menos um par ij.
Hipótese H0 ⇛ hipótese de multiplicatividade
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Para testar tais hipóteses
Estatísticas QP, QL e QN
Como Nij ∼ Poisson(µij), i, j = 1,2, segue que:
⇛ E(Nij) = µij
⇛ Assim, sob H0, E(Nij) =(µi+)(µ+j)
µ
⇛ Logo, eij =(ni+)(n+j)
n , pois µi+ = ni+, µ+j = n+j e µ = n.
Obs : estudos dessa natureza são frequentementeanalisados assumindo-se o modelo Multinomial.
Justificativa: a distribuição de probabilidades do vetor(N11, . . . ,N22), Nij Poisson independentes, condicional àsoma N = ∑i,j Nij, segue distribuição Multinomial (N, p),com p = (p11, . . . ,p22), em que pij =
µij
∑i,j µij, para i, j = 1, 2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Considerações sobre os Delineamentos Amostrais
Os delineamentos amostrais apresentados estão dentreos mais usuais. Como visto, seus respectivos modelosprobabilísticos são obtidos com base nos esquemasamostrais adotados.
Naturalmente, em estudos com outros esquemas, haveráa necessidade de se considerar outros modelos.
As conclusões estarão, contudo, condicionadas à validadedas suposições distribucionais.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Alguns Estudos Descritos na Literatura
1 Framingham Heart Study⇛ fatores associados à doenças cardiovasculares.
2 Nurses’ Health Study⇛ consequências do uso de contraceptivos orais a longo prazo.
3 Life Span Study⇛ expectativa de vida - efeito radiação bomba atômica Japão.
4 Pelotas Birth Cohort Study⇛ saúde infantil e materna.
5 Baependi Heart Study⇛ fatores associados à doenças cardiovasculares - população miscigenada.
6 Medicine, Angioplasty, or Surgery Study (MASS-II).⇛ comparação de tratamentos - pacientes c/ doença coronária multiarterial.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Extensões
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r ( > 2)
1. Variáveis Y e X nominais
Estabelecidas as hipóteses apropriadas:
Se ni+ fixos ⇛ hipótese de homogeneidadeSe n fixo ⇛ hipótese de independênciaSe totais aleatórios ⇛ hipótese de multiplicatividade
QP =s
∑i=1
r
∑j=1
(nij − eij)2
eij∼ χ2
(s−1)(r−1)
com eij =(ni+)(n+j)
n , i = 1, . . . ,s e j = 1, . . . ,r.
Alternativamente ⇛ Estatísticas QL ou QN .
Em algumas situações ⇛ Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo: X e Y nominais e n fixo (s e r > 2
Estudo transversal para avaliar a presença de associaçãoentre partido político e local de moradia.
Local de MoradiaPartido Político A B C D TotaisDemocrata 221 160 360 140 881Independente 200 291 160 311 962Republicano 208 106 316 97 727Totais 629 557 836 548 2570
Fonte: Stokes et al. (2000)
Modelo associado ⇛ Multinomial{H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2,3,4HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).
QP = 273,92 (p < 0,0001, g.l = 6) ⇛ há evidências deassociação entre partido político e local de moradia.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(221,200,208,160,291,106,360,160,31 6,140,311,97),nc=4)
> dados
[,1] [,2] [,3] [,4][1,] 221 160 360 140[2,] 200 291 160 311[3,] 208 106 316 97
> chisq.test(dados,correct=F)
Pearson’s Chi-squared test
data: dadosX-squared = 273.9188, df = 6, p-value < 2.2e-16
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
2. Variável Y ordinal e X nominal com totais ni+ fixos
Avaliação de tratamentos em pacientes com artrite reumatóide.
Melhora do PacienteTratamentos Nenhuma Alguma Acentuada TotaisAtivo 13 7 21 41Placebo 29 7 7 43Totais 42 14 28 84
Fonte: Stokes et al. (2000)
Nesses casos, a estatística QP pode ser utilizada paratestar H0 : p1 = p2 = ...= pr (hípótese de homogeneidade)
Modelo associado ⇛ Produto de multinomiais.
Contudo, a natureza ordinal da variável resposta nãoestaria sendo levada em consideração.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Alternativa ⇛ atribuir escores a = (a1,a2, . . . ,ar) para ascategorias de Y e definir um escore médio Fi para cadasubpopulação tal que:
Fi =r
∑j=1
aj (p(i)j) i = 1, . . . ,s.
Se s = 2, como no exemplo da artrite ⇛ H0: F1 = F2.
f i = ∑rj=1 aj (p(i)j) = ∑r
j=1aj( nij
ni+
), i = 1,2
E(f 1|H0) = ∑rj=1 aj
(E(N1j)
n1+
)= ∑r
j=1 aj
(n+jn
)= µa
V(f 1|H0) =(n − n1+)(n1+)(n−1)
r
∑j=1
(aj −µa)2( n+j
n
)
︸ ︷︷ ︸=
(n − n1+)(n1+)(n−1)νa.
νa
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Desse modo, para testar H0: F1 = F2 foi proposto:
QS =(f 1−µa)
2
(n − n1+)(n1+)(n−1)νa
=(n−1)(n−n1+)
(n1+)(f 1−µa)2
va
︸ ︷︷ ︸∼ χ2
1
estatística escore médio
Se s > 2 ⇛ H0: F1 = F2 = . . .= Fs.
QS =(n−1)
n∑s
i=1(ni+)(f i −µa)2
va︸ ︷︷ ︸∼ χ2
(s−1)
estatística escore médio
Se H0 for rejeitada ⇒ comparações dois a dois.⇑
paralelo com análise de variância um-fator
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R> dados<-matrix(c(13,29,7,7,21,7),nc=3)> escore<-c(0,1,2)> fb1<-(sum(dados[1,] * escore))/sum(dados[1,])> fb2<-(sum(dados[2,] * escore))/sum(dados[2,])> cbind(fb1,fb2)
fb1 fb2[1,] 1.195122 0.4883721> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3 ])))/
sum(dados)> mua<-sum(escore * esp); va<-sum((escore-mua)^2 * esp)> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,]) *
(sum(dados)-1))) * va> QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1> p<-1-pchisq(QS,gl)> cbind(QS, p)
QS p[1,] 12.85902 0.0003358568
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Ensaio clínico aleatorizado realizado para avaliar um novomedicamento utilizado para aliviar dores de cabeça.
Horas de alívioMedicamentos 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25Padrão 1 4 6 6 8 25Novo 2 5 6 8 6 27Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
Modelo associado ⇛ Produto de Multinomiais.Devido a natureza discreta das categorias de Y
Pode-se utilizar a estatística escore médio
H0: F1 = F2 = F3.
QS = 13,7346(p = 0,001, g.l. = 2) ⇛ há evidências de quepelo menos dois medicamentos diferem entre si.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Mas quais medicamentos diferem entre si?
Comparações dois a dois, controlando erro do tipo I(por ex., pelo método de Bonferroni).
⇛ Estimativas: f 1 = 1,36, f 2 = 2,64 e f 3 = 2,41⇛ Considerando α = 0,05⇒ 0,05/3 = 0,017.⇛ Placebo vs padrão: QS = 11,66 (p = 0,0006, g.l. = 1)⇛ Placebo vs novo: QS = 8,60 (p = 0,0034, g.l. = 1)⇛ Padrão vs novo: QS = 0,46 (p = 0,4950, g.l. = 1).
Há evidências de que placebo 6= novo e padrão.
Note que existem frequências esperadas < 5⇛ inviabiliza uso de QP, mas não o de QS.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
3.1 Variáveis Y e X ordinais e total n fixo
Estudo transversal realizado para investigar associaçãoentre uso de tabaco e a consciência do risco em usá-lo.
TabacoConsciência do risco Não usa Usa TotaisMínima 70 33 103Moderada 202 40 242Substancial 218 11 229Totais 490 84 574
Fonte: Stokes et al. (2000)
Modelo associado: multinomial.{
H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).
Estatísticas QP, QL ou QN .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e total n fixo
Porém, a variável uso de tabaco é dicotômica, enquantoconsciência do risco em usá-lo é ordinal ⇛ pode-sepensar em considerar escores para ambas.
Por exemplo, c = (c1,c2,c3) = (1,2,3) para as categorias deconsciência do risco de uso do tabaco e a = (a1,a2) = (0,1)para as categorias não usa e usa tabaco.
Desse modo, pode-se definir o escore médio
F =3
∑i=1
2
∑j=1
ci aj pij
Estimativa ⇛ f =3
∑i=1
2
∑j=1
ci aj pij =3
∑i=1
2
∑j=1
ci aj nij
n.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e total n fixo
Sob H0 segue que:
E(f ) =3
∑i=1
2
∑j=1
ci aj
nE(Nij) =
3
∑i=1
ci
(ni+
n
) 2
∑j=1
aj
(n+j
n
)= µc µa
V(f ) =
{3
∑i=1
(ci −µc)2(ni+
n
) 2
∑j=1
(aj −µa)2(n+j/n)
(n−1)
}.
Para amostras grandes ⇛ f ∼ Normal.
QCS =(f − µc µa)
2
V(f )= . . .= (n−1)(rac)
2
︸ ︷︷ ︸∼ χ2
1
estatística da correlação
com rac o coeficiente de correlação de Pearson.Dados de tabaco ⇛ QCS = 42,94 (p < 0,0001)⇛ Há associação entre a consciência do risco e o uso de tabaco.
⇛ Uso tabaco ⇓ à medida que consciência do risco ⇑ (rac =−0,274).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> x<-c(rep(1,103),rep(2,242),rep(3,229))> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),
rep(0,218),rep(1,11))
> rac<-cor(y,x)> rac[1] -0.2737401
> n<-length(x)> QCS<-(n-1) * rac^2> p<-1-pchisq(QCS,1)
> cbind(QCS,p)QCS p
[1,] 42.93697 5.653222e-11
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Outra situação em que Y e X ordinais
3.2 Variáveis Y e X ordinais e totais ni+ fixos
Influência de aditivos na água sobre a limpeza das roupas.
LimpezaTratamentos Baixa Média Alta TotaisÁgua 27 14 5 46Água + dose única trat padrão 10 17 26 53Água + dose dupla trat padrão 5 12 50 67Totais 42 43 81 166
Fonte: Stokes et al. (2000)
Assumindo: a = (1, 2, 3) categorias de limpeza das roupasc = (1, 2, 3) categorias de tratamento.
⇛ QCS = 50,6 (p < 0,0001, g.l.=1), com rac = 0,554.⇛ Há evidencias de associação entre X e Y.⇛ Limpeza ⇑ com o ⇑ da dosagem pois rac > 0.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e totais ni+ fixos)
Em contrapartida, como os ni+ são fixos
⇛ QS = 52,77 (p < 0,00001, g.l.= 2).
⇛ Comparações dos tratamentos, dois a dois:
H0 : F1 = F2 ⇒ QS = 21,71 (p < 0,0001, g.l. = 1)H0 : F1 = F3 ⇒ QS = 49,06 (p < 0,0001, g.l. = 1)H0 : F2 = F3 ⇒ QS = 8,02 (p = 0,0046, g.l. = 1).
Para α = 0,05⇛ 0,05/3 = 0,017.
Rejeita-se as três hipóteses nulas testadas.
Como f1 = 1,52 < f2 = 2,30 < f3 = 2,67
Limpeza das roupas ⇑ com o ⇑ da dosagem do aditivo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
Assim, se as variáveis Y e X forem ordinais e escorespuderem ser assumidos para as categorias de ambas
⇓
Se total n fixo ⇛ estatística da correlação
QCS = (n−1)(rac)2 ∼ χ2
1
rac = coeficiente de correlação de Pearson.
Se ni+ fixos ⇛ estatísticas escore e/ou da correlação
QS e/ou QCS.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Análise Estratificada
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis de Confundimento ou Estratificadoras
Nos estudos em geral ⇛ atenção deve ser dada àsvariáveis de confundimento ou estratificadoras.
Tais variáveis podem confundir uma aparente relação causal.Sendo assim, é necessário controlar ou minimizar o efeito dasmesmas para obtenção de conclusões mais confiáveis.
Análises que consideram o efeito dessas variáves sãousualmente denominadas análises estratificadas.
Isto porque as análises são realizadas com os dadosestratificados pelas categorias dessas variáveis.
A estratificação pode ser resultado do delineamento adotadoou sua necessidade pode aparecer após a coleta dos dados.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo de Variável de Confundimento
Câncer de PulmãoFumo Passivo Fumo Voluntário Sim Não Totais
Sim SimSim Não
TotaisNão SimNão Não
Totais
variável resposta ⇛{
Câncer de Pulmão
variável explicativa ⇛{
Fumo Voluntário
variável confundimento ⇛{
Fumo Passivo
Obs : caso a influência do confundimento entre fumo voluntárioe fumo passivo não seja considerada, associação entre tabacoe câncer de pulmão pode até mesmo não ser detectada, ou suaintensidade não ser bem avaliada.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo de Variável Estratificadora
EfeitoCentros Medicamentos Favorável Não favorável Totais
1 Novo 29 16 451 Padrão 14 31 45
Totais 43 47 902 Novo 37 8 452 Padrão 24 21 45
Totais 61 29 90
variável resposta ⇛{
Efeito
variável explicativa ⇛{
Medicamentos
variável estratificadora ⇛{
Centros Médicos
Há diferenças entre os centros e entre os pacientes atendidos neles
⇛ razoável que seu efeito seja controlado na análise.Analogia com a análise de delineamentos experimentais ⇛ centros
médicos têm o sentido de blocos.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Mantel-Haenszel no Ensaio Clínico Multicentros
Em tais situações ⇛ Estatística Mantel-Haenszel (1959).No estudo multicentros tem-se:
conjunto de q = 2 tabelas de cont. 2 × 2 (h = 1, . . . ,q)
RespostaTratamentos j = 1 j = 2 Totais
i = 1 nh11 nh12 nh1+i = 2 nh21 nh22 nh2+
Totais nh+1 nh+2 nh
totais marginais-linha nhi+ fixos nas q = 2 tabelas.interesse em testar H0: ph(1)1 = ph(2)1, h = 1, . . . ,q
condicional a H0, Nh11 ∼ Hipergeométrica tal que
eh11= E(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh+1)
nh
vh11 = V(Nh11 | nh,nh1+,nh+1) =(nh1+)(nh2+)(nh+1)(nh+2)
(nh)2(nh −1).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estatística de Mantel-Haenszel
Sob H0 e para ∑qh=1nh suficientemente grande
QMH =
(q
∑h=1
nh11−q
∑h=1
eh11
)2
q
∑h=1
vh11
∼ χ2(1)
QMH é eficaz para avaliar associações se a maioria dasdiferenças (ph(1)1− ph(2)1) apresentar o mesmo sinal.Havendo homogeneidade das OR nas q tabelas 2 × 2
ORMH =
q
∑h=1
nh11nh22
nhq
∑h=1
nh12nh21
nh
.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resultados - Ensaio Clínico Multicentros
QMH = 18,41 (p < 0,0001), indicando associação entre asvariáveis tratamento e resposta do paciente, controlandopela variável estratificadora centro médico.
Também, o medicamento novo apresenta proporção deresposta favorável maior do que a do placebo, uma vezque ph(1)1 > ph(2)1, para h = 1,2.
OR1 = 4,01 e OR2 = 4,04 (homogêneas)
ORMH = 4,028 ⇒ a odds de melhora dospacientes que receberam o novo tratamentofoi ≈ 4 vezes a dos que receberam placebo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))> mantelhaen.test(tab, correct=F)
Mantel-Haenszel test without continuity correction
data: tabX-squared = 18.4106, df = 1, p-value = 1.781e-05
alternative hypothesis: true common odds ratiois not equal to 195 percent confidence interval:
2.105716 7.708353
sample estimates:common odds ratio
4.028846
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Extensões da Estatística de Mantel-Haenszel
Extensões na presença de uma variável estratificadora
Y ordinal e X nominal com totais ni+ fixos ⇛ QSMH
Y e X ordinais com totais ni+ fixos ⇛ QSMH ou QCSMH
Y e X ordinais com total n fixo ⇛ QCSMH
QSMH ⇛ Estatística escore médio estendida de M-HQSMH ⇛ Estatística da correlação estendida de M-H
Para mais detalhes ⇒ Stokes et al. (2000).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelos para Dados comResposta Dicotômica
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Dados com Resposta Binária ou Dicotômica
Para estudar a existência de associação entre um con-junto de variáveis X = (X1, X2, ..., Xk) e uma respostadicotômica Y ⇒ modelos de regressão são usuais.
X1 X2 ... Xk︸ ︷︷ ︸ Y︸︷︷︸
O modelo de regressão logística é um dos mais popularesnestas situações.
Quanto às variáveis X, estas podem ser ummisto de variáveis categóricas e contínuas.
As categóricas são incorporadas aos modelospor meio de variáveis dummy.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
Para introduzir o modelo de regressão logística, considereos dados de um estudo sobre doença coronariana.
Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais P(Y = 1 | x)
20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
E(Y | x)︸ ︷︷ ︸ = 1 × P(Y = 1 | x) + 0 × P(Y = 0 | x) = P(Y = 1 | x)︸ ︷︷ ︸.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
30 40 50 60
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Idade(em anos)
E[Y
|x]
Note que à medida que a x = idade cresce, E(Y | x) também cresce.
A mudança na E(Y | x) por unidade de mudança em x se tornaprogressivamente menor quando E(Y | x) próxima de 0 ou 1.
Relação entre idade e E(Y | x) não é, portanto, linear, mas simsigmoidal (forma de S).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
Similar à regressão linear ⇛ interesse em modelar E(Y | x).
Necessário, contudo, considerar que:
E(Y | x) pertence ao intervalo [0, 1].
Relação entre X e E(Y | x) tem a forma de S.
⇓Sugere distribuição acumulada de uma v.a.
⇓Distribuição logística se tornou popular por:
ser extremamente flexível e fácil de ser utilizada.
conduzir a interpretações simples.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
E(Y | x) = P(Y = 1 | x)︸ ︷︷ ︸= θ (x) =exp{
β0+p
∑k=1
βkxk
}
1+exp{
β0+p
∑k=1
βkxk
}
1−θ (x) =1
1+exp
{β0+
p
∑k=1
βkxk
} .
sendo x = (x1, x2, . . . , xp) = valores observados das variáveis X,β0 = constante e βk (k = 1, . . . ,p) os p parâmetros de regressão.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
θ(x) =exp{β ′x}
1+exp{β ′x}e 1−θ(x) =
1
1+exp{β ′x}
ln
(θ(x)
1−θ(x)
)= β0+
p
∑k=1
βkxk = β ′x.
Esta transformação é denominada logito .
A razão entre θ(x) e 1−θ(x) ⇒ definição de odds⇓
odds =θ(x)
1−θ(x)= exp
{β ′x}.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estimação do vetor β e das variâncias-covariâncias de β
Estimação de β ⇒ Método da Máxima Verossimilhança
L(β ) =n
∏ℓ=1
P(Y = yℓ | xℓ) =n
∏ℓ=1
(θ(xℓ)
)yℓ (1−θ(xℓ))1−yℓ
yℓ = 1, se indivíduo l apresentou a resposta e yℓ = 0, c.c.
Valores de β que maximizam lnL(β ) ⇒ β .
Distribuição assintótica de β ⇛ Normal
Estimação da matriz de variâncias-covariâncias de β
Σ(β ) = [I(β )]−1 = matriz de variâncias-covariâncias
I(β ) = matriz contendo o negativo das derivadasparciais de 2a ordem de lnL(β ).Estimadores são obtidos por avaliar Σ(β ) em β .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Significância dos Efeitos das Variáveis
Testar hipóteses relativas aos parâmetros βk (k = 1, . . . ,p)
1. Teste da Razão de Verossimilhanças (TRV)
TRV =−2ln
[LS
LC
]= 2ln(LC)−2ln(LS)︸ ︷︷ ︸ ∼ χ2
(q)
diferença de deviances
LS: função de verossimilhança associada ao modelo sem a(s)variável(is) sob investigação
LC: função de verossimilhança associada ao modelo com a(s)variável(is) sob investigação
q = diferença de parâmetros entre os dois modelos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Análise de Deviances e Seleção de Modelos
Considere que modelos encaixados sejam ajustados aosdados de um estudo em que Y é binária e X1 e X2 sãocategóricas com duas categorias cada.
Tabela de Análise de Deviances (ANODEV).
Modelos g.l. Deviances TRV 6= g.l.Nulo glN DNX1 glN −1 D1 DN −D1 1X2 | X1 glN −2 D2 D1−D2 1X1 ∗X2 | X1,X2 glN −3 D3 D2−D3 1
glN = g.l. do modelo nulo = número de subpopulações − 1
Obs: na presença de dados faltantes, o tamanho amostralnos modelos sequenciais dependerá das variáveis Xk queos compõem ⇛ TRV apresentará problemas.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Significância dos Efeitos das Variáveis
2. Teste de Wald (Wald, 1943)
i) Para testar hipóteses relativas a um parâmetro
H0 : βk = 0, k = 1, . . . ,p
W =(βj)
2
Var(βj)∼ χ2
1
ii) Para hipóteses relativas a q ≥ 2 parâmetros
H0 : β ∗ = 0 (β ∗ = vetor q×1)
W = (β ∗)′[Σ(β ∗)]−1(β ∗)∼ χ2q
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Sob a hipótese H0: modelo ajustado é satisfatório, faz-seuso de estatisticas que resumem a concordância entre osvalores observados e os preditos pelo modelo.
QP = ∑i,j
(nij−eij
)2
eij∼ χ2
m
QL = 2∑i,j nij ln
(nij
eij
)∼ χ2
m
eij = ni+ θ (xi), j = 1 e eij = ni+ (1− θ(xi)), j = 2.
ni+ = sujeitos na i-ésima subpopulação da tabela de dados s×2.θ(xi) = probabilidade P(Y = 1 | xi) predita pelo modelo ajustado.eij = frequências esperadas sob o modelo ajustado.m = no subpopulações − no parâmetros do modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Na presença de variáveis contínuas ⇛ frequências muitopequenas para a grande maioria das s subpopulações.
⇓
inviabiliza o uso de QL e QP
⇓
Hosmer e Lemeshow (1989) propuseram uma estatísticaalternativa , QHL, que é obtida calculando-se a estatísticaqui-quadrado de Pearson a partir de uma tabela g×2 defrequências observadas e preditas
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Inicialmente, as n observações são ordenadas em ordemcrescente das probabilidades θ(x) preditas pelo modelo.
Tais observações são, então, divididas em g grupos (g =10, por exemplo). No 10 grupo ficam as n1 observaçõescom probabilidades estimadas < 0,1 e, no último, as ng
observações com probabilidades ≥ 0,9.
QHL =g
∑i=1
(oi −niθ (xi))2
ni θ (xi)(1−θ (xi))∼ χ2
(g−2)
ni = frequência de observações no grupo ioi = frequência de resposta Y = 1 no grupo iθ (xi) = probab. média estimada de resposta Y = 1 no grupo i.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> dados1<-read.table("chd4a.txt",h=T)> attach(dados1)
> dados1dc sexo ecg idade
1 0 0 0 282 0 0 0 343 0 0 0 384 1 0 0 41
...76 1 1 2 5877 1 1 2 5978 1 1 2 60
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link= "logit"),data=dados1)
> summary(ajust)> anova(ajust, test="Chisq")
> source("http://www.poleto.com/funcoes/gof.bino.txt ")> gof.bino(ajust, grupos=10)$x2[1] 5.754939$df[1] 8$pvalue[1] 0.6746605
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos de Pearson e Resíduos Deviance
Limitação das estatísticas Qp e QL ⇛ único valor é utilizadopara resumir uma quantidade considerável de informação.Pregibon (1981) estendeu os métodos de diagnóstico deregressão linear para a regressão logística, fazendo usodos componentes individuais das estatísticas Qp e QL.
ci =ni1− (ni+) θ (xi)√
(ni+) θ (xi)(1− θ (xi))︸ ︷︷ ︸
, i = 1, · · · ,s.
resíduos de Pearson
Componentes ci são denominados resíduos de Pearson ,pois a soma deles ao quadrado resulta em QP, i.e.,
QP =s
∑i=1
(ci)2
.Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos deviance
Analogamente, os componentes di são denominadosresíduos deviance , pois a soma deles ao quadradoresulta em QL, isto é,
QL =s
∑i=1
(di)2.
di =±
[2ni1 ln
(ni1
ei1
)+2(ni+−ni1) ln
(ni+−ni1
ni+− ei1
)]1/2
︸ ︷︷ ︸resíduos deviance
ei1 = (ni+) θ (xi), para i = 1, . . . ,s.sinal de di ⇛ definido a partir das diferenças (ni1− ei1).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos deviance
Distribuição aproximada dos resíduos ci e di ∼ N(0,1).Resíduos excedendo ± 2,5 pode indicar
possível falta de ajuste do modelopresença de outlierspadrões sistemáticos de variação.
1 2 3 4 5 6 7 8
−0.
4−
0.2
0.0
0.2
0.4
ï
Res
íduo
s de
Pea
rson
1 2 3 4 5 6 7 8
−0.
4−
0.2
0.0
0.2
0.4
i
Res
íduo
s de
vian
ce
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Sobre a Distribuição dos Resíduos
Assumindo que os resíduos di seguem distribuiçãoaproximada normal ⇒ construir normal Q-Q plot comenvelope simulado (Davison e Gigli, 1989).
−2 −1 0 1 2
−2
−1
01
2
Percentis
Dev
ianc
e
Q−Q PlotQ−Q PlotQ−Q Plot
Se os resíduos estiverem dentro do envelope simulado ⇛
evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Sobre a Distribuição dos Resíduos
Ben e Yohai (2004) argumentam, contudo, que paraalguns MLG, tal distribuição pode estar distante danormalidade.
Assim, propuseram uma estimativa da distribuição dosresíduos di, de modo que no Q-Q plot tais resíduos sãograficado versus os quantis da distribuição estimada.
Ben MG, Yohai VJ (2004). Quantile-quantile plot fordeviance residuals in the generalized linear model.J. of Comput. & Graphical Statistics, 13(1): 36-47.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Métodos Auxiliares
Poder Preditivo do Modelo Ajustado
Para avaliar o poder preditivo do modelo é necessárioestabelecer um ponto de corte (0 < pc < 1), tal que:
a) Probabilidades preditas pelo modelo ≥ pc ⇛ Y = 1b) Probabilidades preditas pelo modelo < pc ⇛ Y = 0.
Resposta Resposta Predita pelo ModeloObservada Y = 1 (+) Y = 0 (−) TotaisY = 1 (+) a b (a + b)Y = 0 (−) c d (c + d)Totais (a + c) (b + d) n
⇛ Sensibilidade = aa+b = taxa de verdadeiros +
⇛ Especificidade = dc+d = taxa de verdadeiros −
⇛ Valor Preditivo = a+dn = proporção geral de acertos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Métodos Auxiliares
Para diversos pontos de corte ⇛ Curva ROC
Pares (x, y) = (1 − especificidade, sensibilidade).Modelo com discriminação perfeita ⇛ (x, y) = (0,1).Pontos de corte próximos ao canto superior esquerdo,produzirão os maiores % de acertos (V+ e V−).Quanto mais próxima de 1 for a área abaixo da curva,melhor o poder de predição do modelo.
1 − especificidade
sens
ibili
dade
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Doença coronáriaIdade (X = x) Sim (Y = 1) Não (Y = 0) Totais E(Y | x)
20-29 1 9 10 0,1030-34 2 13 15 0,1335-39 3 9 12 0,2540-44 5 10 15 0,3345-49 6 7 13 0,4650-54 5 3 8 0,6355-59 13 4 17 0,7660-69 8 2 10 0,80Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
β0 = −5,123 (e.p. = 1,11) e β1 = 0,1058 (e.p. = 0,023).
θ (x) =exp{−5,123+0,1058x}
1+exp{−5,123+0,1058x}
ln
(θ (x)
1− θ(x)
)=−5,123+0,1058x
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Tabela 1. Diferenças de deviances
Modelos g.l. Deviances Diferenças 6= g.l.Nulo 7 28,7015X: idade 6 0,5838 28,1177 1
Tabela 2. Análise de Deviance (ANODEV)
Fonte de variação g.l. Deviances TRV valor pRegressão 1 28,1177 28,1177 < 0,00001Deviance residual 6 0,5838Deviance total 7 28,7015
Evidências de associação entre idade e doença coronária.
Ainda, teste de Wald ⇛ W = 20,49 (g.l. = 1, p < 0,00001)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Qp = 0,59 (p = 0,9965) e QL = 0,58 (p = 0,9967), g.l.= 6.
Resíduos ci e di entre −2,5 e 2,5.
1 2 3 4 5 6 7 8
−2
−1
01
2
Index
resí
duos
Pea
rson
1 2 3 4 5 6 7 8
−2
−1
01
2
Index
resí
duos
dev
ianc
e
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−3
−2
−1
01
23
Normal Q−Q Plot
Percentis da N(0,1)
Com
pone
nte
do D
esvi
o
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
Área abaixo da curva ROC: AUC = 0,7838.
Evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
30 40 50 60
0.0
0.2
0.4
0.6
0.8
idade
E(Y
|x)
A partir do modelo ajustado tem-se, por exemplo:
xi θ (xi) 1− θ(xi)θ(xi)
1−θ(xi)= exp{β0+ β1xi}
26 0,0853 0,9147 exp{β0+ β1∗26}= 0,09327 0,0939 0,9061 exp{β0+ β1∗27}= 0,10365 0,8524 0,1476 exp{β0+ β1∗65}= 5,774
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Relembrando queθ(xi)
1−θ(xi)= odds, segue que:
OR =odds(27)odds(26)
= exp{β1(27−26)} = exp{β1} ≈ 1,11
OR =odds(65)odds(26)
= exp{β1(65−26)} = exp{β1∗39} ≈ 62
A odds de doença coronária entre indivíduos com 65 anosde idade é ≈ 62 vezes a dos indivíduos com 26 anos.
Obs: OR nos modelos de regressão logística são denominadasOR ajustadas, uma vez que o efeito βk associado à covariável ké estimado na presença dos demais no modelo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> resim<-c(1,2,3,5,6,5,13,8)> resnao<-c(9,13,9,10,7,3,4,2)> idade<-c(25,32,38,43,47,53,57,65)> dados<-as.data.frame(cbind(resim,resnao,idade))> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,
family=binomial(link="logit"),data=dados)> anova(ajust,test="Chisq")> summary(ajust)> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch= 16)> abline(h=0, lty=3)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)
> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pc h=16)> abline(h=0,lty=3)
> theta<-resim/(resim+resnao)> plot(idade,theta,ylim=range(0,0.9),xlab="idade",
ylab="E(Y|x)",pch=16)> idade<-20:70> modajust<-(exp(-5.123+0.1058 * idade))/(1+ exp(-5.123+
0.1058 * idade))> lines(idade,modajust)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(10,15,12,15,13,8,17,10)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")
> dados1<-read.table("coronaria.txt",h=T)# dados 1 = arquivo com 1 indivíduo por linha (100 x 2)
> attach(dados1)> dados1[1:3,]
y idade1 250 250 25...
> require(Epi)> ROC(form=y~idade,plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Ensaio Clinico aleatorizado em que três tratamentos foramavaliados em pacientes que no diagnóstico apresentaraminfecção urinária complicada ou não de ser curada.
CuraDiagnóstico da Infecção Medicamentos Sim Não TotaisComplicada A 78 28 106Complicada B 101 11 112Complicada C 68 46 114Não complicada A 40 5 45Não complicada B 54 5 59Não complicada C 34 6 40Fonte: Koch et al. (1985)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Resposta dicotômica e duas covariáveis em que:
xi1 =
{1 se infecção complicada0 caso contrário.
xi2 =
(xi21,xi22) = (1,0) se tratamento A(xi21,xi22) = (0,1) se tratamento B(xi21,xi22) = (0,0) se tratamento C ⇛ refêrencia.
Tabela 1. Diferenças de deviances.
Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 5 44,473 – – –X1 4 30,628 13,844 1 0,0002X2 | X1 2 2,515 28,114 2 < 0,0001X1∗X2 | X1,X2 0 0,000 2,515 2 0,2843
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Efeito da interação ⇛ não significativo (p = 0,2843).
Foram então testados os efeitos principais
Efeito de X1 ⇛ significativo (p = 0,0002).Efeito de X2|X1 ⇛ significativo (p < 0,0001).
Tabela 2. Análise de Deviance (ANODEV).
Fonte de variação g.l. deviances TRV valor pRegressão 3 41,958 41,958 < 0,00001Deviance residual 2 2,515Deviance total 5 44,473
As variáveis X1 = diagnóstico e X2 = tratamento reduzemsubstancialmente a deviance total.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Estatísticas de qualidade de ajuste do modelo
QL = 2,515 (p = 0,2844) e QP = 2,757 (p = 0,2519).
Valores observados e preditos pelo modelo e resíduosdeviance e de Pearson.
θ (xi) θ(xi) di ci
0,735 0,739 −0,077 −0,0770,902 0,882 0,646 0,6300,596 0,612 −0,344 −0,3450,889 0,881 0,162 0,1610,915 0,951 −1,182 −1,3020,850 0,805 0,740 0,717
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Gráfico dos resíduos deviance e Normal QQ-Plot
1 2 3 4 5 6
−3
−2
−1
01
23
Index
rsíd
uos
devi
ance
−1.0 −0.5 0.0 0.5 1.0
−2
−1
01
23
Normal Q−Q Plot
Percentis da N(0,1)
Com
pone
nte
do D
esvi
o
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
Área abaixo da curva ROC ⇛ AUC = 0,70.
Evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Tabela 3. Estimativas dos parâmetros do modelo ajustado.
Parâmetros Estimativas erro padrãoβ0: constante 1,4184 0,2986β1: infecção complicada −0,9616 0,2997β2: tratamento A 0,5847 0,2641β3: tratamento B 1,5608 0,3158
ln
(θ(xi)
1− θ (xi)
)= 1,4184−0,9616xi1+0,5847xi21+1,5608xi22
θ(xi) =exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}
1+exp{1,4184−0,9616xi1+0,5847xi21+1,5608xi22}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Infecção Tratamentos θ(xi)
1−θ(xi)= odds
Complicada A exp{β0+ β1+ β2}
Complicada B exp{β0+ β1+ β3}
Complicada C exp{β0+ β1}
Não complicada A exp{β0+ β2}
Não complicada B exp{β0+ β3}
Não complicada C exp{β0}
ORC|NC = exp{β1}= 0,38
⇓ORNC|C = exp{−β1}= 2,6
ORA|C = exp{β2}= 1,79
ORB|C = exp{β3}= 4,76
ORB|A = exp{β3− β2}= 2,65
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> resim<-c(78,101,68,40,54,34)> resnao<-c(28,11,46,5,5,6)> diag<-c(1,1,1,0,0,0)> trat<-c(2,3,1,2,3,1)> dados<-as.data.frame(cbind(resim,resnao,diag,trat) )> attach(dados)> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+
factor(trat),family=binomial(link="logit"),data=dad os)> summary(ajust)> anova(ajust,test="Chisq")> ajust$y> ajust$fitted.values> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,2)> cbind(QL,p1)> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos devianc e")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,2)> cbind(QP,p2)> ntot<-c(106,112,114,45,59,40)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")> dados1<-read.table("infec.txt", h=T)> dados1 # arquivo com 1 indivíduo por linha (476 x 3)
x1 x2 y # x1 = diag e x2 = trat1 2 11 2 1...
> attach(dados1)> require(Epi)> ROC(form=y~factor(x1)+factor(x2),plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Objetivo: estudar associação de bronquite com
smk = status de fumo (0 se não usa e 1 se usa),ses = status sócio-econômico (0 se alto e 1 se baixo)idade = 0 se < 40 anos e 1 se ≥ 40 anos.
Bronquitesmk ses idade Sim Não Totais
0 1 0 38 73 1110 1 1 48 86 1340 0 0 28 67 950 0 1 40 84 1241 1 0 84 89 1731 1 1 102 46 1481 0 0 47 96 1431 0 1 59 53 112
Fonte: Kleinbaum (1994)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Tabela 1. Diferenças de deviances - modelos sequenciais.Modelos g.l. Dev. TRV 6= g.l. valor pNulo 7 72,798X1 6 40,336 32,462 1 < 0,0001X2 | X1 5 27,511 12,825 1 0,0003X3 | X1,X2 4 11,025 16,486 1 < 0,0001X1 ∗X2 | X1,X2,X3 3 7,910 3,115 1 0,0775X1 ∗X3 | X1,X2,X3,X1 ∗X2 2 0,032 7,879 1 0,0050X2 ∗X3 | X1,X2,X3,X1 ∗X2,X1 ∗X3 1 0,031 0,001 1 0,9763X1 ∗X2 ∗X3 | X1,X2,X3 + duplas 0 0,000 0,031 1 0,8602
X1 = smk, X2 = ses e X3 = idade
Modelo ⇛ X1,X2,X3+X1∗X3+X1∗X2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
θ (xi) θ(xi)0.3389166 0.34234230.3610467 0.35820900.2987395 0.29473680.3195141 0.32258060.4870962 0.48554910.6873808 0.68918920.3267997 0.32867130.5291753 0.5267857 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−2
−1
01
2
Normal Q−Q Plot
Percentis da N(0,1)
Com
pone
nte
do D
esvi
o
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
1 2 3 4 5 6 7 8
−0.
4−
0.2
0.0
0.2
0.4
Index
Res
iduo
s de
vian
ce
QL = QP = 0,0318 (p = 0,999).
Área abaixo curva ROC = 0.64.
Evidências a favor do modelo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Parâmetros Estimativas Erro-padrãoβ0 −0,8533 0,1856β1: x1 = smk 0,1306 0,2408β2: x2 = ses 0,1852 0,1982β3: x3 = idade 0,0973 0,1991β4: (x1 ∗x2) = smk∗ses 0,4859 0,2637β5: (x1 ∗x3) = smk∗idade 0,7422 0,2643
smk ses idade smk∗ses smk∗idade odds = θ (xi)
1−θ(xi)
0 1 0 0 0 exp{β0+ β2}
0 1 1 0 0 exp{β0+ β2+ β3}
0 0 0 0 0 exp{β0}
0 0 1 0 0 exp{β0+ β3}
1 1 0 1 0 exp{β0+ β1+ β2+ β4}
1 1 1 1 1 exp{β0+ β1+ β2+ β3+ β4+ β5}
1 0 0 0 0 exp{β0+ β1}
1 0 1 0 1 exp{β0+ β1+ β3+ β5}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Na presença de interações significativas:
ORsmk(1|0) =
exp{β1} se ses = 0 e idade = 0exp{β1+ β4} se ses = 1 e idade = 0exp{β1+ β5} se ses = 0 e idade = 1exp{β1+ β4+ β5} se ses = 1 e idade = 1
ORsmk(1|0) = exp{β1+ β4 ses+ β5 idade}
Assim, para, por exemplo, pacientes com ses alto = 0 e idade> 40 anos (idade = 1), a odds de bronquite entre os que fumamé exp{0,1306+0,7422}= 2,4 vezes a dos que não fumam.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
ORses(1|0) =
{exp{β2} se smk = 0exp{β2+ β4} se smk = 1
ORses(1|0) = exp{β2+ β4 smk}
Assim, para pacientes que fumam, a odds de bronquite entre oscom ses baixo (ses = 1) é exp{0,1852+0,4859}= 1,95 vezes ados com ses alto (ses = 0).
Para os que não fumam (smk = 0), tal odds é exp{0,1852}= 1,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
ORidade(1|0) =
{exp{β3} se smk = 0exp{β3+ β5} se smk = 1
ORidade(1|0) = exp{β3+ β5 smk}
Desse modo, para os que fumam, a odds de bronquite entre oscom idade ≥ 40 anos é exp{0,0973+0,7422}= 2,3 vezes a doscom idade < 40 anos.
Para os que não fumam tal odds é exp{0,0973}= 1,1.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> brc<-read.table("bronquite.txt",h=T)> attach(brc)> brc
sim nao smk ses idade38 73 0 1 048 86 0 1 128 67 0 0 040 84 0 0 184 89 1 1 0
102 46 1 1 147 96 1 0 059 53 1 0 1
> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+smk* ses+smk * idade,family=binomial,data=brc)
> anova(ajust,test="Chisq")> summary(ajust)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> ajust$y> ajust$fitted.values
> dev<-residuals(ajust,type=’deviance’)> dev> QL<-sum(dev^2)> p1<-1-pchisq(QL,6)> cbind(QL,p1)
> rpears<-residuals(ajust,type=’pearson’)> rpears> QP<-sum(rpears^2)> p2<-1-pchisq(QP,6)> cbind(QP,p2)
> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos dev iance")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R> ntot<-c(111,134,95,124,173,148,143,112)> fit.model<-ajust> source("http://www.ime.usp.br/~giapaula/envelr_bin o")
> brc1<-read.table("bronquite1.txt",h=T)> attach(brc1)# brc1 = arquivo com 1 indivíduo por linha (1040 x 4)> brc1
x1 x2 x3 y0 1 0 10 1 0 1...1 0 1 0
> require(Epi)> ROC(form=y~x1+x2+x3+x1 * x2+x1 * x3,plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Links Paramétricos Alternativos para Dados Binários
Alguns links para dados com resposta binária.
θ (x) = F(β ′x) links paramétricos alternativosexp{β ′x}
1+ exp{β ′x}logito ⇒ ln
(θ (x)
1−θ (x)
)
Φ(β ′x) probito ⇒ Φ−1(θ (x))
1−exp{−exp{β ′x}} clog-log ⇒ ln(− ln(1−θ (x)))
12 +
arctg(β ′x)
π cauchy ⇒ F−1(θ (x))
Φ(·) denota a função de distribuição da N(0,1), arctg = arco tangente
F(·)denota a função de distribuição da Cauchy(0,1) ∼ t-Student(1g.l.)
⇛ Simétricos: logístico, probito e cauchy⇛ Assimétrico: complemento log-log.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Links Alternativos para Dados Binários
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
x
thet
a(x)
logísticoprobitoclog−logcauchy
Procedimentos de estimação, qualidade e diagnóstico sãoanálogos aos do modelo logístico.
Interpretação dos parâmetros difere da apresentada parao modelo logístico.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
Bioensaio conduzido em laboratório por Machado (2006).
Objetivo: concentração ideal de uma suspensão viral.
MortesDiluições (CPI/ml) Sim Não Totais
Testemunha 0 30 30103 1 29 30106 4 26 30107 15 15 30108 28 2 30109 29 1 30
xi = logaritmo neperiano das diluições.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando Links Alternativos - Bioensaio
0 5 10 15 20 25
0.0
0.2
0.4
0.6
0.8
1.0
ln(diluição)
Pro
porç
ão d
e m
orte
s
Logístico ⇒ θ (xi) =exp{β0+β1xi}
1+exp{β0+β1xi}
Probito ⇒ θ (xi) = Φ(β0+β1xi)
Clog-log ⇒ θ (xi) = 1−exp{−exp{β0+β1xi}}
Cauchy ⇒ θ (xi) =12+
arctan(β0+β1xi)
π
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando Links Alternativos - Bioensaio
Estatística deviance de qualidade de ajuste
Logito Probito Clog-log CauchyQL 6,59 10,99 6,18 1,72
p-valor 0,158 0,027 0,186 0,787
−1.0 0.0 1.0
−2
−1
01
2
Normal Q−Q Plot
Percentis da N(0,1)
Dev
ianc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−3
−1
01
2
Normal Q−Q Plot
Percentis da N(0,1)
Dev
ianc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−2
01
23
Normal Q−Q Plot
Percentis da N(0,1)
Dev
ianc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−4
−2
02
4
Normal Q−Q Plot
Percentis da N(0,1)
Dev
ianc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
a) logito b) probito c) clog-log d) Cauchy
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
Evidências a favor do modelo Binomial com link cauchy.
Estimativaslinks β0 (e.p.) β1 (e.p.)Logito −12,863 (2,27) 0,708 (0,12)Probito − 6,244 (1,07) 0,347 (0,06)Clog-log − 8,143 (1,26) 0,422 (0,06)Cauchy −26,678 (9,47) 1,451 (0,51)
Usual nos bioensaios: dose letal mediana ⇛ LD50
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
x50 = ln(LD50) LD50
Logito ln
(0,50
1−0,50
)= β0+ β1x − β0
β1≈ 18,17 (7,7)7
Probito Φ−1(0,50) = β0+ β1x − β0
β1≈ 18,00 (6,6)7
Clog-log ln(− ln(1−0,50)) = β0+ β1x −0,3665−β0
β1≈ 18,43 (10)7
Cauchy F−1(0,50) = β0+ β1x − β0
β1≈ 18,39 (9,7)7
Obs : para os modelos com links simétricos ⇛ x50 =− β0
β1.
Estimação por ponto e intervalo da LD50: Finney (1971),Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...
Koenker, R. Parametric links for binary response. URL:
www.econ.uiuc.edu/∼roger/research/links/Rnews.pdf
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
0 5 10 15 20 25
0.0
0.2
0.4
0.6
0.8
1.0
ln(diluições)
prop
orçã
o de
mor
tes logístico
probitoclog−logcauchy
(18.386, 0.5)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> resim<-c(0,1,4,15,28,29)> resnao<-c(30,29,26,15,2,1)> lnd<-c(0,9.21,16.12,18.42,20.72,23.02)> dados<-as.data.frame(cbind(resim,resnao,lnd))> attach(dados)
> ajuste4<-glm(as.matrix(dados[,c(1,2)])~lnd,family=binomial(link="cauchit"),data=dados)
> ajuste4> anova(ajuste4,test="Chisq")> summary(ajuste4)
# Obs: link="logit", "probit" e "cloglog"para ajustar os demais modelos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Cauchy
Comandos R
> ntot<-c(30,30,30,30,30,30)> fit.model<-ajuste4> source("http://www.ime.usp.br/~giapaula/envelr_bin o")
> x<-seq(0,25,0.1)> m4<- pcauchy(-26.678+1.451 * x)
> plot(lnd,resim/(resim+resnao),pch=16, ylab="proporç ão demortes",xlab="ln(diluições)",xlim=c(0,28),ylim=c(0, 1.05))
> lines(x,m4,lty=1,lwd=2,col=1)> legend(1,0.8,lty=c(1),col=c(1),lwd=2,c("cauchy"),b ty="n")
> lines(c(18.386,18.386),c(0,0.50),lty=3)> lines(c(0,18.386),c(0.50,0.50),lty=3)> legend(17.7,0.55,c("(18.386, 0.5)"),bty="n",cex=0.8 )
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelos para Dados comResposta Politômica
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelos para Dados com Resposta Politômica
Considere, agora, que o interesse seja o de estudar aexistência de associação entre um conjunto de variáveisX = (X1, X2, ..., Xk) e uma resposta politômica Y, a qualpode ser nominal ou ordinal.
X1 X2 ... Xk︸ ︷︷ ︸ Y︸︷︷︸
H
Modelos de regressão quepodem ser úteis nesses casos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situação 1 - Resposta Politômica Nominal
Resposta politômica nominal
H
Considere os dados a seguir em que se deseja avaliar se oprograma de aprendizado que as crianças preferem estariaassociado com a escola e o período escolar.
Programa de AprendizadoEscola Período Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 531 Integral 5 12 50 672 Padrão 21 17 26 642 Integral 16 12 36 643 Padrão 15 15 16 463 Integral 12 12 20 44
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resposta politômica nominal
Denotando por πhik a probabilidade de um aluno da escola h(h = 1,2,3) e período escolar i (i = 1,2) preferir o programa deaprendizado k (k = 1,2,3), em que ∑3
k=1 πhik = 1, tem-se:
H
Programa de AprendizadoEscola Período k
h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 13 1 π311 π312 π313 13 2 π321 π322 π323 1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Logitos Generalizados
Possível modelo para análise desses dadosModelo de Logitos Generalizados
Esse modelo considera (r−1) logitos generalizados tq:
logithik = ln
(πhik
πhir
)= β0k +β ′
kxhi, k = 1, . . . ,r−1
sendo r = no de categorias da resposta.
Note que cada logito k (k = 1, . . . ,r−1) é definido a partir daprobabilidade associada à k−ésima categoria de respostasobre a da última categoria (k = r).
Note, também, que há diferentes interceptos e diferentesvetores de parâmetros β k associados aos r−1 logitos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Logitos Generalizados
Como mais de um logito está sendo definido para cadasubpopulação ⇛ necessário tamanho amostral grandepara acomodar o no de logitos sendo modelados.
Quando não houver dados suficientes que justifiquem aanálise por meio de logitos generalizados ⇛ pode haverproblemas quanto a estimação dos parâmetros.
Nesses casos, uma alternativa seria simplificar a estruturada variável resposta (grupar categorias) e utilizar, porexemplo, o modelo de regressão logística dicotômica.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
No estudo sobre preferência de aprendizado r = 3. Então:
logithi1 = ln
(πhi1
πhi3
)e logithi2 = ln
(πhi2
πhi3
)
⇓
logithik = β0k +β ′kxhi
k = 1,2, h = 1, 2, 3 e i = 1, 2.
X1 = escolas e X2 = períodos ⇛ variáveis dummy
x11 =
{0 escola 11 escola 2,0 escola 3
x12 =
{0 escola 10 escola 2,1 escola 3
x2 =
{1 padrão0 integral.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 1 - Diferenças de deviances.Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 10 30,2480 – – –X1 6 12,8716 17,3764 4 0,0016X2 | X1 4 1,7776 11,0940 2 0,0039X1∗X2 | X1,X2 0 0,0000 1,7776 4 0,7766
g.l. = (r−1) × g.l. esperados para um único logito.
⇓
Modelo selecionado ⇛ X1+X2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 2 - Probabilidades observadas e preditas a partir do modelo.Observadas Preditas
Escolas Períodos Pref. Probabilidade e.p. Probabilidade e.p Obs−Pred1 pad indiv 0,1887 0,0537 0,1580 0,0403 0,0306
grupo 0,3208 0,0641 0,3049 0,0527 0,0159aula 0,4906 0,0687 0,5371 0,0560 −0,0470
1 int indiv 0,0746 0,0321 0,0989 0,0279 −0,0240grupo 0,1791 0,0468 0,1917 0,0393 −0,0130aula 0,7463 0,0532 0,7095 0,0459 0,0368
2 pad indiv 0,3281 0,0587 0,3409 0,0515 −0,0130grupo 0,2656 0,0552 0,2667 0,0469 −0,0010aula 0,4063 0,0614 0,3924 0,0509 0,0139
2 int indiv 0,2500 0,0541 0,2372 0,0444 0,0128grupo 0,1875 0,0488 0,1864 0,0389 0,0011aula 0,5625 0,0620 0,5764 0,0518 −0,0140
3 pad indiv 0,3261 0,0691 0,3436 0,0587 −0,0170grupo 0,3261 0,0691 0,3429 0,0582 −0,0170aula 0,3478 0,0702 0,3136 0,0536 0,0343
3 int indiv 0,2727 0,0671 0,2545 0,0521 0,0183grupo 0,2727 0,0671 0,2552 0,0517 0,0176aula 0,4545 0,0751 0,4904 0,0608 −0,0360
Probabilidades observadas e preditas estão próximas,indicando evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 3 - Estimativas dos parâmetros do modelo ajustado.
logito 1 logito 2estimativas erro-padrão estimativas erro-padrão
Intercepto −1,9711 0,320 −1,3088 0,259Escola 2 1,0828 0,353 0,1801 0,317Escola 3 1,3147 0,384 0,6556 0,339Período padrão 0,7474 0,282 0,7426 0,270
ln
(πhi1
πhi3
)= β01+β ′
1xhi e ln
(πhi2
πhi3
)= β02+β ′
2xhi
⇓
πhi1
πhi3= exp{β01+β ′
1xhi} eπhi2
πhi3= exp{β02+β ′
2xhi}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
Tabela 4 - Odds associadas aos logitos 1 e 2.logito 1 logito 2
Escola Período odds = πhi1/πhi3 odds = πhi2/πhi31 Padrão exp{β01+β31} exp{β02+β32}1 Integral exp{β01} exp{β02}2 Padrão exp{β01+β11+β31} exp{β02+β12+β32}2 Integral exp{β01+β11} exp{β02+β12}3 Padrão exp{β01+β21+β31} exp{β02+β22+β32}3 Integral exp{β01+β21} exp{β02+β22}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Logitos Generalizados
logito 1 logito 2entre períodos individual / sala de aula grupo / sala de aula
ORP/I eβ31 = 2,11 eβ32 = 2,10
Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral,
Entre aprendizado em grupo ou em sala de aula◮ odds de preferência pelo 1o entre alunos do períodopadrão é ≈ o dobro da dos alunos do período integral.
Entre aprendizado individual ou em grupo◮ odds de preferência entre esses dois métodos deaprendizado não diferiu entre os alunos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Logitos Generalizados
logito 1 logito 2entre escolas individual / sala de aula grupo / sala de aula
OR2/1 eβ11 = 2,95 eβ12 = 1,19
OR3/1 eβ21 = 3,72 eβ22 = 1,93
OR3/2 eβ21−β11 = 1,26 eβ22−β12 = 1,61
Entre aprendizado individual ou em sala de aula◮ odds de preferência pelo 1o entre alunos da escola 2 éde ≈ 3 vezes a dos alunos da escola 1. Já entre os daescola 3, tal odds é de ≈ 4 vezes a daqueles na escola 1e, entre os das escolas 3 e 2, de ≈ 1,3 vezes.
Por analogia tem-se as demais interpretações.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando o Modelo de Logitos Generalizados
Comandos R> require(VGAM)> esc<-read.table("escolas.txt", h=T)> attach(esc)> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +
factor(periodo),multinomial,esc)> summary(fit1)> coef(fit1,matrix=TRUE)> fitted(fit1)> fit1@y - fitted(fit1)> model.matrix(fit1)> residuals(fit1)
Obs: A última categoria de resposta é considerada no Rcomo a categoria de referência. Para consideraroutra (por ex., grupo 2), use refLevel.
> fit1<-vglm(cbind(ind,grupo,sala)~factor(escola) +factor(periodo),multinomial(refLevel=2),esc)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situação 2 - Resposta Politômica Ordinal
Para abordar essa situação, considere os dados a seguir emque se deseja avaliar se o grau de melhora de pacientes comartrite estaria associado com genêro e tratamento.
Grau de melhoraSexo Tratamentos Acentuada Alguma Nenhuma Totais
F A 16 5 6 27F Placebo 6 7 19 32M A 5 2 7 14M Placebo 1 0 10 11
As categorias de resposta estão ordenadas apartir da situação mais favorável para a menosfavorável aos pacientes.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resposta politômica ordinal
Denotando por πhik a probabilidade de um paciente do sexo h(h = 1,2) com tratamento i (i = 1,2) apresentar grau de melhorak (k = 1,2,3). Então, segue que:
Grau de MelhoraSexo Tratamento k Totais
h i 1 2 31 1 π111 π112 π113 11 2 π121 π122 π123 12 1 π211 π212 π213 12 2 π221 π222 π223 1
Considerando os totais nhi+ fixos ⇛ multinomial associada acada subpopulação, de modo que ∑3
k=1 πhik = 1.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situação 2 - Resposta Politômica Ordinal
Considerando, ainda, as seguintes quantidades:
θhi1 = πhi1 e θhi2 = πhi1+πhi2
θhi1 =probabilidade de melhora acentuadaθhi2 =probabilidade de melhora acentuada ou alguma melhora
H
θhik, k = 1, . . . ,r−1 ⇛ probabilidades cumulativas
H
modelo sugerido na literatura
Modelo de Logitos Cumulativos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Logitos Cumulativos (MLC)
Esse modelo considera (r−1) logitos cumulativos.Assim, para r = 3, tem-se:
logit(θhi1) = ln
(πhi1
πhi2+πhi3
)e logit(θhi2) = ln
(πhi1+πhi2
πhi3
)
H
logit(θhik) = β0k +β ′kxhi, k = 1, . . . ,r−1
sendo r = no de categorias da resposta.
É usual que as categorias de resposta mais favoráveissejam avaliadas em relação às menos favoráveis.
Neste modelo, os interceptos são distintos e existem 6=vetores de parâmetros de regressão para cada logito.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Odds Proporcionais (MOP)
Na realidade, o modelo de logitos cumulativos é similar aomodelo de logitos generalizados.
Contudo, se proporcionalidade das odds for válida, o queequivale a supor que β k = β para k = 1, . . . ,r−1, então,
logit(θhik) = β0k +β ′xhi
⇓
θhik =exp{
β0k +β ′xhi
}
1+exp{
β0k +β ′xhi
}
N
Modelo de Odds Proporcionais (MOP)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Odds Proporcionais (MOP)
Qual o significado da suposição de oddsproporcionais ou de regressão paralela?
Grau de melhoraTratamento Acentuada Alguma Nenhuma Totais
A 21 7 13 41Placebo 7 7 29 43
Note que: ORac/ac = 1, ORal/ac = 3 e ORac/nenh = 6.7.
crescimento aproximadamente linear das OR
Desse modo, ORac/al+nenh = 5.4 ≈ ORac+al/nenh = 4.5
odds proporcionais
Se for válido para todas as covariáveis no modelo ⇛ MOP.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Odds Proporcionais (MOP)
Para testar a suposição de odds proporcionais, isto é,
{H0 : βk = β , ∀ k ⇒ MOPHa : βk 6= β ⇒ MLC
TRV =−2ln[
LH0LHa
]∼ χ2
m
m = diferença de parâmetros entre os modelos sob H0 e Ha.
As probabilidades πhij são determinadas fazendo-sesubtrações dos θhik. Assim, se r = 3,
πhi1 = θhi1
πhi2 = θhi2−θhi1
πhi3 = 1−θhi2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Para os dados de artrite foram consideradas:
X1 ={
1 se feminino0 se masculino X2 =
{1 se tratamento A0 se placebo
Como não foram encontradas evidências contrárias asuposição de odds proporcionais, i.e., H0: βk = β ,∀ k
TRV = 1,88 (p = 0,39, g.l.= 2)
⇓
Foi considerado o modelo de odds proporcionais (MOP)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 1 - Diferenças de deviances (X1 = sexo, X2 = tratamento).
Modelos g.l. deviances 6= deviances 6= g.l. valor pNulo 6 (8−2) 22,5986X1 5 (8−3) 18,7933 3,8053 1 0,0511X2 | X1 4 (8−4) 2,7121 16,0812 1 < 0,0001X1 ∗X2 | X1,X2 3 (8−5) 2,4037 0,3084 1 0,5786
g.l. = (s× (r−1))−q, com s = no de subpopulações, r = no de categorias da resposta
e q = no de parâmetros do modelo.
Modelo ⇛ MOP com X1 e X2
Estatísticas QL e QP ∼ χ2 com ((r−1)(s−1)−q) g.l.
QL = 2,71 (p = 0,607, g.l.= 4)QP = 1,91 (p = 0,752, g.l.= 4).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Ainda, probabilidades observadas ≈ das preditas pelo modelo.
Observadas Preditas Observadas − Preditas0,59259 0,61036 −0,017770,18518 0,17601 0,009170,22222 0,21361 0,008600,18750 0,20612 −0,018620,21875 0,17281 0,045930,59375 0,62106 −0,027310,35714 0,29527 0,061860,14285 0,20084 −0,057990,50000 0,50387 −0,003870,09090 0,06493 0,025970,00000 0,07536 −0,075360,90909 0,85970 0,04939
Evidências favoráveis aos MOP ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 2 - Estimativas obtidas para o MOP ajustado.
Parâmetros Estimativas Erro-padrãoβ01: intercepto 1 −2,6672 0,5997β02: intercepto 2 −1,8128 0,5566β1: sexo feminino 1,3187 0,5292β2: tratamento A 1,7973 0,4728
Tabela 3 - Probabilidades θhik e πhij preditas pelo MOP.
Sexo Tratamentos θhi1 θhi2 πhi1 πhi2 πhi3
F A 0,6104 0,7864 0,6104 0,1760 0,2136F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211M A 0,2953 0,4961 0,2953 0,2008 0,5039M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Tabela 4 -Odds associadas ao MOP ajustado.
Sexo Tratamentos πhi1/(πhi2+πhi3) (πhi1+πhi2)/πhi3F A exp{β01+β1+β2} exp{β02+β1+β2}F Placebo exp{β01+β1} exp{β02+β1}M A exp{β01+β2} exp{β02+β2}M Placebo exp{β01} exp{β02}
Melhora acentuada versus alguma ou nenhuma melhora
⇒ a odds de melhora acentuada entre as mulheres éexp{β1} ≈ 4 vezes a dos homens.
⇒ a odds de melhora acentuada entre os pacientes sobtratamento A é exp{β2} ≈ 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando o Modelo de Odds Proporcionais (MOP)
Melhora acentuada ou alguma melhora versus nenhuma
Devido à suposição de odds proporcionais, as estimativassão as mesmas obtidas anteriormente. Logo,
⇒ a odds de melhora acentuada ou alguma melhoraentre as mulheres é ≈ 4 vezes a dos homens.
⇒ a odds de melhora acentuada ou alguma melhora entreos pacientes sob trat. A é ≈ 6 vezes a daqueles sob placebo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos RObs: Instalar package VGAM (www.r-project.org)
> require(VGAM)> data<-read.table("artrite.txt", h=T)> data
ac alg nenh sexo trat16 5 6 2 2
6 7 19 2 15 2 7 1 21 0 10 1 1
> fit <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor(t rat),cumulative(parallel=TRUE),data) # MOP
> fit1 <- vglm(cbind(ac,alg,nenh)~factor(sexo)+factor( trat),cumulative(parallel=FALSE),data) # MLC
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos R
> TRV <- 2 * (logLik(fit1)-logLik(fit))> gl <- length(coef(fit1))-length(coef(fit))> p <- 1-pchisq(TRV,gl)> cbind(TRV, gl, p)
> summary(fit)> coef(fit, matrix = TRUE)
> residuals(fit)> fitted(fit)> fit@y> fit@y - fitted(fit)> model.matrix(fit)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando os Modelos: MLC e MOP
Comandos RObs: Instalar package Design (www.r-project.org)
> data1<-read.table("artrite1.txt", h = T)# artrite1 = arquivo com 1 indivíduo por linha (84 x 3)> data1[1:3,]
melhora sexo tratamento1 3 2 22 3 2 23 3 2 2...> require(Design)> mop<-lrm(melhora~sexo+tratamento, x=TRUE, y=TRUE)> mop> par(mfrow=c(1,2))> residuals(mop, type="score.binary", pl=TRUE)> residuals(mop, type="partial", pl=TRUE)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
melhora
sexo
−0.
15−
0.05
0.05
0.15
alg nenh
melhora
sexo
melhora
trat
amen
to
−0.
15−
0.05
0.05
0.15
alg nenh
melhora
trat
amen
to
1.0 1.2 1.4 1.6 1.8 2.0
1.0
1.5
2.0
2.5
3.0
sexo
Par
tial R
esid
ual
y>=2
y>=3
1.0 1.2 1.4 1.6 1.8 2.0
1.5
2.0
2.5
3.0
3.5
4.0
tratamento
Par
tial R
esid
ual
y>=2
y>=3
Obs: Certo desvio da suposição de odds proporcionais para acovariável sexo. Se considerá-lo sério, um modelo alternativoseria: Modelo de odds proporcionais parciais (MOPP)
Abreu et al. (2009). Rev Saúde Pública, 43(1): 183-194.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Dados Pareados comResposta Binária
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Introdução
Em algumas situações, dados com resposta bináriapodem apresentar informações pareadas.
⇛ Estudos com gêmeos fraternos⇛ Estudos que avaliam lados direito e esquerdo do corpo⇛ Estudos do tipo antes e após um acontecimento⇛ Estudos caso-controle com pareamento 1-1⇛ Estudos crossover, dentre outros.
⇓
pares de observações relacionadas
⇓
clusters de tamanho = 2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situações Simples - Teste de McNemar
Situações simples ⇛ ausência de variáveis explicativas
apósantes Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+
Totais n+1 n+2 n
lado lado esquerdodireito Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+
Totais n+1 n+2 n
controlecaso E = 1 E = 0 TotaisE = 1 n11 n12 n1+E = 0 n21 n22 n2+
Totais n+1 n+2 n
período 2per. 1 Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+
Totais n+1 n+2 n
testar:{
H0: p1+ = p+1
HA: p1+ 6= p+1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situações Simples - Teste de McNemar
(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸não-informativo informativo informativo não-informativo
H
Teste foi proposto por McNemar (1947)
H
se baseia nos pares informativos, ou seja,nos elementos fora da diagonal principal
Estatística de Teste
QMc =(n12−n21)
2
(n12+n21)∼ χ2
(1)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situações Gerais - Outras Abordagens
Na presença de variáveis explicativas, poder-se-ia pensarno modelo de regressão logística usual, em que o efeitode par seria incorporado como fixo ou aleatório, isto é,
P(Yij = 1) =exp{αi +β ′xij}
1+exp{αi +β ′xij}
sendo αi o efeito do i-ésimo par (i = 1, . . . ,q) e β o vetor deparâmetros associados às variáveis explicativas X.
Obs: o efeito de par não é aqui de interesse primário,mas sim o de estimar os demais efeitos de interessecontrolando (ou removendo) o efeito de par.
↓
Analogia com variáveis estratificadoras
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Situações Gerais - Outras Abordagens
Se tal abordagem fosse considerada, o tamanho amostralde cada cluster (n = 2) seria insuficiente para estimar αi
sem vício ⇛ tal abordagem não seria apropriada.
Se, no entanto, for feito uso de argumentos condicionais
efeitos dos pares ⇛ parâmetros nuisance
⇓
tais efeitos serão removidos e os demaisestimados sem vício.
⇓
Regressão Logística Condicional
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Para apresentar tal modelo considere um ensaio clínicoaleatorizado multicentros em que:
⇛ q centros médicos foram escolhidos para sua realização.⇛ dois pacientes foram selecionados de cada centro tq:
um recebeu o tratamento A e, o outro, um placebo.
Yij =
{1 se melhora0 se não melhora,
j = 1 indexa o tratamento A e j = 2 o placeboi = 1, . . . ,q indexa os q centros médicos.
Xij =
{1 se tratamento A0 se placebo,
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Representação dos dados associados ao ensaio clínico descrito.
demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij
1 1 11 0 02 0 12 0 03 0 13 1 0...
......
... . . ....
q 1 1q 1 0
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
(Yi1,Yi2)︸ ︷︷ ︸(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸
não-informativo informativo informativo não-informativo
⇈
P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))
=P(Yi1 = 1)P(Yi2 = 0)
P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Como as probabilidades envolvidas são dadas por
P(Yi1 = 1) =exp{αi +β + γ ′xi1}
1+exp{αi +β + γ ′xi1}
P(Yi1 = 0) =1
1+exp{αi +β + γ ′xi1}
P(Yi2 = 1) =exp{αi + γ ′xi2}
1+exp{αi + γ ′xi2}
P(Yi2 = 0) =1
1+exp{αi + γ ′xi2}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Segue que:
P(Yi1 = 1)P(Yi2 = 0)P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)
=exp{αi +β + γ ′xi1}
exp{αi +β + γ ′xi1}+exp{αi + γ ′xi2}=
× e ÷ por exp{−αi − γ ′xi2} tem-se:
=exp{β + γ ′(xi1−xi2)}
1+exp{β + γ ′(xi1−xi2)}
que não inclui os parâmetros αi (i = 1, · · · ,q).
Sob esta abordagem ⇛ modelo com um número reduzidode parâmetros que podem ser estimados sem vício.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Função de verossimilhança associada ao modelo condicional
L(β ,γ) =q
∏i=1
{exp{β + γ ′(xi1−xi2)}
1+exp{β + γ ′(xi1−xi2)}
}yi1(1−yi2)
×
{1
1+exp{β + γ ′(xi1−xi2)}
}(1−yi1)yi2
Note que a contribuição para L(β ,γ) dos pares com respostaconcordantes, i.e., (Yi1 = 1, Yi2 = 1) e (Yi1 = 0, Yi2 = 0) é iguala 1 ⇛ pares concordantes são não-informativos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
A função L(β ,γ) é, na realidade, a fç de verossimilhançado modelo de regressão logística usual, em que:
Yi =
{1 se (Yi1 = 1,Yi2 = 0)0 se (Yi1 = 0,Yi2 = 1)
intercepto β : efeito do tratamentozi = (xi1−xi2): 6= dos valores das variáveis x dos pacientes
tratado e placebo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
demais variáveisCentro Yij = Melhora X1ij = Tratamento X2ij . . . Xmij
1 1 11 0 02 0 12 0 03 0 13 1 0...
......
... . . ....
demais variáveisCentro Yi = Melhora Z1i = Tratamento Z2i . . . Zmi
1 1 1 (x2i1− x2i2) . . . (xmi1− xmi2)3 0 1 (x2i1− x2i2) . . . (xmi1− xmi2)...
......
... . . ....
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Condicional
Note que na ausência das covariáveis X2, . . . ,Xk, os dadospodem ser representados em uma tabela de contingência2×2 em que as respostas para o tratamento são cruzadascom as respostas para o placebo.
PlaceboTratamento Y = 1 Y = 0 TotaisY = 1 n11 n12 n1+Y = 0 n21 n22 n2+
Totais n+1 n+2 n
Assim, testar H0: β1 = 0 é equivalente ao teste de McNemar.
Ainda, exp{β1} é estimado por n12/n21, sendo n12 e n21 ascontagens fora da diagonal principal da tabela.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1 - Ensaio Clínico Multicentros
Para avaliar um novo tratamento para um problema depele ⇒ 79 clínicas. Em cada uma, um paciente recebeuo tratamento e, o outro, um placebo).
⇒ Resposta : melhora ou não do problema.
clinica trat idade melhora grauini1 1 27 0 11 0 32 0 22 1 41 1 32 0 47 0 13 1 19 1 43 0 31 0 4... ... ... ... ...79 1 22 0 179 0 19 1 4
grau inicial do problema (1 a 4 para leve a severo).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1 - Ensaio Clínico Multicentros
Tabela 1. TRV obtidos nos dados sobre tratamento de pele.
Modelos − ln(L(β ,γ)) TRV valor pNulo 37,4299Tratamento 35,5942 3,67 0,055Idade | Trat 34,5466 2,09 0,148Grau inicial | Trat, Idade 25,7545 17,58 < 0,001
Tratamento + Grau Inicial
Interação dupla não significativa
Modelo ⇒ trat + grauini
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1 - Ensaio Clínico Multicentros
Tabela 2. Estimativas associadas ao modelo ajustado.
estimativas erros-padrão Z valor pTratamento (β1) 0,711 0,349 2,04 0,0410Grau inicial (γ1) 1,077 0,321 3,35 0,0008
Análise dos resíduos ⇛ evidências a favor do modelo.
a) a odds de melhora dos pacientes sob tratamento éexp{0,711} ≈ 2 vezes a daqueles recebendo placebo.
b) a odds de melhora também cresce exp{1.077} ≈ 3vezes para cada unidade de acréscimo no grau inicial.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1 - Ensaio Clínico Multicentros
Comandos R
> require(survival)> skin<-read.table("skin.txt",h=T)> attach(skin)> model1<-clogit(melhora~trat+idade+grauini+strata(c linica))> model1> summary(model1)> plot(model1$residuals, pch=16)> model2<-clogit(melhora~trat+grauini+strata(clinica ))> model2> summary(model2)> plot(model2$residuals,pch=16,ylab="residuos",xlab= "i")
## Teste de Mcnemar ##> dados<-matrix(c(20,10,5,10),nc=2)> dados> mcnemar.test(dados,correct=F)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Estudo crossover de 2 períodos para avaliação dos tratamentosA, B e P = Placebo em pacientes estratificados de acordo comdois grupos de idade: jovens e adultos.
A sequência A:B significa que a droga A foi administradadurante o 1o período e a B no 2o período. P indica placebo.
Grupos de Sequência EfeitoIdade Tratamentos FF FU UF UU TotaisAdultos A:B 12 12 6 20 50Adultos B:P 8 5 6 31 50Adultos P:A 5 3 22 20 50Jovens B:A 19 3 25 3 50Jovens A:P 25 6 6 13 50Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = (1,1) = favorável nos dois períodos; FU = (1,0) = favorável no 1o período e não-favorável no 2o ;UF = (0,1) = não favorável no 1o período e favorável no 2o , UU = (0, 0) = não favorável nos dois períodos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Efeitos de interesse nesse estudo
efeito dos períodos
efeito das drogas
efeito dos grupos de idade
efeitos residuais das drogas A e B que resultamda passagem do período 1 para o período 2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 03 1 1 1 0 1 0 03 1 0 0 1 0 1 0...12 1 1 1 0 1 0 012 1 0 0 1 0 1 013 1 1 1 0 1 0 013 0 0 0 1 0 1 0...24 1 1 1 0 1 0 024 0 0 0 1 0 1 025 0 1 1 0 1 0 025 1 0 0 1 0 1 0...
300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0
Obs: gpidade foi representado por (1,0) se adulto e (0,0) se jovem.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Análogo à situação anterior tem-se:
(Yi1,Yi2)︸ ︷︷ ︸(F,F) (F,U) (U,F) (U,U)(1,1)︸ ︷︷ ︸ (1,0)︸ ︷︷ ︸ (0,1)︸ ︷︷ ︸ (0,0)︸ ︷︷ ︸
não-informativo informativo informativo não-informativo
⇈
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
P((Yi1 = 1,Yi2 = 0) | (Yi1 = 1,Yi2 = 0) ou (Yi1 = 0,Yi2 = 1))
=P(Yi1 = 1)P(Yi2 = 0)
P(Yi1 = 1)P(Yi2 = 0)+P(Yi1 = 0)P(Yi2 = 1)
=exp{β + γ ′(xi1−xi2)}
1+exp{β + γ ′(xi1−xi2)}=
exp{β + γ ′zi}
1+exp{β + γ ′zi}
◮ zi = diferenças entre os valores das covariáveis droga A,droga B, gpidade, res A e res B, registrados nos períodos1 e 2.
◮ β = efeito de períodos◮ γ1 e γ2 = efeito das drogas A e B, respectivamente◮ γ3 = efeito de grupos de idade◮ γ4 e γ5 = efeito residual das drogas A e B, respectivamente.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Para adultos foram associados aos períodos 1 e 2 os valores 1e 0, respectivamente. E, para jovens, 0 para ambos os períodos,de modo que ⇛ zidade = 1, se adulto e zidade = 0, se jovem.
obs resp periodo drogaA drogaB gpidade resA resB1 1 1 1 0 1 0 01 1 0 0 1 0 1 02 1 1 1 0 1 0 02 1 0 0 1 0 1 0...
300 1 1 0 0 0 0 0300 1 0 0 1 0 0 0
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Estimativas de máxima verossimilhança - modelo inicial.estimativas erros-padrão Wald valor p
Período (p1) (β ) −1,4370 0,703 4,183 0,041Droga A (γ1) 1,2467 0,681 3,354 0,067Droga B (γ2) −0,0019 0,641 0,000 0,997Gpidade (adultos) (γ3) 0,6912 0,465 2,205 0,137Residual droga A (γ4) −0,1903 1,112 0,029 0,864Residual droga B (γ5) −0,5653 1,156 0,239 0,624
Estimativas de máxima verossimilhança - modelo final.Estimativas Erros-padrão Wald valor p
Período (p1) (β ) −0,845 0,231 13,45 0,00024Droga A (γ1) 1,408 0,341 17,09 < 0,0001Droga B (γ2) 0,296 0,316 0,87 0,35
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Análise de resíduos ⇒ evidências favoráveis ao modelo.
Efeitos das drogas A e B ⇛ H0: γ1 = γ2 versus HA: γ1 6= γ2
W =(γ1− γ2)
2
Var(γ1− γ2)=
(γ1− γ2)2
Var(γ1)+ Var(γ2)−2Cov(γ1, γ2)= 12,41
valor p = 0,0004 (g.l.= 1) ⇛ indicando efeitos diferentes.
Odds ratios podem ser obtidas e interpretadas de modosimilar a dos demais estudos analisados. Por exemplo,
A odds de resposta favorável dos pacientes sob a droga A foiexp{1,408} ≈ 4 vezes a dos que usaram placebo e, ainda,exp{1,408−0,296} ≈ 3 vezes a dos que usaram a droga B.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2 - Estudo Crossover
Comandos R
> require(survival)> match<-read.table("cross.txt",h=T)> attach(cross)> model3<-clogit(resp~periodo+drogaA+drogaB+strata(o bs),
data=cross)> model3> summary(model3)> model3$loglik> plot(model3$residuals, pch=16)
## testando H_0: gamma_1 = gamma_2 ##> model3$var> vardif<-model3$var[2,2] + model3$var[3,3]
-2 * (model3$var[2,3])> teste<-((1.408-0.296)/sqrt(vardif))^2> cbind(teste, 1-pchisq(teste,1))
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
Estudo realizado nos anos 70 em uma comunidade deaposentadas para estudar a associação entre o uso deestrogênio e o câncer do endométrio.
Nesse estudo, cada caso foi pareado a um controle que:
estava no mesmo ano de idade do casotinha o mesmo status marital do casovivia na mesma comunidade do caso quando do diagnóstico.
Pareamento 1:1 ⇛ 63 casos / 63 controles.
Algumas das informações coletadas foram sobre:hipertensão (1 se sim e 0 se não)histórico de vesícula biliar (1 se sim e 0 se não)uso de estrogênio (1 se sim e 0 se não).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
Endométrio ⇛ membrana que reveste a parede do útero.
Câncer do endométrio ⇛ incidência crescente nas últimasduas décadas, sendo o 2o tumor pélvico mais frequenteentre as brasileiras. A maioria dos casos ocorre entre 60 e70 anos, mas alguns casos podem ocorrer antes dos 40.
Estudos em animais têm mostrado que altosníveis de estrogênio resultam em crescimentoendometrial excessivo e câncer.
Sugerem atenção com anticoncepcionaise terapias de reposição hormonais comaltos níveis de estrogênio.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
par caso-controle estrogênio histórico vesícula biliar hipertensãocc est hvb hip
1 1 1 0 01 0 0 0 02 1 1 0 02 0 0 0 13 1 1 0 13 0 1 0 1...47 1 1 1 147 0 0 0 0...63 1 1 1 063 0 1 0 0
Fonte: Stokes et al. (2000).
Pares não-informativos nesses estudos são aquelesem que xi1 = xi2. Por exemplo, o par 3.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
Função de verossimilhança associada ao estudo.
L(β ) =q
∏i=1
{exp{β ′(xi1−xi2)}
1+exp{β ′(xi1−xi2)}
}
(xi1− xi2) = diferenças dos valores das covariáveisdo i-ésimo par caso-controle (i = 1, · · · ,q).
Esta função corresponde à função de verossimilhança deum modelo de regressão logística não-condicional sem ointercepto, em que a resposta Y é sempre 1 e os valoresdas covariáveis são iguais a (xi1−xi2).
Note que a contribuição para L(β ) dos pares em quexi1 = xi2 é constante (= 0,5).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
Estimativas associadas ao modelo final ajustado.estimativas erros-padrão Wald valor p
HVB (β1) 1,66 0,798 2,07 0,0381EST (β2) 2,78 0,760 3,65 0,0003
Análise dos resíduos ⇛ favorável ao modelo.
A odds de câncer endometrial das aposentadas comhistórico de vesícula biliar foi exp{1,66} ≈ 5 vezes adaquelas sem tal histórico.
A odds de câncer endometrial das aposentadas queusaram estrogênio foi exp{2,78} ≈ 16 vezes a das quenão usaram.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3 - Estudo Caso-Controle com Pareamento 1:1
Comandos R
> require(survival)
> match<-read.table("match.txt",h=T)> attach(match)
> model<-clogit(cc~hvb+est+strata(par),data=match)> model> model$loglik> summary(model)
> plot(model$residuals, pch=16)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Referências Bibliográficas
Abreu, MNS; Siqueira, AL; Caiaffa, WT (2009). Regressão logística ordinal emestudos epidemiológicos. Rev Saúde Pública, 43(1): 183-194.Davison, AC; Gigli, A (1989). Deviance residuals and normal scores plots.Biometrika, 76(2): 211-221.Ben, MG; Yohai, VJ (2004). Quantile-quantile plot for deviance residuals in thegeneralized linear model. Journal of Computational & Graphical Statistics, 13(1):36-47.Finney, DJ (1971). Estimation of the Median Effective Dose. Probit Analysis.Cambridge University Press: London, 3rd ed., 1971.Hosmer, DW; Lemeshow, S (1989, 2nd ed. 2000). Applied Logistic Regression.New York: John Wiley & Sons.Kelly, GE (2001). The Median Lethal Dose-Design and Estimation. J. R. Stat.Soc., Ser. D, 50:41-50.Kelly, GE; Lindsey, JK (2002). Robust estimation of the median lethal dose.Journal of Biopharmaceutical Statistics, 12(2):137-147.Kleibaum, DG (1994) Logistic Regression: a self-learning text. New York:Springer Verlag.Koch, GG; Imrey, PB; Singer, JM; Atkinson SS; Stokes ME (1985). Analysis ofcategorical data. Montréal: Les Presses de l′Université de Montréal.Mantel, N (1963). Chi-square tests with one degree of freedom: Extensions ofthe Mantel-Haenszel procedure, JASA, 58:690-700.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Referências Bibliográficas
Machado, EB (2006) Controle de Condylorrhiza vestigialis, a mariposa do álamo,com o uso de C. vestigialis multiplenucleopolyhedrovirus em condições delaboratório e Campo. Dissertação de Mestrado, Engenharia Florestal, UFPR.
Mantel, N; Haenszel, W (1959). Statistical Aspects of the analysis of data fromretrospective studies of disease, J. of the National Cancer Institute, 22:719-748.
Pregibon, D (1981). Logistic regression diagnostics, Annals of Statistics,9:705-724.
Santner, TJ; Duffy, DE (1989). The statistical analysis of discrete data. NewYork: Springer-Verlag.
Silveira Neto, S; Nakano, O; Barbin, D; Villa Nova, NA (1976). Manual deEcologia dos Insetos. São Paulo: Agronômica Ceres, 419p.
Stokes, ME; Davis, CS; Koch, GG (2000). Categorical Data Analysis using theSAS System. SAS Institute Inc., Cary, NC. USA.
Tuyns, AJ; Pequinot, G; Jensen, OM (1977). Le cancer de l’oesophage en Ille etVilaine en fonction del niveaux de consommation d’alcool et de tabac: desrisques que se multiplient. Bull Cancer, 64: 45-60.
Wald, A (1943). Tests of Statistical Hypotheses concerning Several Parameterswhen the Number of Observations is Large. Trans Amer Math Soc., 54:426-482.
Williams, DH (1986). Interval estimation of the median lethal dose. Biometrics,42:641-645.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS