introduc˘ao~ a analise de dados categoricos suely ruiz …niveam/micro da...
TRANSCRIPT
INTRODUCAO A
ANALISE DE DADOS
CATEGORICOS
Suely Ruiz Giolo
Departamento de Estatıstica - UFPR
2006
Conteudo
Prefacio v
1 Conceitos Introdutorios 1
1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Escalas de Mensuracao . . . . . . . . . . . . . . . . . . . . . 2
1.3 Esquemas ou Delineamentos Amostrais . . . . . . . . . . . . 5
1.3.1 Modelo Produto de Binomiais independentes . . . . 5
1.3.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . 7
1.3.3 Modelo Produto de Poisson . . . . . . . . . . . . . . 7
1.3.4 Modelo Hipergeometrico . . . . . . . . . . . . . . . . 9
1.3.5 Consideracoes sobre os delineamentos amostrais . . . 9
1.4 Estudos clınicos e modelos associados . . . . . . . . . . . . 10
1.4.1 Estudos Descritivos . . . . . . . . . . . . . . . . . . 11
1.4.2 Estudos de Coorte . . . . . . . . . . . . . . . . . . . 11
1.4.3 Estudos Caso-Controle . . . . . . . . . . . . . . . . . 14
1.4.4 Ensaios clınicos aleatorizados . . . . . . . . . . . . . 16
1.4.5 Estudos tranversais ou cross-sectional . . . . . . . . 18
1.5 Incidencia e prevalencia . . . . . . . . . . . . . . . . . . . . 20
1.6 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
i
ii CONTEUDO
2 Estrategias de Analise 25
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Analise de Tabelas de Contingencia 2 × 2 . . . . . . . . . . 25
2.2.1 Estatısticas de Teste . . . . . . . . . . . . . . . . . . 26
2.2.2 Medidas de Associacao . . . . . . . . . . . . . . . . . 28
2.2.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.4 Sensibilidade e Especificidade . . . . . . . . . . . . . 35
2.2.5 Teste de McNemar . . . . . . . . . . . . . . . . . . . 37
2.3 Analise de Tabelas de Contingencia 2 × r . . . . . . . . . . 38
2.3.1 Escolha dos Escores . . . . . . . . . . . . . . . . . . 40
2.4 Analise de Tabelas de Contingencia s × 2 . . . . . . . . . . 41
2.5 Analise de Tabelas de Contingencia s × r . . . . . . . . . . 43
2.5.1 Associacao geral em tabelas s × r . . . . . . . . . . . 43
2.5.2 Teste exato para associacao geral em tabelas s × r . 45
2.5.3 Medidas de associacao em tabelas s × r . . . . . . . 46
2.5.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Analise Estratificada . . . . . . . . . . . . . . . . . . . . . . 51
2.6.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . 53
2.6.2 Medidas de associacao . . . . . . . . . . . . . . . . . 54
2.6.3 Analise estratificada em tabelas s × r (s, r > 2) . . . 59
2.7 Concordancia entre observadores . . . . . . . . . . . . . . . 59
2.7.1 Estatıstica Kappa . . . . . . . . . . . . . . . . . . . 59
2.7.2 Estatıstica Kappa ponderada . . . . . . . . . . . . . 61
2.7.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Regressao Logıstica 71
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Regressao Logıstica Dicotomica . . . . . . . . . . . . . . . . 71
CONTEUDO iii
3.2.1 Estimacao dos parametros . . . . . . . . . . . . . . . 76
3.2.2 Significancia das variaveis no modelo . . . . . . . . . 78
3.2.3 Analise de deviance e selecao de modelos . . . . . . 80
3.2.4 Qualidade do modelo ajustado . . . . . . . . . . . . 82
3.2.5 Diagnostico da regressao logıstica . . . . . . . . . . . 83
3.2.6 O modelo ajustado e interpretacoes . . . . . . . . . . 85
3.2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.8 Metodos auxiliares no diagnotico do modelo ajustado 100
3.2.9 Outros modelos com resposta dicotomica . . . . . . 102
3.3 Regressao Logıstica Politomica . . . . . . . . . . . . . . . . 103
3.3.1 Resposta ordinal: modelo de odds proporcionais . . . 103
3.3.2 Resposta nominal: modelo de logitos generalizados . 110
3.4 Regressao Logıstica Condicional . . . . . . . . . . . . . . . . 117
3.4.1 Estudos prospectivos: contagem pequena nos estratos 118
3.4.2 Estudos crossover . . . . . . . . . . . . . . . . . . . . 122
3.4.3 Estudos retrospectivos com observacoes pareadas . . 126
3.5 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Apendice 133
Bibliografia 153
Prefacio
Este material apresenta um texto introdutorio sobre analise de dados ca-
tegoricos em que o principal objetivo e oferecer um texto, em portugues,
que possa servir de apoio em cursos de graduacao em Estatıstica. De modo
geral, a apresentacao de conceitos, metodologias e modelos estatısticos e
feita sob um enfoque mais aplicado do que essencialmente teorico. Varios
livros que apresentam este assunto, e o fazem em diferentes nıveis, enfases e
abordagens, foram utilizados na composicao do texto. Para as analises es-
tatısticas foi adotado o software R. Em alguns casos, contudo, foi necessario
utilizar o software SAS. Nocoes basicas de probabilidade, inferencia, re-
gressao e alguns testes nao-parametricos, sao conhecimentos uteis para com-
preensao do conteudo apresentado.
Varios alunos de graduacao em Estatıstica da Universidade Federal
do Parana tiveram acesso a este material, ou parte dele. Agradecimen-
tos aqueles que, direta ou indiretamente, contribuıram para a versao atual
do texto, que foi editado no LATEX. Visto que o mesmo nao se encontra livre
de erros e imperfeicoes, comentarios, crıticas e sugestoes sao bem-vindos.
Suely Ruiz Giolo
junho de 2006.
v
Capıtulo 1
Conceitos Introdutorios
1.1 Introducao
Muitos analistas frequentemente se deparam com experimentos em que as
respostas de interesse sao categoricas, refletindo, assim, categorias de in-
formacao em vez da usual escala intervalar. Exemplos de variaveis resposta
categoricas sao, dentre outros, melhora do paciente (sim ou nao), sintomas
de uma doenca (sim ou nao), desempenho do candidato (bom, regular ou
pessimo) e horas de alıvio de dor de cabeca (0, 1, 2, 3 ou 4).
A analise de experimentos em que a variavel resposta e por natureza
categorica e denominada analise de dados categoricos ou, tambem, analise
de dados discretos, isto porque distribuicoes discretas de probabilidade
encontram-se associadas as variaveis resposta. As demais variaveis envolvi-
das nestes experimentos, as quais, em geral, se tem interesse em verificar se
estariam associadas com a variavel resposta, podem ser tanto categoricas
quanto contınuas. Em alguns casos, variaveis contınuas sao categorizadas
por interesse do pesquisador. A idade, por exemplo, pode ser categorizada
em faixas etarias, bem como o resultado de um exame medico, catego-
rizado em normal ou anormal. O peso, por sua vez, pode ser categorizado
1
2 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
em obeso e nao-obeso ou, ainda, em intervalos tais como < 60, [60, 100),
[100, 150) e ≥ 150kg. As variaveis, que nao a resposta, sao denominadas,
entre outros, de fatores, variaveis explanatorias ou covariaveis.
Dados em que a variavel resposta e as covariaveis sao categoricas, ou
foram categorizadas, sao, em geral, apresentados nas, assim denominadas,
tabelas de contingencia. Essas tabelas sao apresentadas no decorrer deste
e dos demais capıtulos.
Note, dos exemplos de variaveis resposta e covariaveis citados, que ha
algumas diferenciacoes entre elas. Por exemplo, algumas apresentam so-
mente duas categorias, outras tres ou mais, bem como algumas apresentam
uma ordenacao natural das categorias e outras nao. Formalmente, essas
covariaveis podem ser classificadas de acordo com sua respectiva escala de
mensuracao. Por exemplo, as com somente duas categorias sao denomi-
nadas dicotomicas, as com mais de duas categorias que apresentam uma
ordenacao natural sao ditas ordinais e, assim por diante. Na Secao 1.2, sao
descritas e ilustradas as escalas de mensuracao de variaveis categoricas.
1.2 Escalas de Mensuracao
A escala de mensuracao de uma variavel resposta categorica e um elemento
importante para a escolha de uma estrategia de analise. Nao considera-
la pode, portanto, implicar na escolha inapropriada de uma estrategia
que pode levar a conclusoes erroneas. De modo geral, variaveis resposta
categoricas podem ser classificadas em: dicotomicas, ordinais, nominais ou
contagens discretas.
As dicotomicas sao aquelas que apresentam duas possibilidades de
resposta. O objetivo, por exemplo, de um ensaio clınico realizado para se
testar um novo medicamento e saber se o paciente obteve, ou nao, uma
melhora. Nesses casos, e comum a representacao dos dados em uma tabela
1.2. Escalas de Mensuracao 3
de contingencia 2 × 2, como mostrado na Tabela 1.1. A resposta, nesse
exemplo, e dicotomica e a analise investiga a relacao entre a resposta e o
medicamento.
Tabela 1.1: Resposta ao novo medicamento.
Melhora
Medicamento Sim Nao Total
Novo 40 20 60
Placebo 16 48 64
Variaveis categoricas com mais do que duas possibilidades de resposta, e
que apresentam uma certa ordenacao natural, sao tambem frequentes. Tais
variaveis, ditas apresentarem uma escala de mensuracao ordinal, podem,
por exemplo, resultar de questoes tais como: i) a nova grade curricular
produziu pequeno, algum ou grande entusiasmo entre os estudantes? ou,
ainda, ii) a agua exibe baixo, medio ou alto grau de pureza? Observe,
nesses exemplos, que ha uma ordem clara das categorias de resposta, mas
nao existe, contudo, indıcios quanto as distancias relativas entre os nıveis.
Em ii) pode-se ate pensar em uma possıvel distancia entre os nıveis. Por
exemplo, medio pode significar 2 vezes mais puro do que baixo e alto 3 vezes
mais puro do que baixo. Essas distancias nao estao, contudo, explıcitas. Em
algumas situacoes tais distancias encontram-se mais claras. Um exemplo de
experimento com resposta categorica ordinal e apresentado na Tabela 1.2.
Observe que variaveis resposta categoricas podem ser tratadas de dife-
rentes modos. Pode-se, por exemplo, combinar as categorias de resposta
acentuada e alguma, apresentadas na Tabela 1.2, para produzir uma res-
posta dicotomica: melhora versus nao melhora. Grupar categorias e usual
durante uma analise se, e claro, a resposta dicotomica resultante for de
interesse.
4 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
Tabela 1.2: Resultados de um ensaio clınico realizado com pacientes de
ambos os sexos para investigar um tratamento para artrite reumatoide.
Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11
Se, no entanto, existirem mais do que duas categorias de resposta e ne-
nhuma ordenacao para estas categorias, tem-se uma escala de mensuracao
nominal. Por exemplo, i) preferencia de local para passar as ferias: praia,
montanha ou fazenda; ii) candidato de sua preferencia: A, X, Y ou Z.
Observe, em ambos os exemplos, que nao existe nenhuma aparente maneira
de ordenar as categorias de resposta.
Variaveis resposta categoricas podem, tambem, apresentar contagens
discretas. Em vez de categorias, tais como sim e nao ou baixo, medio e
alto, as respostas sao numeros. Alguns exemplos sao: i) tamanho da ninha-
da: 1, 2, 3, 4 ou 5; ii) numero de televisores em casa: 1, 2, 3 ou 4. Em
tais situacoes poder-se-ia pensar na usual estrategia de analisar a contagem
media. No entanto, as suposicoes exigidas para o modelo linear usual, uti-
lizado para dados contınuos, nao sao, em geral, atendidas com contagens
discretas que tem: uma amplitude pequena, contagens que nao sao normal-
mente distribuıdas e podem, ainda, nao apresentar variancia homogenea.
Alem de observar a escala de mensuracao das variaveis, em particular da
variavel resposta, e tambem importante identificar o delineamento amostral
que produziu os dados, isto para que se possa determinar uma analise
apropriada e, consequentemente, se fazer as inferencias de interesse. Na
1.3. Esquemas ou Delineamentos Amostrais 5
Secao 1.3, sao tratados, brevemente, alguns dos delineamentos amostrais
mais frequentes, bem como as respectivas distribuicoes de probabilidade
associadas aos mesmos.
1.3 Esquemas ou Delineamentos Amostrais
Considere, inicialmente, experimentos em que foram coletadas informacoes
de somente duas variaveis dicotomicas. Utilizar uma tabela de contingencia
2 × 2, como a Tabela 1.3, e uma maneira comum de resumir e representar
os valores observados desses experimentos.
Tabela 1.3: Tabela de contingencia s = 2 × r = 2.
Categorias de resposta
Categorias da covariavel C1 C2 Totais
A1 n11 n12 n1+
A2 n21 n22 n2+
Totais n+1 n+2 n
A partir da Tabela 1.3, pode-se observar frequencias, representadas por
n11, · · · , n22, n1+, · · · , n+2 e n, associadas as diversas caselas. Os totais
n1+, n2+, n+1 e n+2 sao denominados totais marginais e n total geral ou
tamanho amostral. Esses totais, ao serem considerados no delineamento
amostral como conhecidos ou nao (fixos ou aleatorios), indicam o mo-
delo probabilıstico a ser considerado. Tais modelos sao apresentados na
Secao 1.3.1.
1.3.1 Modelo Produto de Binomiais independentes
Suponha que um experimento seja planejado de modo que, de duas popu-
lacoes independentes, obtenham-se duas amostras aleatorias (A1 e A2), uma
6 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
de cada populacao, de tamanhos fixos n1+ e n2+. Uma vez estabelecidas
as amostras, o experimento e entao conduzido observando-se, para os in-
divıduos em A1 e em A2, quantos classificam-se na categoria C1 e quantos
na categoria C2. Para experimentos conduzidos desse modo, em que seus
resultados sao usualmente apresentados em uma tabela de contingencia
2 × 2, tal qual a apresentada na Tabela 1.3, tem-se:
i) uma variavel aleatoria N11 com distribuicao Bin(n1+, p11) associada
a 1a linha da tabela e,
ii) outra variavel aleatoria N21, independente da primeira, com distribui-
cao Bin(n2+, p21) associada a 2a linha desta mesma tabela,
em que p11 e a probabilidade de qualquer indivıduo pertencente a 1a linha
ser classificado na 1a coluna e, analogamente, p21 e a probabilidade de
qualquer indivıduo pertencente a 2a linha ser classificado na 1a coluna.
Observe que2∑
j=1
p1j = 1 e2∑
j=1
p2j = 1. Nesses casos, tem-se, portanto, que
a distribuicao conjunta associada a Tabela 1.3 e o produto de duas binomias
independentes descrita pela funcao de probabilidade expressa por:
P (N11 = n11, N21 = n21) =
2∏
i=1
{ni+!
2∏
j=1
pnij
ij
nij !
}. (1.1)
Nos casos em que a variavel resposta apresentar mais do que duas ca-
tegorias (r > 2), a distribuicao associada sera o produto de multinomias
independentes, uma multinomial associada a cada linha da tabela.
Note, que este esquema amostral corresponde a um processo de amos-
tragem estratificada, em que para cada estrato (nesse caso A1 e A2) e
selecionada uma amostra aleatoria simples.
1.3. Esquemas ou Delineamentos Amostrais 7
1.3.2 Modelo Multinomial
Suponha, no entanto, que o experimento seja planejado de modo que, de
uma populacao, se obtenha uma amostra aleatoria de tamanho n fixo.
Obtida esta amostra, o experimento e conduzido observando-se quantos
indivıduos dessa amostra classificam-se em uma das quatro seguintes pos-
sibilidades: (A1, C1), (A1, C2), (A2, C1) ou (A2, C2). Para experimentos
conduzidos desse modo, associam-se as tabelas de contingencia 2 × 2 resul-
tantes, a distribuicao multinomial, cuja respectiva funcao de probabilidade
e expressa por:
P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) =
= P (Nij = nij) = n!2∏
i,j=1
pnij
ij
nij!(1.2)
sendo nij ≥ 0,2∑
i,j=1
nij = n e2∑
i,j=1
pij = 1.
De acordo com este delineamento amostral, ambas variaveis sao consi-
deradas respostas. Dependendo, contudo, dos objetivos do estudo pode-se
classificar uma delas como covariavel.
Note, que o delineamento amostral apresentado e equivalente a um pro-
cesso de amostragem aleatoria simples, em que de uma populacao suficien-
temente grande seleciona-se uma amostra aleatoria de tamanho n.
1.3.3 Modelo Produto de Poisson
Em alguns situacoes, pode ser estabelecido tao somente a duracao do experi-
mento. Como consequencia, tem-se tamanhos amostrais aleatorios, uma vez
que os mesmos somente serao conhecidos no termino do experimento. Um
exemplo e o da coleta de insetos em armadilhas adesivas de duas cores,
descrito em Silveira Neto et al. (1976) e Demetrio (2001), e apresentado na
8 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
Tabela 1.4. Nesse experimento, insetos de uma determinada especie foram
coletados em um certo perıodo de tempo e, entao, sexados com a finalidade
de se verificar a influencia da cor da armadilha sobre a atracao de machos
e femeas dessa especie.
Tabela 1.4: Insetos coletados em armadilhas e sexados.
SexoArmadilha Machos Femeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753
Note, nesse experimento, que o numero de insetos que chegam as ar-
madilhas, sejam estes machos ou femeas, e um numero (contagem) aleatorio,
caracterizando, assim, a distribuicao Poisson. Assumindo Nij (i, j = 1, 2)
independentes (o que pode gerar alguma controversia) com distribuicao
Poisson de media µij = t λij , sendo λij a taxa media por unidade de tempo
e t a duracao do experimento, tem-se associado a Tabela 1.4 a distribuicao
produto de Poisson com funcao de probabilidade:
P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) =
= P (Nij = nij) =2∏
i=1
2∏
j=1
e−µijµnij
ij
nij !, µij > 0. (1.3)
Resultados importantes sobre variaveis aleatorias Poisson independentes
sao: se N11, · · · , N22 sao independentes com Nij ∼ Pois(µij), entao:
i) (N11 + · · · + N22) ∼ Pois(∑
i,j µij) e
ii) (N11, · · · , N22 | N) ∼ Mult(N, p11, · · · , p22), em que N = N11 + · · ·+N22 e pij =
µij∑i,j µij
=nij
n .
1.3. Esquemas ou Delineamentos Amostrais 9
O resultado sobre a distribuicao condicional e importante, pois para
uma tabela com variaveis aleatorias independentes Poisson, pode-se sempre
calcular o total geral n para esta tabela. Considerando-se a distribuicao
condicional descrita em ii), pode-se pensar em realizar a analise assumindo-
se a distribuicao multinomial.
1.3.4 Modelo Hipergeometrico
O modelo hipergeometrico nao surge propriamento de um esquema amostral.
Este modelo e considerado, por exemplo, em experimentos em que os pa-
cientes sao, inicialmente, alocados aleatoriamente a dois tratamentos con-
siderados equivalentes, observando-se, entao, para cada um deles, uma res-
posta binaria (dicotomica). Sob a hipotese nula de que os efeitos dos dois
tratamentos nao diferem, n+1 e considerado fixo.
Situacoes como esta, consideram, portanto, que n1+, n2+ e n+1 sao fixos.
Tendo-se ambas as margens da tabela fixas, provocada pelo condiciona-
mento em n1+, n2+ e n+1, segue que o conhecimento de qualquer uma das
4 frequencias, por exemplo n11, determina as restantes. Assim, e sob H0,
N11 tem distribuicao hipergeometrica com funcao de probabilidade expressa
por:
P (N11 = n11) =C
n1+n11
Cn2+n21
Cnn+1
=
2∏
i=1
ni+!
2∏
j=1
n+j !
n!
2∏
i=1
2∏
j=1
nij !
.
1.3.5 Consideracoes sobre os delineamentos amostrais
Os tres tipos de delineamentos amostrais apresentados sao, na pratica,
os mais usuais. Seus respectivos modelos probabilısticos sao, como visto,
derivados com base nas caracterısticas dos esquemas de amostragem ado-
10 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
tados. Naturalmente, nem todas as tabelas de contingencia sao neces-
sariamente geradas por um desses modelos, o que implica obviamente na
necessidade de se considerar outros modelos probabilısticos. Nesta direcao,
pode-se citar os estudos em que, por exemplo, as amostras nao podem
ser consideradas independentes ou, entao, estudos em que delineamentos
amostrais mais complexos sao utilizados. Ha, tambem, os estudos em que
nenhum tipo de amostragem aleatoria e usado no processo de selecao das
unidades amostrais, bem como aqueles em que a populacao nem sempre e
claramente especificada. De modo geral, as conclusoes, em qualquer estudo,
estao claramente condicionadas a validade das suposicoes distribucionais.
Alem da escala de mensuracao e do delineamento amostral, deve-se
tambem considerar se o tamanho amostral e suficientemente grande para
assegurar a teoria assintotica exigida por muitos testes. Muitas vezes, pode-
se ter um total amostral muito pequeno ou, entao, um numero grande de
caselas com contagens zeros, ou muito pequenas, que tornam as suposicoes
assintoticas questionaveis.
1.4 Estudos clınicos e modelos associados
Em medicina, os delineamentos amostrais mais frequentes resultam de es-
tudos que podem ser observacionais ou experimentais, assim como podem
ser prospectivos ou retrospectivos. Dentre esses estudos, pode-se citar os:
descritivos, caso-controle, coorte, transversal e clınico aleatorizado. Os
quatro primeiros sao observacionais e, o ultimo, e experimental, pois ha a
intervencao do pesquisador ao alocar, de forma aleatoria, tratamento ao
paciente. Neste ultimo, alguns cuidados devem ser tomados quando todas
as pessoas envolvidas no estudo conhecem o tratamento que o paciente esta
recebendo. Avaliacoes cega ou duplo-cega, bem como o uso de placebos,
sao, desse modo, utilizados com frequencia nos estudos clınicos aleatoriza-
1.4. Estudos clınicos e modelos associados 11
dos. Os estudos citados sao apresentados em mais detalhes a seguir.
1.4.1 Estudos Descritivos
Estudos envolvendo somente uma amostra, usualmente de doentes, sao de-
nominados descritivos. Nesses estudos, nao existe um grupo de comparacao
e o objetivo e, frequentemente, a identificacao de fatores de prognostico para
a doenca em estudo. Estes diferem, por exemplo, dos estudos de coorte,
caso-controle e clınico aleatorizado, que sao comparativos, uma vez que o
objetivo e a comparacao de dois ou mais grupos.
Um exemplo de estudo descritivo, refere-se a associacao entre rubeola e
catarata congenita em que o oftalmologista N. Gregg observou, no primeiro
semestre de 1941, varios recem-nascidos com catarata congenita. As carac-
terısticas pouco usuais dos casos, o levaram a procurar uma explicacao
que envolvesse as maes. Verificou que todas haviam sido acometidas de
rubeola em uma grande epidemia que havia atingido a Australia no ano
anterior, exatamente durante o primeiro trimestre de gestacoes que resul-
taram no nascimento das criancas com catarata congenita. Tais observacoes
clınicas criaram condicoes para que varias pesquisas posteriores concluıssem
haver associacao entre rubeola no primeiro trimestre de gravidez e defeitos
congenitos. Esta constatacao e o desenvolvimento de vacinas determinaram
a introducao do procedimento de vacinacao das mulheres em idade fertil.
1.4.2 Estudos de Coorte
De modo geral, ao conduzir um estudo de coorte, o interesse do pesquisador
e verificar se indivıduos expostos a um determinado fator apresentam, em
relacao aos indivıduos nao expostos, uma maior propensao de desenvolver
uma determinada doenca. Um estudo de coorte e constituıdo, em seu
inıcio, de um grupo de indivıduos, denominada coorte, em que todos estao
12 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
livres da doenca sob investigacao. Os indivıduos dessa coorte sao, entao,
classificados em expostos e nao-expostos ao fator de interesse, obtendo-se,
assim, dois grupos (ou duas coortes de comparacao). Essas coortes serao,
entao, observadas por um perıodo de tempo, verificando-se quais indivıduos
desenvolvem a doenca em questao. Os indivıduos expostos e nao-expostos
devem ser comparaveis, ou seja, semelhantes quanto aos demais fatores,
que nao o de interesse, para que os resultados e conclusoes obtidas sejam
confiaveis.
O termo coorte e portanto usado para descrever um grupo de indivıduos
que tem algo em comum ao serem reunidos e que sao observados por um
determinado perıodo para que se possa avaliar o que ocorre com eles. E
importante que todos os indivıduos sejam observados por todo o perıodo de
seguimento, ja que informacoes de uma coorte incompleta podem distorcer
o verdadeiro estado das coisas. Por outro lado, o perıodo de tempo em
que os indivıduos serao observados deve ser significativo na historia natural
da doenca em questao, para que haja tempo suficiente do risco se mani-
festar. Doencas com perıodo de latencia longa exigirao perıodos longos de
observacao. Entenda-se por historia natural da doenca, sua evolucao sem
intervencao medica e, por perıodo de latencia, o tempo entre a exposicao
ao fator e as primeiras manifestacoes da doenca. Outras denominacoes
geralmente usadas para os estudos de coorte sao, dentre elas:
• estudos longitudinais: enfatizando que os indivıduos sao acompa-
nhados ao longo do tempo;
• estudos prospectivos: subentendendo a direcao em que os indivıduos
sao acompanhados;
• estudos de incidencia: chamando a atencao para a medida basica de
novos eventos de doenca no tempo de seguimento.
1.4. Estudos clınicos e modelos associados 13
Quanto a forma de coleta das informacoes dos indivıduos pertencentes
a coorte sob investigacao, pode-se, ainda, classificar os estudos de coorte
em: estudos de coorte contemporanea e estudos de coorte historica. Em um
estudo de coorte contemporanea, os indivıduos sao escolhidos no presente
e acompanhados no futuro. Em uma coorte historica, os indivıduos sao
escolhidos em registros do passado e acompanhados daquele perıodo ate
o presente. Informacoes provenientes de coortes historicas sao frequente-
mente coletadas com outros objetivos que nao especificamente o de interesse
e podem, portanto, nao ter a qualidade suficiente para uma pesquisa rigo-
rosa. O mesmo nao ocorre com um estudo de coorte contemporanea, uma
vez que os dados sao coletados para atender aos objetivos do estudo.
Os estudos de coorte sao menos propensos aos vıcios que podem ocorrer
nos estudos caso-controle e sao os mais indicados para o estudo de riscos,
quando a experimentacao nao e possıvel. As principais dificuldades para
a realizacao de um estudo de coorte sao: (a) e um estudo mais demorado
e que envolve custos elevados pelos recursos necessarios para acompanhar
muitos indivıduos ao longo do tempo estabelecido; (b) nao disponibiliza
resultados a curto prazo; (c) os indivıduos sob estudo vivem livremente e
nao sob controle do pesquisador e (d) nao e viavel para doencas raras.
Na Tabela 1.5 encontram-se os resultados de um estudo de coorte rea-
lizado para pesquisar a associacao entre cancer de pulmao e tabagismo.
Tabela 1.5: Resultados de um estudo de coorte.
Cancer de Pulmao
Fumante Sim Nao Totais
Sim 75 45 120
Nao 21 56 77
Totais 197
14 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
Os totais marginais n1+ e n2+ sao fixos e, portanto, tem-se associado
a Tabela 1.5 o modelo produto de binomiais independentes, uma binomial
para cada linha da tabela.
1.4.3 Estudos Caso-Controle
Embora o objetivo de um estudo caso-controle seja o mesmo de um estudo
de coorte, ou seja, descobrir se a exposicao a um determinado fator esta
associada ao desenvolvimento da doenca sob estudo, os mesmos diferem
essencialmente quanto a forma de selecao e coleta de informacoes dos in-
divıduos.
Nos estudos caso-controle, o pesquisador seleciona um grupo de in-
divıduos com uma determinada doenca de interesse, denominados casos,
e um outro grupo de indivıduos livres da doenca, os controles. Fatores
associados a um risco aumentado de adoecer sao denominados fatores de
risco; exposicao a um fator de risco significa que uma pessoa, antes de adoe-
cer, esteve em contato com o fator em questao ou o manifestou. A validade
dos resultados desses estudos esta condicionada principalmente a forma de
selecao dos indivıduos. Os casos devem ser preferencialmente novos e nao
os ja existentes e os controles devem ser comparaveis aos casos, isto e, todas
as diferencas importantes, que nao o fator de interesse, devem ser contro-
ladas quando da escolha desses indivıduos. Em outras palavras, casos e
controles devem parecer ter tido chances iguais de terem sido expostos ao
fator em questao.
Os controles sao, em geral, escolhidos segundo alguma estrategia que
possa minimizar os vıcios de selecao. Uma dessas estrategias e a dos casos
emparelhados aos controles, isto e, para cada caso, um ou mais controles
com caracterısticas comuns aos casos sao selecionados. E comum empare-
lhar por caracterısticas demograficas (idade, sexo, raca), porem deve-se
1.4. Estudos clınicos e modelos associados 15
tambem emparelhar por outras reconhecidamente importantes. O empare-
lhamento apresenta contudo um risco, a de o pesquisador emparelhar por
um fator que esteja relacionado a exposicao. Outra estrategia possıvel e
escolher mais de um grupo controle. A comparacao dos resultados dos
casos com cada um dos grupos controle selecionados pode trazer a tona
potenciais vıcios pois, se resultados diferentes forem observados na com-
paracao dos casos com os diferentes grupos controle, ha evidencias de que
os grupos nao sao comparaveis. Muita atencao e cuidado sao necessarios
quando da selecao dos casos e controles, para que a comparabilidade entre
os grupos possa ser assegurada. Atencao tambem deve ser dada ao numero
de indivıduos sob estudo. Este deve ser suficientemente grande para que
o acaso nao interfira em demasia nos resultados. Uma vez selecionados os
casos e controles verifica-se, para cada indivıduo, sua exposicao ou nao ao
fator sob investigacao. O pesquisador, geralmente, se utiliza para este fim
de informacoes passadas, dependendo assim da disponibilidade e qualidade
dos registros (protocolos) ou da memoria dos pacientes. Evidentemente,
isso pode ocasionar vıcios no estudo. Por utilizar-se de informacoes pas-
sadas, os estudos caso-controle sao tambem denominados retrospectivos. As
principais vantagens desses estudos sao: o custo e o tempo envolvidos para
a obtencao da resposta. Estes sao relativamente pequenos quando com-
parados aos de outros estudos, como, por exemplo, o estudo de coorte. Por
outro lado, tais estudos apresentam um particular problema, o de resul-
tados propensos a vıcios devido, principalmente, a possıveis manipulacoes
dos grupos de comparacao, bem como pela exposicao ao fator de interesse
ser medida utilizando-se de informacoes passadas. Se atencao apropriada
for dada as possıveis fontes de vıcios, os estudos caso-controle podem ser
validos e eficientes para responder a muitas questoes clınicas, em particular
aquelas envolvendo doencas raras.
16 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
Do ponto de vista teorico, os estudos de coorte sao mais adequados do
que os estudos caso-controle. Os estudos caso-controle sao, contudo, mais
utilizados por envolverem menor custo e menor tempo para a coleta das
informacoes.
Na Tabela 1.6 encontram-se os resultados do mesmo estudo apresentado
na Tabela 1.5 realizado, no entanto, como um estudo caso-controle. Ob-
serve que, comparativamente ao estudo de coorte, um estudo caso-controle
apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+. Para a
Tabela 1.6 pode-se, tambem, associar o modelo produto de binomiais inde-
pendentes, uma binomial, contudo, para cada coluna da respectiva tabela.
Tabela 1.6: Resultados de um estudo caso-controle.
Grupos
Fumante Casos: com cancer Controles: sem cancer Totais
Sim 75 45
Nao 21 56
Totais 96 101 197
1.4.4 Ensaios clınicos aleatorizados
Esses estudos sao realizados, em geral, com o objetivo de comparar trata-
mentos. Inicialmente, os indivıduos sao alocados aleatoriamente ao grupo
controle (tratamento padrao) ou ao grupo tratamento (tratamento alterna-
tivo) e sao, entao, acompanhados para observacao da ocorrencia ou nao da
resposta de interesse. Observe, nesses ensaios, que o pesquisador interfere
deliberadamente no curso natural dos acontecimentos, ou seja, impoe um
tratamento e, daı, estes sao ditos experimentais. Nos estudos de coorte e
caso-controle, o pesquisador nao interfere no curso natural dos acontecimen-
tos, apenas observa. Por este fato sao ditos observacionais. Um exemplo e
1.4. Estudos clınicos e modelos associados 17
mostrado na Tabela 1.7.
Tabela 1.7: Resultados de um ensaio clınico realizado para comparar dois
medicamentos usados no tratamento de infeccoes respiratorias severas.
Resposta
Tratamento Favoravel Nao favoravel Totais
Novo 29 16 45
Padrao 14 31 45
Totais 43 47 90
A forma com que e conduzido um ensaio clınico aleatorizado nos mostra
que os mesmos, quando representados em tabelas de contingencia, como a
Tabela 1.7, apresenta os totais marginais n1+ e n2+ fixos. Sendo assim, a
distribuicao produto de binomias independentes, uma binomial para cada
linha, e a distribuicao associada a esses estudos.
Os ensaios clınicos com drogas sao, usualmente, classificados em 4 fases:
Fase I - sao ensaios de farmacologia clınica e toxicidade no homem, relaciona-
dos a seguranca e nao a eficacia. Geralmente sao realizados em voluntarios
normais. O principal objetivo e determinar uma dose aceitavel. Tipica-
mente, estudos nessa fase envolvem entre 20 a 80 indivıduos.
Fase II - sao ensaios iniciais de investigacao clınica do efeito do tratamento
ainda em pequena escala da efetividade e seguranca da droga, com moni-
toramento cuidadoso de cada paciente. Nao mais do que 100 a 200 pacientes
por droga sao selecionados nesta fase.
Fase III - Avaliacao em larga escala do tratamento. Apos a droga ter sido
considerada como razoavelmente efetiva, deve-se compara-la com o(s) trata-
mento(s) padrao disponıvel, o que e feito em um ensaio clınico envolvendo
um numero suficientemente grande de pacientes.
Fase IV - Fase de vigilancia pos-comercializacao: monitoramento de efeitos
adversos, estudos de morbidade e mortalidade.
18 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
Anterior as fases citadas, deve existir um programa de pesquisa pre-
clınica, incluindo a sıntese de novas drogas e estudos com animais referentes
ao metabolismo, eficacia e, sobretudo, a toxicidade potencial. A fase pre-
clınica e responsavel pela maior parte do gasto estimado com a pesquisa
sobre drogas. A duracao media de um programa inteiro de pesquisa rela-
cionado a uma droga e de 7 a 10 anos. Aproximadamente metade desse
tempo e gasto em ensaios clınicos, que envolvem milhoes de dolares.
Ao realizar um ensaio clınico aleatorizado, ha uma tendencia dos par-
ticipantes (pacientes, profissionais envolvidos e avaliadores) mudarem seu
comportamento por serem alvos de interesse e atencao especial. Por exem-
plo, o fato do paciente saber que esta recebendo um novo tratamento pode
ter um efeito psicologico benefico e, ao contrario, saber que esta recebendo
um tratamento convencional, ou nenhum tratamento, pode exercer um
efeito desfavoravel. Tambem o entusiasmo, por exemplo, do medico por
algum novo tratamento, pode ser transferido para o paciente e ocasionar
uma mudanca de atitude. Os avaliadores, por outro lado, podem registrar
respostas mais favoraveis para o tratamento que acreditam ser superior. O
nao conhecimento dos grupos e o uso de placebo auxiliam a evitar esses
vıcios. Ensaios clınicos em que os pacientes nao conhecem o tratamento
que estao recebendo sao denominados ensaios cegos. O termo duplo-cego e
usado nos casos em que, nem os pacientes, nem os responsaveis pela sua as-
sistencia e avaliacao, conhecem o tratamento que esta sendo administrado
para cada paciente.
1.4.5 Estudos tranversais ou cross-sectional
Em estudos transversais coletam-se simultaneamente, de um grupo ou po-
pulacao de indivıduos, informacoes sobre uma variedade de caracterısticas
que sao posteriormente cruzadas em tabelas de contingencia. Esta coleta
1.4. Estudos clınicos e modelos associados 19
e realizada em um unico ponto no tempo e, frequentemente, o pesquisador
nao sabe o que ocorreu antes desse ponto. A obtencao da prevalencia da
doenca, ou seja, da proporcao do grupo com a doenca no momento em que
foi realizada a coleta, e um dos objetivos desses estudos. Constitui outro
interesse, em geral, a investigacao de potenciais relacoes causais entre os
fatores suspeitos serem de risco e a doenca.
Os estudos transversais podem ser vistos como avaliacoes fotograficas
de grupos ou populacoes de indivıduos. O termo transversal e usado para
indicar que os indivıduos estao sendo estudados em um ponto no tempo
(corte transversal). O interesse esta em avaliar a associacao entre as res-
postas obtidas. Nesses estudos e comum considerar algumas das variaveis
como fatores.
Um exemplo e o de um estudo realizado com criancas para determinar
se elas apresentavam sintomas de doencas respiratorias. Neste estudo, um
total de n = 1080 criancas foram examinadas anotando-se, para cada uma
delas, o sexo e se apresentavam, ou nao, os sintomas. Os resultados sao
mostrados na Tabela 1.8. Note, neste estudo, que apenas n e fixo e, desse
modo, tem-se a distribuicao multinomial associada a Tabela 1.8.
Tabela 1.8: Estudo transversal sobre doencas respiratorias.
SintomasSexo Sim Nao Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
20 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
1.5 Incidencia e prevalencia
Nos estudos de coorte e nos ensaios clınicos, os indivıduos apresentam no
inıcio do experimento a mesma condicao clınica. Sao, entao, acompanhados
por um perıodo de tempo para observacao da ocorrencia de casos novos
(por exemplo, de doenca, de cura etc.). Em ambos os estudos citados, e
possıvel a obtencao de uma medida denominada incidencia. A incidencia
(seja de doenca, de cura etc.) e definida como a proporcao de indivıduos
em um determinado grupo que desenvolve a resposta de interesse ao longo
do tempo de observacao, isto e:
Incidencia =indivıduos que apresentam resposta positiva no perıodo de observacao
total de indivıduos no inıcio do experimento.
Nos estudos transversais, a avaliacao nao e feita ao longo do tempo, mas
somente em um unico ponto (momento) no tempo. Alguns dos indivıduos
neste ponto do tempo apresentarao a resposta e outros nao. Nao e ob-
servado, portanto, casos novos ao longo do tempo, mas somente os casos
existentes naquele momento especıfico. A medida adequada e, desse modo,
a prevalencia, isto e, a proporcao de indivıduos do grupo com resposta
positiva naquele momento especıfico do tempo, ou seja:
Prevalencia =indivıduos com a resposta em determinado ponto no tempo
indivıduos pesquisados em determinado ponto no tempo.
1.6 Exercıcios
1. Em uma pesquisa realizada com 39 pacientes diagnosticados como
tendo a doenca de Hodgkin, estes foram classificados por sexo, bem
como se apresentavam ou nao anormalidades na funcao pulmonar. Os
resultados sao mostrados na Tabela 1.9.
1.6. Exercıcios 21
Tabela 1.9: Pacientes com a doenca de Hodgkin.
Anormalidade Pulmonar
Sexo Presente Ausente Total
Masculino 14 12 26
Feminino 12 01 13
Total 26 13 39
(a) Que tipo de estudo foi realizado?
(b) Qual o modelo probabilıstico associado?
(c) E possıvel obter a incidencia ou prevalencia de anormalidade pul-
monar com os dados desse estudo? Se sim, obtenha e interprete.
2. Com o objetivo de verificar a existencia de associacao entre fumo e
cancer de pulmao, um grupo de 2000 pessoas (800 fumantes e 1200
nao fumantes), foi acompanhado por 20 anos. Os resultados foram:
Tabela 1.10: Estudo sobre fumo e cancer de pulmao.
Cancer de Pulmao
Status Sim Nao Total
Fumante 90 710 800
Nao Fumante 10 1190 1200
Total 100 1900 2000
(a) Que tipo de estudo foi realizado?
(b) Qual o modelo probabilıstico associado?
(c) E possıvel obter a incidencia de cancer de pulmao entre os fu-
mantes e nao fumantes? Se sim, obtenha e interprete.
(d) Ha indıcios de que os fumantes sejam mais propensos ao cancer
de pulmao?
22 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
3. Com o objetivo de verificar se o historico familiar constitui um fator
de risco para o cancer de mama, um grupo de mulheres com a referida
doenca e, outro grupo, livre da doenca foram comparados. A partir
dos resultados, que se encontram na Tabela 1.11, responda:
Tabela 1.11: Estudo sobre historico familiar e cancer de mama.
Cancer de Mama
Historico familiar Sim Nao Total
Sim 17 36 53
Nao 8 102 110
Total 25 138 163
(a) Que tipo de estudo foi realizado?
(b) Quais cuidados devem ser tomados para a escolha dos dois grupos
de mulheres?
(c) Qual o modelo probabilıstico associado?
(d) Este estudo poderia ter sido conduzido de outro modo? Se sim,
descreva como.
(e) Cite as vantagens e desvantagens do estudo ter sido realizado como
foi descrito.
(f) E possıvel obter a incidencia ou prevalencia de cancer de mama
com os dados desse estudo? Se sim, obtenha e interprete.
4. Um estudo foi conduzido para investigar o efeito da vitamina C em
uma determinada desordem renal genetica chamada nephropathic cys-
tosis. A resposta considerada foi melhora clınica (sim ou nao). Os
dados obtidos encontram-se na Tabela 1.12.
(a) Qual o modo mais adequado, em sua opiniao, para planejar e
realizar este experimento? Justifique.
1.6. Exercıcios 23
Tabela 1.12: Estudo sobre efeito da vitamina C.
Melhora Clınica
Vitamina C Sim Nao Total
Sim 24 8 32
Nao 29 3 32
Total 53 11 64
Fonte: Schneider et al. (1979)
(b) Qual o modelo probabilıstico associado ao delineamento escolhido
em (a)?
5. Um estudo foi realizado para verificar a existencia de associacao entre
cancer de esofago e consumo de alcool. Os resultados desse estudo
foram os apresentados na Tabela 1.13.
Tabela 1.13: Estudo sobre cancer de esofago.
Cancer de Esofago
Consumo de Alcool Sim Nao Total
Sim 96 109 205
Nao 104 666 770
Total 200 775 975
Fonte: Tuyns et al (1977)
(a) Como este experimento poderia ter sido planejado e conduzido?
Na sua opiniao, qual o mais adequado para responder ao objetivo do
pesquisador?
(b) Identifique os modelos probabilısticos associados aos delineamen-
tos descritos em (a).
6. Uma pesquisa foi conduzida para avaliar a opiniao de homens e mulhe-
res a respeito da legalizacao do aborto. Das 500 mulheres e 600
24 Capıtulo 1. Conceitos Introdutorios Giolo, S.R.
homens entrevistados, foram obtidos os resultados mostrados na Tabela 1.14.
Tabela 1.14: Estudo sobre o aborto.
Favoravel a legalizacao
Sexo Sim Nao Total
Mulheres 309 191 500
Homens 319 281 600
Total 628 472 1100
Fonte: Christensen (1997)
(a) Qual o esquema amostral utilizado nesta pesquisa e o modelo
probabilıstico associado?
(b) Com base somente nos valores observados, diria existir algum
indıcio de que haja diferentes opinioes entre homens e mulheres?
Capıtulo 2
Estrategias de Analise
2.1 Introducao
Algumas estrategias de analise de dados categoricos sao tratadas neste
capıtulo. Inicialmente, e considerada a analise de experimentos em que
os resultados estejam dispostos em tabelas de contingencia 2 × 2. Sao
entao analisados, a seguir, esperimentos em que os resultados encontram-se
dispostos em tabelas de contingencia 2 × r, s × 2 e s × r (r, s > 2). Sera
visto que muitas questoes sobre dados categoricos podem ser respondidas
estabelecendo-se hipoteses de associacao. Para, contudo, descrever a na-
tureza dessa associacao, quando presente nos dados, bem como os padroes
dessa associacao, serao utilizados modelos, tais como, o modelo de regressao
logıstica e o modelo de regressao Poisson. Estes modelos sao tratados nos
Capıtulos 3 e 4, respectivamente.
2.2 Analise de Tabelas de Contingencia 2 × 2
Considere os dados apresentados na Tabela 1.1 do Capıtulo 1, referentes
aos resultados obtidos a partir de um ensaio clınico aleatorizado realizado
25
26 Capıtulo 2. Estrategias de Analise Giolo, S.R.
para comparar dois medicamentos. A questao de interesse, nesse caso, e
averiguar se as taxas de melhora para o placebo e para o novo medica-
mento sao as mesmas. Esta questao pode ser respondida testando-se a
existencia de associacao entre o medicamento e a resposta do paciente, ou
seja, testando-se a seguinte hipotese nula:“H0: nao existe associacao en-
tre o tratamento e a resposta do paciente”. Levando-se em consideracao o
delineamento amostral, esta hipotese e equivalentemente especificada por:
a) H0: p11 = p21, caso o esquema amostral seja aquele em que os totais
amostrais ni+ sao fixos. Pelo fato desta hipotese traduzir a igual-
dade dos parametros distribucionais, ela e denominada hipotese de
homogeneidade.
b) H0: pij = (pi+) (p+j), caso o esquema amostral corresponder aquele
em que somente o total amostral n e fixo. Esta hipotese e denominada
hipotese de independencia, uma vez que a ausencia de associacao neste
caso, em termos probabilısticos, significa independencia mutua.
c) H0: µij =(µi+) (µ+j)
µ, caso o esquema amostral seja aquele em que
os totais marginais sao todos aleatorios. Como esta hipotese evidencia
uma forma multiplicativa nas medias, ela e denominada hipotese de
multiplicatividade.
Visto as hipoteses nulas de homogeneidade, independencia e multiplica-
tividade serem equivalentes no que diz respeito a ausencia de associacao
entre as duas variaveis de interesse, alguns testes apropriados para testa-
las, bem como algumas medidas de associacao, sao apresentados a seguir.
2.2.1 Estatısticas de Teste
No estudo experimental que produziu os dados apresentados na Tabela 1.1,
os totais marginais n1+ e n2+ sao fixos, pois 60 pacientes foram alocados
2.2. Analise de Tabelas de Contingencia 2 × 2 27
aleatoriamente a um dos tratamentos, o placebo, e 64 ao outro tratamento.
Sob a hipotese nula de nao existencia de diferencas entre os tratamentos, os
totais marginais n+1 e n+2 sao tambem considerados fixos e, portanto, sob
H0, a distribuicao de probabilidade associada e a hipergeometrica. Assim,
o valor esperado de nij e:
E(Nij | H0) =(ni+) (n+j)
n= mij
e a variancia:
V (Nij | H0) =(n1+) (n2+) (n+1) (n+2)
n2(n − 1)= vij .
Para uma amostra suficientemente grande, n11 tem aproximadamente
uma distribuicao normal, o que implica que:
Q =(n11 − m11)
2
v11(2.1)
tem aproximadamente uma distribuicao qui-quadrado com um grau de
liberdade. Nao importa como as linhas e colunas sejam arranjadas, Q
assumira sempre o mesmo valor, uma vez que:
| n11 − m11 | = | nij − mij | =| n11n22 − n12n21 |
n.
Uma estatıstica relacionada a Q e a estatıstica de Pearson dada por:
QP =2∑
i=1
2∑
j=1
(nij − mij)2
mij=
n
(n − 1)Q. (2.2)
Se as contagens (frequencias) nas caselas forem suficientemente grandes,
QP segue uma distribuicao qui-quadrado com um grau de liberdade. Ainda,
quando n cresce, QP e Q convergem. Uma regra util para determinar o
tamanho amostral adequado para Q e QP e que o valor esperado mij seja
maior do que 5 para todas as caselas.
28 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Note, que as estatısticas Qp e Q foram utilizadas para testar a hipotese
de homogeneidade em um ensaio clınico aleatorizado. Estas podem ser,
contudo, utilizadas em experimentos resultantes de qualquer um dos tres
delineamentos amostrais apresentados, pois, sob as hipoteses de homogenei-
dade, independencia e multiplicatividade, E(Nij | H0) = mij =(ni+) (n+j)
n .
Muitas vezes, contudo, as frequencias observadas nas caselas de uma
tabela de contingencia sao muito pequenas inviabilizando, assim, o uso da
distribuicao qui-quadrado. Nessas situacoes, metodos exatos baseados na
distribuicao hipergeometrica sao usados para se testar a hipotese nula de
nao associacao. O teste exato de Fisher, em que o valor p e determinado
somando-se as probabilidades das tabelas que sao pouco provaveis, dado
que as marginais sao fixas, e, entao, utilizado.
2.2.2 Medidas de Associacao
Estabelecida a associacao em uma tabela de contingencia 2 × 2, pode haver
o interesse em descrever a intensidade desta associacao.
(a) Diferenca de proporcoes
Para estudos como, por exemplo, os de coorte e clınico aleatorizado, em que
se tem duas amostras aleatorias independentes de tamanhos fixos n1+ e n2+,
esta intensidade pode ser descrita por meio da diferenca das proporcoes p11
e p21 obtidas a partir dessas amostras, bem como por meio do intervalo de
confianca correspondente a esta diferenca.
Assim, se os dois grupos sao amostras aleatorias independentes com
probabilidades de sucesso π11 e π21, respectivamente, e ha o interesse em
se estimar a diferenca de proporcoes, isto e, d = p11 − p21, em que o valor
esperado e:
E[p11 − p21] = π11 − π21
2.2. Analise de Tabelas de Contingencia 2 × 2 29
e a variancia:
V [p11 − p21] =π11(1 − π11)
n1++
π21(1 − π21)
n2+,
para a qual um estimador nao-viciado e:
v[p11 − p21] =p11(1 − p11)
n1+ − 1+
p21(1 − p21)
n2+ − 1,
tem-se o seguinte intervalo para (π11−π21), a um nıvel de confianca (1-α)%:
d ±(
zα/2
√v +
1
2
(1
n1++
1
n2+
)),
em que zα/2 denota o 100(1−α/2) percentil da distribuicao normal padrao.
Exemplo: Para os dados da Tabela 1.1 tem-se: Q = 21,53 (p < 0,0001)
e Qp = 21,7 (p < 0,0001). Ambas as estatısticas sao claramente significa-
tivas e, portanto, ha uma forte associacao entre o tratamento e a resposta
do paciente. Como se trata de um experimento em que as marginais n1+
e n2+ sao fixas, tem-se que a diferenca estimada entre as proporcoes e
d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo, ao nıvel de 95%
de confianca, dado por: I.C.95%(d) = 0,417 ± 0,177 = (0,24; 0,594), que
nao inclui o valor zero. Conclui-se, portanto, que o novo tratamento e
significativamente superior ao placebo.
(b) Risco relativo e odds ratio (razao de chances)
A odds ratio (OR) e uma medida que descreve a intensidade de associacao
em uma tabela de contingencia 2 × 2 e e calculada por:
OR =n11/n12
n21/n22=
n11 n22
n12 n21.
Esta medida pode ser usada em qualquer tipo de estudo e varia de 0
a infinito. Quando OR = 1, nao existe associacao entre as variaveis. Se,
30 Capıtulo 2. Estrategias de Analise Giolo, S.R.
no entanto, OR > 1, o grupo 1 tem chance (odds) maior de apresentar a
resposta do que o grupo 2. Consequentemente, se OR < 1, o grupo 1 tem
chance menor de apresentar a resposta do que o grupo 2. Para obtencao
de um I.C. para OR, toma-se o logaritmo da mesma na base e, isto e,
f = log(OR), cuja variancia estimada e:
V (f) =
(1
n11+
1
n12+
1
n21+
1
n22
).
Assim, um I.C. para OR, ao nıvel 100(1-α)% de confianca, e dado por:
I.C.(OR) = exp(f ± zα/2
√V (f)
),
em que zα/2 denota o 100(1−α/2) percentil da distribuicao normal padrao.
Para estudos prospectivos (como, por exemplo os de coorte e ensaios
clınicos aleatorizados), uma outra quantidade denominada risco relativo
pode tambem ser obtida. O risco relativo (RR) fornece o risco de desen-
volvimento de uma determinada condicao (frequentemente uma doenca)
para um grupo comparado a outro grupo. Esta medida e expressa por:
RR =p11
p21
e pode ser mostrado que:
RR = OR ×[
1 + (n21/n22)
1 + (n11/n12)
].
Logo, a OR se aproxima do RR quando n11 e n21 sao pequenos relati-
vamente a n12 e n22, respectivamente. Essa situacao se verifica para o caso
de doencas raras.
Um I.C. para RR e tambem obtido tomando-se o logaritmo, na base e,
do RR, isto e, f∗ = log(RR) = log(p11) − log(p21), cuja variancia e:
V (f∗) =(1 − p11)
(n1+) (p11)+
(1 − p21)
(n2+) (p21)
2.2. Analise de Tabelas de Contingencia 2 × 2 31
e, portanto, um I.C. para RR, ao nıvel 100(1-α)% de confianca, e dado por:
I.C.(RR) = exp(f∗ ± zα/2
√V (f∗)
),
em que zα/2 denota o 100(1−α/2) percentil da distribuicao normal padrao.
2.2.3 Exemplos
Exemplo 1: Considere os dados apresentados na Tabela 1.1 referentes a
um estudo clınico aleatorizado realizado para testar um novo medicamento.
Nesse estudo, a hipotese nula de nao associacao entre o medicamento e a
resposta do paciente corresponde a hipotese de homogeneidade H0: p11 =
p21. Para testa-la foram obtidos os seguintes resultados:
Q = 21, 53 (p < 0, 0001)
Qp = 21, 70 (p < 0, 0001)
d(novo−placebo) = (0, 667 − 0, 25) = 0, 417
IC(d)(95%) = (0, 24; 0, 594)
RRnovo|placebo = 2, 67
IC(RR)(95%) = (1, 68; 4, 22).
Com base nesses resultados, pode-se concluir que o medicamento esta
associado a resposta do paciente e, sendo assim, as taxas de melhora para o
placebo e para o novo medicamento diferem entre si. Para o novo medica-
mento ha uma proporcao maior de pacientes apresentando melhora. Essa
diferenca entre as proporcoes de melhora e estimada em 41,7% e pode
variar, ao nıvel de confianca de 95%, entre 24% e 59,4%. Pode-se, ainda,
concluir que o risco de melhora dos pacientes submetidos ao novo medica-
mento e 2,67 vezes o risco dos pacientes que receberam placebo. Essa
estimativa, ao nıvel de confianca de 95%, pode variar entre 1,68 a 4,22
vezes. O novo medicamento e, desse modo, recomendavel.
32 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Exemplo 2: Nesse exemplo, e analisado os dados apresentados na Tabela
1.4 referentes a um estudo realizado para verificar a influencia da cor da
armadilha sobre a atracao de machos e femeas. Para se testar a hipotese
nula de nao associacao entre a cor da armadilha e sexo, o que equivale a
testar a hipotese de multiplicatividade H0: µij =(µi+) (µ+j)
µ, obtiveram-se
os resultados:
Q = 0, 0013 (p = 0, 9718); Qp = 0, 0013 (p = 0, 9718)
OR = 1, 011
IC(OR)(95%) = (0, 55; 1, 857).
Nao ha, portanto, evidencias estatısticas para a rejeicao da hipotese
nula e, desse modo, pode-se concluir nao haver evidencias de que a atracao
de machos e femeas esteja sendo influenciada pela cor da armadilha. A
atracao de machos e femeas, da especie coletada, e semelhante usando-
se armadilhas alaranjadas e amarelas. Os machos apresentam, contudo,
atracao, em media, maior as armadilhas do que as femeas,
Exemplo 3: Referem-se aos dados apresentados na Tabela 1.5, resultado
de um estudo de coorte realizado para pesquisar a associacao entre taba-
gismo e cancer de pulmao. Para testar a hipotese nula de nao existencia
dessa associacao, o que equivale a testar H0: p11 = p21, foram obtidos os
seguintes resultados:
Q = 23, 18 (p < 0, 0001)
Qp = 23, 29 (p < 0, 0001)
d(fumantes - nao fumantes) = (0, 625 − 0, 2777) = 0, 3523
IC(d)(95%) = (0, 21; 0, 495)
RR(fumantes | nao fumantes) = 2, 29
IC(RR)(95%) = (1, 55; 3, 38).
2.2. Analise de Tabelas de Contingencia 2 × 2 33
A conclusao, nesse exemplo, e de que existe associacao entre tabagismo
e cancer de pulmao. A proporcao de fumantes com cancer de pulmao foi
maior do que a dos nao fumantes. A diferenca entre essas proporcoes foi
estimada em 35,23%. Essa estimativa pode variar, ao nıvel de confianca de
95%, entre 21% e 49,5%. Pode-se, ainda, concluir que o risco de cancer de
pulmao dos fumantes e 2,29 vezes o risco dos nao fumantes. Esta estimativa,
ao nıvel de confianca de 95%, varia entre 1,55 a 3,38 vezes. O tabagismo
pode, portanto, ser considerado um fator de risco para o cancer de pulmao.
Exemplo 4: Neste exemplo sao analisados os dados apresentados na Ta-
bela 1.6 referentes a um estudo caso-controle realizado para pesquisar a
associacao entre tabagismo e cancer de pulmao. Para testar a hipotese
nula de nao existencia dessa associacao (H0: pij = pi+p+j), obtiveram-se
os seguintes resultados:
Q = 23, 18 (p < 0, 0001)
Qp = 23, 29 (p < 0, 0001)
OR = 4, 44
IC(OR)(95%) = (2, 37; 8, 28).
Conclui-se, portanto, que o tabagismo e cancer de pulmao estao as-
sociados, ou seja, as taxas de desenvolvimento de cancer de pulmao para
fumantes e nao fumantes diferem. A chance dos indivıduos que fumam
apresentarem a doenca e 4,44 vezes a chance dos que nao fumam, chance
esta que, ao nıvel de confianca de 95%, pode variar entre 2,37 e 8,28 vezes.
Exemplo 5: Refere-se ao estudo transversal apresentado na Tabela 1.8
sobre doencas respiratorias realizado com criancas. O objetivo e verificar
se sexo e doencas respiratorias estariam associadas. A hipotese nula con-
siderada e, portanto, a de nao associacao entre sexo e doencas respiratorias
34 Capıtulo 2. Estrategias de Analise Giolo, S.R.
(H0: pij = pi+p+j). Para testa-la, obtiveram-se os resultados:
Q = 4, 0803 (p = 0, 0434)
Qp = 4, 084 (p = 0, 0433)
OR(feminino|masculino) = 1, 3161
IC(OR)(95%) = (1, 008; 1, 718).
Com base nos resultados obtidos, e considerando-se um nıvel de sig-
nificancia de 5%, pode-se concluir que existe associacao entre sexo e doencas
respiratorias, ou seja, as taxas de doencas respiratorias em criancas do sexo
feminino e masculino diferem. Observe, contudo, que a OR estimada nao
se encontra tao distante do valor 1 (que indicaria chances nao diferentes
entre os sexos). Este fato mostra que a chance das criancas do sexo femi-
nino apresentarem doencas respiratorias, nao e muito maior do que a das
criancas do sexo masculino. Essa chance e de 1,31 vezes podendo, ao nıvel
de confianca de 95%, variar entre 1,008 e 1,718 vezes.
Exemplo 6: Neste exemplo, sao analisados os dados apresentados na
Tabela 1.7 referentes a um ensaio clınico aleatorizado realizado para com-
parar dois medicamentos usados no tratamento de infeccoes severas. Para
testar a hipotese nula de nao associacao entre o tratamento e a resposta do
paciente (H0: p11 = p21), os seguintes resultados foram obtidos:
Q = 9, 9085 (p = 0, 0016)
Qp = 10, 02 (p = 0, 0015)
d(novo - padrao) = (0, 6444 − 0, 3111) = 0, 3333
IC(d)(95%) = (0, 114; 0, 552)
RR(novo | padrao) = 2, 07
IC(RR)(95%) = (1, 27; 3, 36).
2.2. Analise de Tabelas de Contingencia 2 × 2 35
Pode-se, portanto, concluir pela existencia de associacao entre o trata-
mento e a resposta do paciente, o que implica que as taxas de respostas
favoraveis para os tratamentos novo e padrao diferem. Pacientes que rece-
beram o novo tratamento apresentaram uma proporcao maior de resposta
favoravel. A diferenca entre as proporcoes foi estimada em 33,33%. Esta
estimativa pode variar, ao nıvel de confianca de 95%, entre 11,4% e 55,2%.
Conclui-se, ainda, que o risco de resposta favoravel dos pacientes que re-
ceberam o novo tratamento e 2,07 vezes o risco daqueles que receberam o
tratamento padrao. Esta estimativa, ao nıvel de confianca de 95%, pode
variar entre 1,27 a 3,36 vezes. O novo medicamento e, desse modo, pre-
ferıvel ao medicamento padrao.
2.2.4 Sensibilidade e Especificidade
A sensibilidade e especificidade sao medidas usadas, em particular, quando
se deseja determinar a eficacia de um exame (teste) realizado para detectar
a presenca de uma doenca ou outro evento qualquer. O exame de DNA,
realizado para saber se o indivıduo e de fato o pai de uma crianca, e um
exemplo desses testes. Outro exemplo, e o do exame de AIDS, realizado
para saber se o sujeito e soropositivo.
As medidas citadas determinam a eficiencia desses testes em detectar
a verdade. A sensibilidade e definida como a proporcao de resultados
positivos que um teste apresenta, quando realizado em sujeitos conhecidos
terem a doenca, ou seja, e a proporcao de verdadeiros positivos. A es-
pecificidade, por outro lado, e definida como a proporcao de resultados
negativos que um teste apresenta, quando realizado em sujeitos conhecidos
estarem livres da doenca (proporcao de verdadeiros negativos). O desejado
de um exame (teste) e que ele tenha, simultaneamente, alta sensibilidade e
especificidade.
36 Capıtulo 2. Estrategias de Analise Giolo, S.R.
A sensibilidade e especificidade sao tambem usadas para testar se um
novo exame, alternativo ao ja existente, mas de custo inferior, e tao efi-
ciente quanto aquele tido como o melhor na literatura. O melhor teste e,
geralmente, referenciado na literatura como teste ouro ou teste padrao.
Considere a Tabela 2.1, que apresenta os resultados positivos e negativos
de um exame realizado em 180 pacientes para verificar a presenca de uma
doenca de pele.
Tabela 2.1: Resultados de um exame realizado para verificar a presenca de
uma doenca de pele.
Resultado do exameStatus + - Totais
Doenca presente 52 8 60
Doenca ausente 20 100 120
Para esses dados, a sensibilidade e especificidade estimadas sao dadas,
respectivamente, por:
Sensibilidade =52
60= 0, 867 e Especificidade =
100
120= 0, 833.
O exame usado apresenta, portanto, boa sensibilidade e especificidade
detectando em torno de 87% dos casos positivos e 83% dos casos negativos.
O exame deixou, contudo, de detectar em torno de 13% dos casos posi-
tivos (taxa de falsos negativos = 8/60 = 0,1333) e em torno de 17% dos
casos apresentou resultado positivo erroneamente (taxa de falsos positivos
= 20/120 = 0,1667). A taxa bruta de concordancia (poder preditivo ou
acuracia) do exame foi de 152/180 = 0.844 (84,4%). Dos 72 resultados
positivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder
preditivo positivo do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado,
2.2. Analise de Tabelas de Contingencia 2 × 2 37
dos 108 resultados negativos apresentados pelo exame, 100 estavam corre-
tos fornecendo, assim, para o poder preditivo negativo do exame, um valor
de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendavel que o teste fosse realizado mais de
uma vez, em cada paciente, para evitar que um paciente doente nao seja
tratado ou que, um paciente livre da doenca seja tratado indevidamente.
Se, contudo, o medicamento a ser utilizado nao apresentar efeitos adver-
sos, recomenda-se um segundo teste somente para os pacientes que apre-
sentarem resultado negativo. Como cada doenca apresenta suas peculiari-
dades, deve-se analisar, para cada uma delas, o que e de fato relevante. Em
determinadas situacoes, por exemplo, ha um interesse maior em testes com
alta sensibilidade e, especificidade, relativamente inferior.
2.2.5 Teste de McNemar
As tabelas de contingencia 2 × 2 contem, em algumas situacoes, informacoes
pareadas. Por exemplo, situacoes em que sao realizadas duas perguntas
relacionadas ou, a mesma pergunta e feita para um par de indivıduos
relacionados (casal, gemeos etc.) ou, ainda, informacoes tomadas antes
e apos algum acontecimento (uso de um medicamento, campanha publi-
citaria etc.). Nesses casos, o interesse e testar se a proporcao dos pares
respondendo sim para a pergunta 1 e a mesma dos que respondem sim
para a pergunta 2, ou seja, testar a hipotese nula:
H0 :n+1
n=
n1+
n.
Para testar a hipotese citada, McNemar (1947), propos um teste qui-
quadrado baseado na distribuicao binomial. Ele mostra que somente os
elementos fora da diagonal sao importantes para determinar se existem
38 Capıtulo 2. Estrategias de Analise Giolo, S.R.
diferencas entre essas proporcoes. A estatıstica desse teste e dada por:
QM =(n12 − n21)
2
(n12 + n21),
que, sob H0, tem aproximadamente uma distribuicao qui-quadrado com 1
grau de liberdade.
Exemplo: Considere a taxa de aprovacao, apresentada na Tabela 2.2,
de um determinado polıtico, antes e apos o anuncio de certas medidas. O
teste da hipotese nula H0: proporcao de aprovacao do candidato antes e
apos o anuncio das medidas e a mesma, resultou em QM = 1,67 (valor p =
0,1967). Sendo assim, nao e possıvel rejeitar H0 e, desse modo, nao se pode
afirmar que a taxa de aprovacao desse polıtico se alterou apos o anuncio
das medidas.
Tabela 2.2: Resultados de um pesquisa realizada para verificar a taxa de
aprovacao de um polıtico antes e apos o anuncio de certas medidas.
AposAntes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45
O pacote estatıstico R foi usado para obtencao dos resultados apresen-
tados. Os comandos utilizados encontram-se no apendice deste texto.
2.3 Analise de Tabelas de Contingencia 2 × r
Considere a Tabela 2.3 que mostra o resultado de um estudo clınico aleatori-
zado duplo-cego realizado para pesquisar um tratamento para artrite reu-
matoide.
2.3. Analise de Tabelas de Contingencia 2 × r 39
Tabela 2.3: Resultado de um estudo clınico realizado para investigar um
tratamento para artrite reumatoide.
Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Note que a variavel resposta e ordinal e, entao, para se fazer uso desta
caracterıstica ordinal da resposta, sao, em geral, assumidos escores para
suas categorias. Obtem-se, assim, escores medios (um para cada linha da
tabela) que sao, entao, comparados. O escore medio para a i-esima linha
(i = 1, 2) da Tabela 2.3 e definido por:
fi =3∑
j=1
aj nij
ni+i = 1, 2,
em que a = (a1, a2, a3) e o vetor de escores assumidos para as categorias
da variavel resposta.
Se a hipotese H0 e a de nao associacao entre o tratamento e o grau
de melhora, o que significa que as frequencias sao similares para todos as
categorias, entao:
E(f1 | H0) =3∑
j=1
(aj
n1+ n+j
n1+ n
)=
3∑
j=1
ajn+j
n= µa
e a variancia:
V (f1 | H0) =(n − n1+)
n1+(n − 1)
3∑
j=1
(aj − µa)2(n+j
n
)=
(n − n1+) va
n1+(n − 1)
sendo va =∑3
j=1(aj − µa)2(
n+j
n
).
40 Capıtulo 2. Estrategias de Analise Giolo, S.R.
A quantidade f1 tem, pelo teorema central do limite, distribuicao nor-
mal, de modo que, a quantidade:
QS =(f1 − µa)
2
[(n − n1+)/(n1+(n − 1))
]va
tem aproximadamente distribuicao qui-quadrado com um grau de liber-
dade. QS e chamada estatıstica escore medio. Por usar a informacao or-
dinal da variavel resposta, QS pode indicar onde as mudancas ocorrem.
Assim, as estatısticas Q e Qp sao uteis para detectar tipos gerais de as-
sociacao, mas nao sao tao eficientes quanto QS em detectar a localizacao
dessas mudancas.
Usando-se os escores a = (1, 2, 3) para, respectivamente, as catego-
rias: nenhuma, alguma e acentuada, foi obtido QS = 12,859 (p = 0,0003).
Conclui-se, desse modo, que os tratamentos diferem e que o tratamento
Ativo apresentou desempenho melhor (grau de melhora mais acentuado)
do que o placebo, uma vez que fA = 2, 195 e fP = 1, 488.
2.3.1 Escolha dos Escores
As estrategias de analise de dados ordinais requerem a escolha dos escores
a serem atribuıdos as categorias da variavel resposta. Dentre as varias
maneiras de escolha, as duas mais usuais sao:
i) escores inteiros: estes sao definidos como aj = j, para j = 1, · · · , r,
e sao uteis quando as categorias ordenadas da variavel resposta sao
vistas como igualmente espacadas. Sao tambem uteis, quando as
categorias da variavel resposta correspondem a contagens inteiras.
Os escores inteiros (0, 1, · · · ) e (1, 2, · · · ), em termos de conclusoes,
produzem resultados similares.
2.4. Analise de Tabelas de Contingencia s × 2 41
ii) escores padronizados (midranks): estes sao restritos a valores
entre 0 e 1 e sao definidos por:
aj =2(∑j
k=1 n+k
)− n+j + 1
2(n + 1).
A vantagem desses escores sobre os escores inteiros e que o analista
nao se responsabiliza diretamente pela selecao dos escores. Ele usa
os dados para obte-los.
Para muitos conjuntos de dados, a escolha dos escores apresentam pe-
queno efeito nos resultados. Escolhas diferentes de escores inteiros usual-
mente fornecem resultados similares. Isso pode, contudo, nao acontecer
quando os dados sao muito desbalanceados, tal como quando algumas cate-
gorias apresentam muito mais observacoes do que outras. Com os escores
padronizados (midranks) isso tambem ocorre, uma vez que aquelas catego-
rias apresentando poucas observacoes, em relacao as demais, apresentarao
escores muito proximos. A consequencia e que as distancias entre os nıveis
da variavel resposta podem vir a ser consideradas muito mais proximas do
que elas realmente sao.
Como pode ser visto, a escolha dos escores nao e uma tarefa muito sim-
ples. Agresti (1990, 1996) recomenda que os dados sejam analisados usando
diversos razoaveis conjuntos de escores para determinar se conclusoes im-
portantes dependem das escolhas feitas. O pesquisador e, sem duvida, de
fundamental importancia para o entendimento das distancias entre as cate-
gorias da variavel resposta e consequente escolha adequada dos escores.
2.4 Analise de Tabelas de Contingencia s × 2
Os dados apresentados na Tabela 2.4 referem-se a um estudo sobre o uso
de tabaco por adolescentes (Bauman et al., 1989), em que o interesse era
42 Capıtulo 2. Estrategias de Analise Giolo, S.R.
testar a existencia de associacao entre a variavel resposta (uso de tabaco)
e o fator consciencia do risco de uso do tabaco pelo adolescente.
Tabela 2.4: Resultado de um estudo sobre o uso de tabaco por adolescentes.
Consciencia do risco Nao usa tabaco Usa tabaco Totais
Mınima 70 33 103
Moderada 202 40 242
Substancial 218 11 229
Totais 490 84 574
Para esses dados observam-se, a variavel resposta (uso de tabaco) como
sendo dicotomica e o fator consciencia do risco, como ordinal. Na pratica,
as duas variaveis podem ser consideradas ordinais, uma vez que e comum
associar os escores 0 e 1 as categorias de uma variavel dicotomica. Assim, e
como no caso das tabelas de contingencia 2 × r, escores c = (c1, c2, c3) sao
assumidos para os nıveis (mınima, moderada e substancial) do fator ordinal
consciencia do risco. Por exemplo, c = (1, 2, 3). Para as categorias nao usa
e usa tabaco da variavel resposta assumem-se os escores a = (a1, a2) =
(0, 1), respectivamente. Assim, tem-se:
f =
3∑
i=1
2∑
j=1
ci aj nij
n,
em que, sob H0,
E(f | H0) =3∑
i=1
ci
(ni+
n
) 2∑
j=1
aj
(n+j
n
)= µc µa
e
V (f | H0) =
{3∑
i=1
(ci − µc)2(ni+
n
) 2∑
j=1
(aj − µa)2(n+j/n)
(n + 1)
}.
2.5. Analise de Tabelas de Contingencia s × r 43
A quantidade f tem distribuicao aproximadamente normal para grandes
amostras de modo que, para essas situacoes, usa-se a estatıstica de teste:
QCS =(f − µc µa)
2
V ar(f | H0)
=(n − 1)
[∑3i=1
∑2j=1(ci − µc)(aj − µa) nij
]2[∑3
i=1(ci − µc)2 ni+
][∑2j=1(aj − µa)2 n+j
] = (n − 1) r2ac,
em que rac e o coeficiente de correlacao de Pearson. Por este fato, QCS e
denominada estatıstica da correlacao. Ainda, QCS tem distribuicao aproxi-
mada qui-quadrado com 1 grau de liberdade.
Para os dados da Tabela 2.4, tem-se QCS = 42, 94 (p < 0,0001),
concluindo-se, portanto, haver uma forte associacao entre consciencia do
risco de fumo e uso de tabaco. Ainda, rac = −0, 274 e, desse modo, o uso
de tabaco diminui a medida que a consciencia do risco aumenta.
2.5 Analise de Tabelas de Contingencia s × r
Os conceitos de associacao e medidas de associacao em tabelas 2 × 2 e
associacao em tabelas de contingencia 2 × r e s × 2 foram apresentados e
discutidos ate o momento. Nessa secao, tais conceitos sao estendidos para
tabelas s × r (s, r > 2), cuja notacao e apresentada na Tabela 2.5.
2.5.1 Associacao geral em tabelas s × r
Para testar a hipotese nula de nao existencia de associacao geral em uma
tabela de contingencia s × r pode-se usar:
44 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Tabela 2.5: Tabela de contingencia s × r.
Categorias da variavel respostaGrupos 1 2 · · · r Totais
1 n11 n12 · · · n1r n1+
2 n21 n22 · · · n2r n2+
......
......
......
s ns1 ns2 · · · nsr ns+
Totais n+1 n+2 · · · n+r n
(a) Caso 1: variavel resposta nominal
i) A estatıstica qui-quadrado de Pearson que, de modo analogo ao apre-
sentado para uma tabela de contingencia 2 × 2, e definida por:
QP =
s∑
i=1
r∑
j=1
(nij − mij)2
mij.
Quando todas as caselas apresentarem valores esperados maiores que 5,
tal estatıstica segue aproximadamente uma distribuicao Qui-quadra-
do com (s − 1)(r − 1) graus de liberdade.
ii) A estatıstica Q que, similarmente ao apresentado para uma tabela de
contingencia 2 × 2, e obtida por:
Q =(n − 1)
nQP
Tambem Q segue aproximadamente uma distribuicao qui-quadrado
com (s − 1)(r − 1) graus de liberdade.
(b) Caso 2: variavel resposta ordinal
As estatısticas Q e QP sao adequadas para a deteccao de associacao geral.
Nao sao, no entanto, tao adequadas quando a variavel resposta e ordinal e
2.5. Analise de Tabelas de Contingencia s × r 45
e de interesse levar em conta tal ordenacao. Assim como para tabelas de
contingencia 2× r, a estatıstica escore medio, QS , pode ser tambem usada
para tabelas de contingencia s × r, de modo que QS fica expressa por:
QS =(n − 1)
∑si=1 ni+(fi − µa)
2
n va
em que fi =∑r
j=1(aj)(nij)
ni+, µa = E[fi | H0] =
∑rj=1
(aj)(n+j)n e va =
∑rj=1(aj−µa)
2(
n+j
n
). Nesses casos, QS tem aproximadamente distribuicao
qui-quadrado com (s−1) graus de liberdade, uma vez que os escores medios
de s grupos estao sendo comparados.
(c) Caso 3: ambas as variaveis ordinais
Esta situacao ocorre, por exemplo, quando a variavel resposta e ordinal e
os tratamentos sendo comparados sao, na realidade, dosagens diferentes de
um mesmo medicamento. Em tais situacoes, escores sao assumidos para os
nıveis da variavel resposta e, tambem, para os nıveis do fator de interesse.
A estatıstica de teste apropriada para esta situacao, como visto para
tabelas de contingencia s × 2, e a estatıstica da correlacao QCS que, in-
dependente da dimensao da tabela, tera sempre distribuicao aproximada
qui-quadrado com 1 grau de liberdade. Tal estatıstica e expressa por:
QCS = (n − 1) r2ac
em que rac e o coeficiente de correlacao de Pearson.
2.5.2 Teste exato para associacao geral em tabelas s × r
Em alguns casos o tamanho amostral, em uma tabela de contingencia s × r,
nao e suficientemente grande e ocorrem diversos valores esperados menores
do que 5. As estatısticas qui-quadrado discutidas anteriormente nao sao,
portanto, recomendaveis. Nessas situacoes, uma alternativa e o teste exato
46 Capıtulo 2. Estrategias de Analise Giolo, S.R.
de Fisher para tabelas s × r. Esse metodo segue os mesmos princıpios do
teste exato de Fisher para uma tabela de contingencia 2 × 2, exceto que
as probabilidades sao assumidas serem provenientes de uma distribuicao
hipergeometrica multivariada, isto e.
P (Nij = nij) =
s∏
i=1
ni+!
r∏
j=1
n+j !
n!s∏
i=1
r∏
j=1
nij !
.
2.5.3 Medidas de associacao em tabelas s × r
Algumas medidas de associacao encontram-se disponıveis quando ha inte-
resse em se obter a intensidade da associacao em uma tabela s × r. A
escolha por uma dessas medidas, dependera da escala de mensuracao das
variaveis.
i) Medidas de associacao ordinal
Nos casos em que as categorias exibidas nas linhas e colunas de uma
tabela de contingencia s × r estiverem em uma escala intervalar ou
apresentarem escores que sao igualmente espacados, recomenda-se
(Stokes et al., 2000) como medida de associacao, o coeficiente de
correlacao de Pearson. Nos casos, contudo, em que as categorias sao
de natureza ordinal mas nao apresentarem uma escala de distancia
obvia, sugere-se, entao, o coeficiente de correlacao de Spearman o
qual baseia-se nos ranks das categorias.
ii) Medidas de associacao nominal
Medidas de associacao nos casos em que uma, ou ambas, as variaveis
de uma tabela de contingencia s × r estiverem em uma escala de
mensuracao nominal, sao mais difıceis. Dois coeficientes propostos
2.5. Analise de Tabelas de Contingencia s × r 47
na literatura para essas situacoes sao: o coeficiente de incerteza (un-
certainty coefficient) e o coeficiente lambda. Agresti (1990) discute
algumas dessas medidas.
2.5.4 Exemplos
(a) Local de moradia e afiliacoes polıtico partidarias
Os dados apresentados na Tabela 2.6 referem-se a um estudo sobre a afiliacao
polıtico partidaria em uma determinada cidade (Stokes et al., 2000). O in-
teresse e saber se existe associacao entre partido polıtico e local (bairros)
de moradia.
Tabela 2.6: Distribuicao polıtico partidaria nos bairros da cidade.
Local de Moradia
Partido Polıtico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570
Para esses dados, ambas as variaveis encontram-se na escala de men-
suracao nominal e, desse modo, para testar a hipotese nula de nao asso-
ciacao entre partido polıtico e local de moradia pode-se usar a estatıstica
qui-quadrado de Pearson (QP ) bem como a estatıstica Q. Os resultados
obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6) e Q = 273, 81
(p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito proximos,
o que ja era esperado, uma vez que o tamanho amostral (n = 2570) e
grande. Dos resultados apresentados, conclui-se haver associacao entre par-
tido polıtico e local de moradia.
48 Capıtulo 2. Estrategias de Analise Giolo, S.R.
(b) Medicamentos para dor de cabeca e perıodo sem dor
Os dados desse exemplo, que encontram-se na Tabela 2.7, sao de um estudo
sobre um novo medicamento utilizado para aliviar dores de cabeca. Os
pesquisadores compararam tal medicamento com o tratamento padrao e um
placebo e mediram, para cada um deles, o numero (em horas) de substancial
alıvio da dor de cabeca.
Tabela 2.7: Novo medicamento para o tratamento de dores de cabeca.
Horas de alıvio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrao 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Claramente, numero de horas e uma variavel resposta ordinal. Nesses
casos, o teste escore medio, como visto anteriormente, e indicado para testar
a hipotese nula de nao associacao entre medicamento e a intensidade do
alıvio de dor de cabeca. Utilizando-se, portanto, os escores a = (0, 1, 2, 3,
4) obteve-se QS = 13, 7346 (p = 0,00104, g.l = 2). Assim, ha evidencias
estatısticas de associacao entre tratamento e o numero de horas de dor de
cabeca. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que f1 = 1, 36, f2 = 2, 64
e f3 = 2, 41, fornecendo indıcios de que o placebo difere dos tratamentos
novo e padrao. Nao parece haver indıcios, contudo, de diferencas entre os
tratamentos novo e padrao.
Considerando-se, entao, a tabela com somente as linhas correspondentes
aos tratamentos padrao e novo tem-se QS= 0,465 (p = 0,495, g.l. = 1).
Conclui-se, desse modo, que os tratamentos novo e padrao nao diferem
2.5. Analise de Tabelas de Contingencia s × r 49
entre si. Para as demais comparacoes obtiveram-se: i) placebo versus novo:
QS = 8, 6 (p = 0,0034, g.l. = 1) e ii) placebo versus padrao: QS = 11, 66
(p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existem varias caselas com frequencia es-
perada menor do que 5, o que inviabiliza a utilizacao das estatısticas Q
e QP , mas nao inviabiliza o uso da estatıstica QS . Este e, portanto, um
exemplo que mostra a vantagem em se considerar a escala ordinal dos dados
utilizando-se uma estatıstica de teste mais apropriada.
(c) Produtos de limpeza de roupas e intensidade da limpeza
Uma companhia de tratamento de agua realizou um estudo para pesquisar
como os aditivos adicionados a agua afetam a limpeza das roupas. O estudo
considerou: agua sem nenhum aditivo, agua com tratamento padrao e agua
com dose dupla do tratamento padrao. Os resultados obtidos encontram-se
na Tabela 2.8
Tabela 2.8: Influencia de aditivos na agua sobre limpeza das roupas.
Limpeza
Tratamento Baixa Media Alta Totais
Agua pura 27 14 5 46
Agua + trat. padrao 10 17 26 53
Agua + dose dupla trat. padrao 5 12 50 67
Totais 42 43 81 166
Ambas as variaveis sao, nesse caso, ordinais e como foi visto, a es-
tatıstica da correlacao QCS e indicada. Tomando-se, desse modo, os es-
cores a = (1, 2, 3) e c = (1, 2, 3) para as categorias das variaveis limpeza e
tratamento, respectivamente, obteve-se QCS = 50,6 (p < 0,0001, g.l.= 1).
50 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Conclui-se, portanto, que o tratamento e limpeza estao associados e que a
limpeza aumenta com a dosagem de aditivo adicionado a agua, visto que
rac = 0,554.
(d) Tipo de veıculo adquirido e fonte de propaganda.
Os dados desse exemplo referem-se a um estudo realizado para saber se o
tipo de carro que as pessoas haviam comprado nos ultimos meses em uma
determinada concessionaria, estava associado com o tipo de anuncio publi-
citario dos mesmos. Os resultados do estudo encontram-se na Tabela 2.9.
Tabela 2.9: Escolha do tipo de carro e anuncio publicitario.
Anuncio publicitario
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitario 5 5 2 2 14
Totais 9 8 5 8 30
Pode-se notar que os dados nao satisfazem as condiccoes de aplicabili-
dade dos testes usuais Q e QP , pois existem caselas com frequencia zero,
bem como algumas delas com frequencias esperadas menores do que 5. O
teste exato de Fisher, para testar a hipotese nula de nao associacao, e,
desse modo, a estrategia indicada. Utilizando-se tal teste para os dados
desse exemplo, obteve-se um valor p = 0,0473 (bilateral). Nao existe teste
exato de Fisher unilateral para tabelas s× r. Conclui-se, nesse caso, haver
evidencias de associacao ao nıvel de significancia de 5%. Para nıveis de
significancia menores nao e possıvel concluir pela existencia de associacao
entre o tipo de carro comprado e o tipo de anuncio publicitario.
2.6. Analise Estratificada 51
2.6 Analise Estratificada
Nos estudos em geral pode haver a necessidade de se realizar uma analise
estratificada. Este tipo de analise pode, em alguns casos, ter sido planejada
e, em outros, surge apos a coleta dos dados.
Um exemplo de analise estratificada planejada e o de um estudo rea-
lizado com o objetivo de se verificar a associacao entre fumo voluntario e
cancer de pulmao em que e considerada uma estratificacao pelo fator fumo
passivo. A estratificacao, nesse caso, e feita para evitar que o aparente
efeito do fumo voluntario, seja distorcido devido ao fato desses dois fatores
estarem mesclados (confundidos). Caso a influencia do confundimento entre
os fatores fumo voluntario e fumo passivo nao seja removida, a associacao
entre tabaco e cancer de pulmao pode ate mesmo nao ser detectada. As-
sim, nao e a mera presenca ou ausencia do confundimento que e importante
avaliar, mas sim a magnitude deste confundimento. Se esta magnitude nao
for muito acentuada, a associacao entre o fator de interesse e a resposta,
caso exista, pode ate ser observada mesmo sem a estratificacao. A inten-
sidade da associacao e que, contudo, nao estara sendo bem avaliada. Em
face da incerteza, e conveniente realizar ambas as analises: com e sem a
estratificacao.
Um exemplo de analise estratificada nao planejada e a de um estudo
clınico aleatorizado realizado para comparar dois tratamentos em que os
dados sao coletados em mais de um hospital ou centro medico. Somente
apos a realizacao do estudo e que os pesquisadores notam comportamentos
dos pacientes acentuadamente diferentes em cada centro e que este fator
deveria ser, portanto, considerado na analise. Fazendo-se uma analogia com
planejamento de experimentos, os centros aqui tem o sentido de blocos, pois
nao ha o interesse em testa-los, mas sim controlar o seu efeito na analise da
associacao entre o tratamento e a resposta. Este exemplo, dentre outros, e
52 Capıtulo 2. Estrategias de Analise Giolo, S.R.
apresentado e analisado a seguir.
Exemplo 1: Considere os dados da Tabela 2.10 provenientes de um en-
saio clınico aletorizado realizado para comparar dois medicamentos usados
no tratamento de infeccoes respiratorias severas, medicamentos estes que
foram testados em dois centros medicos. Note que esta tabela e, na reali-
dade, um conjunto de duas tabelas de contingencia 2 × r, com r = 2, em
que as mesmas questoes de uma unica tabela sao de interesse. Ou seja,
deseja-se testar a existencia de associacao entre o tratamento e a resposta
do paciente e, se esta existe, qual a intensidade da mesma.
Tabela 2.10: Resultados de um ensaio clınico realizado para comparar dois
medicamentos usados no tratamento de infeccoes respiratorias severas.
RespostaCentro Tratamento Favoravel Nao favoravel Totais
1 Novo 29 16 45
1 Padrao 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrao 24 21 45
Totais 61 29 90
Como o interesse concentra-se na associacao entre o tratamento e a
resposta, poder-se-ia pensar em somar as frequencias das linhas correspon-
dentes a cada tratamento obtendo-se, assim, uma unica tabela de con-
tingencia 2 × 2. Os pesquisadores notaram, contudo, que os pacientes
apresentaram comportamentos acentuadamente diferentes em cada centro
e que este deveria ser, portanto, considerado na analise. Uma analise es-
tratificada e, desse modo, a estrategia a ser adotada nesta situacao. Em
2.6. Analise Estratificada 53
tal analise, examina-se a associacao entre as duas variaveis de interesse
controlando-se, ou ajustando-se, para o efeito de centro.
Um teste para verificar a associacao entre as variaveis de interesse,
controlando (ou ajustando) por uma covariavel (fator), foi proposto por
Mantel-Haenszel (1959). Este teste e apresentado a seguir.
2.6.1 Teste de Mantel-Haenszel
Para obtencao da estatıstica de teste proposta por esses autores, considera-
se, para cada uma das q tabelas 2 × 2 que compoem a tabela geral, a
notacao apresentada na Tabela 2.11.
Tabela 2.11: h-esima tabela de contingencia 2 × 2.
ColunaLinha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh
Sob a hipotese nula de nao diferenca entre os tratamentos, o valor es-
perado de nh11 e sua respectiva variancia sao dados por:
E(Nh11 | H0) =(nh1+)(nh+1)
nh= mh11
V (Nh11 | H0) =(nh1+)(nh2+)(nh+1)(nh+2)
n2h(nh − 1)
= vh11.
Assim, a estatıstica de teste proposta por Mantel-Haenszel e dada por:
QMH =
(q∑
h=1
nh11 −q∑
h=1
mh11
)2
q∑
h=1
vh11
=
(q∑
h=1
(nh1+ nh2+)
nh(ph11 − ph21)
)2
q∑
h=1
vh11
,
54 Capıtulo 2. Estrategias de Analise Giolo, S.R.
em que phi1 = nhi1/nhi+. Sob H0, QMH tem aproximadamente uma dis-
tribuicao qui-quadrado com 1 grau de liberdade, quando∑q
h=1 nh for sufi-
cientemente grande (> 30). Em um certo sentido, essa estrategia de analise
e similar a uma analise de variancia de um experimento fatorial em blocos
aleatorizados.
QMH e eficaz para determinar padroes de associacao quando existir
uma forte tendencia de a maioria das diferencas (ph11 − ph21) apresentar o
mesmo sinal. Assim, QMH pode falhar em detectar a associacao quando as
diferencas estiverem em direcoes opostas (sinais diferentes) e apresentarem
magnitudes similares.
Mantel e Fleiss (1980) propuseram um criterio para determinar se a
aproximacao qui-quadrado e apropriada para a distribuicao da estatıstica
de Mantel-Haenszel para q tabelas. Este criterio e dado por:
CMF = min
{[q∑
h=1
mh11 −q∑
h=1
(nh11)L
],
[q∑
h=1
(nh11)U −q∑
h=1
(mh11)
]}> 5,
em que (nh11)L = max(0, (nh1+ − nh11)) e (nh11)U = min(nh+1, nh1+).
Para os dados da Tabela 2.10 tem-se: QMH = 18, 41 (p < 0,0001). As-
sim, existe uma forte associacao entre tratamento e a resposta do paciente,
ajustado para centro. Conclui-se, portanto, que o medicamento novo apre-
senta uma taxa de resposta favoravel significativamente maior do que a do
placebo. Ainda, CMF = min{
(52 − 24), (88 − 52)}
= 28 ≥ 5 mostrando
que, para esses dados, a aproximacao qui-quadrado e apropriada para QMH .
2.6.2 Medidas de associacao
Para um conjunto de q tabelas de contingencia 2 × 2 pode-se calcular a
media das odds ratios. Se as odds ratios forem homogeneas, o estimador de
2.6. Analise Estratificada 55
Mantel-Haenszel para a odds ratio comum e dado por:
ORMH =
∑qh=1
nh11 nh22
nh∑qh=1
nh12 nh21
nh
.
O intervalo de confianca a 100(1-α)% para a ORMH e:
(ORMH exp(zα/2 σ), ORMH exp(−zα/2 σ)
),
em que:
σ2 =
∑h(nh11 + nh22)(nh11 nh22)/n
2h
2(∑
h(nh11 nh22)/nh)2
+
∑h
[(nh11 + nh22)(nh12 nh21) + (nh12 + nh21)(nh11 nh22)
]/n2
h
2(∑
h(nh11 nh22)/nh)(∑
h(nh12 nh21)/nh)
+
∑h(nh12 + nh21)(nh12 nh21)/n
2h
2(∑
h(nh12 nh21)/nh)2.
No exemplo apresentado na Tabela 2.10, as odds ratios sao homogeneas
(OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada,
bem como seu respectivo I.C. ao nıvel de 95% de confianca, sao:
ORMH = 4, 028
IC(ORMH)(95)% = (2, 106; 7, 701).
Ajustado por centro, tem-se, portanto, que a chance (odds) dos pacientes
que receberam o novo tratamento apresentarem melhora e, em media, 4
vezes a chance (odds) dos que receberam placebo. Essa chance varia, ao
nıvel de 95% de confianca, entre 2,1 e 7,7 vezes.
Exemplo 2: Considere os dados do estudo clınico duplo-cego apresentado
na Secao 2.3, sendo que, agora, se deseja verificar a existencia de associacao
entre o tratamento e o grau de melhora, controlando-se, no entanto, pela
covariavel sexo. Os dados sao mostrados na Tabela 2.12.
56 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Tabela 2.12: Resultado de um estudo clınico realizado com pacientes de
ambos os sexos para investigar um tratamento para artrite reumatoide.
Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25
Note que os dados sao, na realidade, um conjunto de duas tabelas de
contingencia 2 × r, com r = 3, em que o interesse esta na associacao
entre o tratamento e o grau de melhora, ajustado para sexo. Como dito
anteriormente, a covariavel sexo tem, tambem aqui, o sentido de blocos, pois
nao ha o interesse em testa-la, mas sim controlar o seu efeito na analise da
associacao entre o tratamento e o grau de melhora.
Em sendo o grau de melhora uma resposta ordinal, uma vez que ne-
nhuma, alguma e acentuada sao gradacoes de melhora, Mantel (1963)
propos para a analise de um conjunto de tabelas 2 × r, quando a resposta e
ordinal, uma extensao da estrategia de Mantel-Haenszel, a qual e descrita
a seguir.
Considere ah = (ah1, ah2, · · · , ahr) o conjunto de escores assumidos
para os r nıveis da variavel resposta na h-esima tabela 2 × r. Assim,
considerando-se as duas tabelas 2 × 3 da Tabela 2.12, tem-se para o trata-
mento Ativo a seguinte soma de escores:
f+1 =2∑
h=1
3∑
j=1
(ahj)(nh1j) =2∑
h=1
(nh1+)(fh1),
2.6. Analise Estratificada 57
em que:fh1 =
3∑
j=1
ahj nh1j
nh1+
e o escore medio para o tratamento Ativo na h-esima tabela. Sob a hipotese
nula de nao associacao, f+1 tem valor esperado dado por:
E(f+1 | H0) =
2∑
h=1
(nh1+) (µh) = µ∗
e variancia,
V (f+1 | H0) =2∑
h=1
(nh1+) (nh − nh1+)
(nh − 1)vh = v∗,
em que µh =3∑
j=1
(ahj) (nh+j)
nhe vh =
3∑
j=1
(ahj − µh)2
(nh+j
nh
).
Se os tamanhos amostrais n+i+ =∑2
h=1
∑3j=1 nhij forem suficiente-
mente grandes, entao f+1 tera distribuicao aproximadamente normal e a
quantidade:
QSMH =(f+1 − µ∗)
2
v∗
distribuicao aproximadamente qui-quadrado com 1 grau de liberdade. A
estatıstica QSMH e conhecida como estatıstica escore medio de Mantel-
Haenszel estendida, sendo eficiente para detectar padroes de diferencas
quando (fh1 − fh2) apresentarem predominantemente o mesmo sinal.
Para os dados da Tabela 2.12, e considerando-se os escores a = (1, 2, 3),
obteve-se QSMH = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e
n+2+ = 43 sendo suficientemente grandes, asseguram que QSMH apresenta
uma boa aproximacao para a distribuicao qui-quadrado, de modo que e
possıvel concluir que o tratamento e o grau de melhora, controlando-se
para sexo, apresentam-se associados.
Exemplo 3: Considere o mesmo estudo sobre a existencia de associacao
entre a variavel resposta uso de tabaco e o fator consciencia do risco de
58 Capıtulo 2. Estrategias de Analise Giolo, S.R.
uso de tabaco pelo adolescente controlando, no entanto, pelo fator uso de
tabaco pelo pai. Os dados estao apresentados na Tabela 2.13.
Tabela 2.13: Resultado de um estudo sobre o uso de tabaco por adoles-
centes.
Pai usa Consciencia do risco Nao usa tabaco Usa tabaco Totais
Nao Mınima 59 25 84
Nao Moderada 169 29 198
Nao Substancial 196 9 205
Totais 424 63 487
Sim Mınima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87
Para esses dados, tanto a resposta (uso de tabaco) quanto o fator uso
de tabaco pelo pai, sao dicotomicas. O fator consciencia do risco e ordi-
nal. Tambem aqui, as tres variaveis podem ser consideradas ordinais, uma
vez que e comum associar os escores 0 e 1 as categorias de uma variavel
dicotomica.
Mantel (1963) propos tambem uma estatıstica de teste para a associacao
de duas variaveis que sao ordinais em um conjunto de tabelas s× 2, baseada
nos escores a e c assumidos para as colunas e linhas das tabelas. Esta
estatıstica e expressa por:
QCSMH =
[∑q
h=1 nh
(fh − E(fh | H0)
)]2
∑qh=1 n2
h var(fh | H0)=
[∑q
h=1 nh (vhc vha)1/2 rac.h
]2
∑qh=1
[n2
h vhc vha/(nh − 1)]
e e chamada estatıstica da correlacao de Mantel-Haenszel estendida. Esta
estatıstica segue a distribuicao qui-quadrado com 1 grau de liberdade quando
2.7. Concordancia entre observadores 59
o tamanho amostral combinado das tabelas s×2 for suficientemente grande,
isto e,∑q
h=1 nh ≥ 40.
Para os dados da Tabela 2.13, considerando-se os escores inteiros c =
(1, 2, 3), foi obtido QCSMH = 40,6639 (p < 0,0001). Existe, portanto, uma
forte associacao (correlacao) entre consciencia do risco de fumar e uso de
tabaco pelo adolescente, controlando-se pelo fator uso de tabaco pelo pai.
Ainda, rac.1 = −0, 265 e rac.2 = −0, 276, indicam correlacao negativa entre
consciencia do risco e uso de tabaco e, sendo assim, o uso de tabaco diminui
a medida que a consciencia do risco do adolescente aumenta.
2.6.3 Analise estratificada em tabelas s × r (s, r > 2)
Para um conjunto de tabelas s × r tem-se, para testar as associacoes de
interesse, as extensoes das estatısticas:
i) QMH , quando as variaveis forem nominais;
ii) QSMH , quando os categorias da variavel resposta forem ordinais e,
iii) QCSMH , quando ambas as variaveis forem ordinais.
2.7 Concordancia entre observadores
2.7.1 Estatıstica Kappa
Pesquisadores nas areas de medicina, epidemiologia, psiquiatria, psicologia
etc. tem, ou deveriam ter, consciencia de que o observador e uma possıvel
fonte de erro de medicao. Em muitos casos, diferentes observadores, ou um
mesmo observador em diferentes tempos, podem, por exemplo, examinar
um raio X, ou realizar um exame fısico, e chegarem a diferentes conclusoes
(diagnosticos). E importante, desse modo, avaliar a concordancia entre os
observadores. Os dados, em um estudo desse tipo, produzem, em geral,
60 Capıtulo 2. Estrategias de Analise Giolo, S.R.
uma tabela de contingencia s× s em que os nıveis nas colunas representam
a resposta de um observador e os nıveis nas linhas a resposta do outro obser-
vador. As caselas na diagonal representam os casos em que os observadores
concordam.
Certamente as estatısticas tratadas anteriormente para testar a asso-
ciacao, ou nao, entre as respostas dos observadores poderiam ser usadas.
Com os resultados obtidos nao se poderia, contudo, quantificar a con-
cordancia dos observadores. Medidas de concordancia foram, entao, pro-
postas. O coeficiente Kappa, proposto por Cohen (1960), e uma dessas
medidas e e definido por:
κ =Π0 − Πe
1 − Πe
sendo Π0 =∑s
i=1 pii =∑s
i=1nii
n a probabilidade de concordancia, com pii
a probabilidade de um indivıduo ser classificado na categoria i por ambos
os observadores e, Πe =∑s
i=1(pi+)(p+i) =∑s
i=1(ni+)
n(n+i)
n a probabili-
dade de concordancia sob H0, em que H0: nao ha concordancia entre os
observadores (independencia das duas classificacoes).
Como Π0 = 1 quando existir concordancia perfeita (todos os elementos
fora da diagonal iguais a zero), κ sera igual a 1 quando existir concordancia
perfeita entre os observadores e, κ sera igual a 0 quando a concordancia for
aquela esperada sob H0. Assim quanto mais proximo de 1 for o valor de κ,
maior concordancia existira entre os observadores. E possıvel obter valores
negativos para κ mas isto, raramente ocorre. Considera-se, em geral, κ <
0,4 como concordancia fraca, κ entre [0,4; 0,8) como concordancia moderada
e κ ≥ 0,8 como concordancia forte.
A variancia assintotica do coeficiente Kappa pode ser estimada por:
var(κ) =(A + B − C)
((1 − Πe)2 n),
em que A =∑
i pii
[1 −
((pi+) + (p+i)
)(1 − κ)
]2, C =
[κ − Πe(1 − κ)
]2e
2.7. Concordancia entre observadores 61
B = (1 − κ)2∑∑
i6=j pij
((p+1)(pj+)
)2. Um intervalo de confianca para κ
pode, portanto, ser obtido por:
κ ± zα/2
√var(κ)
em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.
2.7.2 Estatıstica Kappa ponderada
Para os casos em que a resposta e ordinal uma forma ponderada da es-
tatıstica Kappa foi proposta e esta e definida por:
κw =Π0(w) − Πe(w)
1 − Πe(w)=
∑si=1
∑sj=1 wij pij −
∑si=1
∑sj=1 wij(pi+)(p+j)
1 −∑si=1
∑sj=1 wij(pi+)(p+j)
,
em que wij sao pesos com valores entre 0 e 1. Um possıvel conjunto de
pesos e dado por:
wij = 1 −| escore(i) − escore(j) |escore(dim) − escore(1)
em que escore(i) e o escore para a i-esima linha, escore(j) e o escore para a
j-esima coluna e dim e a dimensao da tabela s × s.
A variancia assintotica do coeficiente Kappa ponderado pode ser esti-
mada por:
var(κw) =
∑i
∑j pij
[wij − (wi+ + w+j)(1 − κw)
]2−[κw − Πe(w)(1 − κw)
]2
(1 − Πe(w))2 n,
em que wi+ =∑
j(p+j)(wij) e w+j =∑
j(pi+)(wij).
Um intervalo de confianca para κw pode, portanto, ser obtido por:
κ(w) ± zα/2
√var(κw),
em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.
62 Capıtulo 2. Estrategias de Analise Giolo, S.R.
2.7.3 Exemplo
Os dados apresentados na Tabela 2.14 referem-se a classificacao de pacientes
com esclerose multipla, em 4 classes de diagnostico, por dois neurologistas.
Tabela 2.14: Concordancia de diagnosticos de neurologistas.
Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
Para esses dados, obteve-se:
κ =((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/1492)
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492))
κ = 0, 2079.
Ainda, var(κ) = 0, 00255 e, portanto, IC0,95(κ) = (0,109; 0,3068). De
forma analoga, κw = 0, 3797, var(κw) = 0, 002673 e IC0,95(κw) = (0,2785;
0,4810). Tais resultados indicam uma concordancia fraca entre os neurol-
ogistas. No software R, os intervalos de confianca diferem dos aqui apre-
sentados devido essencialmente as variancias assintoticas serem obtidas de
forma ligeiramente diferenciada.
2.8. Exercıcios 63
2.8 Exercıcios
1. Para os dados do exercıcio 1 do Capıtulo 1:
(a) Estabeleca as hipoteses de interesse e teste-as.
(b) Calcule uma medida de associacao apropriada a esse estudo, bem
como seu respectivo intervalo de confianca, e retire conclusoes.
2. Faca o mesmo para os dados dos exercıcios 2, 3, 4 e 5 do Capıtulo 1.
3. Testes sobre alergia a um medicamento foram realizados em um total
de 1247 pessoas no ano de 1993. Os resultados obtidos foram:
Tabela 2.15: Testes sobre alergia a um medicamento.
Resultado do Teste
Sexo + − Total
Feminino 21 538 559
Masculino 52 636 688
Total 73 1174 1247
Em 1994, estes testes foram realizados em um total de 3319 pessoas,
obtendo-se:
Tabela 2.16: Testes sobre alergia a um medicamento.
Resultado do Teste
Sexo + − Total
Feminino 47 1578 1625
Masculino 123 1571 1694
Total 170 3149 3319
(a) Pode-se dizer que sexo e um fator de risco? Ou seja, sera que pes-
soas do sexo feminino sao mais ou menos provaveis a terem alergia do
64 Capıtulo 2. Estrategias de Analise Giolo, S.R.
que as do sexo masculino? Analise adequadamente e tire conclusoes.
4. Com a finalidade de se verificar qual parte do menisco e mais atingida
por lesoes, 15 jogadores com idade entre 20 e 29 anos, que nunca apre-
sentaram sintomas de lesoes, tiveram ambos os meniscos submetidos
a uma avaliacao por ressonancia magnetica. O grau de lesao de cada
menisco foi avaliado em 4 regioes de acordo as posicoes (medial e
lateral) e segmentos (anterior e posterior). Problemas ocorreram na
ressonancia de 3 meniscos e, portanto, um total de 108 avaliacoes
foram consideradas para a analise. Os resultados dessas avaliacoes
encontram-se na Tabela 2.17. As comparacoes de interesse sao:
a) medial e lateral;
b) anterior e posterior;
c) medial anterior e medial posterior e,
d) lateral anterior e lateral posterior.
Tabela 2.17: Estudo sobre lesoes em meniscos.
Regioes dos meniscos Grau da lesao
Posicao Segmento 0 0,5 1 1,5 Total
Medial Anterior 20 7 0 0 27
Medial Posterior 5 11 11 0 27
Lateral Anterior 19 3 3 2 27
Lateral Posterior 17 6 4 0 27
0 = ausente, 0,5 = leve, 1 = moderada e 1,5 = grave
5. Num programa de reabilitacao de drogas, indivıduos do sexo mas-
culino com idade entre 25 e 34 anos eram, ao entrarem no programa,
classificados segundo duas categorias etnicas (A ou B). Um ano apos
2.8. Exercıcios 65
a entrada no programa, foi observado quantos tinham retornado ao
uso das drogas. Os resultados sao apresentados na Tabela 2.18:
Tabela 2.18: Estudo sobre reabilitacao de drogas.
Status apos um ano
Grupo Etnico reincidentes nao-reincidentes Total
A 47 43 90
B 26 21 47
Total 73 64 137
(a) Identifique o tipo de estudo realizado.
(b) Forneca um intervalo de confianca de 90% para o risco relativo
do grupo A se tornar reincidente quando comparado com o grupo B.
Interprete esse intervalo relacionando-o com a hipotese de que a razao
do retorno a droga e a mesma para os dois grupos etnicos.
6. Para comprovar se um programa informativo e de acompanhamento
de aleitamento materno e mais eficaz do que o tradicional, foi reali-
zado um estudo em duas maternidades de Curitiba-PR em que, na
maternidade H, adotou-se o referido programa e, na maternidade A,
manteve-se o programa tradicional. As maes foram acompanhadas
por um perıodo de 120 dias e dentre as que efetivamente permanece-
ram no programa obtiveram-se os resultados apresentados na Tabela
2.19. O programa e considerado mais eficaz se as maes, ao final
do perıodo estabelecido, continuaram amamentando as criancas com
leite materno. Na maternidade H iniciou-se com 150 maes e na mater-
nidade A com 44. Houve portanto, perda, considerada aleatoria, de
em torno 20% em cada grupo.
(a) Com os resultados obtidos o que diria a pesquisadora?
66 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Tabela 2.19: Estudo sobre aleitamento materno.
Amamentacao apos 120 dias
Maternidade Sim Nao Total
H 83 34 117
A 19 16 35
Total 102 50 152
Tese de Doutorado: Dra. Marizilda M. Gravioff
7. Para verificar a severidade de nauseas devido ao uso do medicamento
cisplatinum, um estudo foi realizado obtendo-se:
Tabela 2.20: Estudo sobre a severidade de nauseas.
Grau da severidade
Uso do cisplatinum 0 1 2 3 4 5 Total
Sim 7 7 3 12 15 14
Nao 43 39 13 22 15 29
(0 = ausente, ...., 5 = forte)
(a) E possıvel concluir que o medicamento provoca uma severidade
mais acentuada de nauseas? Apresente testes de hipoteses e resulta-
dos.
(b) Considere os pesos com espacamentos de 0,5 em vez de 1. As
conclusoes se alteram?
8. Os dados, a seguir, referem-se a um estudo realizado sobre a presenca
de resfriado em criancas de duas regioes (urbana e rural). Pesquisadores
visitaram as criancas diversas vezes e observaram se elas tinham, ou
nao, quaisquer sintomas de resfriado. A resposta medida foi o numero
de perıodos em que cada crianca exibiu esses sintomas.
(a) Considerando somente a tabela das criancas do sexo feminino,
2.8. Exercıcios 67
Tabela 2.21: Estudo sobre resfriado em criancas.
Perıodos com resfriado
Sexo Regiao 0 1 2 Total
Feminino Urbana 45 64 71 180
Feminino Rural 80 104 116 300
Masculino Urbana 84 124 82 290
Masculino Rural 106 117 87 310
Stokes (1986).
teste a existencia de associacao entre regiao e perıodos com resfriado.
(b) Faca o mesmo considerando somente as criancas do sexo mas-
culino.
(c) Teste a existencia de associacao entre regiao e perıodos com res-
friado, controlando para a variavel sexo.
(d) Qual a sua conclusao?
9. Dois adesivos, singlebonde e Panavia F, usados em restauracoes denta-
rias foram pesquisados a fim de avaliar se o grau de infiltracao com
estes adesivos diferem. Para os 14 dentes utilizados no experimento
(cada dente recebeu em uma das metades o adesivo singlebonde e na
outra metade o Panavia F), tres examinadores atribuıram notas de 0
a 4 para o grau de infiltracao observado (4 corresponde ao maior grau
de infiltracao). Para os resultados das avaliacoes dos examinadores
apresentados na Tabela 2.22, responda:
(a) O grau de infiltracao entre os adesivos difere?
(b) O que diria a respeito do grau de concordancia entre as avaliacoes
realizadas pelos tres examinadores, seja para o adesivo singlebonde,
seja para o Panavia F.
68 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Tabela 2.22: Estudo sobre a comparacao de dois adesivos.
Examinador 1 Examinador 2 Examinador 3
Dentes A1 A2 A1 A2 A1 A2
1 1 3 1 4 1 4
2 4 1 4 4 4 1
3 1 0 1 1 1 1
4 4 0 4 0 4 0
5 0 1 0 4 0 1
6 0 0 0 0 0 0
7 1 4 1 2 1 2
8 1 0 1 1 2 1
9 4 3 4 4 4 3
10 2 4 3 2 2 4
11 1 1 1 1 1 2
12 0 0 1 1 1 0
13 4 3 4 1 1 3
14 0 1 0 2 0 2
Fonte: Bajah Nasser Neto - Graduando Odontologia, UFPR, 2003
A1 = Singlebonde e A2 = Panavia F
10. (a) Para avaliar a concordancia dos diagnosticos emitidos por medicos
residentes e medicos cursando especializacao, quanto ao grau de gravi-
dade de criancas atendidas na Dermatopediatria do HC de Curitiba-
PR, foi realizada uma pesquisa com 100 criancas, selecionadas aleato-
riamente, obtendo-se os resultados apresentados na Tabela 2.23. O
que e possıvel concluir a respeito da concordancia dos diagnosticos
emitidos por esses profissionais?
(b) Neste mesmo experimento, o grau de resolucao (ou seja, a decisao
dos medicos residentes e especializandos) foi tambem avaliado quanto
a concordancia. Dos resultados apresentados na Tabela 2.24, o que
e possıvel concluir a respeito da concordancia das decisoes tomadas
2.8. Exercıcios 69
Tabela 2.23: Estudo sobre a concordancia de diagnosticos.
Gravidade - Especializando
Gravidade - Residente Pouco Moderada Muita
Pouco 89 1 0
Moderada 5 3 1
Muita 1 0 0
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.
por esses profissionais?
Tabela 2.24: Estudo sobre a concordancia de diagnosticos.
Decisao - Especializando
Dermato Dermato
Decisao - Residente Pediatria urgente nao urgente
Pediatria 10 0 0
Dermato urgente 1 1 1
Dermato nao urgente 36 1 50
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.
(c) Comparando, ainda, o grau de preocupacao da mae com o grau
de gravidade da doenca, segundo os residentes e, tambem, segundo os
especializandos, obtiveram-se os resultados apresentados nas Tabelas
2.25 e 2.26. Conclua a respeito da concordancia entre:
(c1) o grau de preocupacao da mae e o grau de gravidade da doenca
segundo os residentes e,
(c2) o grau de preocupacao da mae e o grau de gravidade da doenca
segundo os especializandos.
11. Procure artigos, textos ou similares que tratem a aplicacao de medidas
tais como: especificidade, sensibilidade, valor preditivo etc.
70 Capıtulo 2. Estrategias de Analise Giolo, S.R.
Tabela 2.25: Estudo sobre a concordancia de diagnosticos.
Gravidade - Residente
Preocupacao - Mae Pouco Moderada Muita
Pouco 1 0 5
Moderada 1 1 6
Muita 8 2 73
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.
Tabela 2.26: Estudo sobre a concordancia de diagnosticos.
Gravidade - Especializando
Preocupacao - Mae Pouco Moderada Muita
Pouco 6 0 0
Moderada 7 0 1
Muita 80 3 0
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.
Sugestao: PINHO, A. A. Validade da citologia cervicovaginal de lesoes pre-
neoplasicas e neoplasicas de colo de utero. Jornal Brasileiro de Patologia e
Medicina Laboratorial, v.38, n.3, p.225-231, 2002.
Capıtulo 3
Regressao Logıstica
3.1 Introducao
A regressao logıstica e frequentemente apropriada para a analise de ex-
perimentos que apresentam variaveis resposta categoricas em que o inte-
resse seja o de descrever a relacao entre a variavel resposta e um conjunto
de variaveis explanatorias (covariaveis). Quando a variavel resposta e di-
cotomica (somente duas categorias), tem-se a, assim denominada, regressao
logıstica dicotomica. Para variaveis resposta com mais do que duas catego-
rias, a denominacao usada e regressao logıstica politomica. As covariaveis,
em regressao logıstica, podem ser categoricas ou contınuas. Variaveis dum-
mies sao usadas para que as covariaveis categoricas sejam consideradas em
um modelo de regressao logıstica. Nas Secoes 3.2 e 3.3, sao apresentadas
as regressoes logıstica dicotomica e politomica.
3.2 Regressao Logıstica Dicotomica
Considere, como exemplo inicial, os dados da Tabela 3.1 em que a relacao
entre idade e doenca coronaria esta sendo estudada. Dos resultados apre-
71
72 Capıtulo 3. Regressao Logıstica Giolo, S.R.
sentados nesta tabela, observa-se que com o acrescimo da idade, cresce
tambem a probabilidade de ocorrencia de doenca coronaria. Cconsiderando-
se o ponto medio de cada intervalo de idade, a Figura 3.1 apresenta grafi-
camente tais resultados.
Tabela 3.1: Dados sobre doenca coronaria por intervalos de idade.
Doenca coronaria
Idade (X = x) Nao (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
30 40 50 60
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Idade(em anos)
E[Y
|x]
Figura 3.1: Valor esperado de Y dado x = idade versus idade.
3.2. Regressao Logıstica Dicotomica 73
Uma diferenca importante entre o modelo de regressao logıstica e o mo-
delo de regressao linear pode ser notada e, esta, diz respeito a natureza
da relacao entre a variavel resposta e as variaveis independentes. Em qual-
quer problema de regressao a quantidade sendo modelada e o valor medio da
variavel resposta dado os valores das variaveis independentes. Esta quan-
tidade e denominada media condicional e e expressa por E(Y | x), em que
Y denota a variavel resposta e x denota os valores das variaveis indepen-
dentes. Em regressao linear, ∞ < E(Y | x) < + ∞ e, em regressao logıstica,
devido a natureza da variavel resposta, 0 ≤ E(Y | x) ≤ 1, como pode ser
observado na Figura 3.1. Observe, ainda, a partir desta mesma figura, que
a mudanca em E(Y | x) por unidade de mudanca em x torna-se progres-
sivamente menor quando E(Y | x) torna-se proxima de zero ou de um. A
curva em forma de “S” lembra a distribuicao acumulada de uma variavel
aleatoria, o que motivou o uso da distribuicao logıstica para fornecer um
modelo para E(Y | x).
A funcao de distribuicao logıstica e descrita por:
F (x) =1
1 + exp{−x} =exp{x}
1 + exp{x} ,
em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua
correspondente representacao grafica e mostrada na Figura 3.2.
−20 −10 0 10 20
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x
F(x)
Figura 3.2: Funcao de distribuicao logıstica.
74 Capıtulo 3. Regressao Logıstica Giolo, S.R.
A funcao de distribuicao logıstica toma valores entre zero e um; assume
o valor zero em uma parte do domınio das variaveis explicativas, um em
outra parte do domınio e cresce suavemente na parte intermediaria pos-
suindo uma particular curva em forma de “S”. Se comparada com a da
Figura 3.1 pode-se notar as similaridades. Outras funcoes de distribuicao
possuem as caracterısticas mencionadas. No entanto, a funcao logıstica foi
escolhida basicamente por duas razoes: (i) do ponto de vista matematico
e extremamente flexıvel e facil de ser usada e, (ii) conduz a interpretacoes
simples. Para descrever a variacao entre os θ(x) = E(Y | x), foi, entao,
proposto o modelo de regressao logıstica expresso por:
θ(x) = P (Y = 1 | x) =
exp
{β0 +
p∑
k=1
βk xk
}
1 + exp
{β0 +
p∑
k=1
βk xk
} , (3.1)
em que Y = 1 significa a presenca da resposta, x representa as covariaveis
(fatores de risco), isto e, x = (x1, x2, · · · , xp), o parametro β0 e o intercepto,
e βk (k = 1, · · · , p) sao os p parametros de regressao. Observe que este
modelo retorna uma estimativa da probabilidade do indivıduo apresentar a
resposta dado que o mesmo possui, ou nao, determinados fatores de risco.
Consequentemente,
1 − θ(x) =
exp
{−(β0 +
p∑
k=1
βk xk
)}
1 + exp
{−(β0 +
p∑
k=1
βk xk
)}
=1
1 + exp
{β0 +
p∑
k=1
βk xk
}
retorna uma estimativa da probabilidade do indivıduo nao apresentar a
resposta dado que o mesmo possui, ou nao, determinados fatores de risco.
3.2. Regressao Logıstica Dicotomica 75
Observe, ainda, que fazendo-se:
log
(θ(x)
1 − θ(x)
)= β0 +
p∑
k=1
βk xk
tem-se um modelo linear para o logito, isto e, para o logaritmo neperiano
da razao entre θ(x) e 1 − θ(x). O logito e, na realidade, o logaritmo de
uma odds e, este fato, permitira que odds ratios sejam obtidas a partir do
modelo (sera tratado em detalhes mais adiante).
No contexto de modelos lineares generalizados, uma funcao, monotona
e derivavel, que relaciona a media ao preditor linear e denominada funcao
de ligacao. Assim, η = log(
θ(x)1−θ(x)
), e a funcao de ligacao canonica para o
modelo binomial.
Alem de apresentar uma forma linear, o modelo logıstico apresenta a
propriedade util de que todos os valores (β0 +∑p
k=1 βkxk), pertencentes
ao intervalo (-∞, + ∞), tem um correspondente, no intervalo (0, 1), para
θ(x). Probabilidades preditas por este modelo sao, desse modo, restritas a
assumirem valores entre 0 e 1. O modelo, portanto, nao produz probabili-
dades negativas, bem como probabilidades maiores que 1.
Outra diferenca importante entre o modelo de regressao linear e o mo-
delo de regressao logıstica, refere-se a distribuicao condicional da variavel
resposta. No modelo de regressao linear e assumido que uma observacao
da variavel resposta pode ser expressa por y = E(Y | x) + ε, em que a
quantidade ε e chamada erro e e assumida ter distribuicao normal com
media zero e variancia constante. Este nao e o caso quando a resposta e
dicotomica (Y = 1 ou 0). Nesta situacao, ε tem distribuicao com media
zero e variancia dada por θ(x)(1 − θ(x)
), isto e, a distribuicao condicional
da variavel resposta segue uma distribuicao binomial com probabilidade
dada pela media condicional θ(x).
76 Capıtulo 3. Regressao Logıstica Giolo, S.R.
3.2.1 Estimacao dos parametros
A estimacao dos parametros em regressao logıstica e feita, em geral, pelo
metodo de maxima verossimilhanca. Para aplicacao deste metodo e neces-
sario, inicialmente, construir a funcao de verossimilhanca, a qual expressa
a probabilidade dos dados observados como uma funcao dos parametros
desconhecidos. Os estimadores de maxima verossimilhanca dos parametros
serao os valores que maximizam esta funcao.
Para encontrar esses valores no modelo de regressao logıstica, considere
a variavel resposta Y codificada como zero ou um. Da expressao (3.1)
pode-se, entao, obter a probabilidade condicional de que Y seja igual a 1
dado x, isto e, θ(x) = P(Y = 1 | x) e, em consequencia, a probabilidade
condicional de que Y seja igual a zero dado x, isto e, 1− θ(x) = P(Y = 0 |x). Assim, θ(xi) sera a contribuicao para a funcao de verossimilhanca dos
pares (yi, xi) em que yi = 1 e 1 − θ(xi), a contribuicao dos pares em que
yi = 0.
Assumindo-se que as observacoes sao independentes, tem-se a seguinte
expressao para a funcao de verossimilhanca:
L(β) =n∏
i=1
[θ(xi)
]yi[1 − θ(xi)
]1−yi
. (3.2)
As estimativas de β serao os valores que maximizam a funcao de verossi-
milhanca dada em (3.2). Algebricamente e mais facil trabalhar com o loga-
ritmo desta funcao, isto e, com:
l(β) = log L(β) =n∑
i=1
yi log[θ(xi)
]+ (1 − yi) log
[1 − θ(xi)
].
Para obter os valores de β que maximizam l(β) basta diferenciar a
respectiva funcao com respeito a cada parametro βj (j = 0, 1,.., p) obtendo-
3.2. Regressao Logıstica Dicotomica 77
se, assim, o sistema de p + 1 equacoes,
n∑
i=1
[yi − θ(xi)
]= 0
n∑
i=1
xij
[yi − θ(xi)
]= 0 j = 1, · · · , p
que, ao serem igualadas a zero, produzem como solucao as estimativas de
maxima verossimilhanca de β. Os valores preditos pelo modelo de regressao
logıstica sao obtidos substituindo-se as estimativas β em (3.1).
As p + 1 equacoes sao chamadas equacoes de verossimilhanca e por
serem nao-lineares nos parametros βj (j = 0, 1,.., p), requerem metodos
especiais para suas solucoes. Os metodos iterativos de Newton-Raphson
e o escore de Fisher sao algoritmos numericos comumente utilizados com
esta finalidade. Uma discussao geral de metodos implementados em varios
softwares pode ser encontrada em McCullagh e Nelder (1983).
O metodo de estimacao das variancias-covariancias dos coeficientes es-
timados seguem da teoria de estimacao de maxima verossimilhanca, a qual
estabelece que os estimadores sao obtidos pela matriz das derivadas par-
ciais de segunda ordem do logaritmo da funcao de verossimilhanca. Essas
derivadas tem a seguinte forma geral:
∂2 log L(β)
∂β2j
= −n∑
i=1
x2ij θ(xi)
(1 − θ(xi)
)(3.3)
∂2 log L(β)
∂βj∂βl= −
n∑
i=1
xij xil θ(xi)(1 − θ(xi)
)(3.4)
para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos apresentados nas equacoes
(3.3) e (3.4) sera denotada por I(β) e e chamada matriz de informacao.
As variancias e covariancias dos coeficientes estimados serao obtidas pela
inversa dessa matriz e sera denotada por Σ(β) = [I(β)]−1. O j-esimo
78 Capıtulo 3. Regressao Logıstica Giolo, S.R.
elemento da diagonal dessa matriz, denotado por σ2(βj), corresponde a
variancia de βj e, o elemento na j-esima linha e l-esima coluna, dessa
matriz, denotado por σ(βj , βl), corresponde a covariancia entre βj e βl. Os
estimadores das variancias e covariancias, denotados por Σ(β), sao obtidos
por avaliar Σ(β) em β.
Em notacao matricial, a matriz de informacao I(β) = X’VX, em que
X e uma matriz com n linhas e p + 1 colunas contendo um vetor de uns
e as covariaveis dos indivıduos e V e uma matriz diagonal de n linhas e n
colunas com elementos θ(x)(1 − θ(x)) na diagonal. Isto e,
X =
1 x11 · · · x1p
1 x21 · · · x2p
......
......
1 xn1 · · · xnp
e
V =
θ(x1)(1 − θ(x1)) 0 · · · 0
0 θ(x1)(1 − θ(x2)) · · · 0...
......
...
0 0 · · · θ(xn)(1 − θ(xn))
.
Considerando-se o ponto medio para cada intervalo de idade (25, 32,
38, 43, 47, 53, 57 e 65) e ajustando-se o modelo de regressao logıstica para
os dados da Tabela 3.1, foram obtidas as estimativas β0 = -5,123 (s.e. =
1,11) e β1 = 0,1058 (s.e. = 0,023).
3.2.2 Significancia das variaveis no modelo
Apos obtencao das estimativas dos coeficientes βj (j = 0, 1,..., p), faz-se
necessario avaliar a adequacao do modelo ajustado.
3.2. Regressao Logıstica Dicotomica 79
O primeiro interesse esta em acessar a significancia das covariaveis pre-
sentes no modelo. O princıpio em regressao logıstica e o mesmo usado em
regressao linear, ou seja, comparar os valores observados da variavel res-
posta com os valores preditos pelos modelos com, e sem, a covariavel sob
investigacao.
Em regressao linear esta comparacao e feita por meio de uma tabela
chamada analise de variancia, em que a atencao e dada a soma de quadrados
devido a regressao. Um valor grande da soma de quadrados de regressao
sugere que pelo menos uma, ou talvez todas as variaveis independentes
sejam importantes. Em regressao logıstica a comparacao pode ser feita
utilizando-se testes tais como, dentre outros, o teste da razao de verossimi-
lhancas, em que a funcao de verossimilhanca do modelo sem as covariaveis
(LSC) e comparada com a funcao de verossimilhanca do modelo com as
covariaveis (LCC). Formalmente, o teste e expresso por:
TRV = −2 log
[verossimilhanca do modelo sem as covariaveis
verossimilhanca do modelo com as covariaveis
]
= −2 log
[LSC
LCC
]= 2 log(LCC) − 2 log(LSC).
Note, que a razao das verossimilhancas e multiplicada por −2 log. Isto
e feito para que se obtenha uma quantidade cuja distribuicao e conhecida
(no caso a distribuicao qui-quadrado) de modo que, tal quantidade, possa
ser usada para a realizacao de testes de hipoteses. Em regressao logıstica
a estatıstica:
D = −2 log
[verossimilhanca do modelo sob estudo
verossimilhanca do modelo saturado
]
e chamada deviance, em que, para um melhor entendimento, e conceitual-
mente util pensar um valor observado da variavel resposta como sendo
tambem um valor predito resultante do modelo saturado. Um modelo
80 Capıtulo 3. Regressao Logıstica Giolo, S.R.
saturado e aquele que contem tantos parametros quantos dados existirem.
Assim, a estatıstica TRV , apresentada anteriormente, pode ser vista como
a diferenca de duas deviances, isto e,
TRV = Deviance do modelo sem covariaveis − Deviance do modelo com covariaveis
= −2 log
[verossimilhanca do modelo sem covariaveis
verossimilhanca do modelo saturado
]−
[− 2 log
[verossimilhanca do modelo com as covariaveis
verossimilhanca do modelo saturado
]],
o que resulta em:
TRV = 2 log(LCC) − 2 log(LSC).
Sob a hipotese nula de que os p coeficientes associados as covariaveis no
modelo sao iguais a zero, a distribuicao de TRV sera Qui-Quadrado com p
graus de liberdade. Rejeicao da hipotese nula, neste caso, tem interpretacao
analoga aquela em regressao linear, ou seja, pode-se concluir que pelo menos
um, ou talvez todos os p coeficientes, sejam diferentes de zero.
3.2.3 Analise de deviance e selecao de modelos
Uma tabela, similar a obtida em regressao linear, para a analise de de-
viance (ANODEV) pode ser construıda. A ANODEV e uma generalizacao
da analise de variancia visando obter, a partir de uma sequencia de modelos
encaixados, os efeitos de fatores, covariaveis e suas interacoes.
Para uma sequencia de modelos encaixados, tendo estes a mesma dis-
tribuicao e funcao de ligacao, utiliza-se a deviance como uma medida de dis-
crepancia do modelo e pode-se, entao, construir uma tabela das diferencas
de deviance, como, por exemplo, a apresentada na Tabela 3.2, em que e
considerado um experimento com duas covariaveis contınuas X1 e X2.
A partir das deviances e suas diferencas, pode-se, usando-se o teste da
razao de verossimilhancas descrito anteriormente, testar a significancia da
3.2. Regressao Logıstica Dicotomica 81
Tabela 3.2: Tabela de diferencas de deviance para um experimento com duas
covariaveis contınuas X1 e X2.
Modelo g.l. deviance diferencas diferenca g.l.
residual de deviance
Nulo s−1 DN
X1 s−2 DX1DN - DX1
1
X1 e X2 s−3 DX1+X2DX1
- DX1+X21
X1, X2 e X1 ∗ X2 s−4 DX1∗X2DX1+X2
- DX1∗X21
Saturado 0 0
g.l. = s − p, sendo s = no. de subpopulacoes (linhas da tabela) e p = no. de parametros.
inclusao de determinadas covariaveis, bem como suas interacoes no modelo.
Em outras palavras, pode-se avaliar o quanto da variacao total e explicada
pela inclusao de termos no modelo.
Para o exemplo apresentado na Tabela 3.1, em que se deseja verificar a
relacao entre idade e doenca coronaria, tem-se:
Tabela 3.3: Tabela de diferenca de deviances para os dados de doenca coronaria.
Modelo g.l. Deviance residual Dif. Deviance Diferenca g.l.
Nulo 7 28,7015
X1: idade 6 0,5838 28,1177 1
bem como a correspondente analise de deviance (ANODEV), apresentada
na Tabela 3.4.
Portanto, TRV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se
a hipotese H0: β1 = 0, concluindo-se que idade esta associada a doenca
coronaria e deve, portanto, permanecer no modelo.
82 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Tabela 3.4: Analise de deviance para os dados de doenca coronaria.
Causa de variacao g.l. Deviances TRV valor p
Regressao 1 28,1177 28,1177 1,142e-07
Resıduos 6 0,5838
Total 7 28,7015
3.2.4 Qualidade do modelo ajustado
Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o
quao bem ele se ajusta aos dados, ou seja, quao proximo os valores preditos
pelo modelo encontram-se de seus correspondentes valores observados. As
estatısticas de teste usadas para esta finalidade sao, em geral, denominadas
estatısticas de qualidade do ajuste e comparam, de alguma maneira
apropriada, as diferencas entre os valores observados e preditos.
Duas estatısticas tradicionais de qualidade do ajuste sao: a qui-quadrado
de Pearson, QP , que e baseada nos resıduos de Pearson e a qui-quadrado
da razao de verossimilhancas, QL, tambem conhecida como deviance por
basear-se nos resıduos deviance, e estas sao expressas, respectivamente, por:
QP =∑
i,j
(nij − mij
)2
mije
QL =∑
i,j
2nij log
(nij
mij
),
em que mij sao as quantidades preditas pelo modelo e definidas por:
mij = ni+ θ(x) para j = 1
mij = ni+ (1 − θ(x)) para j = 2.
Sob a hipotese H0 de que o modelo se ajusta bem aos dados, QP e QL
sao aproximadamente qui-quadrado com graus de liberdade igual ao numero
3.2. Regressao Logıstica Dicotomica 83
de linhas na tabela de dados menos o numero de parametros no modelo.
Na pratica, essas estatısticas serao aproximadamente qui-quadrado se:
• cada ni+ > 10
• 80% das contagens preditas sao pelo menos 5
• todas as outras contagens esperadas > 2, e nenhuma contagem e 0.
Para o modelo ajustado aos dados de doenca coronaria obtiveram-se:
Qp = 0.59 (p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6).
Conclui-se, desses resultados, pela nao rejeicao da hipotese H0 e, portanto,
pode-se dizer que o modelo escolhido se ajusta satisfatoriamente aos dados.
3.2.5 Diagnostico da regressao logıstica
As estatısticas Qp e QL, descritas na secao anterior e usadas para verificar
a qualidade de ajuste do modelo de regressao logıstica, fornecem um unico
numero o qual resume a concordancia entre os valores observados e os
ajustados. O problema com essas estatısticas e que um unico numero e
usado para resumir uma quantidade consideravel de informacao. Portanto,
antes de considerar que o modelo ajustado e satisfatorio, e importante que
outras medidas sejam examinadas para que se possa averiguar se o ajuste
e valido sobre todas as combinacoes das categorias das covariaveis.
Pregibon (1981) estendeu os metodos de diagnostico de regressao li-
near para a regressao logıstica e argumenta que, como as estatısticas qui-
quadrado de Pearson (Qp) e deviance (QL) sao duas medidas usadas para
verificar a qualidade do modelo ajustado, faz sentido analisar os compo-
nentes individuais dessas estatısticas, uma vez que estes componentes sao
funcoes dos valores observados e preditos pelo modelo
Assim, se em uma tabela de contingencia s × 2, tem-se para cada uma
das s linhas ni+ sujeitos dos quais ni1 apresentam a resposta de interesse
84 Capıtulo 3. Regressao Logıstica Giolo, S.R.
(sucesso) e θi1 denota a probabilidade predita de sucesso para a i-esima
linha (grupo), define-se o i-esimo resıduo por:
ci =ni1 − ((ni+) θi1)√(ni+) θi1 (1 − θi1)
i = 1, · · · , s.
Esses resıduos sao conhecidos como resıduos de Pearson, uma vez que
a soma deles ao quadrado resulta em QP . Exame dos valores residuais ci
auxiliam a determinar quao bem o modelo se ajusta aos grupos individuais.
Frequentemente, resıduos excedendo o valor |2, 0| (ou |2, 5|) indicam falta de
ajuste. Similarmente, a deviance residual e um componente da estatıstica
deviance e e expressa por:
di = sinal(ni1 − yi1)
[2 ni1 log
(ni1
yi1
)+ 2(ni+ − ni1) log
(ni+ − ni1
ni+ − yi1
)]1/2
,
em que yi1 = (ni+) θi1. A soma das deviances residuais ao quadrado resulta
na estatıstica deviance QL. A partir do exame dos resıduos deviance pode-
se observar a presenca de resıduos nao usuais (demasiadamente grandes),
bem como a presenca de outliers ou, ainda, padroes sistematicos de variacao
indicando, possivelmente, a escolha de um modelo nao muito adequado.
Para os dados da Tabela 3.1 obtiveram-se os resıduos de Pearson e
deviance apresentados a seguir.
Covariavel Resıduos Resıduos
IDADE Pearson Deviance
1 25.0000 0.2677 | * | 0.2570 | * |
2 32.0000 -0.1763 | * | -0.1791 | * |
3 38.0000 0.0070 | * | 0.0070 | * |
4 43.0000 -0.2169 | * | -0.2182 | * |
5 47.0000 -0.0051 | * | -0.0051 | * |
6 53.0000 0.0375 | * | 0.0376 | * |
7 57.0000 0.4774 | * | 0.4870 | * |
8 65.0000 -0.4662 |* | -0.4465 | * |
3.2. Regressao Logıstica Dicotomica 85
Uma analise visual desses resıduos mostra que os mesmos apresentam-se
satisfatorios, podendo-se, entao, concluir que o modelo escolhido ajusta-se
bem aos dados.
As estatısticas de diagnostico apresentadas permitem, ao analista, iden-
tificar padroes de covariaveis que estao com um ajuste pobre. Apos estes
padroes serem identificados, pode-se, entao, avaliar a importancia que eles
tem na analise. Esta avaliacao e similar ao que e feito em regressao linear,
ou seja, retira-se o padrao com ajuste pobre e verifica-se o impacto causado
nas estimativas dos parametros, bem como nas estatısticas QP e QL usadas
para verificar a qualidade de ajuste do modelo.
3.2.6 O modelo ajustado e interpretacoes
Para os dados da Tabela 3.1 foi ajustado o modelo:
θ(x) =
exp
{− 5, 123 + 0, 1058 ∗ idade
}
1 + exp
{− 5, 123 + 0, 1058 ∗ idade
} , (3.5)
que, juntamente com os valores observados, encontra-se representado grafi-
camente na Figura 3.3.
30 40 50 60
0.0
0.2
0.4
0.6
0.8
idade
E(Y
|x)
Figura 3.3: Valores observados e valores preditos a partir do modelo.
86 Capıtulo 3. Regressao Logıstica Giolo, S.R.
A partir do modelo (3.5), diversas estimativas podem ser obtidas, tais
como, por exemplo, as apresentadas na Tabela 3.5.
Tabela 3.5: Estimativas obtidas do modelo ajustado.
Idade (xi) θ(xi) 1 − θ(xi) logito
26 0,0853 0,9147 -2,3724
27 0,0939 0,9061 -2,2669
65 0,8524 0,1476 1,7535
Observe que exp{logito(θ(xi))} =θ(xi)
(1 − θ(xi))= odds (tratada anterior-
mente). Pode-se, entao, obter a odds ratio para, por exemplo, indivıduos
com idades 65 e 26 anos, isto e,
OR =odds(65 anos)
odds(26 anos)=
exp{1, 7535}exp{−2, 3724} = exp{4, 126} = 61, 9
concluindo-se, assim, que a odds de indivıduos com 65 anos apresentarem
doenca coronaria e 61,9 vezes a dos indivıduos com 26 anos. Note, que
OR = exp{4, 126} = exp{(65 − 26) β1}.
3.2.7 Exemplos
A seguir, sao apresentados alguns exemplos que ilustram o uso da regressao
logıstica dicotomica.
Exemplo 1: Os dados apresentados na Tabela 3.6 referem-se a um es-
tudo realizado com pacientes que procuraram uma determinada clınica para
serem submetidos a um eletrocardiagrama (ECG). A variavel resposta, pre-
senca ou ausencia de doenca coronaria arterial, bem como as covariaveis
sexo e ECG, sao dicotomicas.
Assumindo, para cada linha da tabela, que a variavel resposta apresenta
distribuicao binomial de parametros (ni+, θi1(x)), i = 1, . . . , 4, tem-se as-
3.2. Regressao Logıstica Dicotomica 87
Tabela 3.6: Estudo sobre doenca coronaria arterial.
Sexo (x1) ECG (x2) Presenca doenca Ausencia doenca Total
Feminino < 0,1 ST 4 11 15
Feminino ≥ 0,1 ST 8 10 18
Masculino < 0,1 ST 9 9 18
Masculino ≥ 0,1 ST 21 6 27
sociado a tabela, o modelo produto de binomiais independentes. Para des-
crever a variacao entre os θi1(x), a sugestao e ajustar o modelo de regressao
logıstica, expresso por:
θi1(x) =
exp
{β0 + β1 x1 + β2 x2
}
1 + exp
{β0 + β1 x1 + β2 x2
} ,
em que β0 e uma constante desconhecida e, β1 e β2, sao parametros des-
conhecidos associados as covariaveis sexo e ECG, respectivamente.
Tem-se, assim, que:
log
(θi1(x)
1 − θi1(x)
)= logit[θi1(x)] = β0 + β1 x1 + β2 x2, (3.6)
o que, matricialmente, corresponde a:
logit(θ11)
logit(θ21)
logit(θ31)
logit(θ41)
=
β0
β0 + β2
β0 + β1
β0 + β1 + β2
=
1 0 0
1 0 1
1 1 0
1 1 1
β0
β1
β2
.
Esse tipo de parametrizacao e frequentemente denominada parametriza-
cao de efeito incremental. Como a combinacao: sexo feminino e ECG < 0,1
88 Capıtulo 3. Regressao Logıstica Giolo, S.R.
sao descritas pelo intercepto, esse grupo e conhecido, nessa parametrizacao,
como a combinacao de referencia. O parametro β1 e o incremento no logito
para o sexo masculino e β2 e o incremento no logito para ECG ≥ 0,1. As
probabilidades e odds para esse modelo sao, portanto, as apresentadas na
Tabela 3.7.
Tabela 3.7: Probabilidades e odds para o modelo com X1 e X2.
Sexo (x1) ECG (x2) θi1 Odds de doenca
Feminino < 0,1 eβ0/(1 + eβ0) eβ0
Feminino ≥ 0,1 eβ0+β2/(1 + eβ0+β2) eβ0+β2
Masculino < 0,1 eβ0+β1/(1 + eβ0+β1) eβ0+β1
Masculino ≥ 0,1 eβ0+β1+β2/(1 + eβ0+β1+β2) eβ0+β1+β2
Pode-se, desse modo, obter a odds ratio para pacientes do sexo mas-
culino versus as do sexo feminino por:
eβ0+β1
eβ0= eβ1 ou
eβ0+β1+β2
eβ0+β2= eβ1 .
Similarmente, a odds ratio para ECG ≥ 0, 1 versus ECG < 0, 1 e deter-
minada por:
eβ0+β1+β2
eβ0+β1= eβ2 ou
eβ0+β2
eβ0= eβ2 .
Em regressao logıstica, as odds ratios sao, portanto, funcoes dos parame-
tros do modelo. Para modelos com somente os efeitos principais, cada odds
que compoe a odds ratio, e obtida simplesmente exponenciando as esti-
mativas dos parametros. Contudo, diferentemente das odds ratios obtidas
de tabelas 2 × 2, estas sao ajustadas para todas as outras covariaveis no
modelo.
3.2. Regressao Logıstica Dicotomica 89
(a) Resultados e conclusoes obtidas para os dados do exemplo 1
As estimativas de maxima verossimilhanca dos parametros do modelo apre-
sentado em (3.5) e que foi ajustado aos dados do exemplo 1, foram as
seguintes: β0 = -1,1747 (s.e.= 0,4854), β1 = 1,277 (s.e.= 0,4980) e β2 =
1,0545 (s.e.= 0,4980).
A Tabela 3.8 apresenta as diferencas de deviance e mostra a significancia
das variaveis sexo (p = 0,00762) e ECG na presenca de sexo (p = 0,03108).
Tabela 3.8: Tabela de diferenca de deviances para os dados do exemplo 1.
Modelos g.l. Deviance residual Dif. Deviance Dif. g.l. valor p
Nulo 3 11,9835
X1 2 4,8626 7,1209 1 0,00762
X1 e X2 1 0,2141 4,6485 1 0,03108
A ANODEV apresentada na Tabela 3.9 mostra que o modelo de regressao
logıstica, com as covariaveis sexo e ECG, apresentou uma reducao na de-
viance residual de 11,7694 (de um total de 11,9835) evidenciando que ambas
as covariaveis estao associadas a variavel resposta e devem, portanto, per-
manecer no modelo, uma vez que estas explicam grande parte da deviance
residual total.
Tabela 3.9: Analise de deviance para os dados do exemplo 1.
Causa de variacao g.l. Deviances TRV valor p
Regressao 2 11,7694 11,7694 0,00278
Resıduos 1 0,2141
Total 3 11,9835
Para o modelo ajustado e expresso por:
90 Capıtulo 3. Regressao Logıstica Giolo, S.R.
logit(θi1(x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG,
obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e,
sendo assim, nao se rejeita a hipotese nula de que o modelo ajustado e
satisfatorio.
Os valores θi1 observados e tambem os preditos a partir do modelo ajus-
tado, bem como a deviance residual e os resıduos de Pearson, sao apresenta-
dos na Tabela 3.10. Nota-se, desses resultados, que os resıduos apresentam-
se satisfatorios, podendo-se concluir que o modelo escolhido se ajusta bem
aos dados.
Tabela 3.10: Valores observados, valores preditos e resıduos.
deviance resıduos
θi1 θi1 (θi1 - θi1) residual de Pearson
0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342
Tem-se, entao, que a odds ratio dos pacientes do sexo masculino versus
a dos pacientes do sexo feminino pode ser estimada, como visto anterior-
mente, por OR(m/f) = e1,277 = 3,586. Logo, a chance (odds) dos homens
apresentarem doenca coronaria arterial e 3,5 vezes a das mulheres. De
modo analogo, estima-se que a odds ratio de ECG ≥ 0,1 versus a de ECG
< 0,1 e OR = e1,0545 = 2,871. Entao, a chance (odds) dos pacientes com
ECG ≥ 0,1 apresentarem doenca coronaria arterial e de aproximadamente
3 vezes a daqueles pacientes com ECG < 0,1. De modo geral, pacientes do
sexo masculino e com ECG ≥ 0,1 sao os mais propensos a apresentarem
3.2. Regressao Logıstica Dicotomica 91
doenca coronaria arterial.
Intervalos de confianca para as odds ratios podem ser obtidos usando-se
as propriedades assintoticas de βi. Assim, por exemplo, o I.C.95% para
OR(m/f) e dado por (e(1,277−1,96∗0,498), e(1,277+1,96∗0,498)) = (1,35; 9,51).
Analogamente, para a odds ratio de ECG ≥ 0,1 versus ECG < 0,1, tem-se
o intervalo, com 95% de confianca, de (1,082; 7,618).
A interacao entre sexo e ECG, quando incluıda no modelo, nao apresen-
tou significancia estatıstica, com correspondente valor p associado ao teste
da razao de verossimilhancas de 0,6436.
Exemplo 2: Nesse exemplo, sao analisados os dados de um estudo sobre
infeccoes urinarias (Koch et al., 1985) apresentados na Tabela 3.11.
Tabela 3.11: Estudo sobre tratamento de infeccoes urinarias.
Diagnostico (x1) Tratamento (x2) Curado Nao curado Total
Infeccao complicada A 78 28 106
Infeccao complicada B 101 11 112
Infeccao complicada C 68 46 114
Infeccao nao complicada A 40 5 45
Infeccao nao complicada B 54 5 59
Infeccao nao complicada C 34 6 40
Observe que um, dentre tres tratamentos, foi administrado a cada pa-
ciente que apresentou no diagnostico infeccao urinaria complicada ou nao
de ser curada. A resposta e portanto dicotomica, a covariavel diagnostico
apresenta duas categorias e a covariavel tratamento, tres categorias. E im-
portante notar que uma covariavel com L categorias deve ser representada
em um modelo por (L - 1) parametros.
Para esse estudo, o modelo de regressao logıstica com os efeitos prin-
cipais (diagnostico e tratamento) e a interacao entre eles, e representado
92 Capıtulo 3. Regressao Logıstica Giolo, S.R.
matricialmente por:
logit(θ11)
logit(θ21)
logit(θ31)
logit(θ41)
logit(θ51)
logit(θ61)
=
1 1 1 0 1 0
1 1 0 1 0 1
1 1 0 0 0 0
1 0 1 0 0 0
1 0 0 1 0 0
1 0 0 0 0 0
β0
β1
β2
β3
β4
β5
.
Uma vez que o modelo considerado e o saturado, isto e, seu numero
de parametros e igual ao numero de linhas da tabela de dados, o teste de
qualidade de ajuste nao se aplica a este modelo porque nao existem graus
de liberdade disponıveis. Ajustar esse modelo possibilita, contudo, a analise
do efeito da interacao. Na Tabela 3.12 pode-se observar as diferencas de
deviance dos modelos sequenciais ajustados.
Tabela 3.12: Diferencas de deviance: estudo sobre infeccoes urinarias.
deviance diferencas de
Modelos g.l. residual deviance diferencas g.l.
Nulo 5 44,473
X1 4 30,628 13,844 1
X1 e X2 2 2,515 28,114 2
X1, X2 e X1 ∗ X2 0 0,000 2,515 2
A partir da Tabela 3.12 tem-se que o teste relativo a hipotese nula de
que a interacao nao e significativa, o que equivale a testar H0: β4 = β5 = 0,
resultou em TRV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, nao ha
evidencias para a rejeicao da hipotese H0. Em sendo a interacao nao signi-
ficativa, testes dos efeitos do diagnostico e tratamento sao, a seguir, real-
izados. Para saber se ha efeito da covariavel diagnostico, o que equivale a
testar H0: β1 = 0, usou-se, novamente, o teste da razao de verossimilhancas
obtendo-se TRV = 13,844 (p = 0,000198, g.l.= 1). Ha, portanto, evidencias
3.2. Regressao Logıstica Dicotomica 93
de efeito do diagnostico. Analogamente, obteve-se para o teste do efeito
da covariavel tratamento, na presenca da covariavel dignostico, o que equi-
vale a testar H0: β2 = β3 = 0, o resultado TRV = 28,114 (p = 7,85e-07,
g.l. = 2). Conclui-se, assim, haver evidencias de efeito dos tratamentos,
estando a covariavel dignostico no modelo.
O modelo considerado e, desse modo, o que considera os efeitos prin-
cipais de diagnostico e tratamento. Os respectivos parametros estimados
para este modelo encontram-se na Tabela 3.13.
Tabela 3.13: Estimativas dos parametros obtidas para o modelo ajustado.
Parametros Estimativas Erro-padrao
β0: intercepto 1,4184 0,2986
β1: diag = infeccao complicada -0,9616 0,2997
β2: tratamento A 0,5847 0,2641
β3: tratamento B 1,5608 0,3158
A ANODEV para esse modelo encontra-se na Tabela 3.14. Desta tabela,
pode-se observar que as covariaveis diagnostico e tratamento sao altamente
associadas a variavel resposta (cura, ou nao, da infeccao urinaria).
Tabela 3.14: Analise de deviance para os dados do exemplo 2.
Causa de variacao g.l. Deviances TRV valor p
Regressao 3 41,958 41,958 4.09e-09
Resıduos 2 2,515
Total 5 44,473
As estatısticas de qualidade de ajuste do modelo considerado resultaram
em QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2)
fornecendo, assim, evidencias de que o modelo apresenta ajuste satisfatorio
94 Capıtulo 3. Regressao Logıstica Giolo, S.R.
aos dados. Ainda, dos valores observados e dos valores preditos a partir do
modelo, bem como da deviance residual e dos resıduos de Pearson, apresen-
tados na Tabela 3.15, nota-se que os resıduos encontram-se-se satisfatorios,
podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:
logit(θi1) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB,
em que diag = 1 se infeccao urinaria foi diagnosticada como complicada e
0, em caso contrario, tratA = 1 e tratB = 0, se o tratamento A foi uti-
lizado, tratA = 0 e tratB = 1, se o tratamento B foi utilizado e, finalmente,
tratA = tratB = 0, se o tratamento C foi utilizado, se ajusta bem aos
dados.
Tabela 3.15: Valores observados, valores preditos e resıduos.
di = deviance ci = resıduos
θi1 θi1 residual de Pearson
0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568
A partir do modelo ajustado pode-se obter as odds de cura, apresentadas
na Tabela 3.16, para que sejam retiradas algumas conclusoes de interesse
do pesquisador. Desta tabela tem-se, por exemplo, que a odds ratio de
diagnostico de infeccao complicada versus a de infeccao nao complicada e
de OR = eβ1 = 0,3822 e, portanto, a chance (odds) de cura no caso de
infeccoes diagnosticadas como nao complicadas e de (1/0,3822) = 2,6 vezes
a odds de cura no caso de infeccoes diagnosticadas como complicadas. Por
3.2. Regressao Logıstica Dicotomica 95
outro lado, a odds de ser curado com o tratamento A e de eβ2 = 1,79 vezes
a de ser curado com tratamento C, bem como, a odds de ser curado com
o tratamento B e de eβ3 = 4,76 vezes a de ser curado com tratamento C.
Por fim, a chance (odds) de cura com o tratamento B e de eβ3−β2 = 2,65
vezes a de ser curado com o tratamento A. Chances maiores de cura sao
observadas, portanto, para aqueles pacientes com infeccoes urinarias diag-
nosticadas como sendo nao complicadas e que recebam o tratamento B.
Tabela 3.16: Logitos e odds obtidos a partir do modelo de regressao logıstica ajustado.
diagnostico tratamento logito odds de cura
inf. complicada A β0 + β1 + β2 = 1,0415 e1,0415 = 2,8335
inf. complicada B β0 + β1 + β3 = 2,0175 e2,0175 = 7,5198
inf. complicada C β0 + β1 = 0,4567 e0,4567 = 1,5789
inf. nao complicada A β0 + β2 = 2,0031 e2,0031 = 7,4123
inf. nao complicada B β0 + β3 = 2,9791 e2,9791 = 19,671
inf. nao complicada C β0 = 1,4184 e1,4184 = 4,1305
Exemplo 3: Neste exemplo sao analisados os dados apresentados na Tabela
3.17 referentes a um estudo sobre doenca coronaria, similar ao analisa-
do previamente no exemplo 1, considerando-se, no entanto, alem das co-
variaveis sexo e eletrocardiograma (ECG), a covariavel idade (em anos).
Ainda, a covariavel ECG e apresentada em tres categorias: < 0,1, [0,1; 0,2)
e ≥ 0,2 e foi considerada nos modelos como uma variavel ordinal em que
foram assumidos, para as respectivas categorias citadas, os escores 0, 1 e 2.
Observe que diversos valores da covariavel idade sao unicos, o que im-
plica que na construcao de uma tabela de contingencia considerando-se as
tres covariaveis, existirao diversas caselas com somente uma observacao.
96 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Tabela 3.17: Dados de pacientes observados em um estudo sobre doenca coronaria.
sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc
0 0 28 0 1 0 42 1 0 1 46 0
0 0 34 0 1 0 44 1 0 1 48 1
0 0 38 0 1 0 45 0 0 1 49 0
0 0 41 1 1 0 46 0 0 1 49 0
0 0 44 0 1 0 48 0 0 1 52 0
0 0 45 1 1 0 50 0 0 1 53 1
0 0 46 0 1 0 52 1 0 1 54 1
0 0 47 0 1 0 52 1 0 1 55 0
0 0 50 0 1 0 54 0 0 1 57 1
0 0 51 0 1 0 55 0 0 2 46 1
0 0 51 0 1 0 59 1 0 2 48 0
0 0 53 0 1 0 59 1 0 2 57 1
0 0 55 1 1 1 32 0 0 2 60 1
0 0 59 0 1 1 37 0 1 0 30 0
0 0 60 1 1 1 38 1 1 0 34 0
0 1 32 1 1 1 38 1 1 0 36 1
0 1 33 0 1 1 42 1 1 0 38 1
0 1 35 0 1 1 43 0 1 0 39 0
0 1 39 0 1 1 43 1 1 0 42 0
0 1 40 0 1 1 44 1 1 2 43 1
1 1 45 0 1 1 57 1 1 2 47 1
1 1 45 1 1 1 59 1 1 2 48 1
1 1 45 1 1 1 60 1 1 2 49 0
1 1 46 1 1 1 63 1 1 2 58 1
1 1 48 1 1 2 35 0 1 2 59 1
1 1 57 1 1 2 37 1 1 2 60 1
sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se
∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2; dc = 1 se doenca coronaria presente e dc = 0
em caso contrario.
Isto significa que as estatısticas de teste QL e QP nao poderao ser cal-
culadas. Este fato e muito comum quando se tem a presenca de co-
variaveis contınuas. Para esses casos, estrategias alternativas encontram-se
disponıveis.
3.2. Regressao Logıstica Dicotomica 97
Um modelo de interesse para os dados apresentados e aquele com as
covariaveis: sexo, ECG e idade e, possivelmente, as interacoes duplas e
tripla entre elas. Um cuidado que se deve ter, no entanto, e quanto ao
numero de parametros envolvidos. Alguns analistas sugerem que haja pelo
menos 5 observacoes da resposta que ocorre com menor frequencia, para
cada parametro sendo considerado. Nesse estudo tem-se 37 indivıduos que
apresentaram resposta nao e 41 que apresentaram resposta sim. Assim,
tem-se 37/5 = 7,4, o que sugere que no maximo 7 a 8 parametros sejam
considerados.
Na Tabela 3.18 sao apresentadas as diferencas de deviance dos modelos
sequenciais ajustados para os dados do estudo descrito.
Tabela 3.18: Tabela das diferencas de deviance dos modelos de regressao logıstica
sequencias ajustados ao estudo sobre doencas coronarias.
Deviance Diferencas de
Modelos g.l. Residual Deviance Diferenca g.l.
Nulo 77 107,926 – –
X1 76 101,840 6,086 1
X1 e X2 75 95,080 6,760 1
X1, X2 e X3 74 86,811 8,626 1
X1, X2, X3 + int. duplas 71 85,522 1,289 3
X1, X2, X3 + int. duplas e tripla 70 85,414 0,108 1
X1 = sexo; X2 = ECG e X3 = idade.
A partir da Tabela 3.18 tem-se que o teste relativo a hipotese nula de que
a interacao tripla nao e significativa, o que equivale a testar H0: β7 = 0,
resultou em TRV = 0,108 (p = 0,7424, g.l.= 1). Desse modo, nao ha
evidencias para a rejeicao de H0. De modo analogo, para o teste da hipotese
H0: β4 = β5 = β6 = 0 (interacoes duplas) foi obtido TRV = 1,289 (p =
0,7317, g.l. = 3), o que mostra nao haver evidencias para a rejeicao desta
98 Capıtulo 3. Regressao Logıstica Giolo, S.R.
hipotese. Como nao foram encontradas evidencias de que as interacoes
tripla e duplas sejam necessarias no modelo, testou-se:
a) H0: β1 = 0, obtendo-se TRV = 6,086 (p = 0,0136, g.l.= 1)
b) H0: β2 = 0, obtendo-se TRV = 6,760 (p = 0,0093, g.l.= 1)
c) H0: β3 = 0, obtendo-se TRV = 8,626 (p = 0,0033, g.l.= 1)
Dos resultados obtidos, conclui-se haver evidencias para a rejeicao das
tres hipoteses nulas testadas. O modelo escolhido e, portanto, o que consi-
dera os efeitos de sexo, ECG e idade. Os respectivos parametros estimados
para este modelo encontram-se na Tabela 3.19.
Tabela 3.19: Estimativas dos parametros do modelo ajustado.
Parametros Estimativas Erro-padrao
β0: intercepto -5,6417 1,8026
β1: sexo (masculino) 1,3564 0,5458
β2: ECG 0,8732 0,3839
β3: idade 0,0928 0,0350
O modelo estimado ficou, assim, expresso por:
logit(θi1) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.
Para avaliar a qualidade do modelo ajustado, na presenca de variaveis
contınuas, Hosmer e Lemeshow (1989) propuseram uma estatıstica, deno-
tada aqui por QHL, que considera as contagens esperadas e observadas para
as respostas dc = 1 e dc = 0 em cada decil das probabilidades preditas. Para
esse estudo, tal estatıstica resultou em 5,76 (p = 0,6747, g.l. = 8 (no decis −2). E possıvel, assim, concluir que o modelo considerado ajusta-se satisfa-
toriamente aos dados. Os resıduos deviance e de Pearson apresentaram-se
tambem satisfatorios, como pode ser observado na Figura 3.4.
3.2. Regressao Logıstica Dicotomica 99
0 20 40 60 80
−2−1
01
2
Index
resi
duos
de
Pea
rson
0 20 40 60 80
−2−1
01
2
Index
devi
ance
resi
dual
Figura 3.4: Resıduos de Pearson e deviance residual.
A odds ratio para sexo, ajustada para ECG e idade, e, nesse estudo,
estimada por OR = e1,3564 = 3,882. Assim, a chance (odds) de pacientes do
sexo masculino apresentarem doenca coronaria e 3,882 vezes a dos pacientes
do sexo feminino. De modo analogo, a odds ratio para ECG, ajustada para
sexo e idade, e estimada por OR = e0,8732 = 2,395. Isto significa que a
chance de pacientes com ECG = 1 apresentarem doenca coronaria e 2,395
vezes a daqueles com ECG = 0, bem como a odds dos pacientes com ECG
= 2 apresentarem doenca coronaria e 2,395 vezes a odds dos pacientes com
ECG = 1. Ainda, a odds ratio para a idade, ajustada para sexo e ECG,
dada por OR = e0,0929 = 1,097, significa que a chance (odds) de doenca
coronaria de um paciente com x+1 anos e 1,097 vezes a de um paciente com
x anos. Para, por exemplo, dois pacientes do mesmo sexo e mesmo ECG,
mas em que um deles tenha 30 anos e outro 40, tem-se OR = e0,0929∗(40−30)
= 2,53, ou seja, a chance de doenca coronaria do paciente com 40 anos e
de 2,53 vezes a daquele com 30 anos.
De modo geral, pode-se concluir, desse estudo, que a presenca de doenca
coronaria encontra-se positivamente associada com a idade e com o resul-
100 Capıtulo 3. Regressao Logıstica Giolo, S.R.
tado do ECG, bem como que os pacientes do sexo masculino sao mais
propensos a apresenta-la.
3.2.8 Metodos auxiliares no diagnotico do modelo ajustado
(a) QQplot com envelope simulado
No caso em que a variavel resposta e assumida ser normalmente dis-
tribuıda, e comum que afastamentos serios da distribuicao normal sejam
verificados por meio do grafico de probabilidades normal dos resıduos. No
contexto de modelos lineares generalizados, em que distribuicoes diferentes
da normal sao tambem consideradas, graficos similares com envelopes si-
mulados podem ser tambem construıdos com os resıduos gerados a partir
do modelo ajustado. A inclusao do envelope simulado no QQplot auxilia a
decidir se o pontos diferem significativamente de uma linha reta (Atkinson,
1985). Paula (2000) apresenta codigos em linguagem Splus, que podem ser
utilizados no pacote estatıstico R, para gerar tais graficos em: regressao
gama, logıstica, Poisson e binomial negativa, alem da normal. Para que
o modelo ajustado seja considerado satisfatorio, faz-se necessario que as
deviances residuais caiam dentro do envelope simulado. Para os dados
desse exemplo, o QQplot obtido encontra-se apresentado na Figura 3.5.
Desta figura e possıvel observar que nao ocorreram afastamentos serios da
distribuicao binomial para a variavel resposta, uma vez que as deviances
encontram-se dentro do envelope.
(b) Poder preditivo do modelo e outras medidas auxiliares
O poder preditivo do modelo pode tambem ser obtido com a finalidade
de avaliar a qualidade do modelo ajustado. Para isso, faz-se necessario
estabelecer uma probabilidade, denominada “ponto de corte”, a partir da
qual se estabeleca que:
3.2. Regressao Logıstica Dicotomica 101
−2 −1 0 1 2
−2−1
01
2
Q−Q Plot
Percentis
Dev
ianc
e
Q−Q PlotQ−Q PlotQ−Q Plot
Figura 3.5: QQplot com envelope simulado para os dados do exemplo 3.
I a variavel resposta receba o valor 1, isto e, Y = 1 para probabilidades
estimadas pelo modelo que sejam maiores ou iguais a esse ponto de
corte e, ainda, que
I a variavel resposta receba o valor 0, isto e, Y = 0 para probabilidades
estimadas pelo modelo que sejam menores do que esse ponto de corte.
Estabelecendo-se o ponte de corte pc = 0,50, foram obtidos para os
dados do exemplo 3, os resultados apresentados na Tabela 3.20. Desta
tabela, tem-se que:
a) valor preditivo do modelo = 31+2578 = 0, 7179
102 Capıtulo 3. Regressao Logıstica Giolo, S.R.
b) valor preditivo + = 3143 = 0, 7209 e valor preditivo - = 25
35 = 0, 7143
c) falsos positivos = 1237 = 0, 3243 e falsos negativos = 10
41 = 0, 2439
d) sensibilidade do modelo = 3141 = 0, 7561
e) especificidade do modelo = 2537 = 0, 6757
Tabela 3.20: Classificacoes pelo modelo para pc = 0,5 vs observado.
Classificado pelo modelo
Observado dc = 1 (+) dc = 0 (−) Totais
dc = 1 (+) 31 10 41
dc = 0 (−) 12 25 37
Totais 43 35 78
De modo geral, e dos resultados apresentados, pode-se concluir que o
modelo ajustado apresenta-se satisfatorio.
3.2.9 Outros modelos com resposta dicotomica
Para estudos em que a variavel resposta e dicotomica, foi apresentado o
modelo de regressao logıstica. Alem deste, outros modelos para respostas
dicotomica sao descritos na literatura, dentre eles, o modelo probito e o
modelo complemento log-log, que tem sido utilizados, por exemplo, em ex-
perimentos dose-resposta. Todos sao, na realidade, modelos de regressao
binomial, visto a distribuicao binomial estar associada a variavel resposta.
Na Tabela 3.21 e apresentado a caracterizacao dos modelos citados em ter-
mos de suas funcoes de distribuicao F (x′β) = P [Y = 1 | x] e de suas
respectivas funcoes de ligacao.
3.3. Regressao Logıstica Politomica 103
Tabela 3.21: Caracterizacao de alguns modelos de regressao binomial.
Modelo de regressao P[Y = 1 | x] = θ(x) funcao de ligacao
logıstica exp{x′β}1+exp{x′β} log
[θ(x)
1−θ(x)
]
probito Φ(x′β) Φ−1(θ(x))
complemento log-log 1 − exp{−e{x′β}} log[− log[1 − θ(x)]]
Φ(·) denota a funcao de distribuicao da normal padrao.
3.3 Regressao Logıstica Politomica
A regressao logıstica tambem se aplica, como mencionado anteriormente, a
situacoes em que a variavel resposta apresenta mais do que duas categorias
(respostas politomicas), podendo, as categorias, serem ordinais ou nomi-
nais. A seguir sao apresentados exemplos que ilustram ambas as situacoes.
3.3.1 Resposta ordinal: modelo de odds proporcionais
Para tratar a situacao em que a resposta e ordinal, considere os dados
apresentados na Tabela 3.22 em que pacientes do sexo feminino e masculino
receberam o tratamento A, ou um placebo, para suas dores de artrite. A
resposta, nesse estudo, foi o grau de melhora das dores: nenhuma, alguma
e melhora acentuada.
Tabela 3.22: Estudo clınico sobre tratamentos para dores de artrite.
Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
104 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Uma possıvel estrategia de analise desses dados seria criar uma variavel
resposta dicotomica combinando duas das categorias de respostas. Con-
tudo, visto que existe uma ordem natural das categorias de resposta, faz
sentido considerar uma estrategia que leve em conta essa ordenacao. Con-
sidere, desse modo, as quantidades:
θhi1 = πhi1 e θhi2 = πhi1 + πhi2,
em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabili-
dade de alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1
para sexo feminino, h = 2 para sexo masculino, i = 1 para tratamento A e
i = 2 para placebo). Assim, θhi1 e a probabilidade de melhora acentuada e
θhi2 e a probabilidade de melhora acentuada ou alguma melhora, ou seja,
e uma probabilidade acumulada.
Para uma resposta dicotomica foi visto que, uma unica funcao logito
e considerada para cada subpopulacao (linha da tabela de contingencia).
Ja para uma resposta ordinal com L > 2 categorias, L − 1 logitos cumula-
tivos, baseados nas probabilidades acumuladas, sao considerados para cada
subpopulacao. Para tres categorias de resposta, como e o caso do exemplo
apresentado na Tabela 3.22, os dois logitos cumulativos sao expressos por:
logit(θhi1) = log
[πhi1
πhi2 + πhi3
]e logit(θhi2) = log
[πhi1 + πhi2
πhi3
].
Esses logitos sao, respectivamente, o log(odds) de melhora acentuada
para alguma ou nenhuma melhora e o log(odds) de melhora acentuada ou
alguma melhora para nenhuma melhora. O modelo de odds proporcionais
leva em consideracao ambas as odds citadas.
Assumindo-se que os totais marginais nhi+ sao fixos, tem-se, associa-
do a cada subpopulacao (linha da tabela de contingencia), a distribuicao
multinomial em que∑3
j=1 πhij = 1. Um modelo que se aplica a ambos
3.3. Regressao Logıstica Politomica 105
os logitos simultaneamente, para cada combinacao de sexo e tratamento,
poderia entao ser escrito por:
logit(θhik) = β0k + β′kxhi,
em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos sao dis-
tintos, bem como existem diferentes conjuntos de parametros de regressao
para cada logito.
Com a suposicao de odds proporcionais tem-se que βk = β para todo
k, simplicando, assim, o modelo para:
logit(θhik) = β0k + β′xhi
que tambem pode ser expresso por:
θhik =exp
{β0k + β′xhi
}
1 + exp{
β0k + β′xhi
} =exp
{β0k +
∑pg=1 βgxhig
}
1 + exp{
β0k +∑p
g=1 βgxhig
} ,
em que g = 1, ..., p refere-se as covariaveis. Esse modelo e similar a
regressao logıstica dicotomica e seus parametros sao tambem estimados
por meio do metodo de maxima verossimilhanca.
Os valores para πhij podem ser determinados, usando-se esse modelo,
por meio das apropriadas subtracoes de θhik, ou seja:
πhi1 = θhi1
πhi2 = θhi2 − θhi1
πhi3 = 1 − θhi2.
(a) Regressao logıstica politomica ajustada aos dados de artrite
Sob a suposicao de odds proporcionais, o modelo de efeitos principais e um
apropriado ponto de partida para a analise dos dados de artrite e, este
106 Capıtulo 3. Regressao Logıstica Giolo, S.R.
modelo, em notacao matricial, e expresso por:
logit(θ111)
logit(θ112)
logit(θ121)
logit(θ122)
logit(θ211)
logit(θ212)
logit(θ221)
logit(θ222)
=
β01 + β1 + β2
β02 + β1 + β2
β01 + β1
β02 + β1
β01 + β2
β02 + β2
β01
β02
=
1 0 1 1
0 1 1 1
1 0 1 0
0 1 1 0
1 0 0 1
0 1 0 1
1 0 0 0
0 1 0 0
β01
β02
β1
β2
.
Esse modelo e similar aos modelos descritos anteriormente, exceto pela
existencia de dois parametros de intercepto, correspondendo as duas funcoes
logito sendo modeladas para cada subpopulacao. O parametro β01 e o
intercepto do primeiro logito cumulativo e o parametro β02 e o intercepto
do segundo logito cumulativo, β1 e o efeito (incremento) do sexo feminino
e β2 e o efeito (incremento) do tratamento A. Sexo masculino e placebo
correspondem a casela de referencia.
Na Tabela 3.23 sao apresentadas as diferencas de deviance dos modelos
sequenciais ajustados.
Tabela 3.23: Tabela das diferencas de deviance para os dados de artrite.
deviance diferencas de diferencas
Modelos g.l. residual deviance de g.l.
Nulo 6 (8−2) 169,9159
X1 5 (8−3) 166,1106 3,8053 1
X1 e X2 4 (8−4) 150,0294 16,0812 1
X1, X2 e X1 ∗ X2 3 (8−5) 149,7210 0,3084 1
X1 = sexo, X2 = tratamento
Os graus de liberdade (g.l.) foram obtidos por (s ∗ (r − 1))− p, sendo s
3.3. Regressao Logıstica Politomica 107
o numero de subpopulacoes (linhas da tabela de contingencia), r o numero
de categorias da variavel resposta e p o numero de parametros no modelo.
Pode-se observar, da Tabela 3.23, que a interacao entre sexo e tratamento
nao e significativa, uma vez que TRV = 0,3084 (p = 0,5786, g.l. = 1).
Ja para os efeitos principais de sexo e tratamento na presenca de sexo,
obtiveram-se TRV = 3,8053 (p = 0,051) e TRV = 16,0812 (p = 6,06e−7),
respectivamente, podendo-se, desse modo, concluir que ambos os efeitos sao
significativos e devem, portanto, permanecer no modelo. Os respectivos
parametros estimados para o modelo com as covariaveis sexo e tratamento,
encontram-se na Tabela 3.24.
Tabela 3.24: Estimativas obtidas para o modelo ajustado.
Parametros Estimativas Erro-padrao
β01: intercepto 1 -2,6672 0,6065
β02: intercepto 2 -1,8128 0,5654
β1: sexo feminino 1,3187 0,5381
β2: tratamento A 1,7973 0,4718
A avaliacao da qualidade de ajuste do modelo de odds proporcionais e
similar a realizada para o modelo de regressao logıstica dicotomica. Se pelo
menos 80% das contagens observadas nas caselas for 5, entao pode-se usar as
estatısticas QL e QP as quais, sob H0, tem distribuicao Qui-Quadrado com
((r−1)(s−1)−q) g.l., sendo r o numero de categorias da variavel resposta,
s o numero de subpopulacoes e q o numero de covariaveis. Para os dados
desse exemplo obtiveram-se QL = 2,7121 (p = 0,6071, g.l. = 4) e QP =
1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se que o modelo ajusta-
se satisfatoriamente aos dados. O modelo ajustado e, portanto, expresso
por:
logit(θhik) = β0k + 1, 3187 sexo + 1, 7973 tratamento
108 Capıtulo 3. Regressao Logıstica Giolo, S.R.
ou, ainda,
θhik =exp
{β0k + 1, 3187 sexo + 1, 7973 tratamento
}
1 + exp{
β0k + 1, 3187 sexo + 1, 7973 tratamento} , k = 1, 2.
As probabilidades cumulativas preditas por tal modelo e, consequente-
mente, as probabilidades nao-cumulativas, encontram-se na Tabela 3.25.
Tabela 3.25: Probabilidades cumulativas (θhik) e nao-cumulativas (πhij) esti-
madas por meio do modelo ajustado.
Sexo Tratamento θhi1 θhi2 πhi1 πhi2 πhi3
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Note, ainda, que as probabilidades observadas e as estimadas a partir
do modelo ajustado, apresentadas na Tabela 3.26, encontram-se bastante
proximas umas das outras, indicando que o modelo ajustado apresenta-se
satisfatorio.
As odds ratios sao tambem obtidas de modo similar a regressao logıstica
dicotomica. Na Tabela 3.27 sao apresentadas as odds para o modelo de odds
proporcionais ajustado. Desta tabela, pode-se, por exemplo, observar que
a odds de melhora acentuada versus alguma ou nenhuma melhora para
pacientes do sexo feminino comparada com a odds dos pacientes do sexo
masculino e de OR = exp{β01+β1+β2}exp{β01+β2}
= exp{β01+β1}exp{β01}
= exp{β1}. Assim, a
chance dos pacientes do sexo feminino apresentarem melhora acentuada e
e1,3187 = 3, 738 vezes a dos pacientes do sexo masculino. Ainda, a chance
dos pacientes recebendo o tratamento A apresentarem melhora acentuada
e eβ2 = e1,7973 = 6,03 vezes a dos pacientes recebendo placebo e, pela
3.3. Regressao Logıstica Politomica 109
Tabela 3.26: Probabilidades observadas e estimadas pelo modelo.
observadas estimadas (observadas - estimadas)
0.5925926 0.61036848 -0.017775889
0.1851852 0.17601388 0.009171310
0.2222222 0.21361764 0.008604579
0.1875000 0.20612474 -0.018624743
0.2187500 0.17281504 0.045934963
0.5937500 0.62106022 -0.027310220
0.3571429 0.29527688 0.061865982
0.1428571 0.20084884 -0.057991694
0.5000000 0.50387429 -0.003874287
0.0909091 0.06493692 0.025972174
0.0000000 0.07536270 -0.075362704
0.9090909 0.85970038 0.049390531
suposicao de odds proporcionais assumida para o modelo ajustado, esta e
tambem a odds ratio para melhora acentuada ou alguma melhora versus
nenhuma melhora.
Tabela 3.27: Formulas das odds obtidas para o modelo de odds proporcionais ajustado.
Melhora acentuada versus Melhora acentuada ou alguma
Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β01 + β1 + β2} exp{β02 + β1 + β2}
F Placebo exp{β01 + β1} exp{β02 + β1}
M A exp{β01 + β2} exp{β02 + β2}
M Placebo exp{β01} exp{β02}
Observe que a suposicao de odds proporcionais e necessaria para o uso
do modelo aqui apresentado. Assim, a hipotese de que existe um vetor
comum β, em vez de distintos vetores βk, deve ser testada, isto e, deve-se
110 Capıtulo 3. Regressao Logıstica Giolo, S.R.
testar a hipotese nula H0: βk = β. Se esta hipotese for rejeitada, uma
outra abordagem deve ser considerada. Uma abordagem sugerida, nesses
casos, e considerar as categorias da variavel resposta como nominais em vez
de ordinais e, entao, ajustar um modelo para os logitos generalizados, que
e tratado na proxima secao.
Para o exemplo considerado, o teste da hipotese nula citada resultou
em QRS = 1,8833 (p = 0,39, g.l. = ((r− 1)(s− 1)− q) = 2), concluindo-se,
assim, que a suposicao de odds proporcionais e razoavel para esses dados.
3.3.2 Resposta nominal: modelo de logitos generalizados
Modelos de regressao logıstica tambem podem ser usados para analisar
dados em que as categorias da variavel resposta sao nominais. Nesses casos,
contudo, ajustam-se modelos para logitos generalizados e nao para logitos
cumulativos.
Para tratar o modelo de logitos generalizados, considere os dados apre-
sentados na Tabela 3.28 referentes a um estudo realizado com criancas para
determinar qual programa de aprendizado elas preferem, bem como se tal
preferencia estaria associada com a escola e o perıodo escolar (padrao ou
com atividades em tempo integral).
Uma vez que, nesse estudo, as categorias da variavel resposta nao apre-
sentam uma ordenacao, o modelo de odds proporcionais nao e apropriado.
Assim, cada logito generalizado usado nessas situacoes e definido por:
logithik = log
[πhik
πhir
],
para k = 1, 2, · · · , (r − 1), sendo r o numero de categorias da variavel
resposta. Note, que cada logito e obtido a partir da probabilidade de cada
categoria sobre a da ultima categoria de resposta. Os logitos generalizados
para uma resposta com tres categorias, como e o caso do exemplo sobre a
3.3. Regressao Logıstica Politomica 111
Tabela 3.28: Estudo com criancas sobre preferencia de programa escolar.
Preferencia aprendizado
Escola Perıodo Individual Grupo Sala Aula Totais
1 Padrao 10 17 26 53
1 Integral 5 12 50 67
2 Padrao 21 17 26 64
2 Integral 16 12 36 64
3 Padrao 15 15 16 46
3 Integral 12 12 20 44
preferencia de programa escolar, sao expressos por:
logithi1 = log
[πhi1
πhi3
]e logithi2 = log
[πhi2
πhi3
],
para h = 1, 2, 3 (escolas) e i = 1, 2 (perıodos padrao e integral, respecti-
vamente). Assim, o modelo a ser ajustado para os logitos generalizados e:
logithik = β0k + β′kxhi,
em que k indexa os 2 logitos. Note, que para cada logito desse modelo, exis-
tem diferentes interceptos e diferentes conjuntos de parametros de regressao
βk. Assim, enquanto para o modelo de odds proporcionais estimam-se
multiplos parametros de interceptos, mas um unico conjunto de parametros
associado as covariaveis, para o modelo de logitos generalizados estimam-se
multiplos conjuntos de parametros, tanto para o intercepto quanto para as
covariaveis.
Como multiplas funcoes resposta (logitos) estao sendo modeladas para
cada subpopulacao (linha da tabela de contingencia), existe um numero
maior de graus de liberdade associado a cada efeito. A forma matricial
do modelo e, tambem, um tanto mais complicada devido a necessidade
112 Capıtulo 3. Regressao Logıstica Giolo, S.R.
de se levar em consideracao tais funcoes multiplas. Contudo, o procedi-
mento de modelagem e o usual, isto e, ajusta-se o modelo, examinam-se
as estatısticas de qualidade de ajuste do modelo e, se necessario, reduz-
se o modelo. Note, que como mais de um logito esta sendo predito por
subpopulacao, o tamanho amostral necessita ser grande o suficiente para
acomodar o numero de logitos sendo modelados. Problemas quanto a es-
timacao dos parametros serao certamente encontrados em situacoes em que
nao existem dados suficientes para justificar a analise de logitos generaliza-
dos. Em tais situacoes, simplificar a estrutura da variavel resposta para
uma razoavel resposta dicotomica e proceder a uma analise de regressao
logıstica dicotomica pode ser uma alternativa plausıvel.
(a) Logitos generalizados ajustados aos dados do programa escolar
Os logitos generalizados, nesse exemplo, sao construıdos considerando-
se a probabilidade de preferencia de aprendizado individual com respeito
ao aprendizado em sala de aula (πhi1/πhi3) e a probabilidade de preferencia
de aprendizado em grupo com respeito ao aprendizado em sala de aula
(πhi2/πhi3). As covariaveis foram consideradas no modelo por meio de
variaveis dummies do tipo 1 e -1, por serem o default do software estatıstico
SAS (Proc Catmod), utilizado para obtencao dos resultados desta analise.
As conclusoes seriam as mesmas se dummies do tipo 1 e 0 fossem usadas.
As variaveis dummies associadas as covariaveis X1 e X2 sao, desse modo:
X11 =
1 se escola 1
0 se escola 2,
−1 se escola 3
X12 =
0 se escola 1
1 se escola 2
−1 se escola 3
e X2 =
{1 se padrao
−1 se integral
Na Tabela 3.29 sao apresentadas as diferencas de deviance dos modelos
sequenciais ajustados. Pode-se observar, desta tabela, que a interacao entre
escola e perıodo nao e significativa, uma vez que TRV = 1,7776 (p = 0,78,
g.l. = 4). Ja para os efeitos principais de escola e perıodo na presenca de
3.3. Regressao Logıstica Politomica 113
escola, obtiveram-se TRV = 17,3765 (p = 0,0016, g.l. = 4) e TRV = 11,094
(p = 0,0039, g.l.= 2), respectivamente. Ambos os efeitos sao, portanto, sig-
nificativos e devem permanecer no modelo. Note, que os graus de liberdade
para modelar dois logitos sao duas vezes os graus de liberdade esperados ao
se modelar um unico logito. Isso ocorre porque simultaneamente sao mode-
ladas duas funcoes resposta (logitos) em vez de uma e, consequentemente,
o numero de parametros a serem estimados sao duplicados. Assim, em um
modelo de logitos generalizados, os graus de liberdade sao determinados
multiplicando-se por (r−1) o numero de graus de liberdade esperado para
modelar um logito, sendo r o numero de categorias da variavel resposta.
Tabela 3.29: Diferencas de deviance - dados do programa escolar.
deviance diferencas de diferencas
Modelos g.l. residual deviance de g.l.
Nulo 10 695,4043 - -
X1 6 678,0278 17,3765 (10−6) = 4
X1 e X2 4 666,9338 11,0940 (6−4) = 2
X1, X2 e X1 ∗ X2 0 665,1562 1,7776 (4−0) = 4
X1 = escola, X2 = perıodo
O modelo com X1 e X2, em notacao matricial, fica representado por:
logit111
logit112
logit121
logit122
logit211
logit212
logit221
logit222
logit311
logit312
logit321
logit322
=
1 0 1 0 0 0 1 0
0 1 0 1 0 0 0 1
1 0 1 0 0 0 −1 0
0 1 0 1 0 0 0 −1
1 0 0 0 1 0 1 0
0 1 0 0 0 1 0 1
1 0 0 0 1 0 −1 0
0 1 0 0 0 1 0 −1
1 0 −1 0 −1 0 1 0
0 1 0 −1 0 −1 0 1
1 0 −1 0 −1 0 −1 0
0 1 0 −1 0 −1 0 −1
β01
β02
β11
β12
β21
β22
β31
β32
.
114 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Observe, na representacao matricial do modelo, que as linhas ımpares
correspondem ao primeiro logito e as linhas pares ao segundo logito. Similar-
mente, as colunas ımpares correspondem aos parametros do primeiro logito
e as pares aos do segundo logito. As estimativas dos parametros desse mo-
delo encontram-se na Tabela 3.30. Na Tabela 3.31, estas estimativas sao
apresentadas de acordo ao logito a que se referem.
Tabela 3.30: Estimativas dos parametros do modelo ajustado.
Erro Qui-
Efeito Parametro Estimativa Padrao Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perıodo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061
Tabela 3.31: Estimativas dos parametros do modelo ajustado por logito.
logito (indiv/sala aula) logito (grupo/sala de aula)
Covariavel coeficiente e.p. coeficiente e.p.
Intercepto -0,7979 0,1465 -0,6589 0,1367
Escola 1 -0,7992 0,2198 -0,2786 0,1867
Escola 2 0,2836 0,1899 -0,0985 0,1892
Perıodo 0,3737 0,1410 0,3713 0,1353
A partir da Tabela 3.31 e possıvel observar que a escola 1 apresenta o
maior efeito dentre as escolas, particularmente para o logito comparando o
aprendizado individual ao aprendizado em sala de aula. O perıodo escolar
3.3. Regressao Logıstica Politomica 115
apresenta efeitos similares em ambos os logitos.
As odds ratios tambem podem ser usadas nos modelos de logitos genera-
lizados para facilitar a interpretacao do modelo. Para o modelo considerado,
as odds encontram-se na Tabela 3.32.
Tabela 3.32: Odds preditas pelo modelo de logitos generalizados.
Odds
Escola Perıodo Individual/Sala aula Grupo/Sala aula
1 Padrao eβ01+β11+β31 eβ02+β12+β32
1 Integral eβ01+β11−β31 eβ02+β12−β32
2 Padrao eβ01+β21+β31 eβ02+β22+β32
2 Integral eβ01+β21−β31 eβ02+β22−β32
3 Padrao eβ01−β11−β21+β31 eβ02−β12−β22+β32
3 Integral eβ01−β11−β21−β31 eβ02−β12−β22−β32
As estimativas das odds ratios de aprendizado individual, em relacao ao
aprendizado em sala de aula, sao desse modo:
i) entre perıodos: ORP/I =eβ01+β11+β31
eβ01+β11−β31
= e2∗β31 = 2,11
ii) entre escolas: OR2/1 =eβ01+β21+β31
eβ01+β11+β31
= eβ21−β11 = 2,95
OR3/1 =eβ01−β11−β21+β31
eβ01+β11+β31
= e−2∗β11−β21 = 3,72
OR3/2 =eβ01−β11−β21+β31
eβ01+β21+β31
= e−2∗β21−β11 = 1,26.
Assim, a odds (chance) dos alunos nas escolas com perıodo escolar
padrao preferirem o aprendizado individual ao aprendizado em sala de aula
116 Capıtulo 3. Regressao Logıstica Giolo, S.R.
e 2,11 vezes a dos alunos nas escolas com perıodo escolar integral. Ainda, a
odds dos alunos da escola 2 preferirem o aprendizado individual ao apren-
dizado em sala de aula e 2,95 vezes a dos alunos da escola 1.
De modo analogo, as odds ratios de aprendizado em grupo, em relacao
ao aprendizado em sala de aula, sao:
i) entre perıodos: ORP/I =eβ02+β12+β32
eβ02+β12−β32
= e2∗β32 = e2∗0,3713 = 2,10
ii) entre escolas: OR2/1 =eβ02+β22+β32
eβ02+β12+β32
= eβ22−β12 = 1,19
OR3/1 =eβ02−β12−β22+β32
eβ02+β12+β32
= e−2∗β12−β22 = 1,93
OR3/2 =eβ02−β12−β22+β32
eβ02+β22+β32
= e−2∗β22−β12 = 1,61.
Logo, a chance (odds) dos alunos nas escolas com perıodo escolar padrao
preferirem o aprendizado em grupo ao aprendizado em sala de aula e 2,10
vezes a dos alunos nas escolas com perıodo escolar integral. Tambem, os
alunos da escola 3, em relacao aos da escola 1, preferem o aprendizado em
grupo ao em sala de aula. A odds dessa preferencia entre os alunos da
escola 3 e 1,93 vezes a dos alunos da escola 1. Ja os alunos da escola 2,
em relacao aos da escola 1, apresentam razao de odds muito proxima de 1,
indicando nao ter havido, para os alunos dessas duas escolas, preferencia
diferenciada entre esses dois metodos de aprendizado.
Note, a partir dos resultados apresentados na Tabela 3.33, que as proba-
bilidades observadas e preditas a partir do modelo encontram-se proximas,
indicando que o modelo apresenta um ajuste satisfatorio.
3.4. Regressao Logıstica Condicional 117
Tabela 3.33: Valores observados e preditos para as probabilidades.
Observados Preditos
Escola Perıodo Pref. Probabilidade e.p. Probabilidade e.p Obs-Pred
1 pad ind 0,1887 0,0537 0,1580 0,0403 0,0306
gr 0,3208 0,0641 0,3049 0,0527 0,0159
aula 0,4906 0,0687 0,5371 0,0560 -0,0470
1 int ind 0,0746 0,0321 0,0989 0,0279 -0,0240
gr 0,1791 0,0468 0,1917 0,0393 -0,0130
aula 0,7463 0,0532 0,7095 0,0459 0,0368
2 pad ind 0,3281 0,0587 0,3409 0,0515 -0,0130
gr 0,2656 0,0552 0,2667 0,0469 -0,0010
aula 0,4063 0,0614 0,3924 0,0509 0,0139
2 int ind 0,2500 0,0541 0,2372 0,0444 0,0128
gr 0,1875 0,0488 0,1864 0,0389 0,0011
aula 0,5625 0,062 0,5764 0,0518 -0,0140
3 pad ind 0,3261 0,0691 0,3436 0,0587 -0,0170
gr 0,3261 0,0691 0,3429 0,0582 -0,0170
aula 0,3478 0,0702 0,3136 0,0536 0,0343
3 int ind 0,2727 0,0671 0,2545 0,0521 0,0183
gr 0,2727 0,0671 0,2552 0,0517 0,0176
aula 0,4545 0,0751 0,4904 0,0608 -0,0360
3.4 Regressao Logıstica Condicional
Algumas vezes a abordagem de maxima verossimilhanca para estimacao
em regressao logıstica nao e apropriada, particularmente se os dados sao
altamente estratificados e existe um numero pequeno de sujeitos em cada
estrato. Exemplos comuns sao observacoes pareadas tais como as de gemeos
fraternos, lados esquerdo e direito do corpo em estudos dermatologicos
ou, ainda, uma opiniao coletada em duas ocasioes distintas. Regressao
logıstica ordinaria pode ser inapropriada para tais dados, pois o tamanho
amostral e insuficiente para estimar, sem vıcio, o efeito do par. Usando,
contudo, argumentos condicionais, pode-se remover o efeito do par e estimar
os demais efeitos de interesse.
118 Capıtulo 3. Regressao Logıstica Giolo, S.R.
A forma apropriada de regressao logıstica para tais tipos de dados e
denominada regressao logıstica condicional. Em tal regressao, a estimacao
dos parametros do modelo e baseada em uma funcao de verossimilhanca
condicional. Algumas situacoes sao apresentadas a seguir.
3.4.1 Estudos prospectivos: contagem pequena nos estratos
Considere um ensaio clınico em que i = 1, · · · , q centros medicos sao esco-
lhidos para sua realizacao. Em cada centro, sao selecionados dois pacientes,
um para receber o tratamento sob pesquisa e, o outro, para receber o
placebo. O interesse se concentra na avaliacao da melhora do paciente.
Note, que existem somente duas observacoes por centro, o que, natural-
mente, inviabiliza que o efeito de centro seja estimado sem vıcio.
Se para esse estudo fossse considerado o modelo de regressao logıstica
usual, a probabilidade para yij , em que i = 1, · · · , q centros e j = 1, 2
tratamentos, seria dada por:
P [yij = 1] =exp{αi + β xij + γ′zij}
1 + exp{αi + β xij + γ′zij}
sendo αi o efeito do i-esimo centro, β o parametro associado ao trata-
mento e γ’ = (γ1, γ2, · · · , γt) o vetor de parametros associado as covariaveis
z. Como, no entanto, os parametros αi (i = 1, · · · , q) nao podem ser es-
timados adequadamente pelo fato de existirem somente duas observacoes
por centro, uma alternativa e considerar um modelo baseado em probabi-
lidades condicionais, em que os efeitos dos centros sao considerados como
parametros nuisance (perturbacao). Sob esta abordagem, a probabilidade
condicional para yij e escrita como a razao entre: a probabilidade conjunta
do paciente tratado de um par melhorar e o paciente placebo deste par nao
melhorar, e a probabilidade conjunta de que, seja o paciente tratado ou o
3.4. Regressao Logıstica Condicional 119
paciente placebo, tenha apresentado melhora. Tem-se, entao:
P [yi1 = 1, yi2 = 0 | yi1 = 1, yi2 = 0 ou yi1 = 0, yi2 = 1] =
=P [yi1 = 1]P [yi2 = 0]
P [yi1 = 1]P [yi2 = 0] + P [yi1 = 0]P [yi2 = 1]. (3.7)
Como as probabilidades envolvidas em (3.7), em termos do modelo de
regressao logıstica, sao dadas por:
P [yi1 = 1]P [yi2 = 0] =exp{αi + β + γ′zi1}
1 + exp{αi + β + γ′zi1}.
1
1 + exp{αi + γ′zi2}
e
P [yi1 = 0]P [yi2 = 1] =1
1 + exp{αi + βγ′zi1}.
exp{αi + γ′zi2}1 + exp{αi + γ′zi2}
,
tem-se que a razao (3.7) resulta em:
exp{αi + β + γ′zi1}exp{αi + β + γ′zi1} + exp{αi + γ′zi2}
=exp{β + γ′(zi1 − zi2)}
1 + exp{β + γ′(zi1 − zi2)},
que nao inclui os parametros αi (i = 1, · · · , q). Sob a abordagem de pro-
babilidades condicionais, tem-se, portanto, um modelo com um numero
reduzido de parametros que podem ser estimados sem vıcio. A funcao de
verossimilhanca condicional e, desse modo,
L(β, γ) =
q∏
i=1
{exp{β + γ′(zi1 − zi2)}
1 + exp{β + γ′(zi1 − zi2)}
}yi1(1−yi2)
{1
1 + exp{β + γ′(zi1 − zi2)}
}(1−yi1)yi2
(3.8)
que, na realidade, e a funcao de verossimilhanca nao-condicional para o
modelo de regressao logıstica usual, exceto que o intercepto e agora β, o
efeito do tratamento, e cada observacao representa um par de observacoes
de cada centro, em que a resposta e 1, se o par apresenta a combinacao
(yi1 = 1, yi2 = 0) e 0, se o par apresenta a combinacao (yi1 = 0, yi2 = 1).
120 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Ainda, (zi1 − zi2) sao as diferencas dos valores das covariaveis para o pa-
ciente tratado e o paciente placebo. Como a funcao de verossimilhanca
e condicionada nos pares discordantes, os pares concordantes ((yi1 = 1,
yi2 = 1) e (yi1 = 0, yi2 = 0)) sao nao-informativos e podem ser, assim,
ignorados.
A funcao de verossimilhanca (3.8) pode, ainda, ser reescrita como:
L(β, γ) =
q∏
i=1
{exp{β + γ′zi1}
exp{β + γ′zi1} + exp{γ′zi2}
}yi1(1−yi2)
{exp{β + γ′zi2}
exp{β + γ′zi1} + exp{γ′zi2}
}(1−yi1)yi2
que e a mesma funcao de verossimilhanca que se aplica a dados pareados
em um caso simples do modelo de regressao de Cox, ou modelo de riscos
proporcionais, usado em analise de sobrevivencia. Isso significa que os
mesmos procedimentos computacionais usados para ajustar o modelo de
riscos proporcionais, pode ser usado para o modelo de regressao logıstica
condicional.
Note, na ausencia das covariaveis z, que os dados podem ser represen-
tados em uma tabela de contingencia 2 × 2 em que as respostas para o
tratamento sao cruzadas com as respostas para o placebo. Testar β = 0 e,
desse modo, equivalente ao teste de McNemar. Ainda, pode ser mostrado,
que eβ e estimado por n12/n21, sendo n12 e n21 as contagens que aparecem
fora da diagonal principal desta tabela.
Exemplo: Para analisar o efeito de um novo tratamento em um particular
problema de pele, pesquisadores coletaram informacoes em 79 clınicas. Em
cada clınica, um paciente recebeu o tratamento e, o outro, recebeu um
placebo. As covariaveis coletadas foram: idade, sexo (1 se masculino e 0
se feminino) e o grau inicial do problema, que variou de 1 a 4 para leve
3.4. Regressao Logıstica Condicional 121
a severo. A resposta considerada foi a melhora ou nao do problema. Os
dados encontram-se no Apendice.
Considerando o modelo de regressao logıstica condicional para os dados
desse estudo, obtiveram-se as estimativas dos parametros apresentados na
Tabela 3.34.
Tabela 3.34: Estimativas de maxima verossimilhanca.
estimativas erro-padrao z valor p
Tratamento (β) 0,7025 0,3601 1,951 0,051
Sexo (M) (γ1) 0,5312 0,5545 0,958 0,340
Idade (γ2) 0,0248 0,0224 1,107 0,270
Grau inicial (γ3) 1,0915 0,3351 3,257 0,001
A partir da Tabela 3.34, podem ser observados efeitos significativos para
o grau inicial (p = 0, 001) e tratamento (p = 0, 051), bem como efeitos nao
significativos para sexo e idade. Removendo-se do modelo os efeitos nao
significativos, foram obtidas as estimativas apresentadas na Tabela 3.35.
Tabela 3.35: Estimativas de maxima verossimilhanca: modelo reduzido.
estimativas erro-padrao z valor p
Tratamento (β) 0,711 0,349 2,04 0,0410
Grau inicial (γ1) 1,077 0,321 3,35 0,0008
Tem-se, entao, que a odds de melhora para os pacientes recebendo o
tratamento e de e0,711 = 2, 03 vezes a dos pacientes recebendo o placebo. A
odds de melhora tambem cresce por um fator de em torno de 3 para cada
unidade de acrescimo no grau inicial. Logo, mesmo ajustado para o grau
inicial, o tratamento apresenta efeito significativo.
122 Capıtulo 3. Regressao Logıstica Giolo, S.R.
Os resıduos apresentados na Figura 3.6, evidenciam um ajuste satis-
fatorio do modelo aos dados.
0 50 100 150
−1.0
−0.5
0.0
0.5
1.0
i
resi
duos
Figura 3.6: Resıduos associados ao modelo ajustado.
3.4.2 Estudos crossover
Regressao logıstica condicional e tambem uma ferramenta util na analise
de estudos com delineamentos crossover. Nestes delineamentos, frequen-
temente usados em ensaios clınicos, o estudo e dividido em perıodos e os
pacientes recebem um tratamento diferente a cada um desses perıodos. O
paciente atua, desse modo, como seu proprio controle. O interesse se con-
centra na comparacao da eficacia dos tratamentos, ajustando para os efeitos
dos perıodos e efeitos residuais destes. O delineamento crossover basico e o
de dois-perıodos, mas delineamentos com tres ou mais perıodos sao tambem
frequentes.
(a) Estudos crossover de dois-perıodos
Um estudo crossover de dois-perıodos pode tambem ser considerado
um estudo com observacoes pareadas. Na Tabela 3.36 sao apresentados
dados de um ensaio clınico conduzido sob o delineamento crossover de dois
3.4. Regressao Logıstica Condicional 123
perıodos em que os pacientes foram estratificados de acordo com dois grupos
de idade (jovens e adultos). Tres sequencias de tratamentos foram, entao,
designadas a cada um dos dois grupos. FF indica resposta favoravel nos
perıodos 1 e 2, FU indica resposta favoravel no perıodo 1 e nao-favoravel no
perıodo 2 e, assim sucessivamente. A sequencia A:B significa que a droga
A foi administrada durante o 1o perıodo e a B no 2o perıodo. A notacao P
indica placebo. Cada sequencia foi administrada a 50 pacientes.
Tabela 3.36: Estudo crossover de dois-perıodos.
Respostas
Idade Sequencia FF FU UF UU Total
adultos A:B 12 12 6 20 50
adultos B:P 8 5 6 31 50
adultos P:A 5 3 22 20 50
jovens B:A 19 3 25 3 50
jovens A:P 25 6 6 13 50
jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
Uma estrategia de analise desses dados e modelar a probabilidade de
melhora de cada paciente no 1o perıodo (e nao no segundo) versus a pro-
babilidade de melhora seja no 1o ou 2o perıodos, mas nao em ambos. Isto
pode ser expresso como a probabilidade condicional:
P [p1 = F ]P [p2 = U ]
P [p1 = F ]P [p2 = U ] + P [p1 = U ]P [p2 = F ],
em que p1 significa perıodo 1 e p2, perıodo 2. Entao, a analise pode ser
feita da mesma maneira do exemplo anterior. Naquele caso, a analise foi
ajustada para centros, removendo-se, assim, a variabilidade entre centros
(intercentros) e se concentrando na variabilidade intracentros. Nesse exem-
plo, a analise e ajustada para pacientes, removendo-se a variabilidade entre
124 Capıtulo 3. Regressao Logıstica Giolo, S.R.
pacientes (interpacientes) e se concentrando na informacao intrapacientes.
Os efeitos a serem considerados sao: efeito do perıodo, efeito dos grupos de
idade, efeito das drogas e, ainda, os efeitos residuais das drogas A e B que
resultam da passagem do perıodo 1 para o perıodo 2.
O modelo incluindo os efeitos residuais das drogas pode ser escrito por:
P [FU | FU ou UF ] =exp{β + τ ′z}
1 + exp{β + τ ′z} ,
em que z consiste das diferencas entre os dois perıodos para: grupos de
idade, droga A, droga B, residual da droga A e residual da droga B. O
parametro β corresponde ao efeito do perıodo, τ0 ao efeito de grupos de
idade, τ1 e τ2 aos efeitos das drogas A e B, respectivamente, e τ3 e τ4 aos
efeitos residuais das drogas A e B, respectivamente. Note, que como z
consiste das diferencas entre os dois perıodos, deve-se considerar para os
pacientes adultos, os valores 1 e 0 para os perıodos 1 e 2, respectivamente,
e, para os pacientes jovens, o valor 0 para ambos os perıodos. Desse modo,
tem-se as diferencas: zidade = 1, se adulto e zidade = 0, se jovem.
As estimativas dos parametros do modelo de regressao logıstica condi-
cional ajustado aos dados desse estudo encontram-se na Tabela 3.37.
Tabela 3.37: Estimativas de maxima verossimilhanca - modelo inicial.
estimativas erro-padrao χ2 valor p
Perıodo (p1) (β) -1,4370 0,703 4,183 0,041
Droga A (τ1) 1,2467 0,681 3,354 0,067
Droga B (τ2) -0,0019 0,641 0,000 0,997
Gpidade (adultos) (τ0) 0,6912 0,465 2,205 0,137
Residual droga A (τ3) -0,1903 1,112 0,029 0,864
Residual droga B (τ4) -0,5653 1,156 0,239 0,624
A partir Tabela 3.37, ha evidencias de que os efeitos residuais, seja da
3.4. Regressao Logıstica Condicional 125
droga A ou da B, nao foram significativos. O modelo reduzido, em que os
efeitos residuais de ambas as drogas sao removidos, foi ajustado. O efeito
de grupos de idade, por apresentar um efeito modestamente sugestivo, foi
mantido no modelo. As estimativas encontram-se na Tabela 3.38.
Tabela 3.38: Estimativas de maxima verossimilhanca - modelo reduzido.
estimativas erro-padrao χ2 valor p
Perıodo (p1) (β) -1,191 0,331 12,95 0,0003
Droga A (τ1) 1,346 0,329 16,75 <, 0001
Droga B (τ2) 0,266 0,323 0,67 0,4104
Gpidade (adultos) (τ0) 0,710 0,458 2,41 0,1207
Note, a partir da Tabela 3.38, que o efeito de perıodo permanece clara-
mente significativo (p = 0,0003). A droga A, em relacao ao placebo, tambem
apresenta efeito significativo. O mesmo nao ocorre com a droga B, que
apresenta efeito nao significativo. O efeito de grupos de idade permanece
ainda sugestivo. Remove-lo ou nao do modelo depende do proposito da
analise. Se nao for de interesse a distincao entre os grupos adulto e jovem,
entao a escolha provavel sera pela remocao deste efeito, o que resulta nas
estimativas apresentadas na Tabela 3.39.
Tabela 3.39: Estimativas do modelo sem grupos de idade.
estimativas erro-padrao χ2 valor p
Perıodo (p1) (β) -0,845 0,231 13,45 2,4e-04
Droga A (τ1) 1,408 0,341 17,09 3,6e-05
Droga B (τ2) 0,296 0,316 0,87 3,5e-01
Para comparar os efeitos das drogas A e B, foi testado a hipotese nula
126 Capıtulo 3. Regressao Logıstica Giolo, S.R.
H0: τ1 = τ2. Os resultados: χ2 = 12,41, g.l. = 1, p = 0,00042, mostram que
as drogas apresentam efeitos diferentes. Os resıduos associados ao modelo
ajustado evidenciaram um ajuste satisfatorio. As odds ratios podem ser
obtidas e interpretadas de modo similar ao dos demais exemplos.
(b) Estudos crossover de tres-perıodos
Os estudos crossover de tres-perıodos, embora com certo trabalho adi-
cional, podem ser analisados de maneira similar aos de dois-perıodos. Um
tal exemplo pode ser encontrado em Stokes et al. (2000).
3.4.3 Estudos retrospectivos com observacoes pareadas
Estudos retrospectivos sao frequentes em pesquisas epidemiologicas. Em
um estudo caso-controle, por exemplo, uma pessoa conhecida ter o evento
de interesse (caso) e pareada com uma ou mais pessoas que nao apresentam
o respectivo evento (controles). A situacao mais comum consiste de parea-
mento 1:1, isto e, um controle para cada caso. Outras situacoes seriam a
de pareamentos 1:m, em que m = numero de controles estariam entre 2 e
5, bem como as que consideram pareamentos n:m (n e m entre 1 e 5).
Em estudos dessa natureza, modelos de regressao logıstica condicional
podem ser tambem utilizados. A funcao de verossimilhanca e construıda
com base nas probabilidades condicionais de se observar as covariaveis dado
a resposta (evento: sim ou nao) e no uso do teorema de Bayes para deter-
minar a probabilidade associada ao evento. Essa funcao e similar aquela
derivada na Secao 3.4.1 para estudos prospectivos com contagens pequenas
nos estratos. Para pareamentos 1:1, esta funcao e expressa por:
L(β) =
q∏
i=1
{exp{β′(xi1 − xi2)}
1 + exp{β′(xi1 − xi2)}
}, (3.9)
em que (xi1 − xi2) sao as diferencas dos valores das covariaveis do caso
e controle envolvidos no i-esimo pareamento (i = 1, · · · , q). Note, que o
3.4. Regressao Logıstica Condicional 127
efeito do par (caso e seu respectivo controle), e considerado um parametro
nuisance (perturbacao). Sendo assim, seu efeito e removido e, consequente-
mente, nao existe intercepto no modelo. Para a funcao de verossimilhanca
condicional (3.9), pares em que xi1 = xi2 sao nao-informativos, visto que
a contribuicao deles para (3.9) e 0,5. Esses pares podem ser, portanto,
ignorados.
A funcao de verossimilhanca condicional (3.9) e, na realidade, a funcao
de verossimilhanca para o modelo de regressao logıstica nao-condicional
sem o intercepto, em que a resposta e sempre 1 e os valores das covariaveis
sao iguais as diferencas entre os valores dos casos e controles
Para estudos com pareamentos 1:m, pode ser mostrado que a funcao de
verossimilhanca condicional e:
L(β) =
q∏
i=1
[1 +
m∑
h=1
exp{β′(xih − xi0)
}]−1
,
em que h = 1, · · · , m indexa os controles e h = 0 corresponde ao caso.
Essa funcao nao e, contudo, equivalente a nenhuma forma nao-condicional
e, sendo assim, programas computacionais especıficos sao necessarios nos
casos em que ocorrem pareamentos 1:m, bem como n:m.
Exemplo: Um estudo foi realizado em uma comunidade de aposentadas
nos anos 70 para estudar a associacao entre o uso de estrogenio e a in-
cidencia de cancer do endometrio. Casos foram pareados a controles que
estavam no mesmo ano de idade, tinham o mesmo status marital e viviam
na mesma comunidade na data do diagnostico do caso. Outras informacoes
coletadas foram sobre: hipertensao, historico de vesıcula biliar e o nao uso
de estrogenio. Um total de 63 pares (pareamentos 1:1) foi obtido. Os dados
encontram-se no Apendice.
No processo de ajuste do modelo de regressao logıstica condicional, foi
observado que somente as covariaveis EST (estrogenio) e HVB (historico
128 Capıtulo 3. Regressao Logıstica Giolo, S.R.
de vesıcula biliar) apresentaram-se significativas. As estimativas para o
modelo com estas covariaveis encontram-se na Tabela 3.40. Os resultados
mostram que a odds de cancer endometrial das pessoas com historico de
vesıcula biliar (HVB), ajustada para estrogenio, e exp{2, 78} = 16, 1 vezes
a das sem tal historico. Por outro lado, a odds de cancer endometrial das
pessoas que usaram estrogenio, ajustada para historico de vesıcula biliar,
foi exp{1, 66} = 5, 23 vezes a das que nao usaram estrogenio. Os resıduos
associados a este modelo evidenciaram um ajuste satisfatorio.
Tabela 3.40: Estimativas obtidas para o modelo final.
estimativas erro-padrao χ2 valor p
EST (β1) 1,66 0,798 4,3 0,0381
HVB (β2) 2,78 0,760 13,3 0,0003
3.5 Exercıcios
1. Para os dados apresentados na Tabela 3.41, referentes a um estudo
sobre doenca coronaria, em que se tem CAT: nıvel de catecholamine
(0 se baixo e 1 se alto), IDADE: 0 se < 55 anos e 1 se ≥ 55 e ECG:
eletrocardiograma (0 se normal e 1 se anormal):
(a) ajuste um modelo de regressao logıstica que estime adequada-
mente a probabilidade de doenca coronaria e retire conclusoes. Con-
sidere as possıveis interacoes duplas entre as covariaveis.
2. (a) Para os dados do estudo sobre bronquite (Tabela 3.42):
(a) ajuste um modelo de regressao logıstica que estime adequada-
mente a probabilidade de bronquite. As covariaveis consideradas no
3.5. Exercıcios 129
Tabela 3.41: Estudo sobre doenca coronaria (CHD).
CHD
CAT IDADE ECG Sim Nao Total
0 0 0 17 257 274
0 1 0 15 107 122
0 0 1 7 52 59
0 1 1 5 27 32
1 0 0 1 7 8
1 1 0 9 30 39
1 0 1 3 14 17
1 1 1 14 44 58
Fonte: Kleinbaum (1994).
Tabela 3.42: Estudo sobre bronquite (BRC).
BRC
SMK SES IDADE Sim Nao Total
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112
Fonte: Kleinbaum (1994).
estudo foram: SMK: fumante (0 se nao e 1 se sim), SES: status socio-
economico (0 se baixo e 1 se alto) e IDADE (0 se < 40 e 1 se entre
[40,59) anos).
3. Um estudo realizado em Curitiba-PR, reuniu informacoes, no perıodo
de 1994 a 1995, de 494 indivıduos que sofreram acidente traumatico
130 Capıtulo 3. Regressao Logıstica Giolo, S.R.
e foram atendidos pelo SIATE. Um dos objetivos foi encontrar um
modelo de regressao que pudesse predizer adequadamente a probabi-
lidade de sobrevida de pacientes politraumatizados nas primeiras 24
horas apos o acidente. Sabendo-se que o modelo ajustado foi:
log
[θ(x)
1 − θ(x)
]= 2, 211 + 2, 607 x1 − 0, 52 x2,
em que x1 = numero de lesoes (0 a 5) no torax e x2 = escala de
coma de Glascow (3 a 15) obtida de acordo com o total observado na
Tabela 3.43:
Tabela 3.43: Escala de coma de Glascow.
1. Abertura Ocular espontanea 4
a voz 3
com dor 2
ausente 1
2. Resposta Verbal orientada 5
confusa 4
desconexa 3
ininteligıvel 2
ausente 1
3. Resposta Motora obedece comandos 6
apropriada a dor 5
retirada a dor 4
flexao anormal 3
extensao 2
ausente 1
Total GCS (1+2+3)
(a) obtenha e apresente em uma tabela, as probabilidades estimadas
para todas as combinacoes de x1 e x2. O que e possıvel concluir?
4. Um estudo caso-controle envolvendo 78 pessoas, em que para cada um
dos 39 casos tem-se 1 controle associado, foi realizado para pesquisar
3.5. Exercıcios 131
se o fumo (SMK) estaria associado ao infarto do miocardio (MI).
Quatro variaveis foram consideradas no pareamento: idade, raca, sexo
e status do hospital. Duas outras covariaveis coletadas (nao consi-
deradas no pareamento) foram: pressao sistolica (SBP) e status do
eletrocardiograma (ECG). Os dados encontram-se no Apendice.
(a) ajuste um modelo de regressao logıstica condicional aos dados
desse estudo e retire conclusoes.
5. Os dados na Tabela 3.44 sao de um estudo sobre doenca respiratoria
cronica (Semenya e Koch, 1980).
Tabela 3.44: Estudo sobre doenca respiratoria cronica.
Poluicao Poluicao Status Nıvel da doenca
do ar no trabalho Fumo I II III IV Total
baixa nao nao 158 9 5 0 172
baixa nao ex 167 19 5 3 194
baixa nao sim 307 102 83 68 560
baixa sim nao 26 5 5 1 37
baixa sim ex 38 12 4 4 58
baixa sim sim 94 48 46 60 248
alta nao nao 94 7 5 1 107
alta nao ex 67 8 4 3 82
alta nao sim 184 65 33 36 318
alta sim nao 32 3 6 1 42
alta sim ex 39 11 4 2 56
alta sim sim 77 48 39 51 215
Os nıveis associados a variavel resposta significam: I = sem sintomas,
II = tosse por menos de 3 meses ao ano, III = tosse por mais de 3
meses ao ano e IV = tosse e outros sintomas por mais de 3 meses ao
ano.
132 Capıtulo 3. Regressao Logıstica Giolo, S.R.
(a) ajuste um modelo de regressao logıstica aos dados desse estudo e
retire conclusoes.
APENDICE
A.1 Dados do Exemplo - Secao 3.4.1 (skin.txt)
A.2 Dados do Exemplo - Secao 3.4.3 (match.txt)
A.3 Dados do Exercıcio 4 - Capıtulo 3 (infart.txt)
A.4 Codigos em R utilizados nas analises (comandosR.txt)
Obs: arquivos disponıveis em www.est.ufpr.br/∼suely
134 Apendice
A.1 Dados do estudo prospectivo - Secao 3.4.1 (skin.txt).
V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
1 1 0 27 0 1 1 0 0 32 0 2
2 1 0 41 1 3 2 0 0 47 0 1
3 1 1 19 1 4 3 0 1 31 0 4
4 1 1 55 1 1 4 0 1 24 1 3
5 1 0 51 1 4 5 0 0 44 0 2
6 1 1 23 0 1 6 0 0 44 1 3
7 1 1 31 1 2 7 0 0 39 0 2
8 1 1 22 0 1 8 0 1 54 1 4
9 1 1 37 1 3 9 0 1 63 0 2
10 1 1 33 0 3 10 0 0 43 0 3
11 1 0 32 1 1 11 0 1 33 0 3
12 1 1 47 1 4 12 0 1 24 0 4
13 1 1 55 1 3 13 0 0 38 1 1
14 1 0 33 0 1 14 0 0 28 1 2
15 1 0 48 1 1 15 0 0 42 0 1
16 1 1 55 1 3 16 0 1 52 0 1
17 1 1 30 0 4 17 0 1 48 1 4
18 1 0 31 1 2 18 0 1 27 1 3
19 1 1 66 1 3 19 0 0 54 0 1
20 1 0 45 0 2 20 0 0 66 1 2
21 1 1 19 1 4 21 0 0 20 1 4
22 1 1 34 1 4 22 0 0 31 0 1
23 1 0 46 0 1 23 0 1 30 1 2
24 1 1 48 1 3 24 0 0 62 0 4
25 1 1 50 1 4 25 0 1 45 1 4
26 1 1 57 1 3 26 0 0 43 0 3
27 1 0 13 0 2 27 0 1 22 1 3
28 1 1 31 1 1 28 0 0 21 0 1
29 1 1 35 1 3 29 0 1 35 1 3
30 1 0 36 1 3 30 0 0 37 0 3
31 1 0 45 0 1 31 0 0 41 1 1
32 1 1 13 1 2 32 0 1 42 0 1
33 1 1 14 0 4 33 0 0 22 1 2
34 1 0 15 1 2 34 0 1 24 0 1
35 1 0 19 1 3 35 0 0 31 0 1
36 1 1 20 0 2 36 0 1 32 1 3
37 1 1 23 1 3 37 0 0 35 0 1
38 1 0 23 0 1 38 0 1 21 1 1
39 1 1 24 1 4 39 0 1 30 1 3
40 1 1 57 1 3 40 0 0 43 1 3
Apendice 135
A.1 Continuacao.
V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
41 1 0 13 1 2 41 0 1 22 0 3
42 1 1 31 1 1 42 0 0 21 1 3
43 1 0 19 1 3 43 0 1 35 1 3
44 1 1 31 1 3 44 0 0 37 0 2
45 1 0 44 0 1 45 0 0 41 1 1
46 1 1 41 1 2 46 0 1 41 0 1
47 1 1 41 1 2 47 0 0 21 0 4
48 1 0 51 1 2 48 0 1 22 1 1
49 1 0 62 1 3 49 0 0 32 0 3
50 1 1 21 0 1 50 0 1 34 0 1
51 1 1 55 1 3 51 0 0 35 1 2
52 1 0 61 0 1 52 0 1 19 0 1
53 1 1 43 1 2 53 0 1 31 0 2
54 1 0 44 1 1 54 0 0 41 1 1
55 1 1 67 1 2 55 0 1 41 0 1
56 1 1 41 0 2 56 0 1 21 1 4
57 1 0 51 1 3 57 0 1 51 0 2
58 1 1 62 1 3 58 0 1 54 1 3
59 1 1 22 0 1 59 0 0 22 0 1
60 1 1 42 1 2 60 0 0 29 1 2
61 1 0 51 1 1 61 0 0 31 0 1
62 1 1 27 0 2 62 0 1 32 1 2
63 1 1 31 1 1 63 0 0 21 0 1
64 1 1 35 0 3 64 0 1 33 1 3
65 1 1 67 1 2 65 0 1 19 0 1
66 1 1 41 0 2 66 0 1 62 1 4
67 1 0 31 1 2 67 0 1 45 1 3
68 1 1 34 1 1 68 0 0 54 0 1
69 1 0 21 0 1 69 0 1 34 1 4
70 1 1 64 1 3 70 0 1 51 0 1
71 1 0 61 1 3 71 0 1 34 1 3
72 1 1 33 0 1 72 0 0 43 0 1
73 1 0 36 0 2 73 0 1 37 0 3
74 1 1 21 1 1 74 0 1 55 0 1
75 1 0 47 0 2 75 0 0 42 1 3
76 1 0 51 1 4 76 0 1 44 0 2
77 1 0 23 1 1 77 0 1 41 1 3
78 1 1 31 0 2 78 0 0 23 1 4
79 1 1 22 0 1 79 0 1 19 1 4
V1=clinica, V2=trat, V3=sexo, v4=idade, V5=melhora e V6= grauini
136 Apendice
A.2 Dados do estudo retrospectivo apresentado na Secao 3.4.3 (match.txt).
par cc id est hvb hip nes par cc id est hvb hip nes
1 1 74 1 0 0 1 20 1 66 1 0 1 1
1 0 75 0 0 0 0 20 0 66 1 0 0 1
2 1 67 1 0 0 1 21 1 77 1 0 0 1
2 0 67 0 0 1 1 21 0 77 1 1 1 1
3 1 76 1 0 1 1 22 1 66 1 0 1 1
3 0 76 1 0 1 1 22 0 67 0 0 1 1
4 1 71 1 0 0 0 23 1 71 1 0 1 0
4 0 70 1 1 0 1 23 0 72 0 0 0 0
5 1 69 1 1 0 1 24 1 80 1 0 0 1
5 0 69 1 0 1 1 24 0 79 0 0 0 0
6 1 70 1 0 1 1 25 1 64 1 0 0 1
6 0 71 0 0 0 0 25 0 64 1 0 0 1
7 1 65 1 1 0 1 26 1 63 1 0 0 1
7 0 65 0 0 0 0 26 0 63 1 0 1 1
8 1 68 1 1 1 1 27 1 72 0 1 0 1
8 0 68 0 0 1 1 27 0 72 0 0 1 0
9 1 61 0 0 0 1 28 1 57 1 0 0 0
9 0 61 0 0 0 1 28 0 57 1 0 1 1
10 1 64 1 0 0 1 29 1 74 0 1 0 1
10 0 65 0 0 0 0 29 0 74 0 0 0 1
11 1 68 1 1 0 1 30 1 62 1 0 1 1
11 0 69 1 1 0 0 30 0 62 1 0 0 1
12 1 74 1 0 0 1 31 1 73 1 0 1 1
12 0 74 1 0 0 0 31 0 72 1 0 0 1
13 1 67 1 1 0 1 32 1 71 1 0 1 1
13 0 68 1 0 1 1 32 0 71 1 0 1 1
14 1 62 1 1 0 1 33 1 64 0 0 1 1
14 0 62 0 1 0 0 33 0 65 1 0 0 1
15 1 71 1 1 0 1 34 1 63 1 0 0 1
15 0 71 1 0 1 1 34 0 64 0 0 0 1
16 1 83 1 0 1 1 35 1 79 1 1 1 1
16 0 82 0 0 0 0 35 0 78 1 1 1 1
17 1 70 0 0 0 1 36 1 80 1 0 0 1
17 0 70 0 0 1 1 36 0 81 0 0 1 1
18 1 74 1 0 0 1 37 1 82 1 0 1 1
18 0 75 0 0 0 0 37 0 82 0 0 0 1
19 1 70 1 0 0 1 38 1 71 1 0 1 1
19 0 70 0 0 0 0 38 0 71 0 0 1 1
Apendice 137
A.2 Continuacao.
par cc id est hvb hip nes par cc id est hvb hip nes
39 1 83 1 0 1 1 52 1 72 1 0 1 1
39 0 83 0 0 0 1 52 0 72 1 0 1 1
40 1 61 1 0 1 1 53 1 65 1 0 1 1
40 0 60 0 0 0 1 53 0 67 0 0 0 0
41 1 71 1 0 0 1 54 1 67 1 0 1 1
41 0 71 0 0 0 0 54 0 66 1 0 0 1
42 1 69 1 0 1 1 55 1 64 1 1 0 1
42 0 69 0 1 0 1 55 0 63 0 0 0 1
43 1 77 1 0 0 1 56 1 62 1 0 0 0
43 0 76 1 0 1 1 56 0 63 0 0 0 0
44 1 64 1 0 0 0 57 1 83 0 1 1 1
44 0 64 1 0 0 0 57 0 83 0 1 0 0
45 1 79 0 1 0 0 58 1 81 1 0 0 1
45 0 82 1 0 0 1 58 0 79 0 0 0 0
46 1 72 1 0 0 1 59 1 67 1 0 0 1
46 0 72 1 0 0 1 59 0 66 1 0 1 1
47 1 82 1 1 1 1 60 1 73 1 1 1 1
47 0 81 0 0 0 0 60 0 72 1 0 0 1
48 1 73 1 0 1 1 61 1 67 1 1 0 1
48 0 74 1 0 0 1 61 0 67 1 1 0 1
49 1 69 1 0 0 1 62 1 74 1 0 1 1
49 0 68 0 0 0 1 62 0 75 0 0 0 1
50 1 79 1 0 1 1 63 1 68 1 1 0 1
50 0 79 0 0 0 1 63 0 69 1 0 0 1
51 1 72 1 0 0 0
51 0 71 1 0 1 1
cc = 1 se caso e 0 se controle, id = idade (anos), est = estrogenio (1 se usou e 0 se nao),
hvb = historico vesıcula biliar (1 se sim e 0 se nao), hip = hipertensao (1 se sim e 0 se nao),
nes = nao estrogenio (1 se nao usa e 0 se usa).
138 Apendice
A.3 Estudo caso-controle do exercıcio 4 - Capıtulo 3 (infart.txt).
par MI SMK SBP ECG par MI SMK SBP ECG
1 1 0 160 1 20 0 0 140 1
1 0 0 140 0 21 1 1 160 0
2 1 0 160 1 21 0 0 140 0
2 0 0 140 0 22 1 1 120 0
3 1 0 160 0 22 0 0 120 0
3 0 0 140 0 23 1 1 140 0
4 1 0 160 0 23 0 0 140 0
4 0 0 140 0 24 1 1 120 0
5 1 0 160 0 24 0 0 140 0
5 0 0 140 0 25 1 1 120 0
6 1 0 160 0 25 0 0 160 0
6 0 0 140 0 26 1 0 120 0
7 1 0 160 0 26 0 1 140 0
7 0 0 140 0 27 1 0 120 0
8 1 0 160 0 27 0 1 120 0
8 0 0 140 0 28 1 0 160 1
9 1 0 160 0 28 0 0 140 0
9 0 0 140 0 29 1 0 160 0
10 1 0 160 0 29 0 0 140 0
10 0 0 140 0 30 1 0 120 0
11 1 0 120 1 30 0 0 140 0
11 0 0 120 0 31 1 0 140 0
12 1 0 120 0 31 0 0 140 0
12 0 0 120 0 32 1 1 160 1
13 1 0 120 0 32 0 1 140 0
13 0 0 120 0 33 1 1 160 1
14 1 0 140 0 33 0 1 140 1
14 0 0 140 0 34 1 1 120 1
15 1 0 120 1 34 0 1 120 1
15 0 0 140 1 35 1 1 160 0
16 1 0 120 1 35 0 0 140 0
16 0 0 140 1 36 1 0 160 1
17 1 1 160 1 36 0 1 140 1
17 0 0 140 0 37 1 0 120 0
18 1 1 160 1 37 0 1 140 0
18 0 0 140 0 38 1 1 160 1
19 1 1 160 0 38 0 1 140 0
19 0 0 140 1 39 1 1 120 0
20 1 1 160 1 39 0 1 120 0
Fonte: Kleinbaum (1994)
Apendice 139
A.4 Codigos em R utilizados nas analises
1. Explorando a Distribuicao Qui-quadrado
> help(dchisq)
> x<-1:40
> plot(x,x*0,pch="",ylim=range(c(0,0.15)),xlim=range(c(0,40)),
xlab="x",ylab="f(x)",bty="n")
> lines(dchisq(x,1),lty=1,c=1)
> lines(dchisq(x,5),lty=2,c=2)
> lines(dchisq(x,12),lty=3,c=3)
> lines(dchisq(x,25),lty=4,c=4)
> lines(dchisq(x,30),lty=5,c=5)
> pchisq(3.84,1)
> 1-pchisq(3.84,1)
> qchisq(0.95,1)
> gera<-sort(rchisq(5000,5))
> plot(dchisq(gera,5))
2. Estatısticas Q e Qp e valores p associados
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> Qp<-chisq.test(dados,correct=F)
> Qp
> n<-sum(dados)
> Q<-((n-1)/n)*Qp$statistic
> Q
> p<-1-pchisq(Q,1)
> p
3. Teste Exato de Fisher
> dados<-matrix(c(6,3,2,5), nc=2)
> fisher.test(dados)
4. Diferenca de Proporcoes = d e IC95%(d)
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
140 Apendice
> p21<-(dados[2,1]/(sum(dados[2,])))
> d<-p11-p21
> d
> vd<- ((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1))
> dvd<-sqrt(vd)
> z<-qnorm(0.975)
> corr<-0.5*((1/(sum(dados[1,]))) + (1/(sum(dados[2,]))))
> li<- d - ((z*dvd) + corr)
> li
> ls<- d + ((z*dvd) + corr)
> ls
5. Odds Ratio = OR e IC95%(OR)
> dados<-matrix(c(16,40,48,20),nc=2)
> dados
> OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1])
> OR
> vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2]))
> vf
> dpf<-sqrt(vf)
> dpf
> z<-qnorm(0.975)
> li<-exp(log(OR)-z*dpf)
> li
> ls<-exp(log(OR)+z*dpf)
> ls
6. Risco Relativo = RR e IC95%(RR)
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
> p21<-(dados[2,1]/(sum(dados[2,])))
> RR<-p11/p21
> RR
> vf1<-((1-p11)/(sum(dados[1,])*p11)) + ((1-p21)/(sum(dados[2,])*p21))
> dpf1<-sqrt(vf1)
> z<-qnorm(0.975)
> li<-exp(log(RR)-z*dpf1)
Apendice 141
> li
> ls<-exp(log(RR)+z*dpf1)
> ls
7. Teste de Mcnemar
> dados<-matrix(c(20,10,5,10),nc=2)
> dados
> mcnemar.test(dados,correct=F)
8. Estatıstica Escore Medio = QS e p-valor (tabela 2 x 3)
> dados<-matrix(c(13,29,7,7,21,7),nc=3)
> dados
> escore<-c(1,2,3)
> fb1<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb2<-(sum(dados[2,]*escore))/sum(dados[2,])
> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/sum(dados)
> mua<-sum(escore*esp)
> va<-sum((escore-mua)^2*esp)
> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])*(sum(dados)-1)))*va
> QS = ((fb1-mua)^2)/vbf1
> QS
> gl<-nrow(dados)-1
> p<-1-pchisq(QS,gl)
> p
9. Estatıstica QCS e p-valor
> x<-c(rep(1,84),rep(2,198),rep(3,205))
> y<-c(rep(0,59),rep(1,25),rep(0,169),rep(1,29),rep(0,196),rep(1,9))
> rac<-cor(y,x)
> n<-length(x)
> QCS<-(n-1)*rac^2
> QCS
> p<-1-pchisq(QCS,1)
10. Mantel Haenszel = QMH em tabelas 2 x 2, ORMH e IC(ORMH)
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
142 Apendice
11. Estatıstica QSMH e valor p em tabelas 2x3
> dados<-matrix(c(6,19,7,10,5,7,2,0,16,6,5,1),nc=3)
> dados
> escore<-c(0,1,2)
> fb11<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb21<-(sum(dados[3,]*escore))/sum(dados[3,])
> c(fb11,fb21)
> fm1<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(fb11,fb21))
> esp1<-(c(sum(dados[1:2,1]),sum(dados[1:2,2]),sum(dados[1:2,3])))/sum(dados[1:2,])
> mu1<-sum(escore*esp1)
> esp2<-(c(sum(dados[3:4,1]),sum(dados[3:4,2]),sum(dados[3:4,3])))/sum(dados[3:4,])
> mu2<-sum(escore*esp2)
> mu<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(mu1,mu2))
> v1<- sum(((escore-mu1)^2)*esp1)
> v2<- sum(((escore-mu2)^2)*esp2)
> vfma<-(sum(dados[1,])*sum(dados[2,])*v1)/(sum(dados[1:2,])-1)
> vfmb<-(sum(dados[3,])*sum(dados[4,])*v2)/(sum(dados[3:4,])-1)
> vfm<- sum(c(vfma,vfmb))
> QSMH<-((fm1-mu)^2)/vfm
> p<-1-pchisq(QSMH,1)
> round(c(QSMH,p),digits=5)
12. Estatıstica Kappa
Obs: baixar e instalar: vcd_0.1-3.2.zip (http://www.r-project.org)
> require(vcd)
> x<-c(38,5,0,1,33,11,3,0,10,14,5,6,3,7,3,10)
> x<-matrix(x,4,4)
> Kappa(x)
> Kappa(x, conf.level = 0.90)
13. Regressao Logıstica Dicotomica
13.1 Exemplo - Capıtulo 3
> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-cbind(resim, resnao,idade)
Apendice 143
> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial, data=dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial(link="logit"),data=dados)
> ajust
> anova(ajust)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,6)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,6)
> p2
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+0.1058*idade))
> modajust
> lines(idade,modajust)
13.2 Exemplo 1 - Capıtulo 3
> resim<-c(4,8,9,21)
> resnao<-c(11,10,9,6)
> sexo<-c(0,0,1,1)
> ecg<-c(0,1,0,1)
> dados<-cbind(resim, resnao,sexo,ecg)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
144 Apendice
> ajust<-glm(as.matrix(dados[,c(1,2)])~sexo+ecg,
family=binomial(link="logit"),data=dados)
> ajust
> summary(ajust)
> anova(ajust,test="Chisq")
> names(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,1)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,1)
> p2
> ajust1<- glm(as.matrix(dados[,c(1,2)])~sexo+ecg+sexo*ecg,
family=binomial(link="logit"),data=dados)
> ajust1
> anova(ajust1, test = "Chisq")
13.3 Exemplo 2 - Capıtulo 3
> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> tratA<-c(1,0,0,1,0,0)
> tratB<-c(0,1,0,0,1,0)
> int1<-diag*tratA
> int2<-diag*tratB
> dados<-cbind(resim, resnao,diag,tratA,tratB,int1,int2)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust1<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB+int1+int2,
family=binomial(link="logit"),data=dados)
Apendice 145
> ajust1
> summary(ajust1)
> anova(ajust1)
> ajust<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB,
family=binomial(link="logit"),data=dados)
> ajust
> ajust$fitted.values
> ajust$y
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,2)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,2)
> p2
> logito<-log(ajust$fitted.values/(1-ajust$fitted.values))
> logito
> odds<-ajust$fitted.values/(1-ajust$fitted.values)
> odds
13.4 Exemplo 3 - Capıtulo 3
> dc<-c(0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,0,0,0,0,1,1,0,0,0,0,1,1,0,0,1,1,0,0,1,1,1,0,1,
1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,0,1,1,1,1,0,1,1,1)
> sexo<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)
> ecg<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,2,2,2,2,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2)
> idade<-c(28,34,38,41,44,45,46,47,50,51,51,53,55,59,60,32,33,35,39,40,42,44,45,46,48,50,
52,52,54,55,59,59,32,37,38,38,42,43,43,44,46,48,49,49,52,53,54,55,57,46,48,57,
60,30,34,36,38,39,42,45,45,45,46,48,57,57,59,60,63,35,37,43,47,48,49,58,59,60)
> ajust1<-glm(dc~sexo+ecg+idade+sexo*ecg+sexo*idade+ecg*idade+sexo*ecg*idade,
family=binomial(link="logit"))
> ajust1
> summary(ajust1)
> anova(ajust1,test="Chisq")
146 Apendice
> ajust2<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"))
> ajust2
> summary(ajust2)
> anova(ajust2, test="Chisq")
> cbind(dc,sexo,ecg,idade,ajust2$fitted.values)
> dev<-residuals(ajust2,type=’deviance’)
> dev
> plot(dev)
> rpears<-residuals(ajust2,type=’pearson’)
> rpears
> plot(rpears)
# Obs: usar codigo gof_bino para obtenc~ao da estatıstica QHL
# Q-QPlot com envelope simulado
> fit.model<-ajust2
> par(mfrow=c(1,1))
> X <- model.matrix(fit.model)
> n <- nrow(X)
> p <- ncol(X)
> w <- fit.model$weights
> W <- diag(w)
> H <- solve(t(X)%*%W%*%X)
> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
> h <- diag(H)
> td <- resid(fit.model,type="deviance")/sqrt(1-h)
> e <- matrix(0,n,100)
> for(i in 1:100){
> dif <- runif(n) - fitted(fit.model)
> dif[dif >= 0 ] <- 0
> dif[dif<0] <- 1
> nresp <- dif
> fit <- glm(nresp ~ X, family=binomial)
> w <- fit$weights
> W <- diag(w)
> H <- solve(t(X)%*%W%*%X)
> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
> h <- diag(H)
> e[,i] <- sort(resid(fit,type="deviance")/sqrt(1-h))}
> e1 <- numeric(n)
Apendice 147
> e2 <- numeric(n)
> for(i in 1:n){
> eo <- sort(e[i,])
> e1[i] <- eo[5]
> e2[i] <- eo[95]}
> med <- apply(e,1,mean)
> faixa <- range(td,e1,e2)
> par(pty="s")
> qqnorm(td,xlab="Percentis", ylab="Deviance", ylim=faixa, pch=20)
> par(new=T)
> qqnorm(e1,axes=F,xlab="",ylab="",type="l",ylim=faixa,lty=1)
> par(new=T)
> qqnorm(e2,axes=F,xlab="",ylab="", type="l",ylim=faixa,lty=1)
> par(new=T)
> qnorm(med,axes=F,xlab="", ylab="", type="l",ylim=faixa,lty=2)
14. Regressao Logıstica Politomica
14.1 Exemplo: modelo de odds proporcionais
> require(MASS)
> melhora<-rep(c("ac","alg","nenh"),4)
> sexo<-c(1,1,1,1,1,1,0,0,0,0,0,0)
> trat<-c(1,1,1,0,0,0,1,1,1,0,0,0)
> Freq<-c(16,5,6,6,7,19,5,2,7,1,0,10)
> artrite<-cbind(melhora,sexo,trat)
> artrite<-as.data.frame(artrite)
> attach(artrite)
> options(contrasts = c("contr.treatment", "contr.poly"))
> ajust1 <- polr(melhora ~ sexo + trat + sexo*trat, weights = Freq, data=artrite)
> ajust1
> summary(ajust1)
> ajust2 <- polr(melhora ~ sexo + trat, weights= Freq, data = artrite)
> ajust2
> summary(ajust2)
> ajust2$fitted.values
*******************************************************************************
* Obs: inverter sinais dos parametros dos efeitos e manter os dos interceptos *
*******************************************************************************
148 Apendice
14.2 Exemplo: modelo de logitos generalizados (obs: executar no software SAS)
data school;
input escola periodo $ pref $ count @@;
datalines;
1 pad ind 10 1 pad gr 17 1 pad aula 26
1 int ind 5 1 int gr 12 1 int aula 50
2 pad ind 21 2 pad gr 17 2 pad aula 26
2 int ind 16 2 int gr 12 2 int aula 36
3 pad ind 15 3 pad gr 15 3 pad aula 16
3 int ind 12 3 int gr 12 3 int aula 20
;
run;
proc catmod order=data;
weight count;
model pref = escola periodo escola*periodo;
run;
proc catmod order=data;
weight count;
model pref = escola periodo;
run;
proc catmod order=data;
weight count;
model pref = escola;
run;
proc catmod order=data;
weight count;
model pref = ; run;
15. Regressao Logıstica Condicional
15.1 Exemplo: estudo retrospectivo
> skin<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/skin.txt",h=T)
> attach(skin)
> require(survival)
> model1<-clogit(melhora~trat+sexo+idade+grauini+strata(clinica))
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(melhora~trat+grauini+strata(clinica))
Apendice 149
> model2
> summary(model2)
> plot(model2$residuals, pch=16,ylab="residuos",xlab="i")
15.2 Exemplo: estudo crossover
> cross<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/cross.txt",h=T)
> attach(cross)
# preparando os dados para analise
> n<-sum(freq)
> m<-dim(cross)[2]
> k<-dim(cross)[1]
> cross1<-matrix(0,n,m)
> cross2<-as.data.frame(cross1)
> count<-c(0,freq)
> for(j in 1:k){
> for(i in (sum(count[1:j])+1):(sum(count[1:(j+1)]))){
> cross2[i,] <- cross[j,]}}
> names(cross2)<-names(cross)
> obs<-1:300
> cross2$obs<-obs
> cross3<-as.data.frame(rbind(cross2,cross2))
> i<-order(cross3$obs)
> cross4<-cross3[i,]
# idade: 1 se adulto e 0 se jovem, F = 1 e U = 2
# sequencias: AB = 1, AP = 2, BA= 3, BP = 4, PA = 5 e PB = 6
# criando variaveis dummies
> periodo<-rep(c(1,0),300) #1 se periodo1 e 0 se periodo2
> cross4$periodo<-periodo
> drogaA<-c(rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50),
rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50))
> cross4$drogaA<-drogaA
> drogaB<-c(rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50),
rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50))
> cross4$drogaB<-drogaB
> resA<-c(rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50),
rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50))
> cross4$resA<-resA
150 Apendice
> resB<-c(rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50),
rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50))
> cross4$resB<-resB
> attach(cross4)
> resp<-rep(0,600)
> for(i in 1:600){
> ifelse(p1[i]==1 & p2[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==0, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==1, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==0, resp[i]<-1,resp[i])
> ifelse(p1[i]==2 & p2[i]==2, resp[i]<-0, resp[i])}
> cross4$resp<-resp
> gpidade<-periodo*idade;
> cross4$gpidade<-gpidade
# usando arquivo cross4 para ajustar modelos
> attach(cross4)
> require(survival)
> model1<-clogit(resp~periodo+drogaA+drogaB+gpidade+resA+resB+strata(obs),data=cross4)
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)
> model2
> summary(model2)
> plot(model2$residuals, pch=16)
> model3<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)
> model3
> summary(model3)
# testando Ho: tau1 = tau2
> model3$var
> vardif<-model3$var[2,2]+model3$var[3,3]-2*(model3$var[2,3])
> teste<-((1.408-0.296)/sqrt(vardif))^2
> teste
> 1-pchisq(teste,1)
15.3 Exemplo: estudo caso-controle
> match<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/match.txt",h=T)
Apendice 151
> attach(match)
> require(survival)
> model1<-clogit(cc~hvb+est+hip+id+nest+strata(par),data=match)
> model1
> model2<-clogit(cc~hvb+est+strata(par),data=match)
> model2
> summary(model2)
> plot(model2$residuals, pch=16)
Bibliografia
AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons,
1990.
AGRESTI, A. An Introduction to Categorical data Analysis. New York:
John Wiley & Sons, 1996.
BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived
health risk, and smokeless tobacco use among white adolescent males, NI
Monographs 8, p.43-48, 1989.
CHRISTENSEN, R. Log-Linear Models and Logistic Regression. New
York: Springer-Verlag, 1997.
DEMETRIO, C.G.B. Modelos Lineares Generalizados em Experimentacao Agro-
nomica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.
FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel
Dekker, 1987.
KLEINBAUM, Logistic Regression: a self-learning text. New York: Springer
Verlag, 1994.
HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New
York: John Wiley & Sons, 1989.
McCULLACH, P., NELDER, J.A. Generalized Linear Models. London:
Chapman and Hall, 1989.
153
154 Bibliografia
MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the
Mantel-Haenszel procedure, Journal of the American Statistical As-
sociation, v.58, p.690-700, 1963.
MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from
retrospective studies of disease, Journal of the National Cancer Insti-
tute, v.22, p.719-748, 1959.
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom chi-square test and a related rapid proce-
dure, American Journal of Epidemiology, v.112, p.129-143, 1980.
PAULA, G. A. Modelos de Regressao com apoio computacional (versao
2004). Disponıvel em www.ime.usp.br/∼giapaula/mlgs.html. Acesso em
16.03.04
PAULINO, C.D.M., SINGER, J.M. Analise de Dados Categorizados. Sao
Paulo: versao preliminar 1999 (nao-publicada).
PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9,
p.705-724, 1981.
SEMENYA, K.A., KOCH, G.G. Linear models analysis for rank functions ordinal
categorical data. Proceedings of the Statistical Computing Section
of the American Statistical Association, p.271-276, 1980.
SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Ma-
nual de Ecologia dos Insetos. Sao Paulo: Agronomica Ceres, 1976,
419p.
STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis
using the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.
Indice Remissivo
analise de deviance, 80
ANODEV, 80
confundimento, 51
contagens discretas, 4
deviance, 79
diferenca de proporcoes, 28
distribuicao logıstica, 73
escalas de mensuracao, 2
escores
inteiros, 40
padronizados, 41
especificidade, 35
esquemas amostrais, 5
estatıstica
de Hosmer e Lemeshow, 98
de Pearson, 27
Kappa, 59
Kappa ponderada, 61
estimacao de parametros, 76
estudos
caso-controle, 14
clınico aleatorizado, 16
cross-sectional, 18
crossover, 122
de coorte, 11
descritivos, 11
transversais, 18
hipotese de
homogeneidade, 26
independencia, 26
multiplicatividade, 26
incidencia, 20
logitos
cumulativos, 104
generalizados, 110
modelo
complemento log-log, 102
de logitos generalizados, 110
de odds proporcionais, 103
hipergeometrico, 9
multinomial, 7
probito, 102
produto de binomiais, 6
produto de multinomiais, 6
produto de Poisson, 7
odds ratio, 29
pareamento, 126
prevalencia, 20
QQplot com envelope simulado, 100
155
razao de chances, 29
regressao logıstica
condicional, 117
dicotomica, 71
politomica, 103
resıduos
de Pearson, 84
deviance, 84
risco relativo, 30
sensibilidade, 35
teste
da razao de verossimilhancas, 79
de Mantel-Haenszel, 53
de McNemar, 37
exato, 45
variaveis
dicotomicas, 2
nominais, 4
ordinais, 3