elementos de bioestatÍstica: um curso introdutÓriogiacomo/livros/elementos de...
TRANSCRIPT
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MATEMÁTICA Cadernos de Matemática e Estatística
Série B: Trabalho de Apoio Didático
ELEMENTOS DE BIOESTATÍSTICA: UM CURSO INTRODUTÓRIO
Prof. Álvaro Vigo Departamento de Estatística/UFRGS
Série B, nº 46
Porto Alegre, setembro de 1999
APRESENTAÇ‹O
Esta publicação reúne algumas notas de aula da disciplina de Bioestatística ministrada para o Curso de Enfermagem desta Universidade, devendo ser vista essencialmente como material de apoio didático para o ensino da disciplina.
A organização deste material tem como objetivo básico a pretensão de apresentar de uma maneira intuitiva os princípios básicos da metodologia estatística para análise de dados e de motivar o aluno para uma reflexão sobre a importância da Estatística na pesquisa científica e tecnológica, em especial na área médica. Na tentativa de ilustrar com clareza a aplicação das técnicas estatísticas ou de explorar algum detalhe porventura importante, foram escolhidos ou construídos exemplos específicos.
Ao longo dos capítulos foram inseridas diversas referências que podem ser úteis como uma orientação inicial ao leitor que deseja aprofundar ou esclarecer aspectos dos métodos estatísticos abordados.
Naturalmente é uma abordagem introdutória ao repertório estatístico, mas o autor tem a pretensão de colaborar com a melhoria do ensino da disciplina. Como trata-se de uma primeira versão, correções e contribuições visando o aperfeiçoamento sempre serão bem aceitas.
Porto Alegre, setembro de 1999.
Prof. ˘lvaro Vigo
¸NDICE
1 Introdução ................................................................................................................... 1
1.1 0 Papel da Estatística na Área Biológica ................................................................... 11.2 Definições Básicas .................................................................................................... 6 2 Organização de Dados e Análise Descritiva ............................................................ 9
2.1 Organização de Dados .............................................................................................. 132.2 Medidas de Síntese Numérica ................................................................................... 202.2.1 Medidas de Tendência Central .............................................................................. 202.2.2 Medidas de Variabilidade ....................................................................................... 292.2.3 Coeficiente de Variação ......................................................................................... 32 3 Probabilidade .............................................................................................................. 33
3.1 Conceitos Básicos ..................................................................................................... 333.2 Risco Relativo e Razão de Chances ......................................................................... 403.3 Distribuições de Probabilidade .................................................................................. 483.3.1 Distribuição Binomial .............................................................................................. 493.3.2 Distribuição Normal ................................................................................................ 57 4 Princípios Básicos de Amostragem .......................................................................... 65
4.1 População e Amostra ................................................................................................. 654.2 Amostra Aleatória e Amostragem .............................................................................. 664.2.1 Amostra Aleatória Simples (AAS) ........................................................................... 664.2.2 Amostra Aleatória Estratificada (AAE) .................................................................... 674.2.3 Amostra Aleatória por Conglomerados (AAC) ........................................................ 684.2.4 Amostra Aleatória Sistemática (AASt) .................................................................... 68 5 Distribuição da Média Amostral e Teorema Central do Limite ............................... 69
6 Introdução à Inferência Estatística ............................................................................ 75
6.1 Estimação de Parâmetros .......................................................................................... 756.1.1 Estimação por Ponto ............................................................................................... 766.1.2 Estimação por Intervalo .......................................................................................... 796.1.2.1 Intervalo de Confiança para µ, quando σ é Conhecido ....................................... 806.1.2.2 Intervalo de Confiança para µ, quando σ é Desconhecido .................................. 826.1.2.3 Intervalo de Confiança para a Proporção Populacional p (n grande) .................. 846.2 Introdução aos Testes de Hipóteses ......................................................................... 856.2.1 Teste de Hipóteses para Uma Média Populacional µ, quando σ é Conhecido (TESTE Z) ................................................................................................ 906.2.2 Teste de Hipóteses para Uma Média Populacional µ, quando σ é Desconhecido (TESTE t) ......................................................................................... 956.2.3 Teste de Hipóteses sobre Duas Médias Populacionais, com Amostras Independentes ........................................................................................... 1006.2.4 Teste de Hipóteses sobre Duas Médias Populacionais, com Amostras Pareadas ................................................................................................... 1046.2.5 Teste de Hipóteses para Uma Proporção Populacional p (n grande) .................... 1116.2.6 Teste de Hipóteses sobre Duas Proporções Populacionais, com Amostras Independentes (n grande) .................................................................. 115 7 Correlação e Regressão Linear Simples .................................................................. 121
7.1 Correlação Linear ...................................................................................................... 1217.2 Regressão Linear Simples ......................................................................................... 127 8 Análise de Dados Categóricos .................................................................................. 138
8.1 Teste de Aderência .................................................................................................... 1398.2 Teste de Independência ............................................................................................ 1448.3 Teste de Homogeneidade ......................................................................................... 1538.4 Considerações sobre a Estatística χ de Pearson ................................................... 2 157 9 Referências Bibliográficas ......................................................................................... 158
1 1 Introdução
1.1 O Papel da Estatística na Área Biológica
Na natureza existem dois tipos básicos de fenômenos: determinísticos e aleatórios. Os
fenômenos determinísticos usualmente são regidos por leis físicas (matemáticas ou químicas) e são
caracterizados pelo fato de que, mantidas as condições iniciais, os resultados serão sempre os mesmos. Como
ilustração deste tipo de fenômeno, considere o ponto de ebulição da água, que passa do estado líquido para o
estado gasoso quando atinge a temperatura de 100 graus Celsius. Ao contrário dos fenômenos determinísticos,
os fenômenos aleatórios não são regidos por leis físicas e, por conseqüência, seus resultados não são
previsíveis, mesmo que as condições iniciais sejam idênticas. Usualmente, os fenômenos aleatórios podem ser
descritos através de modelos probabilísticos. Como um exemplo trivial, considere o experimento que consiste
em lançar uma moeda honesta, observando o resultado da face superior. Neste caso existem dois resultados
possíveis, que são cara ou coroa. Contudo, não é possível garantir a priori qual deles acontecerá, pois pode
ocorrer cara com probabilidade ½, ou coroa, também com probabilidade ½. Outros exemplos de fenômenos
aleatórios, na área das ciências biomédicas, são o tempo de efeito de um medicamento, o tipo ou gravidade de
uma lesão provocada por esforço repetitivo, a severidade de determinada doença ou o estágio de uma doença
após a administração de um determinado tratamento. O que caracteriza estes exemplos como fenômenos
aleatórios é a presença de variabilidade na resposta, de indivíduo para indivíduo, mesmo mantendo-se as
mesmas condições iniciais.
É usual que um pesquisador utilize o método científico para fazer observações sobre o
fenômeno aleatório de interesse, com a finalidade de descrever as relações existentes entre as características que
o definem. Assim, no seu dia a dia, o pesquisador está constantemente gerando dados, os quais podem ser
usados para descrever certo fenômeno. Essas observações são vitais para que as conclusões sejam válidas e, para
tanto, devem ser coletadas de forma adequada e organizada.
A ciência que permite organizar a geração de dados e sua transformação em informação é a
Estatística, que pode ser definida como o estudo da variabilidade e a avaliação da conseqüente incerteza,
para extrair eficientemente a informação necessária em estudos científicos e tecnológicos das mais
diversas áreas. Conseqüentemente, a aplicação da Estatística é parte fundamental do método científico, de tal
forma que a Estatística pode ser vista como a tecnologia da ciência – veja Vigo (1994, p.4) e Pereira (1997).
O método científico, por sua vez, permite aprender sobre um fenômeno ou processo,
combinando observadores perspicazes por um lado e eventos críticos (carregados de informação) por outro.
Uma primeira forma de aprendizagem é a coleta sistemática de eventos críticos, realizada por observadores que
não interferem no processo. Esses estudos, denominados observacionais, permitem aprender mediante a
acumulação relativamente automática e a análise de evidências, realizadas com métodos estatísticos.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
2
Uma segunda forma de aprendizagem é a experimentação, caracterizada pela intervenção
ativa e deliberada do observador, no processo que gera os eventos críticos. A execução e análise dessas
intervenções – possibilitadas pela Estatística – permitem acelerar enormemente o aprendizado sobre os
fenômenos ou processos de interesse.
A aplicação dos métodos estatísticos em situações da área biológica e de ciências da saúde
denomina-se Bioestatística. É inegável, no entanto, que muitas das técnicas de análise foram desenvolvidas a
partir de necessidades do contexto biológico ou médico.
Existe uma tendência crescente no sentido de quantificar os fenômenos da área de biometria,
sendo que freqüentemente observa-se grande variabilidade do material biológico ou médico. Por exemplo,
réplicas observadas sob as mesmas condições experimentais podem apresentar respostas diferentes, tal que os
resultados de um mesmo experimento realizado em ocasiões diferentes podem não ser idênticos.
No contexto biométrico, cada medida é constituída por três fontes básicas de variabilidade:
variação biológica, variação temporal e variação devido aos erros de medida. A variação biológica corresponde
aos fatores que fazem um indivíduo ser diferente do outro, tais como idade, sexo, raça, fatores genéticos e
histórico médico. A variação temporal está associada aos fatores que produzem variação nas observações em
um mesmo indivíduo de um tempo para o outro, tais como estado emocional, nível de atividades, clima,
biorritmo. Os erros de medida, por sua vez, referem-se aos erros ocasionados por fatores que podem produzir
diferenças associadas aos aspectos de medição, tais como os observadores, instrumentos de medida, erro
técnico, condições de laboratório ou estabilidade dos reagentes. Assim, o erro experimental é apenas uma parte
da variação encontrada em uma medida biológica ou médica, de tal forma que existe variabilidade nos dados
mesmo quando o erro de medida é pequeno e as condições da pesquisa são bem controladas.
Como ilustrações do papel da Estatística na área médica, a seguir serão mencionados alguns
estudos observacionais e experimentais que contribuíram enormemente para o avanço da ciência e para o
melhoramento das condições de vida da população. Como referência básica, é conveniente mencionar o
excelente livro recentemente publicado por Soares & Siqueira (1999), intitulado “Introdução à Estatística
Médica”, no qual são descritos diversos estudos observacionais e experimentais da área médica. Alguns destes
estudos serão utilizados ao longo do curso para ilustrar e discutir os aspectos metodológicos das técnicas de
análise estatística de dados.
Um primeiro exemplo de estudo observacional é o efeito da exposição nuclear nos
sobreviventes à irradiação decorrente da explosão das bombas atômicas sobre Hiroshima e Nagasaki, que pode
ser quantificado através do aumento do número de casos leucemia, conforme descrito no artigo de Armitage &
Doll (1962).
Outro estudo observacional foi a classificação das lesões dos atletas da categoria júnior de
futebol do Grêmio Foot-Ball Porto Alegrense na pré-temporada de 1997 – veja Ayub, Rossato, Magni e Prati
(1997). Neste estudo, os atletas foram classificados quanto ao tipo e mecanismo de lesão e, posteriormente,
relacionados com a quantidade máxima de oxigênio que o corpo é capaz de transportar (Vo2 máximo). Quanto
à característica “mecanismo da lesão”, uma lesão pode ser autógena ou exógena. Lesões autógenas são
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
3 causadas por ação dinâmica do próprio atleta (sem contato físico com outros atletas), enquanto que lesões
exógenas são aquelas causadas pelo contato físico com outros atletas. Os tipos de lesão são contratura (espasmo
muscular), contusão, entorse, deformidade da coluna vertebral, distensão, fratura, lesão tendínea e luxação.
Durante a pré-temporada de 1997, os atletas apresentaram 11 lesões (seis lesões tendíneas,
quatro contraturas e uma entorse), sendo que 90,9% das lesões foram provocadas por mecanismos autógenos.
O valor médio da característica Vo2 máximo na pré-temporada foi 53,47 ml/Kg/min, sendo que
aproximadamente metade dos atletas (17) apresentou valores de Vo2 máximo acima desta média. Os 18 atletas
restantes apresentaram valores de Vo2 máximo abaixo da média. Os procedimentos utilizados para medir o Vo2
máximo são descritos na referência citada.
É conveniente, também, apresentar um estudo observacional amplamente analisado na
literatura, que será discutido no decorrer do curso. Trata-se de uma investigação onde se procurou avaliar a
relação entre a presença da bactéria Streptococcus pyogenes e o aumento das amígdalas em crianças. A Tabela
1.1 apresenta os dados referentes à classificação de 1398 crianças entre 0 a 15 anos de acordo com o tamanho
relativo de suas amígdalas e com a característica “portadora” ou “não portadora” de Streptococcus pyogenes. A
informação foi inicialmente apresentada por Holmes & Williams (1954) e analisada por Armitage (1955),
Armitage (1974), McCullagh (1980) e Vigo (1994).
Tabela 1.1 – Freqüências de indivíduos segundo o tamanho relativo das amígdalas e a presença de Streptococcus pyogenes.
Streptococcus Tamanho relativo da amígdala
pyogenes Presente mas não aumentada
Aumentada Grandemente aumentada
Total
Portadoras 19 29 24 72
Não portadoras 497 560 269 1326
Total 516 589 293 1398
Fonte: McCullagh (1980).
O objetivo básico é identificar se o aumento das amígdalas em crianças está ou não
associado à presença da bactéria Streptococcus pyogenes. Em particular, deseja-se avaliar se crianças portadoras
da bactéria possuem maior risco de apresentar amígdalas aumentadas.
Como os dados foram coletados para investigar a natureza e direção de um possível efeito do
Streptococcus pyogenes no tamanho das amígdalas, o tamanho das amígdalas, com três categorias ordenadas, é
considerado como a variável resposta ou desfecho, enquanto a presença ou ausência de Streptococcus pyogenes
é um possível fator explanatório.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
4
A Tabela 1.2 apresenta um resumo dos resultados produzidos pela aplicação de diferentes
técnicas de análise estatística aos dados deste exemplo. Uma detalhada discussão sobre o emprego dessas
técnicas de análise e dos correspondentes resultados gerados pode ser encontrada em Vigo (1994). Neste
momento, é conveniente enfatizar o modelo de odds proporcionais proposto por McCullagh (1980), que faz
parte de uma classe de modelos de regressão para analisar a dependência entre uma variável categórica ordenada
e um conjunto de covariáveis. Uma de suas vantagens sobre as demais técnicas é que permite estimar tanto a
direção quanto a magnitude do efeito da presença de Streptococcus pyogenes sobre o tamanho das amígdalas.
Assim, os resultados sugerem que crianças portadoras da bactéria Streptococcus pyogenes têm
aproximadamente 1,8 vezes mais chances de apresentar amígdalas aumentadas ou grandemente aumentadas do
que crianças não portadoras da bactéria.
Tabela 1.2 – Resumo dos resultados das técnicas de análise estatística aplicadas aos dados do estudo observacional sobre o tamanho relativo de amígdalas.
Método de análise Conclusões χ2 DE PEARSON veja Vigo (1994, p. 12)
Há evidências de que as proporções das categorias de tamanho de amígdalas são diferentes para portadores e não portadores de Streptococcus pyogenes.
DECOMPOSIÇÃO χ χ χ2 2 2= +LIN RESveja Vigo (1994, p. 12-16)
Há evidências de que as crianças infectadas pelo Streptococcus pyogenes apresentam amígdalas maiores.
TESTE DE MANN-WHITNEY veja Vigo (1994, p. 16)
Há evidências de que as crianças portadoras do Streptococcus pyogenes possuem amígdalas maiores do que os não portadores.
RIDIT ANALYSIS veja Vigo (1994, p. 22-23)
Há evidências de que o tamanho relativo das amígdalas é maior para as crianças portadoras de Streptococcus pyogenes.
ANÁLISE DE ACUMULAÇÃO DE TAGUCHI veja Vigo (1994, p. 36-39)
Há evidências de que o Streptococcus pyogenes provoca um impacto significativo no tamanho relativo das amígdalas.
MODELO DE ODDS PROPORCIONAIS veja Vigo (1994, p. 95-99)
A chance relativa de um tamanho de amígdala aumentada ou grandemente aumentada é 1,8 vezes maior para os portadores do que para os não portadores de Streptococcus pyogenes.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
5
Estes casos são exemplos de estudos observacionais, caracterizados pelo fato de que não
houve interferência do pesquisador, ao contrário dos estudos experimentais. Existem vários tipos de estudos
experimentais utilizados na área biológica e médica, e definições básicas e exemplos reais de alguns
experimentos podem ser encontrados em Soares & Siqueira (1999, p.14-29). Uma descrição detalhada dos
aspectos teóricos da metodologia de planejamento de experimentos pode ser encontrada, por exemplo, Agresti
(1990) e Montgomery (1991).
Como ilustração de um estudo experimental aplicado à pesquisa médica, é interessante
mencionar o primeiro relato de um ensaio clínico planejado para comprovar a eficácia do AZT (zidovudina) no
prolongamento da vida de aidéticos. Os dados foram publicados por Fischl et al. (1987) e posteriormente
discutidos por Soares & Siqueira (1999, p.176-183).
O experimento considerou essencialmente o acompanhamento de 282 pacientes aidéticos
durante 24 semanas de tratamento, os quais foram aleatoriamente divididos em dois grupos: o grupo de
pacientes tratados com AZT (composto por 145 aidéticos) e o grupo controle, composto por 137 aidéticos que
receberam o placebo. A variável resposta (desfecho) é a situação do paciente (sobrevivente ou não sobrevivente)
após as 24 semanas de tratamento. Os resultados são reproduzidos na Tabela 1.3.
Tabela 1.3 – Número de sobreviventes após 24 semanas de tratamento com AZT ou Placebo
SITUAÇÃO GRUPO VIVO MORTO
Total
AZT 144 1 145 PLACEBO 121 16 137 Total 265 17 282 Fonte: Soares & Siqueira (1999, p.177)
A avaliação da eficácia do AZT para o prolongamento da vida de aidéticos consiste
basicamente em comparar as proporções de sobreviventes dos dois grupos. Entre os indivíduos tratados com
AZT, a proporção de sobreviventes é 9930145144 ,pAZT == , enquanto que no grupo de pacientes que receberam
o placebo é 8830137121 ,pPLACEBO == . Aparentemente a proporção de sobreviventes é maior no grupo de
pacientes tratados com AZT, mas para estender este resultado para a população é vital avaliar se as diferenças
observadas não são devidas ao acaso, mediante um teste de hipóteses.
Neste problema, a estratégia de análise adotada foi o teste de homogeneidade de populações,
baseado na estatística (lê-se qui-quadrado) de Pearson, o qual será discutido na Seção 8.3. O valor calculado
da estatística de teste foi χ , cuja probabilidade “exata” de significância associada (p_value, em
inglês) é . Este resultado evidencia que a verdadeira proporção de pacientes aidéticos que
2χ
017,152calc =
00010,p <
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
6 sobrevivem após 24 semanas é maior quando são tratados com AZT em relação aos não tratados (isto é, que
recebem o placebo).
A definição formal de testes de hipóteses e dos aspectos teóricos necessários para suas
aplicações serão abordados na Seção 6.2. Testes de hipóteses particulares também serão abordados nos capítulos
7 e 8. Na Seção 8.2, por exemplo, o teste de homogeneidade de populações será discutido e, na sua
exemplificação, o problema acima será detalhadamente considerado.
Outro exemplo de estudo experimental é o ensaio clínico planejado para avaliar a eficácia do
tratamento da candidíase oral crônica mediante a droga denominada clotrimazole. Utilizando um sistema de
aleatorização foram definidos dois grupos de 10 indivíduos: o grupo controle ao qual foi administrado um
placebo e o grupo de pacientes tratados, que recebeu a droga. Os dados mostrados na Tabela 1.4 ilustram essa
questão; eles foram publicados por Kirkpatrick & Alling (1978) e posteriormente analisados por Moses et al.
(1984) – a ordem de classificação é explicada nessas referências.
Tabela 1.4 – Freqüências nas categorias de resposta ordenadas no ensaio clínico para tratamento de candidíase oral crônica.
CATEGORIA DE RESPOSTA TRATAMENTO
1 2 3 4
Total
CLOTRIMAZOLE 6 3 1 0 10
PLACEBO 1 0 0 9 10
Fonte: Moses et al. (1984).
Moses et al. (1984) ilustram a aplicação de diferentes métodos estatísticos para analisar os
resultados gerados neste experimento, cabendo destacar o teste de Mann-Whitney (também conhecido como
teste de Wilcoxon) para amostras independentes, concluindo que o tratamento mediante a droga clotrimazole é
superior ao placebo; ou seja, a droga clotrimazole é eficaz para o tratamento da candidíase oral crônica.
1.2 Definições Básicas
Antes de abordar as técnicas de análise estatística de dados, é conveniente apresentar
algumas definições básicas que serão utilizadas ao longo do curso. A expressão “dados”, por exemplo, foi citada
diversas vezes neste texto, sem que tenha sido definida adequadamente. Em linguagem informal, dados são
informações (numéricas ou não) sobre um indivíduo (pessoa, animal, planta, objeto ou evento), associadas a
uma ou mais características de um fenômeno. Por sua vez, uma característica associada ao mesmo fenômeno,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
7 cuja informação pode diferir de um indivíduo para outro, é denominada variável. Existem vários tipos de
variáveis, as quais são definidas basicamente de acordo com o sistema de medida associado.
Um sistema de medida é um procedimento operacional que utiliza uma regra para atribuir
números ou outros rótulos a indivíduos. A regra usualmente especifica as categorias de um atributo variável ou
algum aspecto quantitativo de uma observação variável, definindo, assim, uma escala de medida. Escalas de
medidas comumente são classificadas como sendo nominais, ordinais, de intervalo e de razão, podendo medir
variáveis discretas ou contínuas - veja Cureton (1978, p.764) e Vigo (1994, p.7-8).
Variáveis cuja escala de medida consiste de um conjunto de categorias disjuntas são
denominadas variáveis categóricas ou qualitativas. Elas surgem nas mais diversas áreas do conhecimento, tais
como ciências sociais, epidemiologia, ecologia, educação, medicina, etc. Por exemplo, o estado de evolução de
uma doença pode ser medido como “doença progressiva”, “remissão parcial” ou “remissão completa”. Existem
muitos tipos de variáveis categóricas, de acordo com a escala de medida utilizada. Assim, variáveis categóricas
para as quais não existe uma ordem natural dos níveis ou categorias são ditas nominais. Em uma escala nominal,
os números meramente identificam os indivíduos ou as categorias de um atributo através do qual os indivíduos
podem ser classificados. Os números atribuídos aos jogadores de futebol constituem um bom exemplo de escala
nominal. Sem perda de informação, letras, palavras ou símbolos arbitrários poderiam ser empregados nesse
caso. Exemplos de variáveis nominais são estado civil (solteiro, casado, divorciado, viúvo, desquitado) e
religião (católica, protestante, judaica, outra). Para variáveis nominais, a ordem em que aparecem as categorias
deveria ser irrelevante na análise estatística, no sentido de que diferentes permutações na ordem das mesmas
devem conduzir aos mesmos resultados, veja Cureton (1978).
Em muitas variáveis categóricas, contudo, existe uma ordem natural dos seus níveis, mas as
distâncias absolutas entre eles são desconhecidas ou nem mesmo estão definidas. Essas variáveis são chamadas
de categóricas ordenadas. A principal característica de um conjunto de categorias ordenadas é que elas
expressam, em ordem crescente ou decrescente, a extensão ou o grau de intensidade de um fenômeno
observável. O exemplo anterior, relativo ao estado de evolução de uma doença, constitui uma aplicação na área
médica. Outros exemplos são gravidade de uma fratura (leve, média, grave), classe social (baixa, média, alta) e
atitude política (liberal, moderado, conservador). Variáveis contínuas medidas através de postos ou escores
(denominados ranks em inglês) também são tratadas como categóricas ordenadas.
Variáveis cuja escala medida é a escala de intervalo ou a escala de razão são chamadas de
variáveis quantitativas. A escala de razão é caracterizada pelo fato de que existe um tamanho de intervalo
constante e o ponto zero é verdadeiro (absoluto). O tamanho de intervalo constante significa que, por exemplo
na medição da altura de determinado indivíduo, a diferença de altura entre 36 cm e 37 cm é a mesma do que
entre 39 cm e 40 cm. Exemplos de escala de razão são as medidas de altura, número de itens, peso, volume,
capacidade, taxas, tempo, etc. A escala de intervalo, por sua vez, é caracterizada pelo fato de que embora esteja
satisfeita a propriedade de tamanho de intervalo constante, o ponto zero não é absoluto. Um exemplo clássico é
quando a temperatura é medida em graus Celsius ou em graus Fahrenheit, em cujas escalas o ponto zero é
arbitrário.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
8
As variáveis quantitativas podem ser divididas em discretas e contínuas. As variáveis
discretas usualmente assumem valores no conjunto dos números inteiros e geralmente são originárias de
contagens. Como exemplo, pode-se citar número de lesões musculares em um grupo de atletas durante um certo
período de tempo e o número de sessões de um tratamento fisioterapêutico até a reabilitação. Ao contrário das
variáveis discretas, as variáveis contínuas podem assumir qualquer valor dentro de um intervalo especificado. O
tempo de efeito de um medicamento, idade, peso, altura, a relação peso/altura são exemplos típicos de variáveis
contínuas.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
9 2 Organização de Dados e Análise Descritiva
A aplicação dos métodos estatísticos tem como finalidade básica a análise e a interpretação
de dados gerados em estudos observacionais ou experimentais. Como mencionado anteriormente, a Estatística é
vital para transformar uma massa crítica de dados em informação relevante sobre o fenômeno em estudo.
Procedimentos simples de organização e síntese dos dados usualmente geram uma quantidade de informação
bem maior do que com os dados brutos, pois permitem interpretá-los de forma mais rápida e simples. A área da
Estatística que trata da organização e do resumo de dados é chamada de Estatística Descritiva ou, mais
recentemente, de Análise Exploratória de Dados.
A Análise Exploratória de Dados é um conjunto de métodos que permite identificar a
presença de valores aberrantes (outliers, em inglês), construir valores que traduzam o elemento típico e
quantificar a variabilidade dos dados. Quanto à organização e descrição dos dados, a Análise Exploratória de
Dados consiste basicamente na representação dos dados em tabelas e gráficos, bem como na construção de
medidas de síntese numérica. Em geral, é aplicada antes de técnicas de análise mais sofisticadas e pode
contribuir enormemente para a geração de hipóteses sobre o objeto em estudo.
Para ilustrar os procedimentos de análise exploratória de dados, é conveniente considerar o
exemplo abaixo, que trata do estudo sobre doenças cardiovasculares em Honolulu, Havaí.
Exemplo 2.1: Em 1969 foi conduzido um estudo para investigar o comportamento de algumas características
possivelmente associadas às doenças cardiovasculares, em homens da cidade de Honolulu, Havaí. Para tanto,
foram observados 7683 casos de homens com problemas cardíacos. Este estudo é descrito por Kuzma (1998) e
por Soares & Siqueira (1999, p.37), sendo que nesta última referência foram disponibilizadas (através do site
www.est.ufmg.br/~estmed) as informações relativas a uma amostra de 100 destes pacientes. As características
estudadas e os correspondentes códigos utilizados são:
Nível de Instrução → variável qualitativa observada mediante as seguintes categorias ordenadas:
1 = Nenhuma 2 = Primeiro Grau Incompleto 3 = Primeiro Grau Completo 4 = Segundo Grau Completo 5 = Curso Técnico 6 = Curso Superior
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
10
Peso (em kg) → variável quantitativa contínua.
Altura (em cm) → variável quantitativa contínua.
Idade (em anos) → variável quantitativa contínua.
Hábito de Fumar → variável qualitativa nominal, codificada mediante as categorias
0 = Não Fumante 1 = Fumante
Atividade Física → variável qualitativa observada através das seguintes categorias ordenadas:
1 = Sedentário 2 = Moderada 3 = Alta
Nível de Glicose no Sangue (em miligramas percentuais) → variável quantitativa contínua.
Nível de Colesterol Sérico (em miligramas percentuais) → variável quantitativa contínua.
Pressão Sangüínea Sistólica (em mmHg) → variável quantitativa contínua.
A Tabela 2.1 apresenta os dados brutos correspondentes à amostra de 100 pacientes
com problemas cardíacos, extraídos dos 7683 casos pesquisados. As variáveis observadas foram registradas de
acordo com a codificação descrita acima. A primeira coluna da tabela, rotulada por “Paciente nº” serve apenas
para identificar as observações, enquanto que a demais coluna contém as informações de cada paciente da
amostra, para as características estudadas. Assim, por exemplo, o nível de instrução do primeiro paciente é igual
a 2, significando que possui primeiro grau incompleto. Analogamente, para o Paciente 6 o nível de instrução 4
indica que ele possui segundo grau completo.
É importante observar que os números associados às categorias de resposta da variável
nível de instrução são apenas rótulos utilizados para simplificar a codificação e a digitação dos resultados e,
consequentemente, não podem ser utilizados para quantificar o nível de instrução dos indivíduos. Em outras
palavras, não é possível afirmar que o Paciente 6 (cujo nível de instrução é codificado pelo rótulo “4”) é duas
vezes mais instruído do que o Paciente 2 (cujo nível de instrução é codificado com o rótulo “2”).
A interpretação dos códigos das demais variáveis qualitativas (hábito de fumar e
atividade física) pode ser realizada de maneira similar. Assim, por exemplo, uma rápida inspeção da Tabela 2.1
revela que o Paciente 1 é fumante e sedentário. As variáveis quantitativas, por sua vez, são interpretadas da
maneira usual. O Paciente 1, por exemplo, tem 70 quilogramas, altura igual a 165 centímetros, 61 anos de idade
e apresentou nível de glicose no sangue igual a 107 mg%, nível de colesterol sérico igual a 199 mg% e pressão
sistólica igual 102 mmHg.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
11
Tabela 2.1 – Codificação das respostas associadas às variáveis do estudo sobre doenças cardiovasculares em Honolulu, para a amostra de 100 pacientes.
Paciente nº
Nível de Instrução
Peso (em kg)
Altura (em cm)
Idade (em anos)
Hábito de
Fumar
Atividade Física
Nível de Glicose
(em mg%)
Nível de Colesterol Sérico
(em mg%)
Pressão Sistólica
(em mmHg)1 2 70 165 61 1 1 107 199 102 2 1 60 162 52 0 2 145 267 138 3 1 62 150 52 1 1 237 272 190 4 2 66 165 51 1 1 91 166 122 5 2 70 162 51 0 1 185 239 128 6 4 59 165 53 0 2 106 189 112 7 1 47 160 61 0 1 177 238 128 8 3 66 170 48 1 1 120 223 116 9 5 56 155 54 0 2 116 279 134
10 2 62 167 48 0 1 105 190 104 11 4 68 165 49 1 2 109 240 116 12 1 65 166 48 0 1 186 209 152 13 1 56 157 55 0 2 257 210 134 14 2 80 161 49 0 1 218 171 132 15 3 66 160 50 0 2 164 255 130 16 4 91 170 52 0 2 158 232 118 17 3 71 170 48 1 1 117 147 136 18 5 66 152 59 0 2 130 268 108 19 1 73 159 59 0 2 132 231 108 20 4 59 161 52 0 1 138 199 128 21 1 64 162 52 1 1 131 255 118 22 3 55 161 52 1 1 88 199 134 23 2 78 175 50 1 1 161 228 178 24 2 59 160 54 0 1 145 240 134 25 3 51 167 48 1 2 128 184 162 26 3 83 171 55 0 1 231 192 162 27 2 66 157 49 1 2 78 211 120 28 4 61 165 51 0 1 113 201 98 29 2 65 160 53 0 1 134 203 144 30 3 75 172 49 0 1 104 243 118 31 4 61 164 49 0 2 122 181 118 32 1 73 157 53 1 2 442 382 138 33 2 66 157 52 0 1 237 186 134 34 1 73 155 48 0 2 148 198 108 35 2 61 160 53 0 1 231 165 96 36 3 68 162 50 0 2 161 219 142 37 2 52 157 50 0 2 119 196 122 38 5 73 162 50 0 1 185 239 146 39 1 52 165 61 1 2 118 259 126 40 1 56 162 53 1 1 98 162 176 41 3 67 170 48 1 2 218 178 104 42 1 61 160 47 0 1 147 246 112 43 3 52 166 62 1 2 176 176 140 44 2 61 172 56 1 2 106 157 102 45 3 62 164 55 1 2 109 179 142 46 2 56 155 57 1 2 138 231 146 47 1 55 157 50 0 2 84 183 92 48 3 66 165 48 1 2 137 213 112 49 1 59 159 51 0 2 139 230 152 50 3 53 152 53 1 2 97 134 116 51 5 71 173 52 0 2 169 181 118
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
12
Tabela 2.1 – Codificação das respostas associadas às variáveis do estudo sobre doenças cardiovasculares em Honolulu, para a amostra de 100 pacientes.
Paciente nº
Nível de Instrução
Peso (em kg)
Altura (em cm)
Idade (em anos)
Hábito de
Fumar
Atividade Física
Nível de Glicose
(em mg%)
Nível de Colesterol Sérico
(em mg%)
Pressão Sistólica
(em mmHg)52 2 57 152 49 0 1 160 234 128 53 2 73 165 50 1 1 123 161 116 54 3 75 170 49 0 2 130 289 134 55 3 80 171 50 1 2 198 186 108 56 4 49 157 53 0 1 215 298 134 57 4 65 162 52 0 1 177 211 124 58 2 82 170 56 0 2 100 189 124 59 3 55 155 52 0 2 91 164 114 60 3 61 165 58 0 1 141 219 154 61 2 50 155 54 1 2 139 287 114 62 5 58 160 56 0 1 176 179 114 63 1 55 166 50 1 2 218 216 98 64 5 59 161 47 0 2 146 224 128 65 2 68 165 53 1 1 128 212 130 66 2 60 170 53 1 2 127 230 122 67 1 77 160 47 1 1 76 231 112 68 5 60 155 52 0 1 126 185 106 69 3 70 164 54 0 1 184 180 128 70 2 70 165 46 0 1 58 205 128 71 3 77 160 58 1 1 95 219 116 72 5 86 160 53 0 2 144 286 154 73 2 67 152 49 1 2 124 261 126 74 3 77 165 53 1 1 167 221 140 75 3 75 169 57 0 2 150 194 122 76 2 70 165 52 0 2 156 248 154 77 2 70 165 49 1 1 193 216 140 78 1 71 157 53 0 1 194 195 120 79 1 55 162 49 0 2 73 217 140 80 2 59 165 53 1 2 98 186 114 81 3 64 159 50 0 2 127 218 122 82 1 66 160 54 0 1 153 173 94 83 4 59 165 60 0 2 161 221 122 84 3 68 165 57 0 1 194 206 172 85 5 58 160 52 0 1 87 215 100 86 1 57 154 65 1 1 188 176 150 87 2 60 160 65 0 2 149 240 154 88 2 53 162 62 0 1 215 234 170 89 2 61 159 62 1 2 163 190 140 90 1 66 154 62 0 1 111 204 144 91 1 61 152 67 0 2 198 256 156 92 2 52 152 66 0 2 265 296 132 93 1 59 155 62 0 2 143 223 140 94 1 63 155 62 1 1 136 225 150 95 2 61 165 63 0 2 298 217 130 96 2 68 155 67 0 2 173 251 118 97 1 58 170 62 0 1 148 187 162 98 3 68 160 55 0 1 110 290 128 99 5 60 159 50 0 2 188 238 130
100 2 61 160 54 1 1 208 218 208
Fonte: Soares & Siqueira (1999, p.37) Nota: Dados disponíveis no site www.est.ufmg.br/~estmed
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
13
Na forma como os dados estão apresentados na Tabela 2.1, contudo, não é possível extrair
praticamente nenhuma informação sobre o comportamento das variáveis em estudo. Em outras palavras, para
entender melhor o comportamento dessas variáveis é necessário organizar e apresentar os dados brutos em uma
forma mais apropriada, como será visto na próxima seção.
2.1 Organização e Apresentação de Dados
Por simplicidade, considere inicialmente apenas as observações relativas à variável pressão
sangüínea sistólica (em mmHg) para a amostra de 100 pacientes do Exemplo 2.1. Uma inspeção dos dados
brutos permite concluir apenas que os valores da pressão sistólica dos indivíduos da amostra variaram entre 92
mmHg (o menor valor da amostra) e 208 mmHg (o maior valor). Contudo, apesar da relativa simplicidade deste
procedimento de inspeção, na prática este resultado pode ser de pouca utilidade, pois não se tem clareza sobre o
comportamento dos valores observados para os demais pacientes. Assim, é conveniente organizar e apresentar
os dados observados em uma forma mais prática e transparente. Isto pode ser realizado através da construção da
tabela de distribuição de freqüências, a qual permite visualizar e interpretar com maior rapidez as informações
geradas na amostra.
A construção de uma tabela de distribuição de freqüências consiste essencialmente em contar
o número de ocorrências de cada valor observado para a variável em estudo, sendo que esses valores devem ser
dispostos na tabela em ordem crescente. O resumo dos dados através de tabelas deve seguir as normas de
apresentação tabular do IBGE, veja IBGE (1993). Uma breve descrição dessas normas pode ser encontrada em
Vieira (1981, p.9-19). Contudo, cabe destacar os seguintes aspectos: uma tabela é basicamente composta pelo
título, corpo, cabeçalho e coluna indicadora.
O título da tabela deve explicar de forma clara e concisa as informações que a tabela contém
em seu corpo, que é constituído pelas linhas e colunas de dados (informações). O cabeçalho informa o conteúdo
das colunas, enquanto que a coluna indicadora detalha o conteúdo das linhas. Outros aspectos também devem
ser observados: traços verticais podem ser usados para separar as colunas, mas não podem ser usados traços
verticais para delimitar a tabela. O cabeçalho deve ser separado do corpo da tabela através de uma linha
horizontal. Ainda, a tabela pode conter a fonte dos dados, bem como notas para esclarecer outros detalhes sobre
as informações.
No Exemplo 2.1, a distribuição de freqüências (por tratar-se de uma amostra, também pode
ser chamada de distribuição empírica) para a variável pressão sistólica é apresentada na Tabela 2.2. As colunas
desta tabela contêm algumas medidas que usualmente são úteis e práticas para interpretar as informações
disponíveis no conjunto de observações.
A primeira coluna, por exemplo, identifica a variável em estudo (pressão sistólica – em
mmHg), que está sendo rotulada pela letra " . Os valores dispostos nesta coluna representam os níveis de "x
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
14 pressão sistólica observados na amostra e estão em ordem crescente. Assim, na primeira linha da tabela, o valor
representa o menor nível de pressão sistólica observado na amostra, que é igual a 92 mmHg. Por sua
vez, o maior valor observado foi .
92=x
mmHg 208=x
f
mmHg 128
f r
%1=
A segunda coluna da Tabela 2.2 contém o número de vezes que cada valor de pressão
sistólica foi observado na amostra. Esta medida é chamada de )x( freqüência absoluta e usualmente
representada por . Assim, é a freqüência absoluta da linha i e representa o número de indivíduos da
amostra que apresentaram um valor da característica em estudo igual ao valor
f if
x da i-ésima linha da tabela.
Para os dados da Tabela 2.2, 11 = significa que apenas um paciente da amostra apresentou
pressão sistólica igual a 92 mmHg (que é o valor da primeira linha da tabela). Analogamente, na 18ª linha, o
valor da pressão sistólica é , ao qual está associada a freqüência absoluta , ou seja, 8
pacientes apresentaram pressão sistólica igual a 128 mmHg.
=x 818 =f
Naturalmente, o total da coluna de freqüências absolutas é igual ao número de indivíduos
estudados na amostra (tamanho da amostra), usualmente representado por , isto é, , onde é o
número de linhas da tabela.
n ∑=
=L
iifn
1
L
A partir das freqüências absolutas e do tamanho da amostra n , é possível determinar a if
freqüência relativa correspondente ao valor da i-ésima linha da tabela, usualmente representada por e
definida por
rif
nf
f iri = . Assim, a freqüência relativa representa a rif proporção de indivíduos da amostra que
apresentam um valor da variável em estudo igual ao valor de x da linha i.
Por exemplo, na Tabela 2.2, 010100
11 ,== e 080
1008
18 ,f r ==
f r 10018 ×
∑=
L
irif
1
. Uma maneira usual de
interpretar a freqüência relativa é transformá-la em percentual, mediante a sua multiplicação por 100. Dessa
forma, , significa que 1% dos indivíduos da amostra apresentaram pressão
sistólica igual a 92 mmHg. Analogamente, 8% dos pacientes da amostra (isto é, ) apresentaram
pressão sistólica igual a 128 mmHg. Como as freqüências relativas são calculadas em relação ao tamanho da
amostra , então o total desta coluna será obrigatoriamente igual a 1, , ou seja, (exceto, em alguns
casos, por pequenos erros de arredondamento).
,f r 1000101001 ×=×
n
%8=
= 1
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
15
Tabela 2.2 – Distribuição de freqüências da pressão sistólica para os
100 pacientes da amostra de indivíduos cardíacos de Honolulu. Pressão Sistólica
)x(Freqüência Absoluta
)f( i
Freqüência Relativa
)f( ri
Freqüência Absoluta Acumulada
)F( i 92 1 0,01 1 94 1 0,01 2 96 1 0,01 3 98 2 0,02 5
100 1 0,01 6 102 2 0,02 8 104 2 0,02 10 106 1 0,01 11 108 4 0,04 15 112 4 0,04 19 114 4 0,04 23 116 5 0,05 28 118 6 0,06 34 120 2 0,02 36 122 6 0,06 42 124 2 0,02 44 126 2 0,02 46 128 8 0,08 54 130 4 0,04 58 132 2 0,02 60 134 7 0,07 67 136 1 0,01 68 138 2 0,02 70 140 6 0,06 76 142 2 0,02 78 144 2 0,02 80 146 2 0,02 82 150 2 0,02 84 152 2 0,02 86 154 4 0,04 90 156 1 0,01 91 162 3 0,03 94 170 1 0,01 95 172 1 0,01 96 176 1 0,01 97 178 1 0,01 98 190 1 0,01 99 208 1 0,01 100
Total 100 1 Fonte: Soares & Siqueira (1999, p.37) Nota: Dados disponíveis no site www.est.ufmg.br/~estmed
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
16
Outra medida que geralmente pode ser útil para interpretar os dados gerados na amostra é a
freqüência absoluta acumulada, denotada por . A freqüência absoluta acumulada da linha i é definida pela
soma das freqüências absolutas até a i-ésima linha, ou seja, . Consequentemente, representa o
número de indivíduos da amostra que apresentam valores da variável em estudo menores ou iguais ao valor
F
∑=
=i
jji fF
1iF
x
correspondente a i-ésima linha da tabela. Por exemplo, na Tabela 2.2, a freqüência absoluta acumulada da linha
18 é . Isto significa que 54 pacientes da amostra apresentaram pressão sistólica 5418 =F menor ou igual a 128
mmHg (veja a 18ª linha da Tabela 2.2).
A organização dos dados relativos à variável pressão sistólica do Exemplo 2.1, através da
tabela de freqüências, claramente facilita a visualização e interpretação das informações geradas pela amostra.
Contudo, a Tabela 2.2 ainda é consideravelmente extensa, pois o número de linhas da tabela ( )L 38= é
grande. Assim, as observações da variável pressão sistólica podem ser agrupadas em intervalos de classe, com
perda mínima de informação. Ou seja, os dados podem ser sintetizados ainda mais, mediante a construção de
uma tabela de distribuição de freqüências agrupadas por intervalo de classe.
Não existem regras rígidas para construir tabelas de distribuição de freqüências agrupadas
por intervalos de classe, por isso é importante mencionar alguns procedimentos práticos e empíricos descritos
por Soares & Siqueira (1999, p.41-42) e Daniel (1974, p.14).
Inicialmente é necessário determinar o número de intervalos de classe (ou classes),
lembrando que o objetivo básico é resumir os dados com perda mínima de informação. Se o número de classes
for muito grande, então o objetivo de sintetizar o conjunto de dados não será atingido. Por outro lado, se o
número de classes for muito pequeno, poderá ocorrer excessiva perda de informação.
Uma regra prática recomenda que o número de intervalos de classe deve variar entre 5 e 15.
Entretanto, pode-se determinar o número de classes através da fórmula de Sturges, que especifica o número de
classes como k
( )nlog,k 32231 10×+= ,
onde é o tamanho da amostra. Naturalmente que este resultado é apenas uma referência, devendo-se fazer os
ajustes apropriados levando-se em conta as características práticas do problema. Em outras palavras, pode-se
aumentar ou diminuir o valor k em função da conveniência e clareza de apresentação. O número de intervalos
de classe também pode ser determinado através das expressões
n
nk = ou k nlog 1 2+= , descritas por Soares
& Siqueira (1999, p.42).
É importante salientar que os intervalos de classe devem ser disjuntos, ou seja, não pode
ocorrer sobreposição de classes, pois cada observação deve ser colocada em somente um intervalo de classe. É
preferível, também, que os intervalos de classe sejam todos do mesmo tamanho (amplitude). O tamanho dos
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
17
intervalos de classe pode ser determinado, ao menos aproximadamente, por kAa = , onde é a amplitude dos
intervalos de classe e é a amplitude de variação amostral, definida pela diferença entre o maior e o menor
valor observados na amostra.
a
A
Para ilustrar a construção de uma tabela de agrupamento por intervalos de classe, considere
as observações da variável pressão sistólica do Exemplo 2.1, apresentadas na Tabela 2.2. Como o tamanho da
amostra é , a aplicação da fórmula de Sturges produz 100=n
( ) 8647232231 32231 10 ≅=×+=×+= ,,nlog,k ,
ou seja, o número de classes deveria ser aproximadamente igual a 8. Para determinar a amplitude das classes,
primeiro é necessário identificar o menor e o maior valor da amostra, isto é, a menor e a maior pressão sistólica
observada, que são respectivamente mmHgx )( 921 = e mmHgx )n( 208= . Assim, a amplitude amostral é
e, conseqüentemente, o tamanho de cada intervalo de classe é mmHgxxA )()n( 116922081 =−=−=
mmHg,kAa 15514
8116
≅=== .
Resumindo, a tabela de distribuição de freqüências agrupadas por intervalos de classe para a
variável pressão sistólica deveria considerar 8 classes, todas com amplitude de 15 mmHg. Naturalmente que o
número de classes e a amplitude das classes poderiam ser modificados se na prática esta configuração implicasse
substancial perda de informação ou se o número de classes ainda fosse demasiadamente grande. Entretanto, a
solução obtida parece ser bastante razoável, produzindo o agrupamento disposto na Tabela 2.3.
Tabela 2.3 – Distribuição de freqüências agrupadas por intervalos de classe para a pressão sistólica dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.
Intervalo de Classe
(em mmHg)
Freqüência Absoluta
)f( i
Freqüência Relativa
)f( ri
Freqüência Absoluta Acumulada
)F( i 90 |- 105 10 0,10 10 105 |- 120 24 0,24 34 120 |- 135 33 0,33 67 135 |- 150 15 0,15 82 150 |- 165 12 0,12 94 165 |- 180 4 0,04 98 180 |- 195 1 0,01 99 195 |- 210 1 0,01 100
Total 100 1
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
18
Procedimentos gráficos também podem ser extremamente úteis para interpretar as
informações contidas nas tabelas de distribuições de freqüências. Dentre os tipos de gráficos mais comuns, cabe
destacar o gráfico de barras, o gráfico de setores, o histograma e o polígono de freqüências, sendo que a
escolha do gráfico depende essencialmente do tipo de variável considerada.
As variáveis qualitativas usualmente podem ser representadas através de gráficos de barras
ou de setores, enquanto que as variáveis discretas podem ser representadas através do gráfico de barras. As
variáveis contínuas agrupadas em intervalos de classe, por sua vez, podem ser representadas graficamente
através de um histograma ou de um polígono de freqüências. A Figura 2.1 ilustra o histograma para os dados da
Tabela 2.3, onde os valores dispostos no eixo horizontal correspondem ao ponto médio do intervalo de classe.
Pressão Sistólica (em mmHg)
202,5187,5172,5157,5142,5127,5112,597,5
Freq
üênc
ia R
elat
iva
40
35
30
25
20
15
10
5
0
Figura 2.1 – Histograma da pressão sangüínea sistólica na amostra de 100 pacientes com doenças cardiovasculares do estudo realizado em Honolulu.
Naturalmente, o mesmo procedimento de organização dos dados pode ser utilizado para as
demais variáveis do Exemplo 2.1, permitindo apresentá-las de uma maneira mais adequada e diminuindo
substancialmente o esforço necessário para interpretá-las. A título de ilustração, considere a variável qualitativa
nível de instrução, cujas informações geradas na amostra são apresentadas através da distribuição empírica de
freqüências mostrada na Tabela 2.4.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
19
Tabela 2.4 – Distribuição de freqüências da variável nível de instrução dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.
Nível de Instrução
Freqüência Absoluta
)f( i
Freqüência Relativa
)f( ri
Freqüência Absoluta Acumulada
)F( i
Nenhuma 25 0,25 25
1º Grau Incompleto 32 0,32 57
1º Grau Completo 24 0,24 81
2º Grau Completo 9 0,09 90
Curso Técnico 10 0,10 100
Curso Superior 0 0,00 100
Total 100 1
Como se trata de uma variável qualitativa, a representação gráfica dos dados da Tabela 2.4
pode ser realizada mediante o gráfico de barras disposto na Figura 2.2.
Nível de Instrução
Curso Técnico2º Grau Comp.
1º Grau Comp.1º Grau Inc.
Nenhuma
Freq
üênc
ia R
elat
iva
40
35
30
25
20
15
10
5
0
Figura 2.2 – Distribuição empírica do nível de instrução dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
20 2.2 Medidas de Síntese Numérica
Na seção anterior foi ilustrado que a organização de dados em tabelas e a representação
gráfica permitem interpretar as informações de forma fácil e rápida. Contudo, na análise estatística de dados
freqüentemente é necessário resumir ainda mais o conjunto de observações, através de estatísticas que
possibilitem extrair de forma mais eficiente a informação que ele contém. Em especial, deseja-se calcular
medidas de tendência central, que são úteis para representar um elemento típico da amostra (ou da população),
bem como medidas de variabilidade, para avaliar o comportamento dos indivíduos.
2.2.1 Medidas de Tendência Central
As medidas de tendência central, também chamadas de medidas de posição ou de locação,
podem ser extremamente úteis para representar todo o conjunto de dados. Em geral, busca-se uma medida que
seja o centro da distribuição da variável de interesse. Entre as principais medidas de posição, cabem destacar a
média aritmética, a mediana e a moda.
A média aritmética simples de elementos – doravante chamada simplesmente de média –
onde é o tamanho da amostra, é denotada por
n
n x (lê-se x barra) e definida por
n
xx
n
ii∑
== 1 ,
e representa o “centro de gravidade” ou o “ponto de equilíbrio” da distribuição.
O termo representa a soma dos elementos do conjunto de dados ( )∑=
n
iix
1nx...xx +++ 21 ,
ou seja, a soma dos valores da variável em estudo para cada indivíduo da amostra. Para facilitar a ilustração do
cálculo das medidas de tendência central, é conveniente utilizar os dados da variável pressão sangüínea sistólica
definida no Exemplo 2.1, onde a soma dos valores da pressão sistólica para cada um dos 100 indivíduos da
amostra é igual a – veja os valores
originais na Tabela 2.1. A média amostral, portanto, é
( ) ( ) mmHgxxi
i 130102081381021002
100
1
=+++=++=∑=
LLxx1 +
mmHg,n
xx
n
ii
10130100
130101 ===∑= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
21
Apesar da sua simplicidade, quando o conjunto de observações é grande, o cálculo manual
da média aritmética pode tornar-se excessivamente trabalhoso. A organização dos dados em tabelas de
freqüências (tabela de agrupamento simples) ou em tabelas de freqüências agrupadas por intervalos de classe
(tabela de agrupamento em intervalos de classe) pode simplificar bastante o processo de cálculo, mas
seguramente é mais prático utilizar algum procedimento computacional.
Quando os dados estão agrupados em uma tabela de agrupamento simples, a média
aritmética pode ser determinada mediante o emprego da expressão
n
xfx
L
iii∑
=
×= 1 ,
onde é o número de linhas da tabela, ou seja, o número de valores distintos que apareceram na amostra,
enquanto que é a freqüência absoluta associada a cada valor .
L ix
if ix
Para exemplificar, é conveniente reproduzir na Tabela 2.5 os dados da variável pressão
sistólica descrita no Exemplo 2.1, onde o maior volume de operações já foi processado. Observe, na Tabela 2.5,
que o total da coluna rotulada como informa o valor da soma de todos os valores observados para a
pressão sistólica, isto é ∑ . Assim, a média amostral da
pressão sistólica é
ii xf ×
...x2 +( ) mmHgxfxxx i
L
iin
ii 13010
11
100
1
=×=++= ∑==
mmHg,n
xfx
L
iii
10130100
13010100
20819829619419211 ==×++×+×+×+×
=×
=∑= L
.
Se os dados estão agrupados por intervalos de classe, o cálculo da média aritmética segue os
mesmos princípios do caso em que os dados estão em uma tabela de agrupamento simples. Entretanto, como as
informações disponíveis são os intervalos de classe (e não os valores exatos da variável), deve-se utilizar o
ponto médio de cada classe como o valor de , para todo iix L,...,,21= , onde kL = é o número de classes. Os
demais procedimentos são idênticos ao caso anterior.
Para ilustrar, considere os dados da variável pressão sistólica do agrupada por intervalos,
dispostos na Tabela 2.3. O ponto médio de cada intervalo de classe é apresentado na Tabela 2.6, juntamente com
os resultados das operações matemáticas. O primeiro intervalo de classe é 90 |- 105 mmHg e o seu
correspondente ponto médio é determinado por mmHg,x 597210590
1 =+
= . Na segunda classe (105 |- 120
mmHg) , o ponto médio é mmHg,x 51122
1201052 =
+= e o procedimento é similar para as demais classes.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
22
É importante mencionar que no cálculo da média para dados agrupados em intervalos de
classe, admite-se que em cada classe todas as observações da variável estão concentradas no ponto médio do
intervalo, que é o valor mais provável.
Tabela 2.5 – Distribuição de freqüências da variável pressão sistólica
dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu. Pressão Sistólica
)x( i
Freqüência Absoluta
)f( i
ii xf ×
2ii xf ×
92 1 92 8464 94 1 94 8836 96 1 96 9216 98 2 196 19208
100 1 100 10000 102 2 204 20808 104 2 208 21632 106 1 106 11236 108 4 432 46656 112 4 448 50176 114 4 456 51984 116 5 580 67280 118 6 708 83544 120 2 240 28800 122 6 732 89304 124 2 248 30752 126 2 252 31752 128 8 1024 131072 130 4 520 67600 132 2 264 34848 134 7 938 125692 136 1 136 18496 138 2 276 38088 140 6 840 117600 142 2 284 40328 144 2 288 41472 146 2 292 42632 150 2 300 45000 152 2 304 46208 154 4 616 94864 156 1 156 24336 162 3 486 78732 170 1 170 28900 172 1 172 29584 176 1 176 30976 178 1 178 31684 190 1 190 36100 208 1 208 43264
Total 100 13010 1737124
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
23
Tabela 2.6 – Distribuição de freqüências agrupadas por intervalos de classe para a variável pressão sistólica na amostra de 100 pacientes cardíacos do estude de Honolulu.
Intervalo de Classe (em mmHg)
Ponto Médio do I.C. ( )xi
Freqüência Absoluta
)f( i
ii xf ×
2ii xf ×
90 |- 105 97,5 10 975,00 95062,50 105 |- 120 112,5 24 2700,00 303750,00 120 |- 135 127,5 33 4207,50 536456,25 135 |- 150 142,5 15 2137,50 304593,75 150 |- 165 157,5 12 1890,00 297675,00 165 |- 180 172,5 4 690,00 119025,00 180 |- 195 187,5 1 187,50 35156,25 195 |- 210 202,5 1 202,50 41006,25
Total 100 12990 1732725
Utilizando os resultados da Tabela 2.6, quando a pressão sistólica está agrupada por
intervalos de classe, a média aritmética amostral é dada por
mmHg,,,,n
xfx
L
iii
90129100
12990100
52021511224597101 ==×++×+×
=×
=∑= L
.
Deve-se observar que o agrupamento dos dados em intervalos de classe praticamente não
provocou perda de informação, pois o valor de mmHg,x 90129= está muito próximo da média
mmHg,x 10130= obtida sem o agrupamento.
Devido à facilidade de cálculo e às propriedades matemáticas e estatísticas que possui, a
média aritmética é a medida de tendência central mais utilizada, podendo ser extremamente útil nas
comparações entre populações. Outra vantagem que possui é a simplicidade de interpretação. No caso da
variável pressão sistólica descrita no Exemplo 2.1, considerando-se os valores de x obtidos tanto para a Tabela
2.2 quanto na Tabela 2.3, pode-se afirmar que os 100 pacientes estudados na amostra apresentaram, em média,
pressão sistólica aproximadamente igual a 130 mmHg.
Outros tipos de média podem ser definidos, tais como a média aritmética ponderada, a
média geométrica e a média harmônica. A média aritmética ponderada é extremamente útil quando os números
que desejamos sintetizar possuem graus de importância diferentes, sendo definida por
∑
∑
=
=
×= n
ii
n
iii
p
p
xpx
1
1 ,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
24 onde representa o peso associado à observação . Um exemplo trivial surge no caso da nota final de uma
disciplina, onde a importância das provas é representada, por exemplo, pelos pesos 2, 3 e 5, respectivamente
para a primeira ( , segunda ( e terceira ( prova. Assim, a média ponderada seria determinada por
ip ix
))x1 )x2 x3
532532 321
++×+×+×
=xxx
m pond .
Para uma amostra com observações , a média geométrica amostral é definida
por
n nx,,x,x L21
nng xxxx ×××= L21 ,
enquanto que a média harmônica amostral é dada por
∑=
= n
i i
h
x
nx
1
1.
No contexto deste curso seguramente a média aritmética simples tem um papel mais
importante. No entanto, apesar das suas qualidades, nem sempre ela é uma medida de tendência central
adequada para representar o centro de gravidade de uma distribuição de probabilidades. De fato, quando uma
variável apresenta um comportamento assimétrico, isto é, com a maioria dos valores concentrados em um dos
extremos, é mais apropriado utilizar a mediana.
A mediana pode ser definida como o valor da variável que divide o conjunto de
observações exatamente ao meio, de tal forma que 50% dos indivíduos da amostra (ou da população)
apresentam valores menores ou iguais ao valor mediano, enquanto que os outros 50% dos indivíduos possuem
valores maiores ou iguais ao valor mediano. A mediana está definida para variáveis medidas em escala ordinal
de intervalo ou de razão e, para determiná-la pode ser conveniente seguir as seguintes etapas:
1ª) ordenar o conjunto de observações;
2ª) determinar a posição da mediana, que funciona como um endereço que ajuda na sua localização. Para
amostras com tamanho ímpar, a posição da mediana é dada por n2
1+n, de tal forma que a mediana
amostral é o valor que está na posição 2
1+n do conjunto ordenado de observações. Na situação em
que o tamanho da amostra é par, a mediana é a média dos elementos de ordens n2n
e 2
2+n do
conjunto ordenado de observações; e,
3ª) determinar o valor da mediana.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
25
Para ilustrar, considere os dados da variável pressão sistólica do Exemplo 2.1, dispostos na
Tabela 2.2. A primeira etapa está satisfeita, pois como os dados estão em uma tabela de distribuição de
freqüências, já estão ordenados. Na segunda etapa, como o tamanho da amostra é par, o valor da
mediana é a média entre os valores que estão, respectivamente, nas posições
( 100=n )
502=
n e 51=
22+n
do conjunto
ordenado de observações. Outra alternativa para determinar a posição da mediana, independentemente do
tamanho da amostra ser par ou ímpar, é utilizar a expressão n2
1+n. No exemplo, a posição da mediana é
52
1n=
+ 50, e significa que a mediana é determinada através da média aritmética dos valores que estão nas 50ª
e 51ª posições do conjunto ordenado observações. Assim, a mediana amostral é
Hgmmmd 1282
128128=
+= ,
devendo ser interpretada da seguinte forma: metade dos indivíduos da amostra (50%) apresentou pressão
sistólica menor ou igual a 128 mmHg, enquanto que os outros 50% dos pacientes apresentaram pressão sistólica
maior ou igual a 128 mmHg.
Se os dados estão agrupados por intervalo de classe, entretanto, o procedimento para
determinar a mediana é diferente daquele descrito acima, devendo-se calcular a mediana através da expressão
−×+=
fF
aLm antn
infd2
,
onde
=infL limite inferior do intervalo de classe que contém a mediana;
=a amplitude do intervalo de classe que contém a mediana;
=n tamanho da amostra;
=antF freqüência absoluta acumulada do intervalo de classe imediatamente anterior à classe que
contém a mediana; e,
=f freqüência absoluta do intervalo de classe que contém a mediana.
Os dados da pressão sistólica agrupados por intervalos de classe dispostos na Tabela 2.3 são
úteis para ilustrar o procedimento de cálculo da mediana nesta situação. Como foi visto anteriormente, a
mediana está entre o 50º e 51º elementos do conjunto ordenado de observações. Isto significa que o valor da
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
26 mediana está dentro do intervalo de classe 120 | 135 mmHg. Então, para o cálculo da mediana deve-se
identificar as seguintes informações:
.333415120135120100 ====== f e , F-, a, Ln antinf
Consequentemente, a mediana amostral da pressão sistólica agrupada em intervalos de classe
é
mmHg,,md 27127277120331615120
3334
15120 2100
=+=×+=−
×+= ,
sendo interpretada da forma usual.
É importante salientar que todas as observações são diretamente utilizadas para calcular a
média, não ocorrendo o mesmo com a mediana. Dessa forma, valores extremos (muito grandes ou muito
pequenos quando comparados aos demais valores da amostra) causam grandes perturbações na média, o que em
geral não ocorre com a mediana. Por esta razão, diz-se que a mediana é uma medida robusta, como pode ser
ilustrado através do exemplo hipotético descrito abaixo.
Exemplo 2.2 (dados hipotéticos): Um sonífero foi administrado em dois grupos de 5 pacientes
determinados aleatoriamente (denominados Grupo A e Grupo B). A característica ou variável de interesse ( é
o tempo (em minutos) até o início do efeito do medicamento e os resultados são mostrados na Tabela 2.7.
)x
Tabela 2.7 – Tempo (em minutos) até o início do efeito do sonífero administrado aos pacientes do Grupo A e do Grupo B.
Grupo A )x(
Grupo B )y(
2x 2y
5,75 5,75 33,06 33,06 5,85 5,85 34,22 34,22 6,05 6,05 36,60 36,60 6,10 6,10 37,21 37,21 6,60 25,90 43,56 670,81
Σ 30,35 49,65 184,66 811,91 Nota: Dados fictícios.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
27
Observe que apesar da semelhança entre os conjuntos de dados, o Grupo B apresenta um
elemento que pode ser considerado atípico, que é a observação 25,90 minutos. Assim, as duas médias amostrais
são diferentes e, se interpretadas no contexto do problema, poderiam revelar que o tempo médio até o início do
efeito do sonífero é menor no grupo A do que no grupo B. De fato, a média amostral do Grupo A é
utosmin,,n
xx
n
ii
076535301 ===
∑= ,
enquanto que no Grupo B é
utosmin,,n
yy
n
ii
939565491 ===
∑= .
Cabe observar que a discrepância entre essas médias é devida ao valor aparentemente atípico
em um paciente do grupo B (25,90 minutos), que está afetando substancialmente a média do grupo. Ao contrário
da média, a mediana amostral é igual nos dois grupos (6,05 minutos), indicando que o tempo até o início do
efeito do sonífero é similar em ambos os grupos. Em situações com esta, a mediana pode ser uma medida mais
adequada para representar o elemento típico da amostra, pois não é afetada por valores extremos.
Quando a característica de interesse é medida através de uma variável ordinal a mediana
deve ser utilizada para representar o centro da distribuição, haja vista que neste caso a média sequer está
definida. Como ilustração, considere o exemplo hipotético descrito abaixo:
Exemplo 2.3 (dados hipotéticos): A gravidade de uma fratura (da bacia, por exemplo) não pode ser
quantificada, mas é usual adotar uma variável ordinal definida pelas categorias “1-fratura leve”, “2-fratura
moderada” e “3-fratura severa”. Um grupo de 7 pacientes com fratura na bacia foi classificado de acordo com
este critério, tendo sido observados os seguintes níveis ou graus de severidade da fratura:
leve, leve, moderada, moderada, severa, severa, severa
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
28
É vital perceber que, no presente exemplo, os números 1, 2 e 3 associados às categorias são
apenas rótulos de identificação, de tal forma que não é possível calcular a média, pois as observações não
assumem valores numéricos. No exemplo, a medida de tendência central adequada é a mediana, que apresentou
valor fratura moderada, ou seja, o grau mediano de severidade da fratura da bacia dos 7 pacientes pode
ser considerado moderado. Isso significa que 50% dos pacientes apresentaram fratura de severidade leve ou
moderada, enquanto que os outros 50% dos pacientes tiveram fratura moderada ou severa.
=dm
Por outro lado, a utilização de escores para representar a severidade da fratura deve ser
acompanha por uma profunda e criteriosa discussão, haja vista que a escolha subjetiva de diferentes sistemas de
escores poderia conduzir a conclusões diferentes ou até mesmo conflitantes. Por exemplo, ao invés de usar os
escores 1, 2 e 3 para as categorias leve, moderada e severa da variável severidade da fratura, poderiam ser
usados os escores 1, 5 e 7, respectivamente. Assim, a validade das conclusões depende essencialmente da
adequação do sistema de escores adotado.
Um exemplo real onde a média não está definida é o caso da variável nível de instrução
apresentada no Exemplo 2.1, cuja distribuição empírica de freqüências foi disposta na Tabela 2.4. A posição da
mediana, neste caso, é 5502
1 ,n=
+, de tal forma que o valor da mediana é =dm 1º Grau Incompleto; ou seja
50% dos pacientes da amostra não tem instrução ou tem, no máximo, o primeiro grau incompleto.
Outra medida de tendência central comumente usada é a moda, que nada mais é do que o
valor mais freqüente do conjunto de observações. A moda está definida para qualquer tipo de variável, ou seja,
qualquer que seja a escala de medida utilizada. No entanto, ela é mais usada no caso de variáveis nominais, para
as quais a média e a mediana não estão definidas.
Como primeira ilustração, considere os dados do Exemplo 2.3, onde o valor modal é fratura
severa. Para os dados da variável pressão sistólica do Exemplo 2.1, a moda amostral é , que é
o valor mais freqüente do conjunto de observações.
mmHgmo 128=
Para os casos em que os dados estão agrupados em intervalos de classe, é usual falar em
classe modal, definida como o intervalo de classe que contém maior freqüência absoluta. Por exemplo, para a
variável pressão sistólica do Exemplo 2.1, cuja distribuição de freqüências agrupadas em intervalos de classe é
mostrada na Tabela 2.3, a classe modal é 120 | 135 mmHg. Embora não seja importante neste momento,
nestas situações é possível determinar o valor modal através dos métodos denominados de moda de King e
moda de Kzuber.
Nas representações gráficas a moda da distribuição pode ser identificada por um pico de
freqüência, sendo comum distribuições que apresentam dois ou mais picos. Nestas situações a distribuição é
chamada de bimodal ou polimodal, respectivamente.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
29 2.2.2 Medidas de Variabilidade
Freqüentemente não é suficiente usar apenas uma medida de posição para interpretar
adequadamente um conjunto de dados. Assim, juntamente com uma medida de tendência central é desejável
dispor de uma medida de dispersão dos dados, através da qual é possível quantificar a variabilidade em relação
ao centro da distribuição. As medidas de variabilidade comumente usadas são amplitude de variação e o desvio
padrão, definido como a raiz quadrada da variância.
A amplitude de variação, ou simplesmente amplitude, é a medida de dispersão mais simples,
definida como a diferença entre os valores extremos da distribuição e, quanto maior a amplitude, maior é a
variabilidade dos dados. No caso amostral, é a diferença entre o valor máximo e o valor mínimo observados na
amostra, isto é, )()n( XXA 1−= , onde e são as estatística que representam o máximo o mínimo
da amostra, respectivamente.
)n(X )(X 1
Para as observações da variável pressão sistólica do Exemplo 2.1, a amplitude amostral foi
calculada na Seção 2.1, quando foram determinados o número de intervalos de classe e o tamanho de cada
classe. Repetindo o procedimento, o mínimo e o máximo da amostra foram, respectivamente, mmHgx )( 921 =
e , de tal forma que a amplitude amostral é mmHgx )n( 208= mmHg 116xxA )()n( 922081 =−=−= .
Contudo, apesar da simplicidade, a amplitude não é uma medida de variabilidade satisfatória
e apresenta alguns problemas sérios. Em especial, a amplitude utiliza apenas os valores extremos da
distribuição, desperdiçando a informação contida nas demais observações. Ainda, como utiliza apenas os
valores mínimo e máximo, a amplitude da amostra tem a tendência de subestimar a verdadeira amplitude (a
amplitude populacional), pois os valores extremos da população são raros e, consequentemente, difíceis de
serem observados em uma amostra.
Neste sentido, a variância é uma medida de variabilidade mais adequada, pois considera toda
a informação contida nos dados. Ela mede a variabilidade dos dados em torno da média e, no caso amostral, é
definida por
( )
111
2
12
1
2
2
−
−=
−
−=
∑∑
∑=
=
=
nn
xx
n
xxS
n
i
n
ii
i
n
ii
.
Os dados do Exemplo 2.2, dispostos na Tabela 2.7 podem ser usados para ilustrar o cálculo
da variância amostral nesta situação. Assim, aplicando o último termo da fórmula acima, a variância do tempo
até o início do efeito do sonífero no Grupo A é
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
30
2
2
2 11015
5353066184
)utos(min,
),(,sA =
−
−= ,
enquanto que para o Grupo B é dada por
2
2
2 727915
5654991811
)utos(min,
),(,s B =
−
−= .
Quando os dados estão organizados em uma tabela de freqüências ou em uma tabela de
freqüências agrupadas em intervalos de classe, a variância amostral é definida por
( )
11
2
1
1
2
1
2
2
−
×
−
×
=−
−×=
∑∑∑ =
==
nn
xfxf
n
xxfS
L
iiiL
iii
L
iii
.
Assim, por exemplo, para os dados da pressão sistólica do Exemplo 2.1, agrupados como na
Tabela 2.5, a variância amostral é
( )
( ) .mmHg,.....
...
nn
xfxf
s
L
iiiL
iii
2
2
2
1
1
2
2
734499952344
9960169211247371
99100010131247371
1
==−
=
−=
−
×
−
×
=
∑∑ =
=
Ainda para a pressão sistólica do Exemplo 2.1, a Tabela 2.6 apresenta o agrupamento por
intervalos de classe e, portanto, os valores são os pontos médios das classes. A variância amostral é ix
( )( )mmHg,
...
nn
xfxf
s
L
iiiL
iii
2
2
2
1
1
2
2 8345799
100990127257321
1=
−=
−
×
−
×
=
∑∑ =
= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
31
Como conseqüência direta da sua definição, a variância sempre assume valores maiores ou
iguais a zero e, em linhas gerais, pode-se dizer que quanto maior a variância, maior é a variabilidade dos dados
em torno da média. A interpretação da variância fica prejudicada pelo fato de que sua unidade é o quadrado da
unidade da variável, como pode ser constatado nos exemplos acima. Dessa forma, para retornar a unidade de
medida original, define-se a medida de variabilidade chamada de desvio padrão como a raiz quadrada da
variância, isto é, o desvio padrão é S S= 2 .
Assim, para os dados do Exemplo 2.2, mostrados na Tabela 2.7, o desvio padrão do tempo
até o início de efeito do sonífero no Grupo A é
( ) utosmin,utosmin,ss AA 330 110 22 === ,
e, para o Grupo B,
( ) utosmin,utosminss BB 938 9,727 22 === .
Neste exemplo, tanto com a variância quanto com o desvio padrão claramente percebe-se
que a variabilidade em torno da média é muito superior no Grupo B, como conseqüência da observação
discrepante 25,90 minutos.
Para variável pressão sistólica do Exemplo 2.1, o desvio padrão é igual a
( ) mmHg,mmHg,s 2121 73449 2 == ,
e, após o agrupamento dos dados da pressão sistólica em intervalos de classe, o desvio padrão é igual a
( ) mmHg,mmHg,s 4021 83457 2 == .
Percebe-se, assim, que o agrupamento em intervalos de classe adotado para a variável pressão sistólica
praticamente não alterou o valor do desvio padrão, sugerindo que a estratégia de agrupamento está adequada.
De forma análoga à variância, o desvio padrão também assume apenas valores maiores ou
iguais a zero e, de maneira geral, valores grandes indicam a presença de grande variabilidade. Contudo, devido à
ordem de grandeza intrínseca às variáveis, em muitas situações é difícil ou subjetivo definir o que é um valor
grande para o desvio padrão, sendo mais apropriado utilizar uma medida de variabilidade que independe da
unidade de medida da variável, chamada de coeficiente de variação, discutido na próxima seção.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
32 2.2.3 Coeficiente de Variação
O coeficiente de variação permite expressar a variabilidade dos dados eliminando a
influência da ordem de grandeza da variável e, por ser adimensional, também possibilita comparar a
variabilidade de dois conjuntos de dados distintos. O coeficiente de variação é uma medida relativa da
variabilidade e é definido por
XSCV = .
O coeficiente de variação assume valores no intervalo [ ]+∞,0 e quanto menor o seu valor
mais homogêneo é o conjunto de dados. O coeficiente de variação é zero quando o desvio padrão é igual a zero,
ou seja, quando todos os valores observados na amostra são iguais (ausência completa de variabilidade). Como
uma regra geral, características que apresentam valor do coeficiente de variação menor do que 0,25 (ou 25%)
são relativamente homogêneas, mas isso depende muito da área de aplicação. Em variáveis vitais, por exemplo,
geralmente espera-se um coeficiente de variação muito menor do que 25% para que o conjunto de dados possa
ser considerado homogêneo.
No Exemplo 2.2, a intensidade da variabilidade em torno da média da variável tempo até o
início do efeito do sonífero pode ser avaliada através do coeficiente de variação. No Grupo A,
%, ou ,,,CVA 44505440076330
== ,
enquanto que no Grupo B,
%, ou ,,,CVB 938989930939938
== .
Assim, as observações do Grupo A podem ser consideradas homogêneos, ou seja, a variabilidade em torno da
média é pequena, mas o mesmo não ocorre no Grupo B.
A pressão sistólica do Exemplo 2.1, por sua vez apresenta um coeficiente de variação igual a
%,ou,,
,CV 3016 16300101302121
== ,
podendo ser considerada relativamente homogênea.
Justamente por ser adimensional, o coeficiente de variação permite, ainda, comparar a
variabilidade de variáveis com ordens de grandeza diferentes e, portanto, que não seriam diretamente
comparáveis.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
33 3 Probabilidade
3.1 Conceitos Básicos
A grande maioria das variáveis da área biológica está sujeitas à variabilidade, devido ao fato
de que ela é inerente aos seres vivos. Assim, é conveniente dispor de uma medida que exprima essa incerteza,
através de uma escala numérica que varie do impossível ao certo. Esta medida é a probabilidade e o seu
conceito é fundamental para o estudo de situações onde os resultados não são previsíveis, veja Soares, Farias e
Cesar (1991).
Antes de definir probabilidade, é importante apresentar os conceitos de experimento
aleatório, de espaço amostral e de evento aleatório. Segundo Soares, Farias e Cesar (1991), um experimento
aleatório é o processo de coleta de dados, relativos a um fenômeno aleatório. O espaço amostral, por sua vez, é o
conjunto de todos os resultados possíveis de um experimento aleatório, enquanto que um evento aleatório é
qualquer subconjunto do espaço amostral. Esses conceitos podem ser melhor compreendidos através de
exemplos.
Exemplo 3.1: Considere o experimento aleatório que consiste no lançamento de uma moeda honesta, onde o
resultado observado é a face superior. Mantidas as mesmas condições, para cada repetição do experimento não é
possível prever o resultado, mas pode-se afirmar que o resultado será cara (C) ou coroa (K). Assim, o espaço
amostral associado ao experimento é o conjunto , KC=Ω , pois esses são os dois resultados possíveis em
cada lançamento da moeda honesta. Aqui, a “ocorrência do resultado cara” pode ser considerada um evento.
Exemplo 3.2: Considere o experimento aleatório que consiste no lançamento de um dado, observando-se o
resultado da face superior. O espaço amostral é o conjunto 6,5,4,3,2,1=Ω , que corresponde aos possíveis
resultados do experimento. Exemplos de eventos são: ou A
ocorrência de “face par” também é um evento, sendo escrito como .
,, 2ou 161
,,,, 5432
6ou 4ou 2
.3ou 1
Exemplo 3.3: Uma ilustração da área da médica é a observação da pressão sistólica descrita no Exemplo 2.1.
O espaço amostral associado a este experimento é o intervalo ( )+∞,0 , ou seja, conjunto ( )+∞=Ω ,0 . Assim,
admita que a variável X representa a pressão sistólica de um homem com problemas cardíacos da população
que foi investigada em Honolulu. Neste contexto, inúmeros eventos podem interessar ao pesquisador, tais como:
a) um paciente apresenta pressão sistólica maior do que 150 mmHg, ou seja, [ ]; mmHgX 150>
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
34
b) um paciente apresenta pressão sistólica inferior a 200 mmHg, ou seja, [ ]mmHgX 200< ; ou,
c) um paciente tem pressão sistólica entre 110mmHg e 160 mmHg, ou seja,
. [ ]mmHgXmmHg 160 110 <<
Exemplo 3.4: O número de pessoas acidentadas que chegam em um pronto socorro de um determinado
hospital durante uma madrugada pode ser considerado uma variável aleatória, cujo espaço amostral é
. L,,,, 3210=Ω
Exemplo 3.5: Outra ilustração da área médica é o peso ao nascer, que pode estar associado a diversos fatores
genéticos ou ao comportamento da mãe, tais como a histórico clínico, alimentação, hábito de fumar, esforço
físico, renda, grau de instrução, etc. Nesta situação, o espaço amostral consiste no intervalo de peso ( )0,+∞ ,
medido em gramas, quilogramas ou outra unidade de peso. Assim, se Y é a variável que representa o peso ao
nascer, então o espaço amostral associado à variável aleatória Y é ( )+∞=Ω ,0 . É claro que uma criança não
apresentaria um peso muito próximo ao valor 0 kg, nem tampouco um valor elevado (por exemplo, 10 kg).
Diversos eventos podem ser definidos neste contexto, mas se o pesquisador está interessado
em identificar os fatores que possivelmente favorecem o nascimento de uma criança com baixo peso, o primeiro
passo seria definir o evento “a criança apresenta baixo peso ao nascer”. Um critério usual é classificar como
baixo peso ao nascer as crianças que apresentam peso de nascimento inferior a 2,5 kg. Consequentemente, o
evento representa o nascimento de uma criança com baixo peso, enquanto que o evento
representa uma criança que não apresenta baixo peso ao nascer. A próxima etapa seria estimar a
probabilidade de que uma criança apresente baixo peso ao nascer, em função da sua exposição aos fatores de
risco (fatores genéticos, habito de fumar da mãe, renda, hábitos alimentares da mãe, etc). A probabilidade deste
tipo de evento é denominada de probabilidade condicional e será definida a seguir.
[ kgY 5,2<
]kg 5
][Y ,2≥
Existem diversas definições de probabilidade, as quais serão brevemente descritas. No caso
em que o espaço amostral Ω é finito, pode-se utilizar a definição clássica de Probabilidade, baseada no
conceito de resultados equiprováveis, ou seja, que todos os resultados possíveis do experimento possuem a
mesma chance de ocorrer. Assim, define-se a probabilidade do evento A como:
[ ] possíveisresultadosnúmero de
o As ao event favorávei resutadosnúmero de AP = .
Assim, no Exemplo 3.2, a probabilidade de ocorrer o evento “face par” é
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
35
[ ] [ ]21
636ou 4ou 2 ====
possíveisresultadosnúmero de o FACE PARs ao event favoráveiresultadosnúmero de PPARFACEP
Outra maneira de definir probabilidade é através da freqüência relativa, chamada de
definição freqüentista ou estatística. Ela baseia-se na estabilidade da freqüência relativa de ocorrência de
eventos, quando ele é repetido muitas vezes, sendo escrita como
[ ]n
ensaios"o A em "ns do eventocorrêncianúmero de AP = .
Como pode ser observado, a probabilidade associada ao evento A, denotada por [ ]AP , é
uma medida de quão provável é a ocorrência desse evento. Embora essas definições de probabilidade sejam
insatisfatórias do ponto de vista teórico, elas são bastante úteis para apresentar as principais idéias da teoria das
probabilidades no contexto do curso. Existem, contudo, outras definições de probabilidade, cabendo destacar a
definição subjetiva e a definição geométrica, que podem ser encontradas, por exemplo, em James (1981) e
Dantas (1997). Nestas referências encontra-se, também, a definição axiomática de probabilidade, atribuída ao
probabilista russo Andrey N. Kolmogorov, mas devido à complexidade do tema não serão discutidas neste
curso. A seguir serão apresentados os tipos de eventos e as regras básicas para a determinação das respectivas
probabilidades associadas.
A intersecção de dois eventos A e B equivale à ocorrência simultânea de ambos eventos,
sendo denotada por [ ] ou [ , e ilustrada pelo diagrama de Venn na Figura 3.1 BeA ]BA∩
Figura 3.1 – Diagrama de Venn ilustrando a intersecção dedois eventos A e B pertencentes ao mesmo espaçoamostral . Ω
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
36
Para ilustrar, considere o Exemplo 3.2 relativo a um lançamento de um dado, onde o evento
A=[o resultado do experimento é par] e B=[o resultado do experimento é menor do que 5]. Assim, o evento
significa que o resultado é par e é menor do que 5. Mas o evento A ocorre [ BA∩ ] se e somente se o
resultado é 2 ou 4 ou 6, enquanto que B ocorre se e somente se o resultado é 1 ou 2 ou 3 ou 4.
Portanto, como o evento [ ]BA∩ deve satisfazer as duas condições, ele está associado a ocorrência do resultado
2 ou do resultado 4. Assim, a probabilidade de ocorrência do evento [ ]BA∩ é
[ ] [ ] 31
61
6142 =+==∩ ouPBAP .
Dois eventos A e B são ditos mutuamente exclusivos se a ocorrência de um deles
impossibilita a ocorrência do outro, ou seja, os dois eventos não têm nenhum elemento em comum. Este fato
pode ser escrito como A ∩ B = e representado através pelo diagrama de Venn mostrado na Figura 3.2. ∅
Figup e
Como ilus
a um lançamento de um dad
ímpar]. Assim, a ocorrência
resultados 2, 4 ou 6, e
Em outras palavras, os event
cuja probabilidade é
Prof. Álv
ra 3.2 – Diagrama de Venn ilustrando dois eventos A e Bertencentes ao mesmo espaço amostal Ω e mutuamentexclusivos.
tração de eventos mutuamente exclusivos, considere ainda o Exemplo 3.2 relativo
o, onde A=[o resultado do experimento é par] e B=[o resultado do experimento é
do evento A impede a ocorrência de B, pois o primeiro está associado aos
nquanto que o segundo está associado à ocorrência dos resultados 1, 3 ou 5.
os A e B não podem ocorrer simultaneamente, para o que se escreve ∅=∩ BA ,
[ ] [ ] [ ] 0=∅==∩ Pimpossível eventoPBAP .
aro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
37
Um exemplo trivial na área médica é o sexo de uma criança, cujos resultados possíveis são
masculino (M) e feminino (F), ou seja, o espaço amostral é F,M=Ω . Assim, a probabilidade de uma
criança ser do sexo masculino é [ ] 21=MP e [ ] 2
1=FP . Observe que estes eventos são mutuamente
exclusivos, pois a ocorrência de um dos eventos impede a ocorrência do outro. Em outras palavras, se uma
criança é do sexo masculino, então a mesma criança não pode ser do sexo feminino, e vice-versa. Nesta
situação, a ocorrência simultânea dos dois eventos, isto é, uma criança ser simultaneamente do sexo masculino e
do sexo feminino, definida por [ ]FM ∩ é um evento impossível e, consequentemente,
. [ ] [ ] 0=∅=∩ PFMP
A união de dois eventos A e B equivale à ocorrência de A, ou de B ou de ambos, ou seja,
contém os elementos do espaço amostral que estão em pelo menos um dos dois conjuntos. A união de dois
eventos A e B pode ser ilustrada pelo diagrama de Venn na Figura 3.3, como segue:
Figur
A e
Para ilustr
A=[o resultado do experimen
significa que o resu[ BA∪ ]resultado é 2 ou 4 ou 6
Portanto, como o evento [Aocorrência do resultado 1
probabilidade de ocorrência do
[ ] [=∪ PBAP
Prof. Álva
a 3.3 – Diagrama de Venn ilustrando a união de dois eventos B pertencentes ao mesmo espaço amostral Ω .
ar, considere o exemplo relativo a um lançamento de um dado, onde o evento
to é par] e B=[o resultado do experimento é menor do que 5]. Assim, o evento
ltado é par ou é menor do que 5. Mas o evento A ocorre se e somente se o
, enquanto que B ocorre se e somente se o resultado é 1 ou 2 ou 3 ou 4.
]B∪ deve satisfazer pelo menos uma das condições, ele está associado a
ou 2 ou 3 ou 4 ou 6, que são eventos mutuamente exclusivos. A
evento [ ] é BA∪
] 65
61
61
61
61
616 4 3 2 1 =++++=ouououou .
ro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
38
Outro tipo de evento, chamado de negação do evento A ou de evento complementar de A,
corresponde a não ocorrência do evento A, é denotado por A ou e representado pelo diagrama de Venn
mostrado na Figura 3.4.
CA
Figura 3.4 – Diagrama ilustrando o complementar de um
evento A pertencente ao espaço amostral Ω .
Com base nestas definições de tipos de eventos, se A e B são dois eventos pertencentes a um
mesmo espaço amostral Ω , então valem as seguintes regras básicas:
a) uma probabilidade sempre é um número entre 0 e 1; [ ] ⇒≤≤ 10 AP
b) o espaço amostra é um evento certo; e, [ ] ⇒=Ω 1P
c) se A e B são eventos mutuamente exclusivos, então [ ] [ ] [BPAPBAP ]+=∪ .
Como conseqüência destas regras, também se pode mostrar que para dois eventos A e B, valem as seguintes relações:
d) se os eventos A e B não são mutuamente exclusivos, então [ ] [ ] [ ] [ ]BAPBPAPBAP ∩−+=∪ ; e,
e) como , então [ ] 1=ΩP [ ] [ ]APAP C −= 1 .
É importante, ainda, apresentar os conceitos de probabilidade condicional e de
independência entre eventos. Dois eventos A e B são chamados de eventos independentes se tanto a ocorrência
quanto a não ocorrência de A não altera a probabilidade do evento B ocorrer. Outra forma de definir a
independência entre eventos é através probabilidade conjunta (ou simultânea), que deve ser igual ao produto das
probabilidades marginais ou individuais. Assim, os eventos A e B são independentes se e somente se a
probabilidade da ocorrência simultânea é o produto de suas probabilidades individuais, isto é,
[ ] [ ] [ ]BPAPBAP ×=∩ .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
39
Exemplo 3.6: Como ilustração, considere um experimento que consiste em lançar um dado honesto duas
vezes e de forma independente, observando-se o resultado da face superior. Os 36 resultados possíveis desse
experimento são apresentados abaixo, onde cada par j,i representa a ocorrência da face no primeiro
lançamento e da face no segundo lançamento, para todo i
i
j 621 ,..,,= e 621 ,..,,j = . Assim, o espaço amostral
associado ao experimento é
=Ω
6,6 6,5 6,4 6,3 6,2 6,15,6 5,5 5,4 5,3 5,2 5,14,6 4,5 4,4 4,3 4,2 4,13,6 3,5 3,4 3,3 3,2 3,12,6 2,5 2,4 2,3 2,2 2,11,6 1,5 1,4 1,3 1,2 1,1
.
Sejam os eventos A=[o resultado do primeiro lançamento é igual a 1] e B=[o resultado do
segundo lançamento é igual a 2]. Assim,
[ ] [ ] 61
366615141312111 === ,ou,ou,ou,ou,ou,PAP
e
[ ] [ ] 61
366262524232221 === ,ou,ou,ou,ou,ou,PBP ,
de tal forma que tanto a ocorrência quanto a não ocorrência do evento A não muda a probabilidade do evento B
ser observado, e vice-versa. Assim, intuitivamente fica caracterizado que os eventos A e B são independentes.
Ainda, os eventos A e B ocorrem simultaneamente somente quando o resultado é o par
1,2, cuja chance ou probabilidade é 361 . Assim, a probabilidade da ocorrência simultânea dos eventos A e B é
[ ] [ ] [ ] [ ] 361
61
6121 =×=×==∩ BPAP,PBAP ,
e fica provado que os eventos são independentes.
Em muitas situações, contudo, a probabilidade de um evento modifica-se quando se dispõe
de informação sobre a ocorrência de outro evento associado. Assim, a probabilidade do evento A, quando se
sabe que o evento B ocorreu, é denominada de probabilidade condicional de A dado B. Ela é denotada por
e, se , é determinada pela expressão [ B|AP ] [ ] 0>BP
[ ] [ ][ ]BP
BAPB|AP ∩= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
40
A probabilidade condicional entre dois eventos A e B também pode ser usada para definir a
independência entre eles. De fato, o evento A é independente de B se e somente se a probabilidade do evento A
ocorrer não é afetada pela ocorrência ou não do evento B, de tal forma que [ ] [APB|AP = ]]
. Analogamente,
deve-se ter . [ ] [ .BPA|BP =
Para ilustrar, considere os eventos A e B definidos no caso do Exemplo 3.6, acima. O evento
A é favorecido pela ocorrência dos pontos 1,1, 1,2, 1,3, 1,4, 1,5 ou 1,6, enquanto que o evento B
está associado à ocorrência dos pontos 1,2, 2,2, 3,2, 4,2, 5,2 ou 6,2. Assim, A e B ocorrem
simultaneamente se e somente se ocorre o ponto 1,2, com probabilidade 136 . Desta forma, a probabilidade
de ocorrer face 2 no segundo lançamento, sabendo-se que no primeiro lançamento o resultado é igual a 1, é
[ ] [ ][ ]
[ ] [ ]BP,PAP
BAPA|BP ====∩
= 61
6136
1
61
21.
Segue, portanto, que os eventos A e B são independentes, como já havia sido mostrado.
3.2 Risco Relativo e Razão de Chances
A utilização de probabilidades condicionais pode ser um poderoso procedimento para avaliar
se a exposição a fatores de risco aumenta a probabilidade de desenvolvimento de alguma doença. Considere, por
exemplo, a situação que envolve a exposição ou não ao fator A e o desenvolvimento ou não de uma doença D.
Admita que a investigação da população de interesse produziu a distribuição de probabilidade conjunta e as
distribuições marginais dispostas na Tabela 3.1, abaixo:
Tabela 3.1 – Distribuições de probabilidades conjunta e marginal do fator A e da doença D na população.
DOENÇA D FATOR A PRESENTE AUSENTE
Total
EXPOSTO 1P 3P 31 PP +
NÃO EXPOSTO 2P 4P 42 PP +
Total 21 PP + 43 PP + 1
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
41
O corpo da Tabela 3.1 informa a distribuição de probabilidade conjunta das variáveis,
enquanto que a linha e coluna de totais informam as distribuições de probabilidade da variável exposição ao
fator A (sim ou não) e desenvolvimento da doença D (presente ou ausente), respectivamente. Naturalmente que
esta é uma situação teórica, haja vista que dificilmente as verdadeiras probabilidades seriam conhecidas. Por
exemplo, a probabilidade conjunta de um indivíduo da população em estudo estar exposto ao fator A e
desenvolver a doença é igual , enquanto que 1P 31 PP + é a probabilidade de um indivíduo dessa população
estar exposto ao fator A.
A probabilidade condicional de um indivíduo desenvolver a doença, dado que foi exposto ao
fator A é, por definição,
[ ] [ ][ ] 31
1 PP
PExpostoP
ExpostoeDoentePExposto|DoenteP+
== ,
sendo conhecida como “o risco de desenvolver a doença para os indivíduos expostos ao fator A”.
De maneira similar, “o risco de desenvolver a doença para os indivíduos não expostos ao
fator A” é a probabilidade condicional
[ ] [ ][ ] 42
2
PPP
ExpostoNãoPoNão ExposteDoentePExpostoNão|DoenteP
+== .
Se o risco de desenvolver a doença é substancialmente maior para os indivíduos expostos ao
fator A, isto é, se [ ] [ ]ExpostoNão|DoentePExposto|DoenteP > , então o fator A possivelmente pode ser
considerado um fator de risco. Em outras palavras, a exposição ao fator A é um fator de risco para o
desenvolvimento da doença D.
A magnitude do risco, entanto, pode ser determinada (quantificada) através da medida
denominada risco relativo, definida pela razão dos riscos de desenvolver a doença entre expostos e não expostos
ao fator A, ou seja,
[ ][ ] ,
PPP
PPP
ExpostoNão|DoentePExposto|DoentePRR
RR
42
2
31
1
Afator ao expostos não indivíduos entre doença da RiscoAfator ao expostos indivíduos entre doença da Risco
+
+==
=
que assume valores no intervalo . Conseqüentemente, para determinar o risco relativo é necessário
conhecer (estimar) as probabilidades condicionais de desenvolver a doença
( +∞,0 )
31
1
PPP+
e 42
2
PPP+
.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
42
Na prática, contudo, as probabilidades condicionais definidas acima só podem ser estimadas
através de estudos prospectivos ou de coorte. Nestes estudos, um grupo de indivíduos (sem a doença) expostos
e um grupo de indivíduos (sem a doença) não expostos ao fator A são acompanhados durante algum período de
tempo, registrando-se o número de casos da doença em cada grupo.
Para facilitar a compreensão, considere um estudo de coorte constituído por dois grupos de
indivíduos sem a doença: um grupo com indivíduos expostos ao fator A e um grupo com indivíduos não
expostos ao fator A. Os indivíduos do estudo foram acompanhados durante um período de tempo especificado e,
no final, avaliados quanto ao surgimento ou não da doença D. O número de casos de desenvolvimento da
doença D foi a e c , respectivamente para o grupo indivíduos de expostos e não expostos ao fator A. Os
resultados podem ser sintetizados como na Tabela 3.2, onde
1n 2n
ban +=1 , dcn +=2 e n . 2nn= 1 +
Tabela 3.2 – Distribuição de freqüências de indivíduos do estudo de coorte, segundo o desenvolvimento da doença D e exposição ao fator A.
DOENÇA D FATOR A PRESENTE AUSENTE
Total
EXPOSTO a b ba + NÃO EXPOSTO c d dc + Total ca + db + n Nota: , nban +=1 dc +=2 e 21 nnn += .
Assim, o risco de desenvolver a doença entre os indivíduos expostos ao fator A pode ser
estimado por
baa
PPP^
+=
+ 31
1
e, analogamente, o risco de desenvolver a doença entre os indivíduos não expostos é
dcc
PPP^
+=
+ 42
2 .
Consequentemente, nesta situação o risco relativo pode se estimado por
dcc
baa
RR^
+
+= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
43
Para exemplificar uma aplicação da medida do risco relativo, considere o estudo sobre o
efeito preventivo da aspirina na mortalidade de doenças cardiovasculares, discutido por Soares & Siqueira
(1999, p.2-3, p.246-247) e descrito a seguir.
Exemplo 3.7: Um ensaio clínico duplo-cego foi planejado e criteriosamente conduzido para avaliar o
potencial do uso da aspirina na redução do risco de doenças cardiovasculares. O experimento considerou 22.071
médicos americanos com idade entre 40 e 84 anos, os quais foram aleatoriamente divididos em dois grupos,
denominados de grupo de pacientes tratados e grupo controle. Os 11.037 médicos do grupo de pacientes
tratados tomaram 325 mg de aspirina a cada dois dias, enquanto que aqueles do grupo controle, composto por
11.043 médicos, tomaram um comprimido semelhante ao da aspirina, mas sem o princípio ativo (ou seja, um
placebo).
Após 5 anos de acompanhamento, o experimento foi encerrado. Entre as características
observadas no experimento, foram confirmados 139 casos de infarto no grupo de pacientes tratados com
aspirina e 239 casos no grupo que recebeu o placebo. Estes resultados parciais são sintetizados na Tabela 3.3.
Tabela 3.3 – Resultados do ensaio clínico realizado para avaliar o efeito preventivo da aspirina na mortalidade de doenças cardiovasculares.
INFARTO TRATAMENTO SIM NÃO
Total
ASPIRINA 139 10.898 11.037 PLACEBO 239 10.795 11.034
Fonte: Soares & Siqueira (1999, p.2-3)
Assim, o risco de infarto entre os indivíduos tratados com aspirina é a probabilidade
condicional de um médico ter infarto, dado que foi tratado com aspirina, que pode ser estimada por
[ ] 013003711
139 ,.ba
aAspirina|InfartoP ==+
= ,
enquanto que para um médico que recebeu o placebo é
[ ] 022003411
239 ,.dc
cPlacebo|InfartoP ==+
= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
44
Como esperado, o risco de infarto é menor para indivíduos tratados com aspirina, sugerindo
que o uso freqüente de aspirina possivelmente é um fator de proteção do risco de infarto. O risco relativo é
estimado por
[ ][ ] 590
02200130 ,,,
Placebo|InfartoPAspirina|InfartoPRR
^===
e significa que o risco de infarto em um indivíduo tratado com aspirina é 59% do risco de infarto para um
indivíduo não tratado. Outra forma de interpretar o resultado é fazer 6911 ,RR
^ = , que significa que um
indivíduo que não tomou aspirina regularmente tem aproximadamente 1,7 vezes mais chances de ter infarto, em
relação a quem tomou.
Em muitos estudos epidemiológicos, entretanto, são utilizados estudos retrospectivos ou de
caso-controle. Ao contrário de um estudo de coorte, em um estudo caso-controle os indivíduos com e sem a
doença são investigados para trás no tempo (followed backwards in time, em inglês) para averiguar se o fator de
risco estava presente ou não.
Em estudos caso-controle o risco relativo não pode ser estimado, pois não é possível estimar
o risco da doença entre os indivíduos expostos e não expostos ao fator de risco. De fato, o que é possível estimar
é o risco do fator estar presente entre os indivíduos com a doença, dado por caa+ e, similarmente, o risco do fator
estar presente entre os indivíduos sem a doença, dado por dbb+ .
Contudo, na maioria das situações, a proporção de indivíduos com a doença na população é
pequena. Assim, a proporção populacional é pequena quando comparada com e, similarmente, é
pequena em relação a , de tal forma que a
1P 3P 2P
4P razão dos riscos pode ser aproximada por
32
41
4
2
3
1
42
2
31
1
PPPP
PPPP
PPP
PPP
=≅
+
+.
Esta medida é chamada de razão de chances ou razão de odds (odds ratio, em inglês) e pode
ser usada como uma estimativa aproximada do risco relativo para o caso de doenças raras. A razão de
chances está definida para qualquer tipo de estudo epidemiológico, motivo pelo qual tem sido grandemente
utilizada. A chance (odds, em inglês) de desenvolver a doença entre os indivíduos expostos ao fator de risco é
definida por 3
1
PP
, enquanto que entre os não expostos é 4
2
PP
. Consequentemente, a razão de chances é
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
45
32
41
4
2
3
1
PPPP
PPPP
==ψ .
Observe que a razão de chances ψ assume valores maiores ou iguais 0, isto é, ( )∞+∈ , 0ψ ,
cabendo salientar os seguintes aspectos: a) 1=ψ significa que a característica em estudo não é um fator de
risco para a doença; b) 1>ψ indica a possibilidade de que a característica em estudo seja um fator de risco para
a doença; e, c) 1<ψ sugere a possibilidade de que a característica em estudo seja um fator de proteção da
doença.
No contexto amostral onde estão sendo consideradas duas características dicotômicas, os
resultados podem ser apresentados como na Tabela 3.2, de tal forma que a razão de chances pode ser estimada
por
bcad
dcd
dcc
bab
baa
ˆ =
+
+
+
+
=ψ .
Contudo, ψ é um estimador pontual da razão de chances, que não considera a variabilidade
intrínseca aos dados. Usualmente é preferível estimar a razão de chances através de um intervalo que leve em
conta esta incerteza, o que pode ser realizado mediante um intervalo de confiança, mas para isso é necessário
estimar a variabilidade de ψ . A variância do estimador ψ é mais fácil de ser estimada na escala logarítmica,
que é dada por
( )dcba
ˆ ln Var^ 1111
+++=ψ .
A variável aleatória ψ ln tem distribuição de probabilidade aproximadamente normal, de tal
forma que um intervalo com aproximadamente ( ) %1001 ×α− de confiança para ψ ln é dado por
( ) ( )
×+×−
^^ˆ ln Varzˆ ln ;ˆ ln Varzˆ ln ψψψψ αα
22,
onde 2
αz é o valor da distribuição de probabilidade normal padrão tal que α−=
+<<− αα 1
22zZzP .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
46
O intervalo de confiança para a verdadeira razão de chances ψ pode ser obtido mediante a
aplicação da função exponencial nos extremos do intervalo obtido para ψ ln . Em outras palavras, um intervalo
com ( ) para %1001 ×α− ψ é
( ) ( )
×+
×−^^
ˆ ln Varzˆ lnexp ;ˆ ln Varzˆ lnexp ψψψψ αα22
.
Se o intervalo de confiança para ψ contém o valor 1 ou, equivalentemente, se o intervalo de
confiança para ψ ln contém o valor 0, então não há evidências estatísticas de que o fator de risco em
consideração e a doença estejam associados.
É conveniente ressaltar que nesta seção foram considerados apenas aspectos básicos sobre a
aplicação do risco relativo e da razão de chances em estudos epidemiológicos. O leitor interessado em
aprofundar os estudos pode consultar, por exemplo, Breslow & Day (1980, 1987), Everitt (1992) ou Hosmer &
Lemeshow (1989). A seguir será ilustrado um estudo epidemiológico onde pode ser utilizada a razão de chances
para avaliar se o peso ao nascer é um fator de risco para a ocorrência de hemorragia peri-intraventricular.
Exemplo 3.8: O presente problema foi tratado por Tavares (1995) em sua Dissertação de Mestrado em
Pediatria da Faculdade de Medicina da UFMG e descrito também por Soares & Siqueira (1999, p.127-128,
p.259). Uma das causas mais freqüentes de agressão ao sistema nervoso central no período neonatal e a segunda
causa mais freqüente de morte em prematuros é a hemorragia peri-intraventricular (HPIV). Tavares (1995)
estudou a ocorrência desta doença em 120 recém-nascidos com peso menor do que 2000 g, no Hospital de
Clínicas da UFMG, no período de 18/01/94 a 17/05/95. Um dos possíveis fatores de risco para a ocorrência de
HPIV é o baixo peso ao nascer, sendo usual utilizar 1500 g como limite. Os dados relativos as 120 crianças
estudadas são sintetizados na Tabela 3.4.
Tabela 3.4 – Resultados do estudo sobre ocorrência de HPIV em 120 crianças com menos de 2000 g, observadas no Hospital de Clínicas da UFMG.
HPIV PESO AO NASCER (em g) PRESENTE AUSENTE
Total
< 1500 24 32 56 1500 – 2000 15 49 64
Total 39 81 120
Fonte: Soares & Siqueira (1999, p.259)
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
47
Uma estimativa aproximada do risco de ocorrer HPIV para crianças com peso ao nascer
menor do que 1500 g, em relação às crianças com peso ao nascer entre 1500 g e 2000 g, pode ser obtida através
da razão de chances dada por
452480
117615324924 ,
bcadˆ ==
××
==ψ .
Isto significa que crianças com peso ao nascer menor do que 1500 g têm aproximadamente 2,5 vezes mais
chance de ocorrência de HPIV do que crianças com peso ao nascer entre 1500 g e 2000 g. No entanto, é
preferível estimar o risco através de um intervalo de confiança. A variância estimada de ψ ln é
( ) 160491
151
321
2411111 ,
dcbaˆ ln Var
^=+++=+++=ψ .
Como ψ ln tem uma distribuição de probabilidade aproximadamente normal, o intervalo
com 95% de confiança para ψ ln é dado por
( ) ( )
×+×−
^^ˆ ln Var,ˆ ln ;ˆ ln Var,ˆ ln ψψψψ 961961 .
O limite inferior e o limite superior do intervalo de confiança são, respectivamente,
( ) 112107840089610160961452961 ,,,,,, lnˆ ln Var,ˆ ln^
=−=×−=×− ψψ
e
( ) .,,,,,, lnˆ ln Var,ˆ ln^
680117840089610160961452961 =+=×−=×+ ψψ
Portanto, com 95% de confiança, o intervalo ( )6801111210 , ;, contém o verdadeiro valor de
ψ ln . Observe que o intervalo não contém o valor 0, sugerindo que de fato existe uma associação entre o peso
ao nascer e a ocorrência de HPIV. No entanto, é mais informativo interpretar a estimativa do risco ao invés da
estimativa do logaritmo do risco. Para tanto, basta transformar o intervalo de confiança para ψ ln em um
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
48 intervalo de confiança para ψ , tomando-se a exponencial dos limites inferior e superior do intervalo de
confiança determinado acima. Assim, os novos limites são
exp
( ) 121961 11210 ,eˆ ln Var,ˆ lnexp ,^
==
×− ψψ
e
( ) 375961 68011 ,eˆ ln Var,ˆ ln ,^
==
×+ ψψ ,
de tal forma que, com 95% de confiança, o intervalo ( )375121 , ;, contém o verdadeiro valor do risco ψ .
3.3 Distribuições de Probabilidade
Uma distribuição de probabilidade consiste essencialmente na coleção de todos os valores
que uma variável aleatória pode assumir e suas respectivas probabilidades. Existem diversas distribuições de
probabilidades conhecidas, as quais podem ser expressadas por uma função matemática. Usualmente as
distribuições de probabilidades são divididas em distribuições discretas de probabilidade e distribuições
contínuas de probabilidade, as quais estão associadas às variáveis aleatórias discretas e contínuas,
respectivamente.
Dentre as principais distribuições discretas, cabe mencionar a distribuição binomial, a
distribuição de Poisson, a distribuição hipergeométrica e a multinomial. Existem, também, diversas
distribuições contínuas de probabilidade, dentre as quais a distribuição normal seguramente é a mais importante
e conhecida. Outros tipos de distribuições contínuas são a distribuição exponencial, distribuição gama,
distribuição t de Student, distribuição F de Snedecor, distribuição qui-quadrado, etc.
Nas próximas seções serão estudadas algumas distribuições de probabilidades, que
freqüentemente podem ser úteis para representar fenômenos aleatórios em diversas áreas do conhecimento, com
especial ênfase em problemas da área médica.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
49 3.3.1 Distribuição Binomial
Para introduzir a definição da distribuição binomial, é conveniente considerar o exemplo descrito abaixo:
Exemplo 3.9: Admita que 25% dos indivíduos de uma determinada população têm sangue do tipo B. Uma
amostra aleatória de quatro indivíduos desta população é selecionada, os quais são submetidos a um teste para
determinar o tipo de sangue.
O resultado deste “experimento aleatório” poderia ser representado pela variável aleatória X
definida como o “número de indivíduos da amostra com sangue do tipo B”. Equivalentemente, X = nº de
sucessos em 4 ensaios independentes, onde se diz que ocorre sucesso quando um indivíduo tem sangue do tipo
B, e os 4 ensaios independentes são os quatro indivíduos aleatoriamente selecionados da população
especificada.
Nesta situação, os valores que a variável aleatória X pode assumir são descritos no espaço
amostral . O que se deseja determinar, portanto, são exatamente as probabilidades associadas
às ocorrências de cada valor admissível para X, se possível mediante um modelo probabilístico conhecido. Por
exemplo, sob estas condições, qual é a probabilidade de que dos 4 indivíduos extraídos ao acaso da população,
exatamente em 2 (dois) tenham sangue do tipo B?
4 ,3 ,2 ,1 ,0=Ω
Para responder esta questão, considere a amostra aleatória de 4 indivíduos, rotulados como
. Para cada um dos indivíduos da amostra, o sangue é do tipo B ou não, ou seja, para
,
4321 X,X,X,X
4321 ,,,i =
= do tipo Btem sangueíduosimo indiv, se o i-é
do tipo Bem sangue íduo não tsimo indiv, se o i-éX i 1
0
e a probabilidade do i-ésimo indivíduo ter sangue do tipo B é [ ] 2501 ,XP i == , . Assim, a
probabilidade de um indivíduo não ter sangue do tipo B é dada por
4321 ,,,i =∀
[ ] [ 1XP i ] 7501 ,0XP i ==−== . Os
possíveis resultados desse experimento aleatório podem ser visualizados no esquema abaixo:
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
50
1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X
0 0 0 0 1 0 0 0 1 1 0 0 1 1 1 0 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 0 1 1 0 1 1 0 0 0 1 0 1 1 0 0 1 1 1 0 1 0 1 0 0 1 1
0=X 1=X 2=X 3=X 4=X
Como se pode notar, existem 16 combinações de resultados possíveis. A probabilidade de
que nenhum dos quatro indivíduos da amostra aleatória tenha sangue do tipo B pode ser determinada através da
variável aleatória , que representa o número de indivíduos da amostra com sangue do tipo B.
Assim, a probabilidade de é
∑=
=4
1iiXX
=X 0
[ ] [.,,,,,,
XXXXPXP
31640)750(750750750750
)0()0()0()0(04
4321
==×××=
= ]∩=∩=∩===
É importante perceber que, nesta situação, a probabilidade do evento
[ )0()0()0()0( 4321 ]=∩=∩=∩= XXXX
4321 X,X,X,X
é igual ao produto das probabilidades individuais, pois as
variáveis são independentes e identicamente distribuídas (por serem uma amostra aleatória).
Analogamente, a probabilidade de que exatamente um dos quatro indivíduos da amostra
tenha sangue do tipo B é
[ ]
( )( )( )( )
( ) ( ) 421907502504
)1()0()0()0( )0()1()0()0( )0()0()1()0( )0()0()0()1(
1 31
4321
4321
4321
4321
,,,
XXXXXXXXXXXXXXXX
PXP =××=
=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=
== .
Ainda, a probabilidade de que dois dos quatro indivíduos da amostra apresentem sangue do
tipo B é
[ ]
( )( )( )( )( )( )
( ) ( ) 210907502506
)1()1()0()0( )1()0()1()0( )0()1()1()0( )1()0()0()1( )0()1()0()1( )0()0()1()1(
2 22
4321
4321
4321
4321
4321
4321
,,,
XXXXXXXXXXXXXXXXXXXXXXXX
PXP =××=
=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=
==
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
51 e, por sua vez, a probabilidade de que exatamente três dos quatro indivíduos tenham sangue do tipo B é igual a
[ ]
( )( )( )( )
( ) ( ) 046907502504
)1()1()1()0( )1()1()0()1( )1()0()1()1( )0()1()1()1(
3 13
4321
4321
4321
4321
,,,
XXXXXXXXXXXXXXXX
PXP =××=
=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=
== .
Por fim, resta determinar a probabilidade de que os quatro indivíduos da amostra tenham
sangue do tipo B, que é dada por
[ ] [( ) .,
XXXXPXP
003900,250,250,250,250,25
)1()1()1()1(44
4321
==×××=
]=∩=∩=∩===
Portanto, a distribuição de probabilidade da variável aleatória X, número de indivíduos com
sangue do tipo B, dentre os quatro selecionados aleatoriamente da população, é
x 0 1 2 3 4 Total
[ xXP ]= 0,3164 0,4219 0,2109 0,0469 0,0039 1
Observe que
[ ] [ ] [ ] [ ] [ ] [ ].,,,,,XPXPXPXPXPP
10039004690210904219031640 43210
=++++==+=+=+=+==Ω
No exemplo acima, a distribuição de probabilidades da variável aleatória X (genericamente
definida pelo número de sucessos em ensaios independentes) está completamente caracterizada. Entretanto,
quando o tamanho da amostra aumenta, o número de combinações de resultados possíveis aumenta
rapidamente, fato que usualmente inviabiliza a construção do quadro de resultados possíveis, como o do
exemplo. Assim, precisa-se um mecanismo prático para determinar as probabilidades dos eventos de interesse.
nn
Utilizando o Exemplo 3.9, observe que existe apenas uma maneira de ocorrer o resultado
, ou seja, o evento [ 0=X ] ][ 0=X
0
ocorre se e somente se ocorrer o resultado
e 0 e 0 e 432 = 01 == XXX
[ ]0=X
=X . O número de diferentes combinações de resultados que conduzem à
ocorrência do evento também pode ser determinado mediante o coeficiente binomial
1040
404
=−
=
)!(!
!,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
52 onde a expressão (lê-se !x x fatorial) representa a função fatorial do número inteiro x , definida como
. Convém lembrar ainda que, por definição, 0 e 1 . ( ) ) 121 ×××−×= Lxx!x ( −x 2× 1=! 1=!
Por outro lado, a ocorrência do evento [ ]1=X está associada a quatro resultados possíveis
(veja no quadro acima). O número de diferentes combinações também poderia ser determinado por
43 134
1414
14
=×
=−
=
!!!
)!(!!
.
Da mesma forma, existem
62 2
234242
424
=××
=−
=
!!
!)!(!
!
combinações possíveis que conduzem a ocorrência do evento [ ]2=X ,
41 334
3434
34
=×
=−
=
!!!
)!(!!
diferentes maneira de ocorrer o evento [ ]3=X e, finalmente, apenas uma maneira de ocorrer o evento
. [ ]4=X
Genericamente, é possível escrever o número de diferentes combinações de resultados
favorecem a ocorrência do evento [ através do coeficiente binomial ]xX =
)!x(!x!
x −=
444
,
e, consequentemente, para o exemplo em questão, a probabilidade do evento [ ]xX = pode ser determinada
mediante a expressão
[ ] ( ) ( ) ,,,,,x;,,x
xXP xx 43210 750250 4 4 =∀
== −
ou, equivalentemente,
[ ] ( ) ( ) .,,,,x;,,)!x(!x
!xXP xx 43210 750250 44 4 =∀−
== −
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
53
Para ilustrar, a probabilidade de que entre os quatro indivíduos da amostra, exatamente dois
tenham sangue do tipo B é igual a
[ ] ( ) ( ) ( ) ( ) 210907502506750250 24 2
42 22242 ,,,,,)!(!
!XP =××=−
== − ,
como determinado anteriormente.
Através do exemplo acima, foi ilustrada a construção do modelo binomial de
probabilidades, que pode ser formalmente definido da seguinte maneira: considere um experimento que é
repetido vezes, sob condições idênticas, e tem as seguintes características: n
a) cada repetição do experimento pode assumir um dos dois resultados possíveis, os quais são
mutuamente exclusivos e tecnicamente designados por sucesso (S) ou fracasso (F);
b) a probabilidade de sucesso, [ ] pSucessoP = é a mesma em cada repetição e permanece constante em
todo o experimento. A probabilidade de fracasso é [ ] [ ] pSucessoPFracassoPq −=−== 11 e
também é constante, de tal forma que 1=+ qp ;
c) as repetições são independentes, de tal forma que o resultado de uma realização do experimento não
interfere no resultado de outra realização qualquer.
Sob as condições especificadas, a variável aleatória que representa o número de sucessos nas
repetições do experimento, definida por , possui distribuição de probabilidades binomial com
parâmetros n e
n
∑=
=n
iiXX
1
p , cuja função massa de probabilidades é dada por
[ ] ( )
( ) .n,,,,x;pp)!xn(!x
!n
ppxn
xXP
xnx
xnx
L210 1
1
=∀−−
=
−
==
−
−
Uma variável aleatória X com distribuição de probabilidades binomial com parâmetros e n p
tem esperança (média) igual a e variância igual , sendo usualmente denotada por
. A forma da distribuição de probabilidade binomial depende criticamente do tamanho da amostra
(número de ensaios independentes) e da probabilidade de sucesso
np=µ )p(np −=σ 12
),(~ pnBX
n p , podendo ser simétrica, assimétrica
positiva ou assimétrica negativa. O seu comportamento pode ser visualizado através de um gráfico, como a
Figura 3.5, que representa a distribuição binomial para o experimento aleatório descrito no Exemplo 3.9.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
54
Número de Sucessos (x)
43210
P[X
=x]
50
40
30
20
10
0
Figura 3.5 – Forma da distribuição binomial com 4=n e
do experimento aleatório descrito no Exemplo 3.9. 250,p =
As figuras mostradas a seguir ilustram o comportamento da distribuição binomial para
diferentes valores dos parâmetros e n p . É importante observar aspectos básicos tais como simetria, valores
admissíveis e suas respectivas probabilidades. A Figura 3.6, por exemplo, ilustra o comportamento de uma
variável aleatória X com distribuição binomial com tamanho de amostra 10=n e probabilidade de sucesso
, isto é, . Naturalmente, os valores admissíveis nesta situação são os valores de 50,p = ( 50 ,;nB )~X x tais
que e a distribuição é caracterizada essencialmente pela simetria em relação ao
número esperado (médio) de sucessos, dado por
65,, 109874 ,,,,,3210 ,,,x∈
55010 =×==µ ,np sucessos. Isto significa que, nesta
situação, em 10 ensaios independentes seriam esperados 5 sucessos.
Prof. Álv
Número de Sucessos (x)
109876543210
P[X=
x]
,4
,3
,2
,1
0,0
Figura 3.6 – Forma da distribuição binomial com
e 10=n 50,p = .
aro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
55
A Figura 3.7 e a Figura 3.8, por sua vez, ilustram o comportamento da distribuição binomial
de probabilidade com e probabilidade de sucesso 10=n 70,p = e 90,p = , respectivamente. É vital observar
que a assimetria negativa torna-se mais acentuada na medida que o valor da probabilidade de sucesso p se
afasta de ½ em direção ao valor . 1=p ,4
,3
,2
,1
Número de Sucessos (x)
109876543210
P[X
=x]
,4
,3
,2
,1
0,0
Figura 3.7 – Forma da distribuição binomial
com n e . 10= 70,p =
Número de Sucessos (x)
109876543210
P[X
=x]
0,0
Figura 3.8 – Forma da distribuição binomial com
e = . 10=n 90,p
De forma análoga, a Figura 3.9 e a Figura 3.10 ilustram o comportamento da distribuição
binomial de probabilidade com n e probabilidade de sucesso 10= 40,p = e 150,p = , respectivamente. Como
seria esperado, a assimetria positiva torna-se mais acentuada na medida que o valor de p se afasta de ½ em
direção ao valor . 0=p
Finalmente, a Figura 3.11 e a Figura 3.12 ilustram o comportamento da distribuição binomial
quando o tamanho da amostra é grande. Observe que mesmo considerando probabilidades de sucesso
afastadas de
n
21=p , a forma da distribuição é relativamente simétrica em relação à média. De fato, este é um
resultado importante, conhecido como aproximação da distribuição binomial pela distribuição normal, derivado
do Teorema Central do Limite para variáveis independentes e identicamente distribuídas, o qual será
apresentado, discutido e ilustrado no Capítulo 5.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
56
Número de Sucessos (x)
109876543210
P[X
=x]
,4
,3
,2
,1
0,0
Figura 3.9 – Forma da distribuição binomial com
e . 10=n 40,p =
Número de Sucessos (x)
109876543210
P[X
=x]
,4
,3
,2
,1
0,0
Figura 3.10 – Forma da distribuição binomial com
10=n e 150,p = .
,3
Número de Sucessos
17161514131211109876543210
P[X
=x]
,3
,2
,1
0,0
Figura 3.11 – Forma da distribuição binomial com
e . 25=n 30,p =
Número de Sucessos (x)
14131211109876543210
P[X
=x]
,2
,1
0,0
Figura 3.12 – Forma da distribuição binomial com
25=n e 20,p = .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
57 3.3.2 Distribuição Normal
A distribuição normal seguramente é a distribuição contínua de probabilidades mais
importante. Ela foi introduzida em 1733 pelo matemático francês Abraham de Moivre, como uma aproximação
da distribuição binomial para o caso em que o tamanho da amostra é grande. Veja Zar (1996, p.65). n
Contudo, foram os astrônomos Karl F. Gauss e Pierre S. de Laplace que, no início do
século XIX, verificaram a importância e a aplicação da distribuição normal em outros contextos. Gauss, por
exemplo, deduziu sua equação como a distribuição dos erros de observação, denominado-a “lei normal dos
erros”, veja Soares, Farias e Cesar (1991, p.111). Esta distribuição também é conhecida como “distribuição
gaussiana” ou “curva de Gauss”, apesar de ter sido descoberta por De Moivre, aproximadamente cem anos
antes.
A distribuição normal possui uma grande aplicabilidade nas mais variadas áreas, para
representar e descrever características que apresentam um comportamento aleatório. Matematicamente, a
distribuição normal é representada pela função
( ),;x;e)x(f
xℜ∈µ>σℜ∈
πσ=
µ−σ
−
0 e 2
12
22
1
onde são parâmetros da distribuição, usualmente desconhecidos. O parâmetro representa a média da
distribuição, enquanto que
σµ e µ
σ representa o seu desvio padrão. A forma geral da distribuição normal é ilustrada
na Figura 3.13, abaixo:
Figura 3.13 – Forma da densidade da distribuição
normal de probabilidade. )x(f
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
58
É importante mencionar que, por tratar-se de uma distribuição de probabilidades, a área total
sob a curva definida pela densidade é igual a 1, correspondendo a 100% da distribuição de
probabilidades. A distribuição normal possui diversas características importantes, cabendo destacar:
)x(f
a) a curva tem forma de sino e é simétrica em relação ao eixo vertical que passa por µ=x ;
b) a curva tem inflexões nos pontos σ−µ=x e σ+µ=x ; ou seja, é côncava para baixo no
intervalo ( )σ+µσ−µ ; e côncava para cima caso contrário; e,
c) a curva é assintótica ao eixo horizontal, em ambas as direções.
É importante observar, também, que dependendo do valor da média µ e do desvio padrão σ
a forma da distribuição pode mudar, apesar de preservar a forma de sino e demais propriedades e características.
Por exemplo, a Figura 3.14 ilustra diversas formas que a densidade da distribuição normal pode assumir,
essencialmente variando os valores da média e do desvio padrão.
F
Um
pela densidade )x(f
aproximadamente 68,3
igura 3.14 – Diferentes formas da densidade da distribuição normal.
a propriedade importante da distribuição normal é a seguinte: a área sob a curva definida
, delimitada pelos intervalos σ±µσ±µσ±µ 3 e 2 , corresponde, respectivamente, a
%, 95,4% e 99,7% da distribuição, como pode ser observado na Figura 3.15.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
59
Figura 3.15 – Algumas propriedades da distribuição normal.
Considere a variável aleatória X com distribuição normal com média e desvio padrão µ σ , a
qual usualmente é denotada por ( )2σµ,N~X . A propriedade da distribuição normal, ilustrada no gráfico
acima, significa que a probabilidade do valor da variável aleatória X pertencer ao intervalo ( )σ+µσ−µ ; é de
aproximadamente 68,3%; ou seja,
[ ] 6830,XP ≅σ+µ≤<σ−µ .
Analogamente,
[ ] 954022 ,XP ≅σ+µ≤<σ−µ
e
[ ] 997033 ,XP ≅σ+µ≤<σ−µ .
O cálculo das probabilidades é realizado mediante a determinação da área sob a densidade da
distribuição normal, exigindo recursos do cálculo infinitesimal, e usualmente não é um processo elementar. Por
exemplo, se a variável aleatória X tem distribuição normal com média µ e desvio padrão σ , isto é, se
( )2σµ,N~X , então a probabilidade de X pertencer ao intervalo ( )b,a é dada por
[ ]( )
dxedx)x(fbXaPb
a
b
a
x
∫ ∫µ−
σ−
πσ==≤<
2
22
1
2
1.
Uma alternativa para determinar probabilidades desse tipo é recorrer a uma mudança de
variável, transformando a variável aleatória X na variável aleatória padronizada Z, definida por σµ−
=xZ .
Esta nova variável é chamada de variável normal padronizada ou reduzida, e possui média igual a 0 (zero) e
variância igual a 1 (um), sendo denotada por ( )10,N~Z .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
60
As probabilidades associadas à distribuição de probabilidade normal padrão ou normal
reduzida encontram-se tabeladas. Portanto, o problema de determinar a probabilidade [ ]bXaP ≤< é
equivalente a determinar a probabilidade de Z pertencer ao intervalo
σµ−
σµ− b,a
, a qual pode ser obtida na
tabela da distribuição normal padrão.
É importante mencionar que existem diversos tipos de tabelas que fornecem áreas sob a
curva da distribuição normal padrão. Para evitar maiores complicações, será adotada a tabela em anexo, a qual
informa a área à esquerda de , ou seja, z [ ]zZP ≤ . A Figura 3.16 ilustra a área ou probabilidade informada na
tabela da normal padrão e uma relação importante na prática é dada por
[ ] [ ] [ ]1221 zZPzZPzZzP ≤−≤=≤< .
Figura 3.16 – Área à esquerda de z para a
densidade normal padrão, informada na tabelada distribuição acumulada da normal padrão.
Para ilustrar algumas aplicações e propriedades da distribuição normal, é conveniente
considerar o exemplo abaixo, onde são determinadas probabilidades de diversos eventos através da distribuição
normal padrão.
Exemplo 3.10: Admita que a pressão sistólica em indivíduos saudáveis de uma determinada população segue
uma distribuição normal com média µ e desvio padrão mmHg 130= mmHg9=σ . Algumas relações são
imediatas: por exemplo, como a distribuição da pressão sistólica dos indivíduos desta população é simétrica em
relação à média, então 50% dos indivíduos da população apresentam pressão sistólica menor do que
e, naturalmente, metade das pessoas tem pressão sistólica maior do que µ . mmHg 130=µ mmHg 130=
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
61
Considere uma pessoa selecionada ao acaso desta população e, por simplicidade, represente
por X o valor da sua pressão sistólica. Assim, utilizando a notação usual, ( )2 81 130 (mmHg);mmHgN~X
mmHg 130=
,
que é interpretada da seguinte forma: a variável aleatória X representa a pressão sistólica de um indivíduo
extraído ao acaso da população em estudo e tem distribuição normal com média igual a µ e
desvio padrão σ . Considere, agora, os eventos abaixo, os quais são úteis para ilustrar o cálculo de
probabilidades mediante os valores tabelados da distribuição normal padrão, representada pela variável aleatória
mmHg9=
Z , ou seja, . ( )10,N~Z
a) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica menor
do que 120 mmHg é ilustrada e determinada por
[ ] [ ] 133501119
130120120120 ,,ZPZPXPXP =−<=
−
<=
σµ−
<σµ−
=< .
b) A probabilidade de que um indivíduo escolhido ao acaso desta populaç
do que 140 mmHg é ilustrada e determinada por
[ ]
[ ] .,,,ZP
ZPXPXP
133508665011111
9130140140140
=−=+≤−=
−
>=
σµ−
>σµ−
=>
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elem
ão apresente pressão sistólica maior
[ ],ZP 111+>=
entos de Bioestatística: Um Curso Introdutório
62 c) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica maior do
que 116 mmHg e menor do que 147 mmHg é ilustrada e determinada por
[ ]
[ ]
[ ] [ ] .,,,,ZP,ZP
,Z,PZP
XPXP
911200594097060561891
8915619
1301479
130116
147116147116
=−=−<−+<=
+<<−=
−
<<−
=
σµ−
<σµ−
<σ
µ−=<<
d) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica maior
do que 133 mmHg e menor do que 146 mmHg é ilustrada e determinada por
[ ]
[ ]
[ ] [ ] .,,,,ZP,ZP
,Z,PZP
XPXP
333206293096250330781
7813309
1301469
130133
146133146133
=−=+<−+<=
+<<+=
−
<<−
=
σµ−
<σµ−
<σ
µ−=<<
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
63
É importante salientar que não é aconselhável utilizar o modelo normal de probabilidades
antes de verificar se ele de fato é plausível. Na maioria das situações práticas, contudo, a média e o desvio
padrão populacionais e µ σ são desconhecidos. No entanto, para um tamanho de amostra suficientemente
grande ( n ), a média e o desvio padrão amostrais
n
30≥ X e usualmente são bons estimadores de S µ e σ ,
respectivamente (veja a Seção 6.1). Assim, dispondo da uma amostra aleatória , pode-se
determinar os intervalos
nX,X,X 21 ,L
( )SX,S + X − , ( )X,SX +×− 2 2 S× e ( )S×+ 3X,SX ×− 3 e contar o número
de observações contidas em cada intervalo. Se a característica em estudo segue uma distribuição normal de
probabilidades, então esses intervalos deveriam conter aproximadamente 68,3%, 95,4% e 99,7% das
observações, respectivamente. Observe que este resultado segue naturalmente da propriedade da distribuição
normal de probabilidade.
Outros métodos estatísticos podem ser aplicados para avaliar se uma determinada
característica tem distribuição normal de probabilidade, tais como testes de aderência ou procedimentos
gráficos. O teste de aderência baseado na estatística de Pearson e o teste de Kolmogorov-Smirnov são os
mais conhecidos, mas não é factível apresentá-los neste momento. Ao leitor interessado sugere-se consultar, por
exemplo, Costa Neto (1977, p.130-135), Daniel (1974, p.302-306, 343-345), Zar (1996, p.86-90, 457-479).
2χ
Entre os métodos gráficos, convém destacar o gráfico chamado de Q-Q plot, disponível em
diversos procedimentos computacionais e caracterizado pelo fato de que se os dados seguem uma distribuição
normal, então estão dispostos segundo uma linha reta. Para ilustrar uma aplicação deste método gráfico,
considere os dados relativos à variável pressão sangüínea sistólica na amostra de 100 pacientes com problemas
cardíacos descrita no Exemplo 2.1. A Figura 3.17 sugere que, neste caso, a pressão sistólica não possui uma
distribuição normal, fato que já havia sido constatado pela assimetria mostrada no histograma da Figura 2.1.
Pressão Sistólica (mmHg)
2202001801601401201008060
Valo
r Esp
erad
o pe
la N
orm
al
200
180
160
140
120
100
80
60
Figura 3.17 – Q-Q plot para a pressão sistólica (mmHg) na
amostra de 100 pacientes com problemas cardíacos do estudode Honolulu, descrito no Exemplo 2.1.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
64
No Exemplo 2.1 também foram apresentados os dados relativos à variável nível de colesterol
sérico (veja a Tabela 2.1). A Figura 3.18 apresenta o Q-Q plot para o nível de colesterol sérico, através do qual
pode-se constatar que o modelo normal aparentemente é plausível para esta variável, embora haja uma
observação que parece ser atípica.
Nível de Colesterol Sérico (mg%)
400300200100
Val
or E
sper
ado
pela
Nor
mal
400
300
200
100
Figura 3.18 – Q-Q plot para nível de colesterol sérico (mg%) na
amostra de 100 pacientes com problemas cardíacos do estudode Honolulu, descrito no Exemplo 2.1.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
65 4 Princípios Básicos de Amostragem 4.1 População e Amostra
O estudo de um determinado fenômeno (social, médico, biológico, físico, na engenharia da
qualidade, etc.) usualmente envolve a observação de diversas características que possivelmente o definem ou a
ele estão associadas. Assim, como foi mencionado na Seção 1.1, com base no método científico o pesquisador
deseja descrever as relações entres essas características, se possível formulando e testando hipóteses científicas
sobre o mesmo.
Em muitas situações não tem sentido ou é inviável (devido ao custo, tempo, etc.) observar
toda a população, sendo necessário trabalhar com uma amostra. Ainda, em determinados estudos tecnológicos a
observação de determinado fenômeno envolve testes destrutivos (por exemplo, o teste do tempo de vida de uma
lâmpada), de tal forma que é impossível estudar a população toda. No contexto clínico, considere o caso de um
exame de sangue – não tem sentido retirar todo o sangue (a população) de um indivíduo, de tal forma que
obrigatoriamente tem-se que trabalhar com amostras.
No contexto da Estatística, a população em estudo é o conjunto de todos os indivíduos
(pessoas, animais, plantas, famílias, etc.) que apresentam as características que definem o fenômeno aleatório
em estudo. Uma população pode ser finita ou infinita, dependendo essencialmente do número de indivíduos que
a compõe. Por exemplo, se o estudo em questão é relativo aos indivíduos submetidos a um transplante de
coração no Hospital de Clínicas HC, então a população de interesse é definida por todas aquelas pessoas que
fizeram transplante de coração no referido hospital, caracterizando uma população finita. Por outro lado, se o
objeto de estudo são mosquitos da Reserva do Taim, então, evidentemente, esta população pode ser considerada
infinita, haja vista que, além da grande quantidade de mosquitos existente, seria impossível identificá-los.
Quando uma amostra é extraída da população – segundo algum critério rigorosamente
definido previamente – cada indivíduo distinto (pessoa, animal, planta, família, lâmpada, etc.) que a compõe é
chamado de unidade amostral. Assim, uma amostra consiste essencialmente do conjunto de
medidas/observações realizadas sobre as unidades amostrais que definem o estudo observacional ou
experimental. A partir dos resultados amostrais e fundamentado pelo método científico, o pesquisador deseja
fazer generalizações plausíveis (inferências) para a população, bem como medir a incerteza dessas
generalizações.
Entretanto, a validade das conclusões derivadas desses estudos depende criticamente do
planejamento e da forma de coleta das observações. Em outras palavras, a utilização de procedimentos de
amostragem adequados é vital para a validação dos resultados. Assim, é oportuno dedicar algumas palavras
sobre as técnicas de amostragem mais comuns, brevemente descritas na próxima seção. Embora sejam de suma
importância, a descrição de procedimentos de planejamento de experimentos não pode ser realizada neste
momento, principalmente devido às limitações de tempo.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
66 4.2 Amostra Aleatória e Amostragem
O planejamento de um estudo observacional ou experimental exige que o pesquisador
considere, a priori, alguns aspectos fundamentais. Em particular, é essencial definir claramente a população-
alvo, ou seja, a população sobre a qual deseja fazer inferências, baseado na amostra, sob pena de invalidar suas
conclusões. Em muitas situações ocorrem falhas graves no levantamento das observações e, consequentemente,
nas inferências, devido ao fato de que a população-alvo não foi bem definida.
Outra etapa fundamental é a escolha apropriada das características a serem estudadas
(observadas), o que deve ser feito mediante uma detalhada revisão bibliográfica e/ou com base no conhecimento
e experiência do pesquisador. É importante mencionar que, usualmente, a precisão/qualidade da mensuração
diminui com o aumento do número de questões, de tal forma que é aconselhável observar apenas aquelas
variáveis que são realmente importantes para o estudo.
Como se deseja realizar inferências a partir da amostra, deve-se garantir que a amostra seja
representativa da população-alvo. Em outras palavras, a amostra deve refletir o mesmo comportamento básico
da população, no que diz respeito às variáveis em estudo. Uma das maneiras de garantir esta representatividade
é através da utilização de algum mecanismo aleatório para selecionar as unidades amostrais.
Se as unidades amostrais são selecionadas da população mediante um mecanismo aleatório,
mediante o qual é possível conhecer as respectivas probabilidades de que os indivíduos da população sejam
selecionados, então o procedimento de amostragem é denominado de amostragem probabilística. Caso
contrário, a amostragem é chamada de amostragem não-probabilística.
As técnicas mais comuns para a extração de amostras probabilísticas são a Amostragem
Aleatória Simples, a Amostragem Estratificada, a Amostragem por Conglomerados e a Amostragem
Sistemática. Contudo, o planejamento da amostra é um assunto demasiadamente extenso e complexo para os
propósitos desse curso, no qual o objetivo básico é descrever brevemente os principais procedimentos de
amostragem probabilística. Algumas referências iniciais são Montgomery (1991), Bolfarine & Bussab (1994),
Snedecor & Cochran (1967), Cochran (1963) e Kish (1965).
4.2.1 Amostra Aleatória Simples (AAS)
Este tipo de amostra é caracterizado essencialmente pelo fato de que cada indivíduo da
população tem a mesma probabilidade de ser selecionado (ou seja, de pertencer à amostra). Se a população é
constituída de elementos (pessoas, animais, plantas, residências, lâmpadas, etc.), e deseja-se extrair uma
amostra de tamanho , a quantidade
N
n Nnf = é chamada de fração de amostragem. Ainda, se amostra é feita
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
67
sem reposição, como ocorre usualmente, então existem ( )!nN!n!N
nN
−=
N
n
possíveis amostras, as quais têm a
mesma probabilidade de serem extraídas.
Assim, se a população é composta por elementos, uma maneira prática de extrair uma
AAS é, primeiro, identificar cada indivíduo da população, por exemplo, numerando-os de 1 até . Em seguida,
mediante um mecanismo aleatório qualquer (por exemplo, uma tabela de números aleatórios ou através de uma
rotina computacional que gere números aleatórios), sorteia-se números dessa seqüência, os quais
correspondem aos indivíduos que compõem a amostra.
N
4.2.2 Amostra Aleatória Estratificada (AAE)
Com relativa freqüência, a população possui uma estrutura de estratos (ou grupos) bem
definidos, de tal forma que a(s) variável(eis) de interesse possivelmente apresenta(m) um comportamento
substancialmente diferente de um estrato para outro, porém com um comportamento homogêneo dentro de cada
estrato. Nesta situação, se for utilizada uma amostra aleatória simples (ou seja, se não for considerada a
existência dos estratos), os estratos podem não estar adequadamente representados na amostra. Assim, a amostra
poderia ser influenciada pelo comportamento específico que a variável apresenta nos estratos mais favorecidos
pelo sorteio. A adoção de uma amostra aleatória estratificada é uma maneira de evitar a possível ocorrência
deste problema, sendo um dos tipos mais utilizados.
Comumente utiliza-se uma amostra aleatória estratificada proporcional, que consiste
essencialmente em adotar um tamanho de amostra de cada estrato proporcional ao número de elementos
existentes no estrato correspondente. Assim, considere
≡N número de elementos da população;
≡L número de estratos;
≡iN número de elementos do i-ésimo estrato;
≡n é o tamanho da amostra,
de tal forma que . A fração de amostragem é dada por LNNNN +++= L21 Nnf =
ni
e, consequentemente,
na amostragem aleatória estratificada proporcional, o número de elementos a serem sorteados em cada estrato é
. É importante observar que a extração dos indivíduos de
cada estrato deve ser realizada seguindo os mesmos princípios da amostra aleatória simples.
fNn,,fN LL = 2 Ln,fNn == 211 fNi=
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
68 4.2.3 Amostra Aleatória por Conglomerados (AAC)
Em determinadas situações a população é formada por pequenos grupos, os quais são
denominados de conglomerados, de tal forma que pode ser conveniente formar a amostra através do sorteio
desses conglomerados. Usualmente uma amostra por conglomerados é uma amostra aleatória simples, sendo
que cada unidade de amostragem é um conglomerado. Uma vez que um determinado conglomerado é
selecionado, todos os indivíduos que o compõe são observados.
Neste tipo de amostragem, uma característica geral esperada sobre a população é que o
número de conglomerados deve ser relativamente grande. Ao mesmo tempo, o número de indivíduos dentro de
cada conglomerado deve ser pequeno em relação ao total da população e os indivíduos devem ter características
similares.
Neste momento é conveniente destacar a diferença entre a amostragem aleatória estratificada
e por conglomerados: na primeira, após a definição dos estratos, seleciona-se uma amostra aleatória simples
dentro de cada um dos estratos. Na amostragem por conglomerados, por sua vez, seleciona-se, ao acaso, os
conglomerados e todos os indivíduos dos conglomerados selecionados são observados.
Do ponto de vista prático, recomenda-se a utilização da amostragem por conglomerados
quando não se dispõe do registro de todos os elementos da população (ou é excessivamente caro construí-lo) ou
quando o custo para obter as informações cresce com o aumento da distância entre os indivíduos.
4.2.4 Amostra Aleatória Sistemática (AASt)
A amostragem aleatória sistemática é recomendável quando os elementos da população estão
ordenados e a retirada dos elementos precisa ser feita com certa periodicidade. O princípio básico consiste em
escolher, ao acaso, o ponto de início da seqüência de observações, a partir do qual regularmente é selecionado o
próximo elemento da amostra, até completar o tamanho n especificado.
Por exemplo, se a população contém indivíduos e deseja-se selecionar uma amostra de
tamanho , então inicialmente deve-se escolher, ao acaso, um número inteiro
N
n K entre 1 e , o qual será o
ponto de início da amostra. Assim, a amostra aleatória sistemática de tamanho n será constituída pelos
elementos de ordem
n
etc. , 3 2 rK,rK,rK,K +++ , onde r é o inteiro mais próximo da fração nN .
Entretanto, se o tamanho da população é desconhecido, não é possível determinar com
precisão o valor de r , sendo recomendável escolher intuitivamente um valor razoável. Apesar de sua
simplicidade, é preciso ter cuidado com este tipo de amostragem, pois na hipótese da característica em estudo
apresentar um comportamento cíclico, há a possibilidade do período do ciclo coincidir com a retirada das
unidades amostrais.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
69 5 Distribuição da Média Amostral e Teorema Central do Limite
No contexto da pesquisa científica e/ou tecnológica, o exame individual de uma determinada
unidade amostral é usualmente pouco informativo, haja vista que não reflete o comportamento global dos
indivíduos. Considere, por exemplo, o caso de uma amostra aleatória de 15 de indivíduos que foram submetidos
a transplante de coração no Hospital de Clínicas HC. O fato de que um particular indivíduo da amostra não
tenha sobrevivido ao transplante não significa que a equipe de transplante deste hospital não tem o domínio
técnico necessário e, muito menos, que o transplante de coração não é um procedimento recomendável
(naturalmente para pacientes com problemas cardíacos com uma especificada gravidade).
Assim, é natural que o pesquisador esteja interessado em uma estatística (que nada mais é do
que uma função da amostra) que represente o comportamento típico dos indivíduos em estudo. Usualmente, esta
estatística pode ser a média, a mediana, a proporção, etc. Se a amostra é representativa da população, ela contém
uma informação que pode ser útil fazer inferências sobre a população. Em particular, a média aritmética tem
um papel de destaque no contexto deste curso.
Como foi definido na Seção 2.2.1, a média amostral da variável aleatória X é n
xX
n
ii∑
== 1 .
Contudo, como existem diversas maneiras de selecionar uma amostra aleatória de tamanho , a média amostral n
X também é uma variável aleatória, de tal forma que é vital conhecer sua distribuição de probabilidade.
Exemplo 5.1 (didático): Sabe-se que, até o presente momento, foram registrados apenas quatro casos de
uma determinada doença rara, para os quais foi observado o consumo renal de oxigênio, medido em
. Nesta situação, a população-alvo tem tamanho min/cm3 4=N e é constituída pelos quatro pacientes nos
quais foi diagnosticada a doença. A variável de interesse neste estudo é, em particular, ≡X consumo renal de
oxigênio, cujos valores observados são mostrados no esquema abaixo:
PACIENTE
X: Consumo Renal de Oxigênio ( )min/cmem 3
1 14,0 2 14,1 3 14,2 4 14,3
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
70
Assim, a média populacional da variável em estudo X pode ser calculada mediante a
definição da média populacional, de tal forma que
min/cm,,,,,x
N
xi
i
N
ii
3
4
11 15144
3142141140144
=+++
===µ∑∑== .
Por sua vez, o desvio padrão populacional é, por definição, determinado por
( )
( ) ( ) ( ) ( )
min/ cm,,
,,,,,,,,
N
xN
ii
3
2222
1
2
1118040504
1514314151421415141141514014
==σ
−+−+−+−=σ
µ−=σ∑=
.
Admita, para fins pedagógicos, que deseja-se retirar uma amostra aleatória de tamanho
desta população. Inicialmente o pesquisador deseja estudar o comportamento da variável 2=n X na amostra
e, se possível, utilizar a amostra para fazer inferências sobre a população-alvo (neste caso, a população de
indivíduos com a doença rara especificada).
Observe, entretanto, que se a amostragem é com reposição, então nesta situação existem
maneiras distintas de selecionar uma amostra aleatória de tamanho . O Quadro 5.1 ilustra
as diferentes amostras possíveis e o respectivo valor médio observado para a média amostral
1642 ==nN 2=n
X .
É importante observar que, na prática, apenas uma amostra é selecionada, mas ela pode ser
obtida de diferentes maneiras, ou seja, mediante diferentes combinações dos indivíduos que compõem a
população. Por exemplo, como pode ser observado no Quadro 5.1, o valor min/ cm,x 31514= pode ser
gerado pelas amostras de número 4, 7, 10 ou 13. De forma similar, o mesmo raciocínio pode ser aplicado aos
demais valores admissíveis de X . Este exemplo ilustra o fato de que, antes de coletar a amostra, a média
amostral X também é uma variável aleatória, cuja distribuição de probabilidade deseja-se determinar, pois
pode ser útil para fazer inferências sobre a população.
No Quadro 5.1 são apresentadas todas as amostras possíveis de tamanho 2=n e os
respectivos valores da média amostral. Estas informações podem ser organizadas de maneira mais apropriada,
mediante a distribuição de freqüências da variável X apresentada na Tabela 5.1, e melhor visualizadas
mediante o gráfico de barras apresentado na Figura 5.1.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
71
Quadro 5.1 - Possíveis amostras de tamanho 2=n , com reposição, e respectivos valores da média amostral X . Amostra nº Valores
Observados
x
1 14,0 14,0 14,00 2 14,0 14,1 14,05 3 14,0 14,2 14,10 4 14,0 14,3 14,15 5 14,1 14,0 14,05 6 14,1 14,1 14,10 7 14,1 14,2 14,15 8 14,1 14,3 14,20 9 14,2 14,0 14,10
10 14,2 14,1 14,15 11 14,2 14,2 14,20 12 14,2 14,3 14,25 13 14,3 14,0 14,15 14 14,3 14,1 14,20 15 14,3 14,2 14,25 16 14,3 14,3 14,30
Tabela 5.1 – Distribuição de freqüências da variável aleatória X para o Exemplo 5.1 ( 2 e 4 == nN ).
x f rf 14,00 1 0,06 14,05 2 0,13 14,10 3 0,19 14,15 4 0,24 14,20 3 0,19 14,25 2 0,13 14,30 1 0,06 Total 16 1,00
Prof.
Média Amostral
14,3014,2514,2014,1514,1014,0514,00
Freq
üênc
ia R
elat
iva 30
20
10
0
Figura 5.1 – Distribuição da variável aleatória X para o Exemplo 5.1 ( ).neN 2 4 ==
Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
72
Como já foi mencionado, antes da amostra ser selecionada a média amostral X é uma
variável aleatória (pois diferentes valores x podem ser gerados), de tal forma que deseja-se encontrar a sua
distribuição de probabilidade, denominada distribuição da média amostral. Além da forma da distribuição,
deseja-se determinar, em particular, a média e o desvio padrão da variável aleatória X . Assim, para ilustrar,
considere as informações do Exemplo 5.1, onde a média da variável X é
min/ cm,,,,,,X
3151416
3014251410140514014=
+++++=µ
L,
enquanto que o desvio padrão de X é dado por
( ) ( ) ( ) ( )
.min/ cm,,,
,,,,,,,,
X
X
3
2222
079100063016100
1615143014151410141514051415140014
===σ
−++−+−+−=σ
L
Para os resultados do exemplo, observe que o valor da média da variável aleatória X é igual
a min/ cm,X31514=µ , que coincide com o valor da média populacional da variável original X (ou seja,
min/cm,X3 1514=µ=µ ). Analogamente, o desvio padrão da variável aleatória X ,
min/ cm,X3 07910=σ , é igual ao valor do desvio padrão populacional da variável original X , dividido pela
raiz quadrada do tamanho da amostra, ou seja, min/ cm,,nX
3 079102
11180==
σ=σ .
O resultado ilustrado através do exemplo pode ser generalizado: se uma amostra aleatória de
tamanho é extraída de uma população com média igual a n µ e desvio padrão igual a , então o valor
esperado da variável aleatória
σ
X é igual a µ e desvio padrão de X (também denominado de erro padrão da
média) é igual a nσ . Em outras palavras, a distribuição da variável aleatória X tem média igual a µ (isto é,
está centrada em µ=x ) e desvio padrão igual a nσ . Consequentemente, para , a variabilidade de 2≥n X é
menor do que a variabilidade da variável aleatória original X .
A forma da distribuição de probabilidade de X , por sua vez, depende criticamente do
tamanho da amostra e da forma da distribuição da variável n X . Contudo, se o tamanho da amostra é grande
, então a distribuição de probabilidade de ( ∞→n ) X aproxima-se da distribuição de probabilidade normal.
Este resultado é extremamente importante e decorre do Teorema Central do Limite, enunciado abaixo:
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
73
Teorema Central do Limite: Sejam variáveis aleatórias independentes e
identicamente distribuídas, com média comum
L,X,X,X 321
µ e variância comum σ , onde . Seja,
. Então,
2 ∞<σ< 20
nn XXXS +++= L21
[ ] ( ) ∞→→σ
µ−=
−quando n,N
nnS
SVarSES Dn
n
nn ,1 0
.
Na prática, a amostra aleatória usualmente consiste das n observações , as
quais são independentes (pois a amostra é aleatoriamente extraída da população) e identicamente distribuídas
(pois são observações sobre a mesma característica, realizadas em indivíduos extraídos da mesma população).
Assim, um resultado imediato do Teorema Central do Limite é que, para um tamanho de amostra
suficientemente grande (usualmente ), a distribuição de probabilidade da variável aleatória
nX,X,X L21
30≥n X
aproxima-se de uma distribuição normal com média µ e desvio padrão nσ , onde e µ σ são,
respectivamente, a média e o desvio padrão populacional da variável original X . No jargão probabilístico, diz-
se que X converge em distribuição para uma distribuição normal com média µ e desvio padrão nσ , sendo
denotado por
∞→
σµ→ quando n,
n,NX D
2.
É importante salientar que este resultado é válido apenas para amostras grandes, ou seja, para
. Contudo, um resultado amplamente conhecido do cálculo de probabilidade é que a soma de variáveis
aleatórias com distribuição normal e independentes, também segue uma distribuição de probabilidade normal.
Consequentemente, no caso em que é uma amostra aleatória de uma variável
∞→n
nX,X,X L21 X com
distribuição normal com média µ e desvio padrão σ , isto é, ( )2σµ,N~X , então a variável aleatória X
segue uma distribuição de probabilidade normal com média µ e desvio padrão nσ , independentemente do
tamanho da amostra . nA distribuição da média amostral é extremamente importante e útil para o cálculo de
probabilidades e, particularmente, para estender os resultados da amostra para a população-alvo (fazer
inferências), mediante o uso intervalos de confiança ou testes de hipóteses sobre médias populacionais, temas
que serão abordados na seqüência do curso.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
74
Para exemplificar, considere o Exemplo 3.10, relativo à pressão sistólica em indivíduos
saudáveis de uma determinada população, que segue uma distribuição normal de probabilidade com
e σ , isto é, mmHg 130=µ mmHg 9= ( )81 130,N~X . Na Seção 3.3.2 foi ilustrado o cálculo de
probabilidades para diversos eventos associados a esta variável aleatória.
Considere, no entanto, uma amostra aleatória de 10 indivíduos desta população, rotuladas
por . Antes de selecionar a amostra a média amostral 1021 X,X,X L X é uma variável aleatória, pois poderiam
existir inúmeras maneiras de selecionar uma amostra de tamanho 10 desta população, ou seja, o valor observado
x pode variar de uma amostra para outra, pois as pessoas selecionadas poderiam ser diferentes. Como a
variável original (pressão sistólica de um indivíduo) tem distribuição normal, isto é, , então ( 81 130,N~X ) X
também tem distribuição normal, independentemente do tamanho da amostra. Especificamente, a distribuição da
média X está centrada em 130 , pois mmHg mmHgX 130=µ=µ . Porém, o desvio padrão de X é menor
do que o desvio padrão da variável original, isto é, mmHg,nX 852
109
==σ
=σ .
Nesta situação, a probabilidade da média amostra X ser maior do que 140 mmHg é dada por
[ ] [ ]
[ ] .,ZP
,ZP,
ZPX
PXPX
X
X
X
0115131
513852
130140140140
=−=+≤−=
+>=
−
>=
σ
µ−>
σ
µ−=>
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
75 6 Introdução à Inferência Estatística
Nos últimos anos os métodos estatísticos têm sido largamente utilizados em estudos
científicos e tecnológicos das mais diversas áreas do conhecimento. Essa é uma tendência crescente e
irreversível, de maneira que a Estatística possui um papel vital na tomada de decisões e na produção de
conhecimentos ou de novas tecnologias, podendo ser considerada a “tecnologia da ciência”, veja Pereira (1997).
Fica evidente, portanto, que a Estatística é parte fundamental do método científico, cabendo
destacar a enorme importância dos procedimentos de estimação de parâmetros e testes de hipóteses. Mediante
o rigoroso atendimento das condições especificadas, estes procedimentos de inferência estatística permitem
estender para a população-alvo os resultados obtidos da amostra.
Neste capítulo serão brevemente abordados alguns aspectos sobre inferência estatística, que
embora sejam os mais simples e tradicionais, podem ser extremamente úteis para avaliar a veracidade de
hipóteses científicas ou estimar parâmetros populacionais em muitas situações práticas. Em especial, serão
apresentados procedimentos para estimação da média e da proporção populacional, por ponto e por intervalo,
para o caso de uma amostra aleatória extraída de populações com distribuição normal ou para tamanho de
amostra grande. Ainda no contexto de normalidade, também serão desenvolvidos testes de hipóteses para média
e para proporção populacional no caso de uma amostra, teste para comparação de médias e proporções
populacionais no caso de duas amostras independentes e teste para comparação de médias populacionais
mediante duas amostras pareadas.
6.1 Estimação de Parâmetros
Em muitas situações práticas o estudo experimental ou observacional é realizado com o
intuito de “descobrir” o valor de algum parâmetro populacional desconhecido, associado à distribuição de
probabilidade da característica em estudo (variável aleatória X). Em outras palavras, a partir dos dados gerados
na amostra (ou pelo experimento), o pesquisador deseja obter conclusões probabilísticas sobre os verdadeiros
valores dos parâmetros populacionais desconhecidos. Este procedimento é denominado estimação de
parâmetros, que pode ser realizada através de estimadores pontuais ou através de um intervalo que contenha o
valor do parâmetro, com um nível de confiança especificado.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
76 6.1.1 Estimação por Ponto
Um estimador nada mais é do que uma função da amostra, usualmente chamada de
estatística. Por exemplo, na amostra , cada observação individual é uma estatística, assim
como subconjuntos ou funções apenas dessas observações também são. Assim, o mínimo e o máximo
da amostra; a mediana, a moda e a média amostral também são estatísticas e, portanto, candidatos a
estimadores de algum parâmetro. Como qualquer estatística (função da amostra) pode ser vista como um
estimador pontual, é natural que sejam utilizados estimadores que possuam propriedades ótimas, ou seja, que
representem adequadamente o valor populacional de interesse.
nX,,X,X L21 iX
)(X 1
)n(X
Diferentes métodos para construir estimadores, bem como as propriedades matemáticas
desejáveis em um estimador são extensamente discutidas na literatura estatística. Apesar de não ser objetivo do
curso, é conveniente mencionar brevemente os conceitos básicos das principais propriedades – o leitor
interessado pode consultar, por exemplo, Rohatgi (1976, p.333), Mood, Graybill e Boes (1974, p.271) ou Larson
(1982, p.359).
Para falar das propriedades desejáveis nos estimadores, admita que T é um estimador do
parâmetro populacional θ , definido pela função da amostra ( ) ( )nX,X,XfXT 21 ,LT == . Qualquer que
seja o tamanho da amostra, um bom estimador deve fornecer, em média, estimativas exatas para o parâmetro θ ,
ou seja, deve coincidir com o verdadeiro valor de θ . Esta é precisamente uma das principais propriedades, que
especifica que T deve ser um estimador imparcial do parâmetro θ . O estimador T é imparcial para θ se a
esperança matemática de T (isto é, o seu valor médio, considerando repetidas amostras) é igual ao parâmetro
. Um estimador imparcial também é chamado de estimador não tendencioso, não viciado ou não viesado. No
entanto, é preciso alguma cautela, pois estimadores não tendenciosos podem não existir ou então produzir
resultados absurdos.
θ
Como podem existir diversos estimadores não tendenciosos para o parâmetro θ , é desejável
que, além de imparcial, o estimador T seja consistente. A propriedade de consistência está associada à precisão
do estimador, quando o tamanho da amostra aumenta. Assim, na medida que o tamanho da amostra aumenta,
maior é a certeza de que T assume um valor na vizinhança de θ , ou seja, maior é a confiança que T inspira
como estimador de θ . Em outras palavras, se T é estimador consistente para , então para amostras
suficientemente grandes o erro de estimação pode ser tornado mínimo, de tal forma que a estimativa vai ser
“melhor’. Na prática, se
θ
T é um estimador imparcial e consistente para θ , então a sua variância tende para
zero quando o tamanho da amostra é suficientemente grande, ou seja, quando o tamanho da amostra aumenta
para o infinito ( ), a variância do estimador ∞→n T converge para zero ( ). 0 ∞
→= TVar2σT
→n
Assim, se T é um estimador imparcial para θ , desejamos que sua variância seja tão
pequena quanto possível, pois, dessa forma, o valor de T tende a ficar próximo de θ . Por isso, usualmente
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
77 deseja-se escolher como estimador do parâmetro θ , o estimador T que pertence à classe de estimadores não
tendenciosos e que tenha variância mínima. O estimador T que satisfaz estas condições é chamado de
estimador não tendencioso e de variância mínima.
Outra propriedade importante em um estimador é a normalidade assintótica, que especifica
que a distribuição de probabilidade do estimador é aproximadamente normal. Assim, se T é um estimador
assintoticamente normal, então ele pode ser utilizado para construir intervalos de confiança e testes de hipóteses
para o parâmetro , baseados na distribuição normal de probabilidade. Existem ainda outras propriedades
desejáveis para estimadores, tais como
θ
suficiência, completeza (completeness, em inglês) e invariância, mas não
cabe descrevê-las no momento.
Neste curso o objetivo básico é ilustrar procedimentos de estimação para a média, para o
desvio padrão e para uma proporção, no contexto da distribuição normal e/ou para amostras grandes. Assim, é
conveniente utilizar o exemplo descrito a seguir.
Exemplo 6.1: O peso ao nascer é uma característica interessante, pois pode revelar a existência de problemas
de saúde pública. A Secretaria de Saúde de uma pequena cidade deseja estimar o peso médio de nascimento das
crianças da comunidade. Para tanto, planejou e selecionou uma amostra aleatória de 50 crianças nascidas no
único hospital da cidade, registrando o peso de nascimento de cada criança. Os resultados são mostrados no
Quadro 6.1.
Quadro 6.1 – Peso de nascimento na amostra de 50 crianças, em gramas.
2678 3945 3127 2958 3063 3514 3199 2499 2413 3159 3188 3485 3701 3266 3328 2909 3008 4228 3794 2566 3142 3326 2681 2435 2607 2668 3360 3377 3295 3111 2342 2585 2740 3401 3114 2606 2922 2885 3030 3410 3113 3354 3494 2701 3088 3244 2814 2725 3447 3026
Nota: Dados fictícios.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
Peso ao Nascer (em gramas)
5000400030002000
Val
or E
sper
ado
pela
Nor
mal
5000
4000
3000
2000
Figura 6.1 – Q-Q plot para o peso ao nascer (em gramas).
78
A Figura 6.1 ilustra o Q-Q plot para os dados do peso de nascimento gerados na amostra,
sugerindo que a distribuição normal parece ser adequada para descrever o comportamento desta característica,
na população. No entanto, a distribuição normal de probabilidades é caracterizada também pelos parâmetros µ
e , que são a média e o desvio padrão populacionais. Em outras palavras, constatou-se empiricamente que o
modelo normal parece ser apropriado para representar o peso ao nascer da comunidade, mas a média e o desvio
padrão do peso ao nascer são desconhecidos. Assim, é necessário estimar
σ
µ e σ desta população.
Existem diversos métodos de estimação de parâmetros, cabendo destacar o método da
máxima verossimilhança, cujo desenvolvimento foi inicialmente apresentado por Ronald A. Fisher em 1925, no
trabalho intitulado “Theory of Statistical Estimation”. O princípio da Máxima Verossimilhança consiste
essencialmente em admitir que a amostra é representativa da população e “escolher” como estimador o valor do
parâmetro que maximiza a probabilidade daquela particular amostra ser observada. Aspectos teóricos do método
da máxima verossimilhança e procedimentos para determinar os estimadores podem ser encontrados na
literatura estatística, veja Rohatgi (1976, p.375), Mood, Graybill e Boes (1974, p.276) ou Larson (1982, p.360).
O estimador pontual para a média populacional µ , derivado pelo método da máxima
verossimilhança, é dado por
n
XXˆ
n
ii∑
===µ 1 ,
e, para a variância populacional σ , é 2
( )n
XXSˆ
n
ii∑
=
−==σ 1
2
22 .
Cabe observar que a média amostral X é um estimador não tendencioso para µ , mas a
variância amostral 2S não é um estimador imparcial de . Por este motivo, usualmente utiliza-se a variância
amostral definida como
2σ
( )1
1
2
2
−
−=∑=
n
XXS
n
ii
,
que é um estimador não tendencioso da variância populacional.
Voltando ao Exemplo 6.1, X é o estimador (pontual) de máxima verossimilhança para a
média populacional µ , produzindo a estimativa g,x 423081= , enquanto que o estimador não tendencioso
para σ gerou a estimativa , ou seja, o desvio padrão amostral é . 2 22 25165510 g,s = g,s 83406=
Em muitas situações o pesquisador está estudando uma característica dicotômica, ou seja,
que assume apenas dois resultados possíveis, usualmente denotados por sucesso e fracasso. Na Seção 3.3.1 foi
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
79 apresentada a distribuição binomial, que pode ser usada para descrever o comportamento de uma variável
aleatória definida pelo número de sucessos em uma amostra aleatória de tamanho n .
Recordando, se é uma amostra aleatória de uma característica dicotômica,
isto é,
nX,,X,X L21
= 1
0,oo é sucesssimo ensai, se o i-é
soo é fracassimo ensai, se o i-éX i
onde e [ ] pXP i == 1 [ ] ,n,, ip, XP i L2110 =∀−== , então a variável aleatória definida pelo número de
sucessos nos ensaios independentes segue uma distribuição de probabilidade binomial com parâmetros e n n
p , ou seja, . ( )p,nB~X
Na prática, contudo, a probabilidade de sucesso p pode ser desconhecida, de tal forma que
pode ser necessário estimá-la. O estimador de máxima verossimilhança para a probabilidade de sucesso p é
definido pela proporção de sucessos na amostra, ou seja,
n
x
nxp
n
ii∑
=== 1 ,
enquanto que o estimador de máxima verossimilhança para a variância populacional é dado por ( )ppn −1 .
Apesar de sua simplicidade, os estimadores pontuais produzem apenas um valor sobre o
parâmetro populacional correspondente, não levando em conta a variabilidade do estimador. Na prática,
entretanto, é mais aconselhável construir um intervalo (usualmente simétrico) em torno da estimativa pontual,
de tal forma que este intervalo contenha o verdadeiro valor do parâmetro, para uma probabilidade conhecida.
Este procedimento é chamado estimação por intervalo e os intervalos produzidos são denominados intervalos
de confiança. Na próxima seção serão brevemente apresentados os intervalos de confiança para média de uma
variável aleatória com distribuição normal e, no contexto de grandes amostras, para uma proporção
populacional.
6.1.2 Estimação por Intervalo
Um intervalo de confiança por ser visto como uma família de conjuntos que, com uma
probabilidade alta, contém o verdadeiro valor do parâmetro populacional . Assim, se a estatística
é um estimador do parâmetro
θ
( ) ( )nX,,X,XfXTT L21== θ , então deseja-se determinar os limites ( )X1T
e , tal que ( )XT2 ( )[ ( )] α−=< 12 XTθ<1 XTP . Logicamente, o limite inferior T e o limite superior (X1 )
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
80
( )XT2 dependem da estimador ( ) ( )nX,,X,XfXT L21T ==
( ) %1001 ×α−
, e o intervalo [ ] é chamado
intervalo de confiança de nível para o parâmetro
)X(T),X(T 21
θ . Os valores que freqüentemente são mais
utilizados para α são 0,01 ou 0,05, os quais respectivamente produzem os intervalos com 99% ou 95% de
confiança para . θ
( ) ( )nXfXT ==
)T =
( )XT
nX,,X,X L21 X
µ 2
nσ
=
σµ
n,N~
2
X
( )10,N~
n
Xσµ−
É importante observar que a determinação do intervalo de confiança depende essencialmente
da distribuição de probabilidades do estimador X,,X, L21T e, portanto, nem sempre
podem ser construídos. No contexto do curso serão abordados casos que em que a distribuição de probabilidade
de é normal ou, então, problemas nos quais o tamanho de amostra é suficientemente grande e
possui a propriedade de normalidade assintótica, de tal forma que é possível obter intervalos de
confiança aproximados para os parâmetros em investigação. Os métodos para construção de intervalos de
confiança estão fora do objetivo do curso; ao leitor interessado no aprofundamento destes aspectos teóricos
recomenda-se consultar, por exemplo, Rohatgi (1976, p.467), Mood, Graybill e Boes (1974, p.372) ou Larson
(1982, p.382). A seguir serão apresentados os intervalos de confiança para algumas situações básicas.
(XT
6.1.2.1 Intervalo de Confiança para µ, quando σ é Conhecido
Considere a amostra aleatória de uma característica que possui
distribuição normal com média desconhecida , porém com variância conhecida σ . O estimador pontual para
a média populacional µ , apresentado na Seção 6.1, é a média amostral X . Como a variável original X tem
distribuição normal, então a média amostral tem distribuição normal de probabilidade, com média µ=µ X e
variância X
22σ , ou seja, X . Convém lembrar que este resultado foi discutido no Capítulo 5.
Consequentemente, mediante a padronização da variável aleatória , obtém-se a variável
normal padrão definida como
.
Assim, sabe-se que
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
81
α−=
+≤σµ−
≤− αα 1 22
z
n
XzP ,
onde 2
αz é o valor da distribuição normal padrão que delimita a área 2α à sua direita e 10 <α< . Como
deseja-se um intervalo com ( ) de confiança para %1001 ×α− µ , deve-se isolar o parâmetro na expressão
acima, isto é,
µ
22 αα +≤
σµ−
≤− z
n
Xz .
Assim,
nzX
nz σ
×+≤µ−≤σ
×− αα22
,
e, portanto, o intervalo com ( ) %1001 ×α− de confiança para µ , é dado por
nzX
nzX σ
×+≤µ≤σ
×− αα22
.
Este intervalo também pode ser escrito como
σ×+
σ×− αα n
zXn
zX22
; e
significa que com uma probabilidade igual a ( )α−1 este intervalo contém o verdadeiro valor da média
populacional µ ou, equivalentemente, com ( ) 100%1 ×α− de confiança o intervalo contém . µ
Se a característica em estudo não possui distribuição normal, então pode ser perigoso utilizar
a expressão acima para obter um intervalo de confiança para µ . Contudo, devido à propriedade de normalidade
assintótica e ao Teorema Central do Limite, para um tamanho de amostra grande a expressão é
adequada, produzindo um intervalo de confiança aproximado.
( 30≥n )
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
82 6.1.2.2 Intervalo de Confiança para µ, quando σ é Desconhecido
Na seção anterior foi descrito o problema onde é uma amostra aleatória de
uma característica
nX,,X,X L21
X extraída de população com distribuição normal com média desconhecida µ e variância
conhecida . O estimador pontual 2σ X tem distribuição normal de probabilidade, com média µ=µ X e
variância nX
2 σ=σ
2, seja,
σµ
n,N~X
2.
Contudo, se a variância populacional σ também é 2 desconhecida, não é possível utilizar a
variável padronizada
n
Xσµ−
para construir o intervalo de confiança, pois não possui distribuição normal
padrão. É relevante mencionar que este é o caso mais freqüente na prática. A solução deste problema consiste
em estimar o desvio padrão populacional através do estimador pontual σ
( )1
1
2
−
−=∑=
n
XXS
n
ii
,
substituindo-o na expressão da variável padronizada acima. Um importante resultado do cálculo de
probabilidades assegura que, sob estas condições, a variável aleatória
nS
X µ−=T segue uma distribuição de
probabilidade t de Student com graus de liberdade, onde é o tamanho da amostra. Assim, sabe-se que 1−n n
α−=
+≤µ−
≤− α−α− 1 2
12
1 ),n(),n( t
nS
XtP ,
onde 2
1 α− ),n(t é o valor de distribuição probabilidade t de Student com 1−n graus de liberdade que delimita
a área 2α à sua direita e 0 1<α< . De forma similar ao caso anterior, deve-se isolar µ na expressão
2 1
2 1 α−α− +≤
µ−≤− ),n(),n( t
nS
Xt ,
de tal forma que
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
83
nStX
nSt ),n(),n( ×+≤µ−≤×− α−α−
2 1
2 1 ,
e, finalmente,
nStX
nStX ),n(),n( ×+≤µ≤×− α−α−
2 1
2 1 .
Portanto, o intervalo com ( ) %1001 ×α− de confiança para µ é
×+×− α−α− n
StXn
StX ),n(),n(2
12
1 ; .
É importante destacar que para um tamanho de amostra grande ( , o intervalo de
confiança acima é aproximadamente igual ao caso em que
)30≥n
σ é conhecido, pois a distribuição de probabilidade
t de Student converge para a distribuição normal padrão, quando ∞→n .
Também convém mencionar que se a característica em estudo não possui distribuição
normal, então pode ser perigoso utilizar a expressão acima para obter um intervalo de confiança para µ .
Entretanto, levando-se em conta o Teorema Central do Limite, quando ∞→n a expressão acima produz um
intervalo de confiança aproximado.
Para exemplificar, considere os dados do Exemplo 6.1 descrito na Seção 6.1, que trata do
peso ao nascer em determinada comunidade. As estimativas pontuais de µ e σ foram, respectivamente,
g,x 423081= e . Como o tamanho da amostra é grande g,s 83406= ( )50=n , então pode ser apropriado
aproximar a distribuição de probabilidade t de Student pela distribuição normal padrão. Assim, um intervalo
com 95% de confiança para o peso médio ao nascer da população é dado por
×−
nS
nSX 1,96 ×+X 1,96 ; , ou seja,
( )
( )193194 652968
12,76751 081,423 12,7675;1 081,423
50834061,96 081,423 ;
50834061,96 081,423
,;,
,,
+−
×+×−
Portanto, com 95% de confiança o intervalo (2968,65; 3194,19) contém o verdadeiro peso
médio de nascimento na população de crianças da cidade da qual a amostra foi retirada.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
84 6.1.2.3 Intervalo de Confiança para a Proporção Populacional p (n grande)
Também é conveniente apresentar a expressão do intervalo de confiança para uma proporção
populacional p . É importante observar que o resultado apresentado a seguir só é válido para um tamanho de
amostra é grande, pois a distribuição de probabilidade do estimador p está sendo aproximada pela distribuição
normal de probabilidades.
Na Seção 6.1 foi verificado que se é uma amostra aleatória de uma
característica dicotômica, isto é,
nX,,X,X L21
= 1
0,oo é sucesssimo ensai, se o i-é
soo é fracassimo ensai, se o i-éX i
com e [ ] pXP i == 1 [ ] ,n,, ip, XP i L2110 =∀−== , então
n
x
nxp
n
ii∑
=== 1
é o estimador de máxima verossimilhança para a probabilidade de sucesso p e X é definida como o número
de sucessos nos ensaios independentes, tal que n ( )p,nB~X .
Cabe salientar que o estimador p pode ser visto como uma espécie de média amostral, isto
é, como o número médio de sucessos na amostra. Portanto, segue naturalmente do resultado denominado
“distribuição da média amostral” estudado no Capítulo 5, que p tem uma distribuição de probabilidade
centrada em p e com erro padrão ( )
npEPp =
1 p−, o qual pode ser estimado por
( )n
ppEP^
p−
=1
. Em
outras palavras, o estimador p tem média igual a p e desvio padrão igual a ( )
nppEPpDes p
−==
1 .
Quanto à forma da distribuição, segue do Teorema Central do Limite que, para um tamanho de amostra
suficientemente grande, p tem uma distribuição de probabilidade aproximadamente normal.
Sob as condições especificadas acima, o intervalo com ( ) %1001 ×α− de confiança para a
proporção populacional p é dado por
( ) ( )
−×+
−×− αα n
ppzpn
ppzp 1 ;1 22
,
onde 2
αz é o valor da distribuição normal padrão que delimita a área 2α à sua direita e . 10 <α<
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
85 6.2 Introdução aos Testes de Hipóteses
Em um processo de investigação científica, na tentativa de explicar um determinado
fenômeno, usualmente o pesquisador postula hipóteses ou modelos, cuja veracidade precisa ser avaliada. Com
base em fatos, ou seja, a partir de observações sobre este fenômeno, o modelo é aceito ou modificado, de tal
forma que isso caracteriza um processo contínuo de aprendizagem. Os procedimentos de inferência estatística
são fundamentais na etapa de “validação” do modelo, pois o pesquisador deve utilizar critérios científicos para
decidir se as hipóteses formuladas são verdadeiras ou falsas.
Em linhas gerais, um processo de investigação científica sobre um determinado fenômeno
começa com a revisão bibliográfica sobre os assunto e tópicos relacionados. Dessa forma, o pesquisador define
seus objetivos da pesquisa sobre o fenômeno de interesse, levantando as possíveis características (variáveis) que
definem este fenômeno, bem como as possíveis relações existente entre elas. Assim, ele identifica as leis válidas
até o presente, as quais foram definidas em pesquisas anteriores. As observações realizadas em uma nova etapa
da pesquisa (segundo estudos observacionais ou experimentais criteriosamente planejados) permitem concluir
sobre a veracidade de algumas dessas leis, ou seja, não há a necessidade de modificá-las. Outras, contudo,
podem e devem ser questionadas, fato que pode dar origem a novas leis (quando novos conhecimentos são
construídos) ou, então, tornam-se “definitivamente” válidas.
O questionamento da veracidade de uma determinada lei freqüentemente é realizado através
da postulação de uma hipótese de pesquisa, que será avaliada mediante um conjunto de observações sobre o
fenômeno. Como mencionado anteriormente, se esta nova lei for “aceita”, isto é, se os dados evidenciam que ela
é verdadeira, então um novo conhecimento sobre o fenômeno foi gerado, podendo, portanto, ser “descartada” a
lei anterior. Fica caracterizado, assim, um processo contínuo de aprendizagem que define o método científico.
Depois de definir os objetivos e especificar adequadamente as hipóteses de pesquisa a serem
testadas, a próxima etapa é planejar a coleta de dados sobre o fenômeno, os quais são imprescindíveis para a
avaliação da veracidade das hipóteses científicas. Isso pode ser feito através de um estudo observacional ou
experimental, devendo ser cuidadosamente planejado a priori, para que as conclusões sejam válidas. Cuidados
especiais devem ser dedicados às variáveis a serem observadas, ao tipo e tamanho da amostra ou do
experimento, ao custo, tempo e, principalmente, à metodologia de análise dos dados, sob pena de inviabilizar o
trabalho de pesquisa.
A etapa seguinte, então, é a análise dos dados observados, seguindo a metodologia estatística
previamente escolhida. A partir dos resultados da análise estatística o pesquisador pode, finalmente, fazer as
generalizações (inferências) sobre o fenômeno de interesse.
O problema, entretanto, é como formular as hipóteses a serem avaliadas e qual procedimento
estatístico deve ser utilizado para verificar a veracidade dessas hipóteses. Antes de tudo, é importante definir
uma hipótese como uma afirmação sobre uma característica da população. O exemplo abaixo é útil para
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
86 apresentar algumas definições essenciais, as quais são necessárias na tomada de decisão sobre a veracidade das
hipóteses.
Exemplo 6.2: Sabe-se que em homens saudáveis de uma determinada população o nível de colesterol sérico
segue uma distribuição de probabilidade normal com média dl/mg 220=µ e desvio padrão
. Um pesquisador deseja avaliar se em homens (da população especificada) que
desenvolvem doença cardíaca coronariana (DCC) o nível de colesterol sérico é
dl/mg 40=σ
maior do que em homens
saudáveis.
Neste problema, a hipótese de pesquisa especifica que o nível de colesterol sérico em
homens com DCC é, em geral, maior do que em homens saudáveis. Assim, a veracidade desta hipótese deve ser
avaliada mediante algum procedimento científico, que contempla a observação dos níveis de colesterol sérico
em uma amostra aleatória de homens com DCC. A amostra consiste essencialmente em um estudo
observacional de 25 homens que foram aleatoriamente selecionados da população de homens com DCC,
registrando-se o nível de colesterol sérico de cada indivíduo.
O Quadro 6.2 apresenta os dados gerados pela amostra, os quais produziram média amostral
igual a dl/mgx 253= e desvio padrão dl/mg,s 540= . O histograma mostrado na Figura 6.2 ilustra o
comportamento do nível de colesterol sérico dos homens com DCC observados na amostra. O exame do gráfico
Q-Q plot mostrado na Figura 6.3 revela que a distribuição normal parece adequada para descrever o
comportamento do nível de colesterol sérico para os homens com DCC na população em estudo.
Nível de Colsterol Sérico (mg/dl)
340320300280260240220200180160
7
6
5
4
3
2
1
0
Figura 6.2 – Histograma para o nível de colesterol sérico na amostra de 25 homens com DCC.
Quadro 6.2 – Níveis de colesterol sérico na amostra de 25 homens com DCC.
159,9 249,1 288,9 192,2 250,6 294,4 203,1 251,7 307,0 212,3 255,7 324,6 218,2 258,2 333,5 223,7 258,8 225,9 260,4 231,5 276,9 244,9 278,1 248,4 279,0
Nota: Dados fictícios.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
87
Nível de Colesterol Sérico (em mg/dl)
400350300250200150100
Val
or E
sper
ado
pela
Nor
mal
400
350
300
250
200
150
100
Figura 6.3 – Q-Q plot para o nível de colesterol sérico na amostra de 25 homens com DCC.
No início do Capítulo 5 mencionou-se que no contexto da pesquisa científica ou tecnológica,
o exame individual das unidades amostrais usualmente pouco revela sobre o comportamento global da
característica em estudo. Assim, é necessária uma medida que represente o comportamento típico do nível de
colesterol sérico dos homens com DCC na amostra e que permita avaliar a veracidade da hipótese postulada
pelo pesquisador.
A hipótese de que o nível de colesterol sérico é maior na população de homens com DCC,
em relação aos homens saudáveis, pode ser avaliada mediante a comparação das médias das duas populações.
Contudo, até o presente momento o pesquisador conhece apenas a média da população de homens saudáveis;
mais especificamente, em homens saudáveis (da população especificada), o nível de colesterol sérico segue uma
distribuição normal com dl/mg 220=µ e desvio padrão dl/mg 40=σ , ou seja, . A média
amostral é uma estatística que usualmente pode ser utilizada para avaliar a veracidade da igualdade de duas
médias populacionais, como no exemplo em discussão.
)( 2σµ,N~X
Consequentemente, a hipótese de pesquisa pode ser formulada em função das médias das
duas populações. Dessa forma, seja o verdadeiro (porém desconhecido) nível médio de colesterol sérico
em homens com DCC (da população especificada). A hipótese de pesquisa, portanto, pode ser escrita como: na
população em estudo, os homens com DCC apresentam,
DCCµ
em média, nível de colesterol sérico maior do que
homens saudáveis. Assim, através das respectivas médias populacionais, pode-se escrever esta hipótese como
. dl/mgDCC 220=µ>µ
Cabe observar que a comparação dessas duas populações, mediante as suas médias, não
significa que todos os homens com nível de colesterol sérico “elevado” são portadores de DCC. De forma
análoga, um homem com DCC poderia, eventualmente, apresentar nível de colesterol sérico comparável ao dos
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
88 homens saudáveis. Em outras palavras, a comparação de duas populações através das suas médias considera o
comportamento típico ou global de cada população (que usualmente pode ser representado pela média).
A questão, agora, é como avaliar a veracidade da hipótese de pesquisa. Um procedimento
inicial é escrever o problema através de duas hipóteses estatísticas:
eis.ens saudávhomo que em É MAIOR d NÃO
C ens com DChomsérico emolesterol médio de c: O nível H 0
. 1
eisens saudávhom que emÉ MAIOR do
C ens com DChomsérico emolesterol médio de c: O nível H
A hipótese é chamada de hipótese nula, enquanto é denominada de hipótese
alternativa e, usualmente, representa a hipótese de pesquisa sob investigação. Usando uma notação estatística
mais simples, as hipóteses acima podem ser escritas, de forma equivalente, como:
0H 1H
dl/mg: H DCC 2200 =µ≤µ
dl/mg: H DCC 2201 =µ>µ .
Os dados amostrais é que vão evidenciar se a hipótese nula ( ou se a hipótese
alternativa é verdadeira. Na prática, com base na média observada na amostra, o pesquisador vai decidir
sobre a veracidade de uma das hipóteses, ou seja, ele deverá optar por ou por . Contudo, neste processo
de decisão estatística existe uma “chance” de tomar uma decisão errada, justamente porque a realidade é
desconhecida. No exemplo em questão, o verdadeiro valor da média populacional é desconhecido, de tal
forma que se o pesquisador soubesse qual é o valor da média populacional
)
)0H
DCC
( 1H
0H 1H
µ
DCCµ , ele não precisaria testar
hipóteses sobre ele. Consequentemente, o pesquisador não conhece qual hipótese é verdadeira, precisando
buscar na amostra evidências que permitam uma tomada de decisão a favor de (isto é, ele escolhe
como sendo verdadeira e, neste caso é falsa) ou, então, a favor de (isto é, ele escolhe como
verdadeira e, portanto é falsa). Contudo, existem duas possibilidades de tomar uma decisão errada, como
mostra o Quadro 6.3.
0H 0H
1H 1H 1H
0H
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
89
Quadro 6.3 – Tipos de erros de decisão envolvidos em um teste de hipóteses.
SITUAÇÃO REAL (DESCONHECIDA) DECISÃO
ESTATÍSTICA 0H É VERDADEIRA 1H É VERDADEIRA
Rejeitar 0H Decisão Incorreta
(ERRO TIPO I)
Decisão Correta
Aceitar 0H Decisão Correta Decisão Incorreta
(ERRO TIPO II)
Os dois tipos de erro de decisão são indesejáveis, mas usualmente considera-se o Erro Tipo I
como mais grave. Para controlar este erro, trabalha-se com uma probabilidade pré-especificada e pequena,
geralmente valores menores do que 0,05 (ou 5%). A probabilidade do Erro Tipo I é chamada de nível de
significância do teste e é representada por α . Assim, a probabilidade do Erro Tipo I representa a probabilidade
de rejeitar a hipótese nula quando ela é verdadeira, de tal forma que, usualmente, trabalha-se com ( 0H )
[ ] 050a verdadeiré quando Rejeitar 00 ,HHP <=α .
No exemplo, o Erro Tipo I significa que o pesquisador rejeita a hipótese
, quando, de fato, ela é verdadeira. Em outras palavras, com base na informação
gerada na amostra, o pesquisador estaria afirmando que, na população especificada, o nível médio de colesterol
sérico em homens com DCC é maior do que em homens saudáveis, quando não é maior ( é verdadeira). É
desejável, portanto, controlar esse erro de decisão mediante a atribuição de uma probabilidade pequena para o
Erro Tipo I, isto é, um valor pequeno. Na maioria das situações práticas utiliza-se ou
dl/mg: H DCC 2200 =µ≤µ
α
0H
05,0=α 010,=α .
Como geralmente o erro mais grave de decisão está associado ao Erro Tipo I, na prática o
pesquisador não precisa se preocupar com o outro tipo de erro de decisão, chamado de Erro Tipo II, pois os
testes de hipóteses comumentemente utilizados são tais que para o nível de significância α fixado, a
probabilidade de Erro Tipo II é mínima. Estes testes são chamados de testes de hipóteses mais poderosos ou
uniformemente mais poderosos, sendo preferíveis em relação aos demais testes com mesmo nível de
significância . α
O Erro Tipo II representa o erro associado à decisão de aceitar hipótese nula ( quando
ela é falsa, ou seja,
)0H
[ ]falsa é quando Aceitar P 00 HH=β .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
90
No exemplo em discussão, o erro de decisão do Tipo II significaria que o pesquisador estaria
admitindo que em homens com DCC o nível médio de colesterol sérico não é maior do que na população de
homens saudáveis, quando na realidade é maior.
Neste ponto é conveniente introduzir o conceito de poder do teste de hipóteses, que pode ser
definido como 1 menos a probabilidade do Erro Tipo II, ou seja,
[ ] [ ] .HH 1falsa é quando Aceitar P1II Tipo ErroP1 testedoPoder 00 β−=−=−=
Assim, outro aspecto a ser considerado é o fato de que o pesquisador pode planejar um
estudo observacional ou experimental de tal forma que o teste de hipóteses a ser realizado atinja o poder pré-
especificado e, consequentemente, ele estaria “controlando” também a probabilidade de um eventual Erro Tipo
II.
Nas próximas seções serão descritos alguns testes de hipóteses para médias, para o caso em
que a característica em estudo possui distribuição de probabilidade normal ou quando o tamanho da amostra é
suficientemente grande. 6.2.1 Teste de Hipóteses para Uma Média Populacional µ , quando
σ é Conhecido (Teste Z)
No exemplo apresentado e discutido na seção anterior, a variável em estudo é o nível de
colesterol sérico em homens com DCC. Parece razoável assumir que esta variável segue uma distribuição de
probabilidade aproximadamente normal com desvio padrão conhecido dl/mg 40=σ (conhecido), veja a
Figura 6.3.
O pesquisador deseja avaliar se em homens com DCC o nível médio de colesterol sérico é
superior à média da população de homens saudáveis, como ele suspeita. Ou seja, com base na amostra
(especificamente falando, com base em X ) o pesquisador deseja avaliar se é
verdadeira ou, ao contrário, se
dl/mg: H DCC 2200 =µ≤µ
dl/mg: H 2201 DCC =µ>µ é verdadeira, considerando a probabilidade de
Erro Tipo I igual a . α
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
91
As informações geradas pela amostra é que irão evidenciar se em homens com DCC o nível
médio de colesterol sérico é realmente maior do que para homens saudáveis, mediante a utilização de um teste
de hipóteses. Mas, a média amostral X carrega toda informação que a amostra contém sobre a
média populacional desconhecida µ ( embora seja um conceito explorado em um curso formal de
Inferência Estatística, diz-se que ∑ é uma estatística suficiente para o parâmetro populacional
nX,,X,X L21
DCC
iX=
n
i 1
µ ).
Assim, no exemplo em discussão, para o pesquisador decidir entre uma das hipóteses
ou dl/mg: H DCC 2200 =µ≤µ dl/mg: H DCC 2201 =µ>µ , parece razoável e intuitivo adotar a seguinte
estratégia: se o valor da média amostral X for significativamente maior do que µ , então ele
decidirá a favor de
dl/mg 220=
dl/mg 220=µ: H DCC1 >µ e, neste caso, poderia concluir que homens com DCC
apresentam nível sérico de colesterol em média maior do que em homens saudáveis, para o nível de
significância . Por outro lado, se o valor de α X for menor ou igual a dl/mg 220=µ , então decidirá a favor
de , sugerindo que o nível médio de colesterol sérico em homens com DCC não
é maior do que em homens saudáveis.
dl/mg: H DCC 2200 =µ≤µ
O problema, então, é saber o que quer dizer a expressão significativamente maior do ponto
de vista estatístico. No exemplo, a amostra produziu média amostral dl/mgx 253= – é este valor
significativamente maior do que µ ? A resposta para esta questão pode ser obtida através da
distribuição da média amostral discutida no Capítulo 5 e mediante a escolha do valor α fixado para a
probabilidade de Erro Tipo I. Assim, se o valor da média amostral
dl/mg 220=
X for maior do que o valor crítico C , então
deve-se rejeitar a hipótese especificada sob , em favor de . O valor crítico 0H 1H Cx = é determinado a partir
do valor que foi fixado para a probabilidade do Erro Tipo I, ou seja, o valor de C é determinado a partir da
probabilidade de rejeitar quando é verdadeira, que pode ser escrita como
α
0H 0H
[ ] α=> a verdadeiré 0H|CXP .
Conseqüentemente, o valor crítico C divide da distribuição de probabilidade de X em duas
regiões mutuamente exclusivas: a região de aceitação de , à qual está associada uma probabilidade igual a
, e a região de rejeição de ou simplesmente região crítica, cuja área é igual ao valor fixado para
0H
α−1 0H α .
Portanto, para o nível de significância fixado, se o valor α x pertence à região crítica, então deve-se rejeitar a
hipótese nula ( ); caso contrário não se rejeita . 0H 0H
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
92
Figura 6.4 – Região crítica associada ao Exemplo 6.2, para o nível de significância 050,=α .
A Figura 6.4 ilustra a região crítica associada ao Exemplo 6.2, para o nível de significância
. Como foi mencionado anteriormente, parece razoável admitir que o nível de colesterol sérico em
homens com DCC possui distribuição de probabilidade aproximadamente normal média (desconhecida)
e desvio padrão igual a σ (conhecido, no contexto do problema). Conseqüentemente,
050,=α
DCCµ
dl/mg 40= X também
tem distribuição de probabilidade normal, com média DCCX µ=µ e desvio padrão
dl/mg nX 82540 ===σ σ . Observe que este resultado segue naturalmente da distribuição da média
amostral; não é necessário usar o Teorema Central do Limite, pois, neste caso, a variável X tem distribuição
normal. Assim, o valor crítico C é tal que,
[ ]
. 0508220
050 220 a verdadeiré 0
,CZP
,dl/mgCX
PHCXP DCCn
DCC
n
DCC
=
−
>=
=
=µ
µ−>
µ−=>
σσ
Assim,
dl/mg,C,C,C 12233 2208641 6418220 =⇒+×=⇒+=− .
Portanto, se média amostral apresentar um valor da x maior do que C ,
então deve-se rejeitar , em favor de
dl/mg, 12233=
dl/mg 220=dl/mg: H DCC 2200 =µ≤µ : H DCC1 µ>µ . No
exemplo, o valor da média amostral é dl/mgx 253= e, como é maior do que o valor crítico, deve-se rejeitar
a hipótese nula. Este resultado sugere que homens portadores de doença cardíaca coronariana (DCC)
apresentam o nível médio de colesterol sérico superior aos homens saudáveis, para o nível de significância
. 050,=α
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
93
É importante observar que o pesquisador não pode garantir que o nível médio de colesterol
sérico é maior em homens com DCC, haja vista que existe uma probabilidade (5%) de ocorrer um erro de
decisão do tipo I (Erro Tipo I) e, portanto, deve-se sempre mencionar o nível de significância utilizado para
testar as hipóteses. Alternativamente, pode-se determinar a probabilidade exata de significância, também
denominada nível descritivo amostral ou valor-p (p-value, em inglês) associada ao teste. No exemplo, o nível
descritivo amostral do teste é igual a área sob a distribuição de probabilidade de X – no caso,
)40220( 2; N~X – que está a direita do valor dl/mgx 253= , conforme ilustração da Figura 6.5. Ou seja,
o nível descritivo amostral é a probabilidade
[ ]
[ ] .,,ZPZPZ
dl/mgX
PHdl/mgxXP DCCn
DCC
n
DCC
000001348
2202538
220253
220 253
a verdadeiré | 253 0
≅>=
−
>=
−
>=
=µ
µ−>
µ−==>
σσ
Figura 6.5 – Ilustração do valor crítico C e do nível descritivo amostral para o Exemplo 6.2.
No Exemplo 6.2, a probabilidade exata de significância é o valor . Assim, pode-
se dizer que a verdadeira média populacional em homens com DCC é significativamente maior do que
, para uma probabilidade
00000,p ≅
dl/mg 220=µ 000010,p < .
Uma regra útil para interpretar probabilidade informada pelo valor-p é a seguinte: se o valor
de p é menor do que o nível de significância α , então rejeita-se , pois este valor será menor do que 0H α se e
somente se o valor da estatística de teste estiver na região de rejeição de . Contudo, se 0H p é maior do que α ,
então o valor da estatística de teste pertence à região de aceitação de e, neste caso, não deve ser
rejeitada.
0H 0H
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
94
É conveniente, ainda, apresentar uma maneira alternativa de executar um teste de hipóteses,
que consiste em seguir as etapas relacionadas abaixo, aplicadas ao problema do Exemplo 6.2:
1ª) Identificar a variável em estudo:
≡X nível de colesterol sérico em homens com DCC
),( 2DCC σµN~X , onde dl/md 40=σ
2ª) Especificar as hipóteses estatísticas:
dl/mg: H DCC 2200 =µ≤µ
dl/mg: H DCC 2200 =µ>µ
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de z tabelado: 641,ztab +=
5ª) Calcular o valor da estatística de teste:
134
2540
220253 ,
n
xzcalc =−
=σ
µ−=
6ª) Decisão estatística:
Se ⇒ Rejeita-se para o nível tabcalc zz > 0H α fixado
Se ⇒ Não se rejeita para o nível tabcalc zz ≤ 0H α fixado.
No exemplo, como 641 > 134 ,z,z tabcalc == , então deve-se rejeitar a hipótese nula
ao nível de significância de 5%. dl/mg: H DCC 2200 =µ≤µ
7ª) Conclusão:
Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população
especificada) é superior aos homens saudáveis, para o nível de significância de 5%.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
95
É extremamente importante observar que no Exemplo 6.2 as hipóteses que foram testadas
são do tipo contra 00 µ≤µ:H 01 µ>µ:H , onde 0µ é um valor de referência especificado (no caso
). Existem situações, contudo, nas quais o pesquisador deseja testar hipóteses do tipo 2200 =µ 00 µ≥µ:H
contra ou, então, contra 0µ<µ1H : 00 µ=µ:H 01 µ≠µ:H , para as quais as regiões de rejeição de
serão diferentes. Os dois primeiros testes são denominados de testes unilaterais, enquanto que o último é
chamado de teste bilateral. O Quadro 6.4 apresenta um resumo das regiões de rejeição de , para os
diferentes tipos de hipóteses a serem testadas.
0H
0H
Quadro 6.4 – Hipóteses e respectivas regiões de rejeição para o teste Z, com nível de significância .α
HIPÓTESES REJEITA-SE SE 0H
00 µ≥µ:H contra 01 µ<µ:H α−
σ
µ−= z
nx
zcalc < 0
00 µ≤µ:H contra 01 µ>µ:H α
σ
µ−= z
nx
zcalc > 0
00 µ=µ:H contra 01 µ≠µ:H
2
0
2
0
>
ou
<
α
α
σ
µ−=
−σ
µ−=
zn
xz
zn
xz
calc
calc
6.2.2 Teste de Hipóteses para Uma Média Populacional µ , quando é Desconhecido (Teste t) σ
O teste de hipóteses apresentado na Seção 6.2.1 corresponde ao caso especial em que o
desvio padrão populacional σ é conhecido. Contudo, na grande maioria das situações práticas o desvio padrão
é desconhecido, de tal forma que a estatística de teste definida para o teste Z não poderia ser calculada.
Assim, o desvio padrão deve ser estimado pelo desvio padrão amostral S e a estatística de teste passa a ser
σ
σ
nSX 0µ−=T , que deve ser comparada com o valor tabelado da distribuição de referência t de Student com
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
96
1−n graus de liberdade, para o nível fixado. Contudo, quando o tamanho da amostra é grande α ( )30≥n , a
substituição de por S não afeta substancialmente a distribuição da estatística σ
n
XZcalc σµ−
=
dl
, podendo ser
utilizada, portanto, a distribuição normal padrão como distribuição de referência. Em outras palavras, quando o
tamanho da amostra é grande ( , o teste Z e o teste t são praticamente equivalentes. )30≥n
σ
(N σ
dl
dl
/mg 220
/mg 220
DCCµ
DCCµ
07440253 ,
n
tcalc =µ−
255
220,
=−
sx
=
calc
calc
Como ilustração, considere o Exemplo 6.2, relativo ao nível de colesterol sérico em homens
portadores de doença cardíaca coronariana, porém com desvio padrão populacional desconhecido. Assim, o
desvio padrão deve ser estimado pelo desvio padrão amostral /mg,s 540= . Para executar o teste de
hipóteses, podem ser seguidas as etapas ilustradas anteriormente:
1ª) Identificar a variável em estudo:
≡X nível de colesterol sérico em homens com DCC
), 2DCC σµ~X , onde desconhecido
2ª) Especificar as hipóteses estatísticas:
: H 0 =µ≤
: H 0 =µ>
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de t tabelado: t 7111,tab +=
5ª) Calcular o valor da estatística de teste:
6ª) Decisão estatística:
Se ⇒ Rejeita-se para o nível tabzz > 0H α fixado
Se ⇒ Não se rejeita para o nível tabzz ≤ 0H α fixado.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
97
No exemplo, como 7111 > 074 ,t,t tabcalc +== , então deve-se rejeitar a hipótese nula
ao nível de significância de 5%. dl/mg: H DCC 2200 =µ≤µ
7ª) Conclusão:
Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população
especificada) é maior do que em homens saudáveis, para o nível de significância de 5%.
Como esperado, os resultados são praticamente idênticos, pois o tamanho da amostra é
relativamente grande e, assim, o teste Z e o teste t têm praticamente o mesmo comportamento. Quando o
tamanho da amostra é pequeno, contudo, não é recomendável utilizar a distribuição normal padrão como
distribuição de referência para o teste t, pois os resultados podem ser catastróficos. Ao contrário, deve-se
utilizar a distribuição t de Student como distribuição de referência da estatística de teste. A Figura 6.6 ilustra o
comportamento da distribuição de probabilidade t de Student em relação à distribuição normal padrão,
considerando diferentes graus de liberdade.
Figura 6.6 – Comportamento da distribuição t de Student em relação à distribuição normal padrão.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
98 Exemplo 6.3: O órgão governamental responsável pela fiscalização e controle da qualidade dos medicamentos
comercializados em um país deseja avaliar a qualidade do analgésico “A”, fabricado por um grande laboratório,
particularmente com respeito à quantidade de ácido acetilsalicílico (AAS) por comprimido. Como rotina de
fiscalização, seleciona amostras (aleatórias) de comprimidos de cada lote e observa a quantidade de AAS em
cada comprimido. Naturalmente que, como em qualquer processo produtivo, a quantidade de AAS apresenta
variabilidade de um comprimido para outro (bem como de um lote para outro). Se a quantidade de AAS for
muito alta ou muito baixa, o(s) lote(s) não poderá(ão) ser comercializado(s). Assim, com base nas
especificações exigidas para o produto e nas características do próprio fenômeno, sabe que é razoável admitir
que a quantidade de AAS nos comprimidos é uma variável aleatória com distribuição normal com média
. Para o lote nº 777, foi observada uma amostra aleatória de 23 comprimidos, produzindo g, 50=µ g,x 470=
e desvio padrão . Ao nível de significância g,s 020= 050,=α , qual deveria ser a decisão do órgão
governamental? Em outras palavras, o lote nº 777 deveria ser comercializado?
Para resolver este problema é conveniente seguir as etapas apresentadas nos exemplos
anteriores:
1ª) Identificar a variável em estudo:
≡X quantidade de ácido acetilsalicílico por comprimido
),( 2σµN~X , com é σ desconhecido
2ª) Especificar as hipóteses estatísticas:
g,H 50 :0 =µ g,H 50 :1 ≠µ
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar os valores de t tabelados: 0742 0742 ,te,t tabtab +=−=−
5ª) Calcular o valor da estatística de teste:
197
23020
504700 ,,,,
ns
xtcalc −=−
=µ−
=
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
99
6ª) Decisão estatística:
Se ⇒ Rejeita-se para o nível ou tabcalctabcalc tttt −<> 0H α fixado
Se ⇒ Não se rejeita-se para o nível tabcalctab ttt ≤≤− 0H α fixado.
No exemplo, como t 0742 t197 ,, tabcalc −=−<−= , então deve-se rejeitar g,H 50 :0 =µ
ao nível de significância de 5%, em favor de g,H 50 :1 ≠µ .
7ª) Conclusão:
A rejeição da hipótese nula , para o nível de significância de 5%, sugere que a quantidade
de AAS dos comprimidos do lote nº 777 não está dentro das especificações exigidas (em média, possuem
quantidade de AAS menor do que o exigido). Consequentemente, o órgão governamental não deveria permitir a
comercialização do lote nº 777.
g,H 50 :0 =µ
Como no teste Z apresentado na Seção 6.2.1, é útil apresentar as regiões de rejeição
associadas ao teste t para outras hipóteses estatísticas. O Quadro 6.5 apresenta um resumo das regiões de
rejeição de associadas aos diferentes tipos de hipóteses para o teste t para comparação de uma média
populacional com um valor de referência, quando o desvio padrão populacional é desconhecido.
0H
Quadro 6.5 – Hipóteses e respectivas regiões de rejeição para o teste t, para comparação de uma média populacional com um valor de referência, quando σ é desconhecido e nível de significância α .
HIPÓTESES REJEITA-SE SE 0H
00 µ≥µ:H contra 01 µ<µ:H α−−
µ−= ,ncalc t
nsx
t 10 <
00 µ≤µ:H contra 01 µ>µ:H α−
µ−= ,ncalc t
nsxt 1
0 >
00 µ=µ:H contra 01 µ≠µ:H
21
0
21
0
>
ou
<
α
α−
µ−=
−µ−
=
,n-calc
,ncalc
tns
xt
tns
xt
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
100 6.2.3 Teste de Hipóteses sobre Duas Médias Populacionais,
com Amostras Independentes
Em uma grande variedade de situações práticas o pesquisador deseja avaliar a “equivalência”
ou a “eficiência” de dois tratamentos (drogas, dietas, procedimentos cirúrgicos, procedimentos laboratoriais,
etc.), definidos de acordo com os objetivos específicos da pesquisa. Para tanto, é comum a utilização de uma
amostra aleatória de indivíduos (unidades amostrais, que podem ser pessoas, animais, plantas, etc.), sobre os
quais é alocado, também ao acaso, um dos dois tratamentos (digamos Tratamento 1 ou Tratamento 2). Assim, os
indivíduos são divididos em dois grupos: o
n
n Grupo 1, composto pelos indivíduos que recebem o
Tratamento 1 ; e, o
1n
Grupo 2, composto pelos indivíduos que recebem o Tratamento 2. Esses dois grupos de
indivíduos (Grupo 1 e Grupo 2) constituem duas amostras independentes e os resultados gerados serão
utilizados para fazer inferências sobre as populações.
2n
Como ocorre na grande maioria das características biológicas, a reação a um determinado
tratamento pode ser diferente de indivíduo para indivíduo. Em outras palavras, as n unidades amostrais do
Grupo 1 podem reagir ao Tratamento 1 de maneira diferente. O mesmo fato pode ser observado para as
unidades amostrais do Grupo 2. Consequentemente, a “equivalência” ou “eficiência” dos tratamentos 1 e 2 deve
ser avaliada em função do comportamento “global” dos indivíduos de cada grupo, usualmente mediante a
comparação das médias dos grupos.
1
Embora possam ser utilizadas outras estatísticas para comparar os dois tratamentos (por
exemplo, a mediana de cada grupo), neste curso será abordado apenas o teste de hipóteses para médias. O
exemplo descrito a seguir é útil para ilustrar um problema que envolve a comparação de médias de duas
populações, com base em amostras independentes.
Exemplo 6.4: Um experimento foi realizado para avaliar se as drogas “B” e “G” são equivalentes quanto ao
tempo de coagulação sangüínea em humanos. O experimento consistiu em selecionar aleatoriamente treze
indivíduos da população, dos quais, também ao acaso, seis foram alocados ao Grupo B (isto é, tratados com a
droga B). Os outros sete indivíduos foram alocados ao Grupo G (isto é, tratados com a droga G). Uma amostra
de sangue é retirada de cada pessoa, sendo observado o respectivo tempo até a coagulação (em minutos). Este
exemplo é discutido por Zar (1996, p.123) e os dados são apresentados no Quadro 6.6.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
101
Quadro 6.6 – Tempo até a coagulação sangüínea para os indivíduos tratados com a droga B e Droga G.
Droga B Droga G8,8 9,9 8,4 9,0 7,9 11,1 8,7 9,6 9,1 8,7 9,6 10,4
9,5
Este é um típico problema que envolve duas amostras independentes, as quais devem ser
usadas para fazer inferências sobre as populações. No caso, trata-se de duas populações hipotéticas: a população
de “todos” os indivíduos que seriam tratados pela droga B ou pela droga G. Assim, existem duas variáveis
aleatórias envolvidas:
:1X tempo até a coagulação sangüínea para um indivíduo tratado coma droga B
:2X tempo até a coagulação sangüínea para um indivíduo tratado coma droga G.
Embora o enunciado do problema não especifique as distribuições de probabilidades das
variáveis aleatórias e definidas acima, no contexto deste curso é fundamental admitir que seguem
distribuição normal, com mesmo desvio padrão. Assim, e , de tal forma
que se existir alguma diferença entre as duas populações, elas diferem entre si apenas quanto ao tempo médio
até a coagulação sangüínea.
1X 2X
),(N~X 211 σµ ),(N~X 2
22 σµ
Neste ponto é importante salientar que freqüentemente não se dispõe da informação que o
desvio padrão é igual nas duas populações em estudo, não sendo razoável simplesmente admitir que são iguais.
Ao contrário, primeiro deve-se testar a hipótese nula que especifica que as variâncias das duas populações são
iguais. Veja, por exemplo, Costa Neto (1977, p.115) e Zar (1996, p.137).
Se a hipótese nula for aceita, então o teste para médias descrito nesta seção pode ser
executado. Contudo, se as variâncias das duas populações são diferentes, então o teste de hipóteses descrito
nesta seção não é apropriado e uma alternativa é apresentada por Costa Neto (1977, p.114). Por fim, convém
observar que o teste de hipóteses para igualdade de variâncias, bem como para comparação de médias quando as
variâncias são diferentes, não serão apresentados no momento, pois não estão incluídos no Plano de Ensino da
disciplina.
Retornando ao Exemplo 6.4, sua solução consiste essencialmente em testar as hipóteses
, podendo-se seguir as etapas descritas nas seções anteriores, ou seja: contra 211210 µ≠µµ=µ :H:H
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
102
1ª) Identificar as variáveis do problema:
:1X tempo até a coagulação sangüínea para um indivíduo tratado coma droga B ⇒ ),(N~X 211 σµ
:2X tempo até a coagulação sangüínea para um indivíduo tratado coma droga G ⇒ ),(N~X 222 σµ
2ª) Especificar as hipóteses estatísticas:
0H : o tempo médio até a coagulação sangüínea na população de indivíduos tratados com a Droga B é igual ao da população de indivíduos tratados com a Droga G
1H : o tempo médio até a coagulação sangüínea na população de indivíduos tratados com a Droga B é
diferente da população de indivíduos tratados com a Droga G,
ou seja, contra 211210 µ≠µµ=µ :H:H .
3ª) Escolher o nível de significância: 050,=α
4ª) Estatística de teste e valores de t tabelados:
)nn(calc t~
nns
xxt 221
21
20
21 11
−+
+
−=
Na amostras, foram observados: Grupo 1 (Droga B): 22111 33900 758 6 min,smin;,x;n ===
Grupo 2 (Droga G): 22222 66950 749 7 min,smin;,x;n ===
Como as variâncias das duas populações são iguais, então é uma estimativa conjunta da
variância populacional (desconhecida), considerando as observações das duas amostras. Em outras palavras,
pode ser vista como uma média ponderada das variâncias amostrais, onde os pesos associados são
proporcionais aos tamanhos de cada amostra. No exemplo, a estimativa conjunta de σ é
20s
2σ20s
2
2
21
222
2112
0 519301171215
276669506339005
211 min,,,,
nns)n(s)n(s ==
−+×+×
=−+
−+−= .
Portanto, o valor calculado da estatística de teste é dado por
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
103
( )46932
40090990
51930749758
11 71
61
21
20
21 ,,
,,
,,
nns
xxtcalc −=−
=+×
−=
+
−= .
Como o teste de hipóteses é bilateral e a estatística de teste deve ser comparada com a
distribuição de probabilidade t com 11276221 =−+=−+ n
2012025011 ,,);
n graus de liberdade, então os valores
tabelados são t - e 2012025011 t, (,);( −== , os quais delimitam a região de rejeição de
ilustrada na Figura 6.7. 210 µ=µ:H
Figura 6.7 – Região de rejeição do teste de hipóteses
no Exemplo 6.4, para 050,=α .
5ª) Decisão estatística:
.:Hta-seário rejeicaso contr
para :Ha se rejeit então não,,tt,tSe ,);(calc,);(
210
210025011025011
0,05;
20122012
µ=µ=α
µ=µ+=<<−=−
Portanto, como o valor calculado da estatística de teste 201246932 025011 ,t,t ,);(calc −=−<−= , então
deve-se rejeitar 210 µ=µ:H para o nível de significância de 5%, em favor de . 211 µ≠µ:H
6ª) Conclusão:
A rejeição da hipótese nula 210 µ=µ:H , para o nível de significância de 5%, evidencia que as drogas
B e G não são “equivalentes” quanto ao tempo médio até a coagulação sangüínea, sugerindo o tempo médio de
coagulação sangüínea é menor quando os indivíduos são tratados com a droga B.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
104
De maneira similar aos testes anteriores, é conveniente apresentar as regiões de rejeição do
teste t para amostras independentes, considerando os demais tipos de hipóteses estatísticas, conforme disposto
no Quadro 6.7.
Quadro 6.7 – Hipóteses e respectivas regiões de rejeição para o teste t para duas amostras independentes, com nível de significância α .
HIPÓTESES REJEITA-SE SE 0H
contra 211210 µ≠µµ=µ :H:H
2221
21
20
21
2221
21
20
21
11
11
α−+
α−+
−<
+
−=
>
+
−=
);nn(calc
);nn(calc
t
nns
xxt
ou
t
nns
xxt
contra 211210 µ<µµ≥µ :H:H
α−+−<
+
−= );nn(calc t
nns
xxt 221
21
20
21
11
contra 211210 µ>µµ≤µ :H:H
α−+>
+
−= );nn(calc t
nns
xxt 221
21
20
21
11
6.2.4 Teste de Hipóteses sobre Duas Médias Populacionais,
com Amostras Pareadas O teste de hipótese discutido na Seção 6.2.3 pode ser útil para comparar duas médias
populacionais no caso em que as amostras são independentes. Em outras palavras, quando os experimentos são
delineados de tal forma que as unidades amostrais são aleatoriamente alocadas aos tratamentos de uma maneira
que garanta que as duas amostras sejam independentes. A independência entre as duas amostras, neste caso,
significa que cada unidade amostral de uma amostra não está associada (ou correlacionada) com qualquer outra
observação da outra amostra.
Para facilitar a compreensão do conceito de independência entre duas amostras, é
conveniente considerar o Exemplo 6.4 discutido na Seção 6.2.3, relativo à comparação do tempo até a
coagulação sangüínea em indivíduos submetidos à droga B ou à droga G. O referido experimento foi organizado
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
105 da seguinte maneira: inicialmente 13 (treze) indivíduos (pacientes) foram aleatoriamente selecionados da
população sob estudo. Em seguida, 6 (seis) destes indivíduos foram aleatoriamente alocados ao tratamento com
a droga B, enquanto que os 7 (sete) restantes foram submetidos ao tratamento com a droga G. Nesta situação
existem dois tratamentos, essencialmente definidos pela droga que foi administrada para cada indivíduo, de tal
forma que ficam claramente definidos dois grupos de indivíduos, denominados de Grupo B e de Grupo G.
Como as 13 (treze) unidades amostrais foram extraídas ao acaso da população e cada unidade amostral foi
alocada, também ao acaso, a apenas um dos tratamentos (isto é, cada indivíduo é tratado com apenas uma das
drogas), então os dois grupos de indivíduos constituem duas amostras independentes.
Em muitas situações, contudo, cada unidade amostral de um dos grupos está de alguma
maneira associada (ou correlacionada) com uma unidade amostral do outro grupo. Freqüentemente esta estrutura
de correlação ocorre de maneira proposital, permitindo que o pesquisador controle fatores externos que podem
afetar as comparações de interesse. Estes conceitos podem ser melhor compreendidos mediante a utilização do
exemplo discutido por Larson (1982, p.453-455), apresentado abaixo.
Admita que um pesquisador está investigando o efeito do consumo de álcool (para uma
quantidade ou nível especificado) sobre o tempo de reação necessário para pisar no pedal do freio de um
automóvel. O objetivo básico é avaliar se o tempo médio de reação ( )2µ na população de indivíduos que
consomem o nível especificado de álcool é maior do que na população de pessoas que não consomem álcool
. O estudo poderia ser organizado e executado como descrito abaixo: )( 1µ
Estudo 1: Seleciona-se ao acaso um grupo de indivíduos (que não consumiram álcool), submetendo-os ao
teste para determinar o respectivo tempo de reação necessário para pisar no pedal de freio do automóvel. Em
seguida, um segundo grupo com indivíduos é aleatoriamente selecionado e cada indivíduo consome a
quantidade especificada de álcool, realizando o teste para registrar o correspondente tempo de reação necessário
para pisar no pedal de freio do automóvel. Desta forma, seriam delineadas duas amostras ou grupos
independentes de indivíduos: na primeira amostra (Grupo 1) são registrados os tempos de reação das pessoas
que não consumiram álcool e, na segunda (Grupo 2), são registrados os tempos de reação das m pessoas que
consumiram álcool. Assumindo normalidade e igualdade de variâncias, as médias das duas populações
poderiam ser comparadas mediante a utilização do teste t para amostras independentes descrito na Seção 6.2.3,
onde as hipóteses poderiam ser especificadas como
n
m
n
210 µ≥µ:H e 211 µ<µ:H .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
106
Entretanto, um possível problema deste procedimento é que, devido ao acaso, o Grupo 1
poderia ser constituído por pessoas que naturalmente possuem um alto tempo de reação, ou seja, que
naturalmente possuem uma “reação lenta”. Também devido ao acaso, o Grupo 2 poderia ser constituído por
indivíduos que naturalmente apresentam baixo tempo de reação, ou seja, que “rapidamente reagem” e pisam no
freio. Assim, uma eventual aceitação (não rejeição) de 210 µ≥µ:H poderia ser conseqüência da constituição
das amostras, e não pelo fato de que o consumo de álcool não aumenta o tempo de reação.
Outra limitação do procedimento experimental descrito no Estudo 1 é a suposição de
igualdade de variâncias das duas populações, haja vista que após o consumo da quantidade de álcool
especificada o comportamento pode ser diferente de indivíduo para indivíduo. Veja Larson (1982, p.453).
Fica evidente, portanto, a necessidade de “controlar” a influência do tempo de reação
intrínseco a cada pessoa, de tal forma que o mesmo não interfira na comparação das médias. Para tanto, poderia
ser utilizado o seguinte procedimento experimental:
Estudo 2: Seleciona-se ao acaso um grupo de indivíduos (que não consumiram álcool), submetendo-os ao
teste para determinar o respectivo tempo de reação necessário para pisar no pedal de freio do automóvel. Ao
invés de selecionar uma segunda amostra, estes indivíduos consomem a quantidade de álcool especificada e
novamente realizam o teste, registrando-se os correspondentes tempos de reação. Este procedimento produz
pares de observações ( , que correspondem as duas medidas do tempo de reação
em cada indivíduo da amostra. Assim, para
n
Y,n
,1
n
)X(,),Y,X(),Y,X nL2211
,i L2 n,=∀
. APÓS
ANTES
álcooldeconsumoo,uo ido indivídreaçãodetempoY
álcooldeconsumodo,uo ido indivídreaçãodetempoX
i
i
=
=
Dessa forma, parece ser razoável admitir que os pares ( são variáveis aleatórias
correlacionadas, pois são medidas do tempo de reação do mesmo indivíduo. Em outras palavras, se o indivíduo i
naturalmente tem um rápido tempo de reação, então se espera que tanto antes quanto após o consumo de álcool
o tempo de reação seja rápido.
)Y,X ii
Admita que é razoável assumir que os pares ( formam uma
amostra aleatória, extraída de uma população com distribuição de probabilidade normal bivariada com
parâmetros . Assim, a variável aleatória
)Y,X(,),Y,X(),Y,X nnL2211
ρσσµµ 22
2121 ,,,, X tem média igual a e variância σ , enquanto
que a variável aleatória
1µ21
Y tem média igual a 2µ e variância e a correlação entre as variáveis 22σ X e Y é
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
107 igual a . Sob estas condições, um resultado conhecido do cálculo de probabilidades garante que a variável
aleatória
ρ
n,,,i;YXD iii L21 =∀−= , tem distribuição de probabilidade normal com média 21 µ−µ=µ ,
com variância igual a . É importante notar que
D
212 σρσ22
21
2 −σ+σ=σD 0=µD é equivalente a dizer que
e, consequentemente, a hipótese 21 µ=µ 210 µ≥µ:H pode ser escrita como . Por sua vez, a
hipótese alternativa é equivalente a escrever
0≥µD:0H
211 µ<µ:H 01 <µD:H
YXD ii
.
n,L,,i 21 =∀−=
n,,, L21i;YX ii Di ∀−=
nD,,D,D L21
21 µ−µ= 2DσµD
ns
dd
calc =
n,,,i;xyd iii L21 =∀−=
1−n
( )1
2
−
−
n
ddi
e 1=∑=s
n
id 1=
∑=
n
dd
n
ii
1−n α
Assim, mediante a utilização da variável ;i é possível “isolar” a
influência do tempo de reação intrínseco a cada indivíduo sobre a comparação das médias populacionais. Em
outras palavras, a definição da nova variável aleatória = , implica em uma amostra
aleatória , extraída de uma população que possui distribuição de probabilidade normal com
média e variância . Portanto, a comparação das médias das duas populações pode ser
realizada através da utilização do teste t para uma única média, discutido na Seção 6.2.2. Contudo, neste
contexto a estatística de teste é t , cuja distribuição de referência é a distribuição t de Student
com graus de liberdade.
Na prática, portanto, a partir dos dados observados nas amostras deve-se determinar as
diferenças , determinando-se também a sua média e o seu desvio padrão amostral,
definidos respectivamente por
.
Em seguida, deve-se determinar o valor calculado da estatística de teste, comparando-o com o correspondente
valor tabelado da distribuição t de Student com graus de liberdade, para o nível de significância
fixado.
Antes de apresentar alguns exemplos convém fazer algumas observações importantes. Uma
das principais vantagens de utilizar estudos observacionais ou experimentais com amostras pareadas é que
usualmente permitem aumentar o poder das comparações. Isso ocorre devido ao fato de que o pareamento
permite controlar a influência de um ou mais fatores externos que podem influenciar nas comparações. Existem
três formas básicas de pareamento: autopareamento, pareamento natural e pareamento artificial, descritos
abaixo.
O autopareamento refere-se ao caso em que cada indivíduo é controle de si mesmo, como no
exemplo do tempo de reação para pisar no pedal de freio do automóvel. Outra situação típica de autopareamento
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
108 ocorre quando o mesmo indivíduo recebe duas drogas, administradas em duas ocasiões de tempo distintas.
Também se pode ter autopareamento quando se deseja comparar dois órgãos no mesmo indivíduo, tais como
olhos, pernas, narinas, etc., onde um dos órgãos foi submetido a um determinado tratamento e o outro órgão
funciona como “controle”.
O pareamento natural é construído mediante a formação de pares homogêneos, tais como a
utilização de gêmeos ou pares de animais oriundos de uma mesma ninhada.
Por sua vez, o pareamento artificial consiste em formar pares de indivíduos com
características semelhantes, tais como idade, sexo, raça, classe social, histórico clínico, etc. É importante
considerar as características que possivelmente influenciam a variável sob investigação. Convém salientar,
ainda, que é importante utilizar um procedimento aleatório para determinar qual elemento do par vai receber
cada tratamento, a fim de evitar a ocorrência de eventuais vícios.
Outra observação importante é que, na prática, não é necessário assumir que
é uma amostra aleatória de uma população com distribuição de probabilidade
normal bivariada; basta que as diferenças formem uma amostra aleatória extraída de uma
população com distribuição normal. Veja Rohatgi (1976, p.454).
)Y,X(,),Y,X(),Y,X( nnL2211
nD,,D,D L21
Por fim, se o tamanho da amostra é suficientemente grande (usualmente ), então a
distribuição de referência t de Student pode ser substituída pela distribuição normal padrão. Para ilustrar este
tipo de teste de hipóteses, considere o exemplo relativo ao tempo de reação necessário para pisar no pedal de
freio descrito anteriormente e complementado abaixo:
30≥n
Exemplo 6.5: Admita que um pesquisador está investigando o efeito do consumo de álcool (para uma
quantidade ou nível especificado) sobre o tempo de reação necessário para pisar no pedal do freio de um
automóvel. O objetivo básico é avaliar se o tempo médio de reação ( )2µ na população de indivíduos que
consomem o nível especificado de álcool é maior do que na população de pessoas que não consomem álcool
. Para tanto, foram selecionados 10 voluntários e submetidos ao teste para medir o tempo de reação
necessário para pisar no pedal de freio do automóvel. Em seguida, cada um dos 10 indivíduos consumiu a
quantidade de álcool especificada e novamente realizou o teste, registrando-se o correspondente tempo de
reação. Os dados gerados são apresentados no Quadro 6.8, onde
)( 1µ
. APÓS
ANTES
álcooldeconsumoo,uo ido indivídreaçãodetempoY
álcooldeconsumodo,uo ido indivídreaçãodetempoX
i
i
=
=
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
109
Quadro 6.8 – Tempos de reação necessários para pisar no freio do automóvel antes e após o consumo de álcool (em milisegundos).
Indivíduo ix iy id
1 469 697 -228 2 563 814 -251 3 693 850 -157 4 737 933 -196 5 706 821 -115 6 594 788 -193 7 634 818 -184 8 511 761 -250 9 620 762 -172
10 496 763 -267
Para executar o teste é conveniente seguir as etapas descritas nas seções anteriores, ou seja:
1ª) Identificar as variáveis em estudo:
( )( ).~ APÓS
ANTES 222
211
σµ⇒=
σµ⇒=
,Yálcooldeconsumoo,uo ido indivídreaçãodetempoY
,~Xálcooldeconsumodo,uo ido indivídreaçãodetempoX
ii
ii
Não é necessário que os pares ( sejam uma amostra
aleatória de uma população com distribuição de probabilidade normal bivariada. Basta admitir que as diferenças
, ou seja, que formem uma amostra aleatória extraída de uma
população com distribuição normal com média
)Y,X(,),Y,X(),Y,X nnL2211
nD,L
21
n,,,i;YXD iii L21 =∀−= ,D,D 21
µ−µ=µD .
2ª) Especificar as hipóteses estatísticas:
210 µ≥µ:H ou , equivalentemente, 00 ≥µD:H
211 µ<µ:H ou, equivalentemente, 01 <µD:H .
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de t tabelado: 8331,ttab −=
5ª) Calcular o valor da estatística de teste:
Na amostra, observou-se 3201,d −= e 7747,sd = , de tal forma que
3313
107747
3201 ,,
,
ns
dtd
calc −=−
== .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
110
6ª) Decisão estatística:
Se 83310509 ,tt ,);(calc −=−< ⇒ Rejeita-se para o nível 0H α fixado
Se 83310509 ,tt ,);(calc −=−≥ ⇒ Não se rejeita para o nível 0H α fixado.
Como t 8331 t3313 (9);0,05 ,,calc −=<−= , então deve-se rejeitar , para o nível de
significância de 5%.
210 µ≥µ:H
7ª) Conclusão:
Há evidências de que na população com consumo da quantidade de álcool especificada, o
tempo médio de reação para pisar no pedal do freio do automóvel é maior do que na população de indivíduos
que não consomem álcool, para o nível de significância de 5%.
De maneira similar aos testes anteriores, é conveniente apresentar as regiões de rejeição do
teste t para amostras pareadas, considerando os demais tipos de hipóteses estatísticas, conforme disposto no
Quadro 6.9.
Quadro 6.9 – Hipóteses e respectivas regiões de rejeição para o teste t para duas amostras pareadas, com nível de significância α.
HIPÓTESES REJEITA-SE SE 0H
contra 211210 µ≠µµ=µ :H:H
ou
0 contra 0 10 ≠µ=µ DD :H:H 21
21
α−
α−
−<=
>=
);n(d
calc
);n(d
calc
t
ns
dt
ou
t
ns
dt
contra 211210 µ<µµ≥µ :H:H
ou
0 contra 0 10 <µ≥µ DD :H:H
α−−<= );n(d
calc t
ns
dt 1
contra 211210 µ>µµ≤µ :H:H
ou
0 contra 0 10 >µ≤µ DD :H:H
α−+>= );n(d
calc t
ns
dt 1
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
111 6.2.5 Teste de Hipóteses para Uma Proporção Populacional p (n grande)
Na Seção 6.2.1 foi apresentado um procedimento para comparar a média de uma população
com um valor de referência, quando a variável em estudo segue uma distribuição normal com desvio padrão
populacional conhecido. A execução do teste de hipóteses consiste basicamente em comparar o valor observado
da média amostral X com o valor crítico definido pelo valor da distribuição de referência para o nível de
significância especificado.
De maneira similar, se a característica em estudo é dicotômica, isto é, se assume apenas dois
valores genericamente rotulados como “sucesso” ou “fracasso”, então a proporção amostral nxpp == pode
ser vista como uma espécie de média amostral (ou seja, como o número médio de sucessos na amostra), onde x
é o número de sucessos na amostra aleatória de tamanho . De fato, este resultado já foi comentado na Seção
6.1.2.3, quando foi derivada a expressão para o intervalo de confiança para uma proporção populacional
np .
Assim, procedimento de teste de hipóteses para esta situação é baseado na proporção amostral p e é similar ao
procedimento descrito na Seção 6.2.1. A utilização do Exemplo 6.6 facilita sua compreensão.
Exemplo 6.6 (didático): Um determinado hospital adquiriu um lote com uma grande quantidade de
seringas de um determinado fabricante, o qual garante que no máximo 10% das seringas que ele produz
apresentam algum defeito de fabricação. Entretanto, desconfiando da qualidade dessas seringas, o enfermeiro
responsável pela avaliação da qualidade do material hospitalar deseja avaliar se as seringas produzidas por esta
empresa de fato atendem esta especificação; em caso contrário, o lote de seringas deverá ser substituído. Para
tanto, o enfermeiro selecionou uma amostra de 80 seringas do referido lote, submetendo-as a vários testes para
verificar a presença ou não de defeitos de fabricação. Sabendo que dentre as 80 seringas examinadas 14
apresentaram algum problema, este lote deveria ser devolvido?
Deve-se ter em mente que trata-se de um teste de hipóteses e, consequentemente, a reposta
depende do nível de significância α . A solução pode ser melhor compreendida seguindo as etapas já
apresentadas nos testes de hipóteses anteriores:
1ª) Identificação da variável em estudo:
( )( )
= , sucessotuosa ga é defeisima serin, se a i-é
fracassoefeituosa ga não é dsima serin, se a i-éX i 1
0
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
112 onde é uma amostra aleatória de uma população tal que 8021 X,,X,X L [ ] pXP i == 1 e
. [ ] 10 ip, ∀−== 8021 ,,,XP i L=
A variável aleatória definida pelo número de sucessos na amostra é , onde ( p,B~XXi
i 8080
1∑=
= ) p é
verdadeira proporção de seringas defeituosas no lote ( p é desconhecida).
2ª) Especificar as hipóteses estatísticas:
%) (,do que igualnor ou lote é meituosas noingas defeção de ser: a proporH 10100 0
%) (,do que ior lote é maituosas noingas defeção de ser: a proporH 10100 1 ,
ou seja, contra 10000 ,p: pH =≤ 10001 ,p: pH => .
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de z tabelado: 641,ztab +=
5ª) Calcular o valor da estatística de teste:
O teste é baseado na distribuição de probabilidade da proporção de seringas defeituosas na
amostra, definida por nXp = , onde X é o número de sucessos, isto é, . No entanto,
pelo Teorema Central do Limite, a distribuição binomial pode ser aproximada pela distribuição normal; mais
precisamente, para um tamanho de amostra suficientemente grande, a distribuição de probabilidade da
proporção amostral
( p,B~XXi
i 8080
1∑=
= )
p é aproximadamente normal com média e variância np ( )n
pp −1.
Consequentemente, sob a hipótese nula 10000 ,p: pH =≤ e para n suficientemente
grande, p segue uma distribuição aproximadamente normal com média 81080 =×0 = ,np e com variância
( )00110901001 00 ,
n,,
npp
=×
=−
. Assim, sob a hipótese nula, a estatística de teste é dada por
( )n
pppp
EPpp
zp
calc00
00
1−−
=−
= ,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
113 devendo ser comparada com uma distribuição normal padrão. É importante salientar que a distribuição de
referência normal padrão é adequada apenas quando tamanho da amostra é grande. Uma maneira prática para
avaliar se o tamanho da amostra é suficientemente grande, ou seja, se a distribuição normal padrão é adequada,
é verificar se as condições e 50 ≥np ( ) 51 00 ≥− pnp estão satisfeitas. No exemplo em discussão, observe que
as condições acima estão satisfeitas, pois
58100800 >=×= ,np e ( ) 527900100801 00 >=××=− ,,,pnp
e, portanto, a distribuição normal padrão pode ser utilizada como distribuição de referência da estatística de
teste. Na amostra foram observadas 14 seringas defeituosas, de tal forma que a proporção amostral de seringas
defeituosas é
1808014 ,
nxp === .
Assim, a estatística de teste é determinada por
( )392
03350080
80900100
1001801 00
0 ,,,
,,,,
npp
ppzcalc ==
×−
=−
−= .
6ª) Decisão estatística:
Se ⇒ Rejeita-se para o nível tabcalc zz < 0H α fixado
Se ⇒ Não se rejeita para o nível tabcalc zz ≥ 0H α fixado.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
114
No exemplo, como 641 > 392 ,z,z tabcalc +== , então deve-se rejeitar a hipótese nula
, para o nível de significância de 5%. 10000 ,p: pH =≤
7ª) Conclusão:
Para o nível de significância 5%, há evidências de que a verdadeira proporção de seringas defeituosas
no lote é maior do que 0,10 (10%), contrariando a afirmação do fabricante. Consequentemente, por este critério
o lote deveria ser substituído.
Para finalizar, é conveniente apresentar as regiões de rejeição associadas aos outros tipos de
hipóteses estatísticas, para o teste de hipóteses utilizado para comparar uma proporção populacional com um
valor de referência , conforme disposto no Quadro 6.10. 0p
Quadro 6.10 – Hipóteses e respectivas regiões de rejeição para o teste para comparar uma proporção populacional com o valor de referência , para o nível de significância 0p .α
HIPÓTESES REJEITA-SE SE 0H
00 pp:H ≥ contra 01 pp:H <
( ) α−−
−= z
npp
ppzcalc <
1 00
0
00 pp:H ≤ contra 01 pp:H >
( ) α+>−
−= z
npp
ppzcalc
1 00
0
00 pp:H = contra 01 pp:H ≠
( )
( ) 200
0
200
0
> 1
ou
< 1
α
α
−
−=
−−
−=
z
npp
ppz
z
npp
ppz
calc
calc
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
115 6.2.6 Teste de Hipóteses sobre Duas Proporções Populacionais,
com Amostras Independentes (n grande)
O procedimento para comparação de duas médias populacionais com amostras
independentes apresentado na Seção 6.2.3 é útil na situação em que a característica em estudo apresenta resposta
contínua e com distribuição normal de probabilidade. Entretanto, se a resposta é dicotômica, outro teste de
hipóteses deve ser utilizado; o procedimento apresentado nesta seção pode ser utilizado quando as amostras são
suficientemente grandes.
Este tipo de situação é muito comum quando se deseja comparar a eficácia ou a equivalência
entre dois tratamentos (drogas, dietas, procedimentos cirúrgicos ou laboratoriais, etc.) e a resposta é dicotômica.
De fato, o procedimento é similar ao teste t descrito na Seção 6.2.3, porém é baseado na distribuição normal
padrão. É importante mencionar que trata-se de uma aproximação pela distribuição normal, motivo pelo qual
deve ser utilizado apenas quando as amostras são suficientemente grandes. Para definir e ilustrar o procedimento
de comparação das proporções populacionais, mediante duas amostras independentes, é conveniente utilizar o
exemplo descrito abaixo.
Exemplo 6.7: Um novo tratamento foi proposto para pacientes com determinada doença e um pesquisador
deseja avaliar se ele realmente é melhor do que um tratamento padrão. Para tanto, selecionou uma amostra
aleatória de 130 pacientes com a doença, aleatoriamente dividindo-os em dois grupos: um grupo constituído por
70 indivíduos, os quais foram submetidos ao tratamento padrão, enquanto que os outros 60 indivíduos foram
submetidos ao novo tratamento. Ao final do tratamento, verificou-se o número de indivíduos que estavam
recuperados da doença, constatando que dos 70 indivíduos que receberam o tratamento padrão, 50 estavam
recuperados. No grupo de pacientes submetidos ao novo tratamento, 51 estavam curados da doença. É possível
afirmar que o novo tratamento é mais eficaz do que o tratamento padrão?
Logicamente que esta pergunta deve ser respondida no contexto de um teste de hipóteses,
utilizando como critério de comparação a proporção de indivíduos recuperados da doença, para cada grupo.
Observe que os grupos claramente constituem duas amostras independentes, onde a resposta é dicotômica. Em
outras palavras, em cada um dos pacientes submetidos ao tratamento padrão a resposta ao final do tratamento é
“recuperado da doença” ou “não recuperado da doença”, que pode ser representada pela variável rotulada como
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
116
( )( )
=, sucessocuperou drão se retamento paido ao trante submetsimo pacie, se o i-é
fracassou e recuperodrão não stamento paido ao trante submetsimo pacie, se o i-éX i 1
0
onde representa a amostra aleatória de indivíduos submetidos ao tratamento padrão, tal que
e
7021 X,,X,X L
[ ] 11 p== XPXP i [ ] 702110 1 ,,, i, pi L=∀−== .
Analogamente, no grupo de pacientes submetidos ao novo tratamento, a resposta ao final do
tratamento pode ser representada por
( )( )
=, sucessoperou to se recuo tratamenido ao novnte submetsimo pacie, se o i-é
fracassorecuperou to não se o tratamenido ao novnte submetsimo pacie, se o i-éYi 1
0
onde representa a amostra aleatória de indivíduos submetidos ao novo tratamento, tal que
e
6021 Y,,Y,Y L
[ ] 21 p==YP i [ ] 602110 2 ,,, i, pYP i L=∀−== . Note que as probabilidades e são
desconhecidas, motivo pelo qual é necessário utilizar um teste de hipóteses para avaliar se de fato são diferentes.
1p 2p
No problema em questão, deseja-se avaliar se o novo tratamento é melhor do que o
tratamento padrão, ou seja, se a probabilidade de um indivíduo se recuperar da doença é maior quando é tratado
com o novo tratamento, em relação ao tratamento padrão. Assim, as hipóteses estatísticas podem ser formuladas
como
.pppp:H
pppp:H
0ou
0ou
21211
21210
<−<
≥−≥
O teste de hipóteses é baseado nas proporções amostrais 1p e 2p , pois para tamanhos de amostra
e n suficientemente grandes, as distribuições de probabilidade de 1n 2 1p e 2p podem ser aproximadas pela
distribuição normal. Assim, a estatística de teste é dada por
( )
+−
−=
2100
21
11 1nn
pp
ppzcalc ,
onde 21
22110 nn
pnpnp++
= é uma estimativa da proporção de sucessos populacional sob a hipótese nula. Quando
as amostras são suficientemente grandes, esta estatística de teste pode ser comparada com a distribuição normal
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
117 padrão. Na prática, um procedimento que é útil para avaliar se os tamanhos de amostras são suficientemente
grandes é verificar se estão satisfeitas as condições , , e
.
511 ≥pn ( ) 51 111 ≥− ppn 522 ≥pn
( ) 51 222 ≥− ppn
+
2
1n
70X,L
sucessocuperou u e recupero
1 X,X
drão se re( )
( ), fracasso
=, se o i-é, se o i-é
X i 10
[ 1XP i == ∑=
=70
1iiX
( )1 70 p,B~
7107050 ,=
Um resultado do cálculo de probabilidades garante que uma variável aleatória com
distribuição normal padrão, quando elevada ao quadrado, segue uma distribuição de probabilidade qui-quadrado
com 1 grau de liberdade. Assim, a estatística
( )
( )
−
−=
100
2212
1 1n
pp
ppZ
possui uma distribuição assintótica de qui-quadrado com 1 grau de liberdade. Este resultado implica que o teste
de hipóteses (bilateral) para comparar duas proporções populacionais com amostras independentes é equivalente
ao teste de homogeneidade de marginais mencionado na Seção 1.1 e que será apresentado na Seção 8.3. O leitor
interessado em discutir os aspectos teóricos do teste pode consultar, por exemplo, Costa Neto (1977, p.118) ou
Rohatgi (1976, p.446).
O problema apresentado no Exemplo 6.7 pode ser resolvido através das etapas descritas nas
seções anteriores, com segue:
1ª) Identificar as variáveis do problema:
Amostra de pacientes submetidos ao tratamento padrão: 701 =n ⇒ , onde 2 ,
tamento paido ao trante submetsimo paciedrão não stamento paido ao trante submetsimo pacie
tal que e ] 1p [ ] 702110 1 ,,, i, pXP i L=∀−== . Assim, representa o número de
pacientes submetidos ao tratamento padrão que se recuperaram da doença e . Na amostra,
X
X
501
1 nxpx ==⇒= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
118 Amostra de pacientes submetidos ao novo tratamento: 602 =n ⇒ Y , onde 6021 Y,,Y, L
( )( )
=, sucessoperou to se recuo tratamenido ao novnte submetsimo pacie, se o i-é
fracassorecuperou to não se o tratamenido ao novnte submetsimo pacie, se o i-éYi 1
0
tal que e [ ] 21 pYP i == [ ] 602110 2 ,,, i, pYP i L=∀−== . Assim, Y representa o número de
pacientes submetidos ao novo tratamento que se recuperaram da doença e
∑=
=60
1iiY
( )2p 60,B~Y . Na amostra,
8506051 51
22 ,
nypy ===⇒= .
2ª) Especificar as hipóteses estatísticas:
0H : a proporção de indivíduos que se recuperam da doença pelo tratamento padrão é maior ou igual do que a proporção de indivíduos que se recuperam da doença através do novo tratamento.
1H : a proporção de indivíduos que se recuperam da doença pelo novo tratamento é menor do que a
proporção de indivíduos que se recuperam da doença através do novo tratamento. ou seja,
.pppp:Hpppp:H
0ou 0ou
21211
21210
<−<≥−≥
3ª) Escolher o nível de significância: 050,=α
4ª) Estatística de teste valor de z tabelado: 641,ztab −=
Observe que as condições 57497107011 >=×= ,,pn , ( ) 5414290710701 111 >=××=− ,,,ppn
577 >
,
e 52559206022 >=×= ,,pn ( ) 150850601 222 =××=− ,,pp ,n estão satisfeitas, de tal forma que o
teste Z pode ser utilizado para comparar as duas proporções populacionais. Sob a hipótese nula, a estimativa
conjunta da proporção de pacientes recuperados é
8106070
9206071070
21
22110 ,,,
nnpnpnp =
+×+×
=++
= .
Assim, a estatística de teste é dada por
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
119
( )032
06900140
601
701190810
850710
11 121
00
21 ,,
,
,,
,,
nnpp
ppzcalc −=−
=
+××
−=
+−
−=
5ª) Decisão estatística:
Se rejeita-se em favor de 641 ⇒−=< ,zz tabcalc 210 pp:H ≥ 211 pp:H <Se não se rejeita . 641 ⇒−=≥ ,zz tabcalc 210 pp:H ≥
Como 641032 ,z,z tabcalc −=<−= , então deve-se rejeitar a hipótese nula rejeita-se
, para o nível de significância de 5%. 210 pp:H ≥
6ª) Conclusão:
A rejeição da hipótese nula , para o nível de significância de 5%, evidencia que a
proporção de indivíduos que se recuperam da doença é maior quando submetidos ao novo tratamento, ou seja, o
novo tratamento parece ser melhor do que o tratamento padrão.
210 pp:H ≥
De maneira similar aos testes anteriores, é conveniente apresentar as regiões de rejeição do
teste Z para comparação duas proporções populacionais com amostras independentes, considerando os demais
tipos de hipóteses estatísticas, conforme disposto no Quadro 6.11.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
120
Quadro 6.11 – Hipóteses e respectivas regiões de rejeição para o teste Z para comparar duas proporções populacionais com duas amostras independentes e nível de significância α.
HIPÓTESES REJEITA-SE SE 0H
contra 211210 pp:Hpp:H ≠=
( )
( )2
2100
21
2
2100
21
11 1
11 1
α
α
−<
+−
−=
+>
+−
−=
z
nnpp
ppz
ou
z
nnpp
ppz
calc
calc
contra 211210 pp:Hpp:H <≥( )
α−<
+−
−= z
nnpp
ppzcalc
2100
21
11 1
contra 211210 pp:Hpp:H >≤ ( )
α+>
+−
−= z
nnpp
ppzcalc
2100
21
11 1
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
121 7 Correlação e Regressão Linear Simples
Uma das situações que surge com grande freqüência no contexto biológico é a necessidade
de avaliar a existência de uma possível relação entre duas características quantitativas e, se for o caso,
determinar o grau dessa “relação”. Em outras palavras, deseja-se estudar o comportamento simultâneo entre
duas variáveis, com a finalidade de identificar se elas possuem algum tipo de relação ou, em determinadas
situações específicas, algum tipo de dependência.
A forma mais simples de relação entre duas variáveis quantitativas é a presença de uma
estrutura linear que descreve o comportamento simultâneo das variáveis. Sob condições controladas, é possível
estudar relações de causa e efeito entre as duas variáveis, caso em que se fala em estrutura de dependência
linear.
Neste capítulo serão brevemente discutidos dois métodos estatísticos para avaliar a
existência ou não de relação linear entre duas variáveis quantitativas. O primeiro, denominado de correlação
linear, é útil para medir o grau da relação linear entre as variáveis aleatórias. O segundo método é chamado de
regressão linear simples e pode ser utilizado para avaliar (e quantificar) a existência de uma estrutura de
dependência linear entre as variáveis; sob condições controladas, também é possível avaliar relações do tipo
causa e efeito.
7.1 Correlação Linear
O objetivo básico deste método estatístico é medir o grau em que duas variáveis aleatórias
quantitativas estão relacionadas segundo uma estrutura linear e, a partir deste valor, avaliar se esta relação linear
de fato existe na população. Para ilustrar o desenvolvimento e aplicação do método é conveniente considerar o
exemplo descrito por Daniel (1974, p.254).
Exemplo 7.1: Uma amostra de 25 pacientes foi selecionada ao acaso de uma população de indivíduos
hipertensos e, para cada indivíduo, foi observada a pressão sangüínea sistólica através de dois métodos,
denominados Método I e Método II. O objetivo é avaliar o grau de correlação linear entre os dois métodos
utilizados para medir a pressão sistólica. Os dados são mostrados na Tabela 7.1, onde também são apresentados
os cálculos básicos necessários para avaliar a existência de correlação linear. Note que a variável X representa as
medidas da pressão sistólica mediante o Método I, enquanto que Y representa as medidas da pressão sistólica
mediante o Método II.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
122
Tabela 7.1 – Medidas da pressão sangüínea sistólica realizadas através do Método I e do Método II para a amostra de 25 indivíduos hipertensos.
Paciente Método I ( )x
Método II( )y
2x 2y yx
1 132 130 17424 16900 17160 2 138 134 19044 17956 18492 3 144 132 20736 17424 19008 4 146 140 21316 19600 20440 5 148 150 21904 22500 22200 6 152 144 23104 20736 21888 7 158 150 24964 22500 23700 8 130 122 16900 14884 15860 9 162 160 26244 25600 25920
10 168 150 28224 22500 25200 11 172 160 29584 25600 27520 12 174 178 30276 31684 30972 13 180 168 32400 28224 30240 14 180 174 32400 30276 31320 15 188 186 35344 34596 34968 16 194 172 37636 29584 33368 17 194 182 37636 33124 35308 18 200 178 40000 31684 35600 19 200 196 40000 38416 39200 20 204 188 41616 35344 38352 21 210 180 44100 32400 37800 22 210 196 44100 38416 41160 23 216 210 46656 44100 45360 24 220 190 48400 36100 41800 25 220 202 48400 40804 44440
Total 4440 4172 808408 710952 757276 Fonte: Daniel (1974, p.254).
X: Pressão Sistólica (Método I)
240220200180160140120
Y: P
ress
ão S
istó
lica
(Mét
odo
II)
220
200
180
160
140
120
Figura 7.1 – Diagrama de dispersão da pressão sistólica medida atravésdo Método I e do Método II para a amostra de 25 pacientes hipertensos.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
123
O objetivo básico é avaliar se estes métodos são coerentes para medir a pressão sistólica dos
indivíduos. Observe que para cada indivíduo existe um par de valores ( )ii y,x que corresponde às medidas da
pressão sistólica realizadas pelo Método I e pelo Método II . Consequentemente, se o Método I e o Método II
são “coerentes” ou “equivalentes” para medir a pressão sistólica, então o valor deveria ser aproximadamente
igual ao valor , para todo .
ix
iy 2521 ,,,i L=
Um procedimento extremamente útil para visualizar o tipo de relação existente entre duas
variáveis quantitativas é o diagrama de dispersão. A Figura 7.1 mostra o diagrama de dispersão entre as medidas
da pressão sistólica realizadas pelo Método I e pelo Método II na amostra de 25 indivíduos hipertensos. Como
existe variabilidade nas respostas, a relação entre as variáveis pode ser avaliada através do coeficiente de
correlação linear de Pearson, que no caso amostral é definido por
∑∑
∑∑
∑∑∑
=
=
=
=
=
==
−×
−
−=
n
i
n
ii
i
n
i
n
ii
i
n
i
n
ii
n
ii
ii
n
yy
n
xx
n
yxyx
r
1
2
12
1
2
12
1
11
.
O coeficiente de correlação linear de Pearson é adimensional e assume valores no intervalo
. O caso extremo ( 1 1 +− , ) 1−=r corresponde a situação onde existe uma correlação negativa perfeita entre as
variáveis X e Y e é ilustrado na Figura 7.2. Por outro lado, no caso 1+=r existe correlação positiva perfeita
entre as variáveis X e Y, como ilustra a Figura 7.3.
X
Y
Figura 7.2 – Ilustração de correlaçãonegativa perfeita ( )1−=r entre asvariáveis aleatórias X e Y.
Fi
Prof. Álvaro Vigo – UFRGS – Departamento de Esta
X
Y
gura 7.3 – Ilustração de correlaçãopositiva perfeita ( entre asvariáveis aleatórias X e Y.
)1+=r
tística – Elementos de Bioestatística: Um Curso Introdutório
124
A inspeção visual da Figura 7.1 claramente revela a existência de uma correlação linear
positiva entre as medidas da pressão sistólica realizadas pelo Método I e pelo Método II. Para determinar o valor
da correlação linear é conveniente usar os resultados parciais apresentados na Tabela 7.1, de tal forma que
( ) ( )
.,,.,.
,.,.,..r
....
...r
n
yy
n
xx
n
yxyx
r
n
i
n
ii
i
n
i
n
ii
i
n
i
n
ii
n
ii
ii
9546067104178032816
6472814008641920947740276757
251724952710
254404408808
2517244404276757
22
1
2
12
1
2
12
1
11
==×
−=
−×−
×−
=
−×
−
−=
∑∑
∑∑
∑∑∑
=
=
=
=
=
==
Assim, constata-se que existe uma forte correlação linear entre as observações amostrais da
pressão sistólica realizadas através dos métodos em questão. Entretanto, este resultado permite apenas concluir
sobre a relação entre as variáveis na amostra; se o objetivo é avaliar a existência de correlação linear na
população, então é necessário realizar um teste de hipóteses sobre a correlação populacional, usualmente
denotada por . ρ
Neste momento é conveniente fazer algumas considerações teóricas sobre as exigências
necessárias para a avaliação da correlação linear. De fato, para calcular a coeficiente de correlação amostral não
é necessário fazer nenhuma suposição sobre a forma das distribuições de probabilidades das variáveis aleatórias
X e Y. Contudo, para testar hipóteses e construir intervalos de confiança para o coeficiente de correlação
populacional , os pares ρ ( ) ( ) ( )nn Y,X,,Y,X,Y,X 2211 L devem formar uma amostra aleatória extraída de uma
população com distribuição normal bivariada. Veja Zar (1996, p.374).
Neste curso não é possível abordar os aspectos teóricos da distribuição normal bivariada,
porém é conveniente ilustrar o seu comportamento genérico, conforme ilustração da Figura 7.4. Ao leitor
interessado sugere-se uma consulta à bibliografia clássica da análise multivariada, tais como Mardia, Kent e
Bibby (1979) ou Johnson & Wichern (1988).
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
125
Figura 7.4 – Comportamento genérico da função densidade( )y,xf da distribuição de probabilidade normal bivariada.
Embora seja possível testar vários tipos de hipóteses sobre a correlação populacional ρ ,
neste curso será abordado apenas o caso em que deseja-se verificar se a correlação é diferente de zero na
população. Em outras palavras, a partir do coeficiente de correlação amostral, deseja-se avaliar se existe
correlação linear na população, para o nível de significância α especificado. Os demais casos estão
extensamente descritos na literatura estatística, cabendo destacar Zar (1996, p.371), Daniel (1974, p.257) e
Costa Neto (1977, p.186).
Voltando ao Exemplo 7.1, deseja-se avaliar se na população de indivíduos hipertensos existe
correlação linear entre as leituras da pressão sistólica realizadas através do Método I e do Método II. As
hipóteses estatísticas podem ser formuladas como 00 =ρ:H e 01 ≠ρ:H . Assim, a rejeição da hipótese nula
significa que a amostra produziu evidências de que existe correlação linear na população, enquanto
que a não rejeição da hipótese nula evidencia que as variáveis em estudo não são linearmente correlacionadas na
população. O teste de hipóteses é baseado na estatística
00 =ρ:H
22 12
21 r
nr
nr
rtcalc−−
×=
−−
= ,
que sob a hipótese nula segue uma distribuição de probabilidade t de Student com graus de liberdade.
Para facilitar a execução do teste de hipóteses pode-se seguir as etapas descritas nas seções anteriores:
( 2−n )
1ª) Identificar as variáveis em estudo:
Método IIdida pelo stólica mepressão siYMétodo Idida pelo stólica mepressão siX
==
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
126
2ª) Especificar as hipóteses estatísticas:
⇒=ρ 00 :H Não existe correlação linear na população
⇒≠ρ 01 :H Existe correlação linear na população
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar os valores de t tabelado: 0692025023 ,t ,; −=− e t 0692025023 ,,; +=
5ª) Calcular o valor da estatística de teste:
( )3715
0621095460
225954601
95460 95460 e 252
,,,
,
,t,rn calc ==
−−
=⇒== .
6ª) Decisão estatística:
Se ( ) ( ) 2222 α−α−+≤≤− ;ncalc;n ttt ⇒ não se rejeita 00 =ρ:H
Se ( ) 22 α−−< ;ncalc tt ou ( ) 22 α−
+> ;ncalc tt ⇒ rejeita-se 00 =ρ:H em favor de 01 ≠ρ:H
Como , então deve-se rejeitar, para o nível de
significância de 5%.
0692 t3715 (23);0,025 ,,tcalc +=>= 00 =ρ:H
7ª) Conclusão:
Há evidências de que existe uma correlação positiva entre as medidas da pressão sistólica
realizadas pelo Método I e pelo Método II, na população de pacientes hipertensos, para o nível de significância
0,05. Como a correlação amostra é positiva ( 95460,r += ), então na medida que crescem os valores da pressão
arterial observados pelo Método I, também aumentam os valores observados pelo Método II, e vice-versa.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
127
Outra estatística que freqüentemente é útil para interpretar a intensidade ou força da
correlação linear entre duas variáveis quantitativas é o coeficiente de determinação, definido como o quadrado
do coeficiente de correlação linear de Pearson. No caso amostral, o coeficiente de determinação é denotado e
definido por 2r e usualmente é multiplicado por 100 para ser interpretado. Para os dados do Exemplo 7.1, o
coeficiente de determinação amostral é
( ) 91,13%1000,9113100 9113095460 222 =×=×⇒== r,,r
e significa que aproximadamente 91% da variabilidade das medidas da pressão sistólica realizadas pelo Método
I podem ser explicadas pela variabilidade das observações realizadas pelo Método II, e vice-versa.
7.2 Regressão Linear Simples
A origem da análise de regressão linear é devida ao cientista inglês Francis Galton (1822-
1911) e está intimamente relacionada com a análise de correlação linear. Pioneiro no estudo da correlação e
regressão linear, Galton desenvolveu esses procedimentos enquanto realizava estudos sobre herança genética.
Em particular no estudo da estatura humana, Galton descreveu a tendência da altura dos filhos (tanto filhos de
pais altos quanto filhos de pais baixos) “regredir” para a média da população em geral. De fato, a palavra
inicialmente utilizada por Galton para representar este fenômeno foi “reversion” e, depois, “regression”. Veja
Daniel (1974, p.224), Zar (1996, p.317, p.372).
A análise de regressão linear é uma técnica de análise estatística de dados extremamente útil
para investigar a dependência funcional de uma variável aleatória quantitativa em relação à outra característica
quantitativa. Se for razoável assumir uma estrutura linear para descrever o comportamento da variável
dependente em função da outra variável, então, sob certas condições, também é possível estimar o valor
esperado da variável dependente para um valor conhecido da variável explicativa.
No modelo de regressão linear simples existem duas variáveis sob investigação, usualmente
denominadas de variável dependente (Y) e de variável explicativa, independente, preditor ou regressor (X). Na
maioria dos problemas de pesquisa, contudo, a variável explicativa X é controlada pelo pesquisador, de tal
forma que não é caracterizada como uma variável aleatória. Em outras palavras, os valores da variável
explicativa são deliberadamente selecionados a priori pelo pesquisador, observando-se os correspondentes
valores da variável dependente e aleatória Y. É importante salientar que a escolha dos valores da variável
explicativa depende criticamente dos objetivos do estudo e, portanto, é uma etapa vital do delineamento do
experimento a ser conduzido.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
128
Para apresentar os aspectos metodológicos básicos do modelo de regressão linear é
conveniente utilizar o exemplo apresentado e discutido por Soares, Farias e Cesar (1991, p.265), descrito a
seguir. Trata-se de um conhecido conjunto de dados descrito na literatura de análise de regressão, relatando a
utilização de uma amostra aleatória de crianças para avaliar a relação funcional entre o grau de desenvolvimento
de crianças e a idade em que pronunciam a primeira palavra.
Exemplo 7.2: A Tabela 7.2 apresenta um conhecido conjunto de dados descrito na literatura de análise de
regressão, relatando a utilização uma amostra aleatória de 21 crianças para avaliar a relação funcional entre o
grau de desenvolvimento de crianças e a idade em que pronunciam a primeira palavra. O grau de
desenvolvimento da criança, medido através do escore Gessel de desenvolvimento, é a variável resposta ou
dependente Y, enquanto que a idade (em meses) ao pronunciar a primeira palavra é a variável explicativa X.
Sobre a relação funcional, naturalmente espera-se que na medida que aumenta a idade ao pronunciar a primeira
palavra, diminui o valor do escore Gessel de desenvolvimento. O objetivo, então, é avaliar se o modelo linear é
plausível para descrever esta estrutura funcional.
Tabela 7.2 – Observações do escore Gessel de desenvolvimento e a idade ao pronunciar a primeira palavra, para uma amostra de 21 crianças.
Criança nº
Idade (em meses) ao pronunciar a primeira
palavra ( )x
Escore Gessel de desenvolvimento
( )y
1 15 95 2 26 71 3 10 83 4 9 91 5 15 102 6 20 87 7 18 93 8 11 100 9 8 104
10 20 94 11 7 113 12 9 96 13 10 83 14 11 84 15 11 102 16 10 100 17 12 105 18 42 57 19 17 121 20 11 86 21 10 100
Fonte: Soares, Farias e Cesar (1991, p.265)
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
129
Para investigar se o modelo linear é plausível para representar a estrutura de dependência
entre o escore Gessel de desenvolvimento (Y) e a idade ao pronunciar a primeira palavra (X) na população,
recomenda-se fazer o diagrama de dispersão, mostrado na Figura 7.5. É um importante procedimento inicial,
pois a visualização do comportamento das observações amostrais pode indicar a forma e a intensidade da
relação entre a variável dependente Y e a variável explicativa X.
Idade Meses (X)
50454035302520151050
Esco
re d
e G
esse
l (Y)
130
120
110
100
90
80
70
60
50
Figura 7.5 – Diagrama de dispersão dos dados da Tabela 7.2.
A inspeção visual da Figura 7.5 sugere a existência de uma relação aproximadamente linear
entre a variável dependente e a variável explicativa, revelando a tendência já esperada de que o escore Gessel de
desenvolvimento decresce com o aumento da idade ao pronunciar a primeira palavra. No entanto, os dados
amostrais indicam apenas a possibilidade desta dependência linear existir na população. Em outras palavras, os
dados amostrais sugerem a possibilidade de que a verdadeira estrutura de dependência entre a variável
dependente Y e a variável explicativa X é linear, podendo ser representada pelo modelo
N,,,i;XY iii L21 =∀ε+β+α= ,
onde é o tamanho da população. Esta é a equação da reta e representa a N relação teórica entre as variáveis e
só pode ser conhecida se toda a população é estudada. O parâmetro α é chamado de intercepto e representa o
ponto onde a reta encontra-se com o eixo dos , ou seja o valor de quando y y 0=x
* +α=
*iy−
. Por sua vez, o parâmetro
é denominado coeficiente de regressão ou coeficiente angular e representa a inclinação da reta. Observe que
sob este modelo linear, para cada valor corresponde um valor teórico . Assim, a diferença
entre o valor observado e o valor teórico é a variável aleatória , que representa a parte da
β
ix ii xy β
iyiy *iy i =ε
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
130 variabilidade da variável dependente Y que não pode ser explicada pela variável explicativa X através do modelo
linear.
Observe que a resposta Y é uma variável aleatória, pois é uma função da variável aleatória
. Portanto, para cada valor a variável resposta Y pode assumir diversos valores, tal que existe uma
distribuição de probabilidade para estes valores. Tecnicamente falando, o modelo de regressão linear é uma reta
que considera o valor médio da variável dependente e aleatória Y, dado os valores não aleatórios da variável
explicativa
iε ix
x . Em outras palavras, a modelagem é relativa à esperança condicional [ ] ii xx|YE β+α= , onde
os valores da variável explicativa são considerados não aleatórios. As suposições básicas do modelo de
regressão são as seguintes:
a) o erro aleatório é uma variável aleatória com média zero e variância (desconhecida), isto é, iε2σ
( ) [ ] 22 e 0ou 0 σ=ε=εσε∀ iii VarE,~;i ;
b) para todo i ji,j εε≠ e são não correlacionadas; ou seja, ( ) 0 =εε≠∀ ji ,corrji .
As exigências dispostas nos itens (a) e (b) implicam que os erros aleatórios, também
chamados de resíduos do modelo, são não correlacionados, têm variância constante σ e sua distribuição de
probabilidade está centrada no valor zero.
2
Outra suposição, não estritamente necessária, é que a forma da distribuição de probabilidade
dos erros aleatórios seja normal, isto é, iε ( )20 σε ,N~i . Assim, para todo ji ≠ os erros aleatórios iε e jε
são independentes. Para um tamanho de amostra suficientemente grande, como resultado imediato do Teorema
Central do Limite apresentado no Capítulo 5, há uma tendência para que os resíduos sejam normalmente
distribuídos, tal que a suposição de normalidade pode ser averiguada mediante os resíduos do modelo.
Na prática, entretanto, trabalha-se com uma amostra aleatória que consiste em n pares de
observações , através dos quais deseja-se estimar os parâmetros e ( ) ( ) ( nn y,x,,y,x,y,x L2211 ) α β . O modelo
pode ser escrito como
n,,,i;xy iii L21 =∀ε+β+α= ,
sendo que para cada valor corresponde o resíduo ou desvio ix ( )iii xy β+α−=ε , que são as discrepâncias
entre o valor observado e o valor teórico especificado pelo modelo linear. No entanto, esses valores teóricos
também são desconhecidos, pois os parâmetros
iy
α e β são desconhecidos.
O método de estimação consiste essencialmente em escolher como estimadores de α e β os
valores que minimizam a soma dos quadrados dos desvios ( )iii xy β+α−=ε , sendo chamado de método de
mínimos quadrados. A estimação dos parâmetros do modelo encontra-se amplamente descrita na literatura, não
cabendo demonstrar neste momento; o leitor interessado pode consultar, por exemplo, Draper & Smith (1981,
p.13-18) ou Costa Neto (1977, p.193).
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
131 Assim, o estimador de mínimos quadrados do coeficiente de regressão β é
( )( )
( )∑
∑
∑∑
∑∑∑
=
=
=
=
=
==
−
−−=
−
−= n
ii
n
iii
n
iin
ii
n
i
n
ii
n
ii
ii
xx
yyxx
n
xx
n
yxyx
b
1
2
12
1
1
2
1
11
e o estimador de mínimos quadrados paro o intercepto α é xbya −= , onde n
yy
n
ii∑
== 1 e n
xx
n
ii∑
== 1 .
Uma vez estimados os parâmetros α e β , obtém-se a equação de regressão estimada ou
ajustada, dada por
ii bxay += .
Se a equação de regressão ajustada apresenta uma boa aderência aos dados observados, então
ela pode ser utilizada para representar a verdadeira relação funcional entre as variáveis; alguns critérios de
avaliação do ajuste serão descritos a seguir. Observe que mediante a substituição dos valores na equação de
regressão ajustada, podem ser obtidos os respectivos valores estimados . Assim, na prática são considerados
os desvios , onde
ix
iy
ne,,e,e L21 n,,,i;yye iii L21 =∀−= .
Neste momento é conveniente retomar os dados do Exemplo 7.2 para ilustrar o procedimento
de obtenção das estimativas dos parâmetros. A Tabela 7.3 apresenta os resultados dos cálculos intermediários,
bem como os valores estimados pelo modelo e os correspondentes desvios e quadrados dos desvios em relação
aos valores observados. A estimativa do coeficiente de regressão é dada por
( )12701
952621334231
213025606
21196730286426
22
1
1
2
1
11
,,.,..
n
xx
n
yxyx
bn
iin
ii
n
i
n
ii
n
ii
ii
−==
−
×−
=
−
−=
∑∑
∑∑∑
=
=
=
==
,
As médias amostrais são 679321
19671 ,n
yy
n
ii
===∑= e 3814
213021 ,
n
xx
n
ii
===∑= .
Assim, o intercepto é estimado por
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
132
( ) 88109211667933814127016793 ,,,,,,xbya =+=×−−=−= .
Portanto, a equação de regressão estimada ou ajusta é x,,y 1270188109 −= . Observe que o
coeficiente de regressão é negativo, expressando a direção da relação já esperada, ou seja, que o grau de
desenvolvimento da criança decresce com o aumento da idade ao falar a primeira palavra.
É importante salientar que para poder utilizar o modelo de regressão para representar a
verdadeira relação funcional entre as variáveis na população, não é suficiente determinar a equação de regressão
ajustada. Em outras palavras, antes de estender os resultados para a população, é imprescindível avaliar a
qualidade ou precisão da reta ajustada, sob pena de cometer erros grosseiros nas conclusões. Em resumo, deseja-
se avaliar se o modelo ajustado é válido para a população, o que pode ser feito através de um teste de hipóteses
sobre a significância do coeficiente de regressão, chamado de teste de significância da regressão.
Tabela 7.3 – Observações do escore Gessel de desenvolvimento e da idade na amostra de 21 crianças do Exemplo 7.2 e demais cálculos intermediários para o ajuste do modelo de regressão linear simples.
Criança ix iy 2ix
2iy ii yx iy iii yye −=
2ie
1 15 95 225 9025 1425 92,97 2,03 4,122 26 71 676 5041 1846 80,57 -9,57 91,633 10 83 100 6889 830 98,60 -15,60 243,484 9 91 81 8281 819 99,73 -8,73 76,235 15 102 225 10404 1530 92,97 9,03 81,566 20 87 400 7569 1740 87,33 -0,33 0,117 18 93 324 8649 1674 89,59 3,41 11,648 11 100 121 10000 1100 97,48 2,52 6,379 8 104 64 10816 832 100,86 3,14 9,87
10 20 94 400 8836 1880 87,33 6,67 44,4311 7 113 49 12769 791 101,98 11,02 121,3312 9 96 81 9216 864 99,73 -3,73 13,9213 10 83 100 6889 830 98,60 -15,60 243,4814 11 84 121 7056 924 97,48 -13,48 181,6315 11 102 121 10404 1122 97,48 4,52 20,4616 10 100 100 10000 1000 98,60 1,40 1,9517 12 105 144 11025 1260 96,35 8,65 74,8218 42 57 1764 3249 2394 62,54 -5,54 30,6919 17 121 289 14641 2057 90,72 30,28 917,1820 11 86 121 7396 946 97,48 -11,48 131,7221 10 100 100 10000 1000 98,60 1,40 1,95
Σ 302 1967 5606 188155 26864 1967 0,00 2308,59
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
133
Também é importante realizar a análise dos resíduos do modelo para avaliar a adequação da
suposição de normalidade e homogeneidade de variâncias, bem como verificar a eventual existência de pontos
de influência ou pontos de alavanca que poderiam causar perturbações no ajuste do modelo e,
consequentemente, nas generalizações ou predições realizadas. No entanto, estes tópicos estão fora dos
objetivos do curso, sendo abordados apenas alguns aspectos básicos. Ao leitor interessado recomenda-se
consultar a literatura de análise de regressão, cabendo destacar Draper & Smith (1981).
Se o modelo ajustado é plausível, então os resíduos devem exibir tendências que confirmem
as suposições do modelo; ou seja, devem sugerir que o modelo está correto. A normalidade dos resíduos é
necessária para poder realizar o teste de significância da regressão. Assim, para avaliar a adequação da
normalidade dos resíduos, pode-se realizar os procedimentos gráficos já descritos (Q-Q plot, histograma,
diagrama de pontos, etc.); outra alternativa é utilizar um teste de aderência. Na análise de regressão é mais
comum a utilização de gráficos para o exame dos resíduos.
Convém lembrar que a suposição sobre os resíduos é que eles devem seguir uma distribuição
normal com média zero e variância igual a , isto é, 2σ ( )20 σε ,N~i . Assim, os resíduos padronizados seguem
uma distribuição normal padrão, ou seja, ( 10,Nσε )~i . Se o modelo ajustado está correto, então o desvio padrão
pode ser estimado pela raiz quadrada do quadrado médio dos desvios, definida por σ
( )
221
2
1
2
−==
−
−=
∑∑==
n
e
n
yys
n
ii
n
ii
.
A variável definida como se
r ii = é chamada de resíduo padronizado e tem distribuição
normal padrão, podendo ser usada para avaliar as violações da normalidade. A Figura 7.6 mostra o Q-Q plot
para os resíduos padronizados gerados pelo modelo de regressão ajustado aos dados do Exemplo 7.2, revelando
que a suposição de normalidade parece razoavelmente plausível. Note, porém, que existe um ponto discrepante,
o qual corresponde a observação número 19, devendo ser cuidadosamente inspecionada.
Como a suposição de normalidade parece estar satisfeita, pode-se então construir intervalos
de confiança e testar hipóteses sobre os parâmetros populacionais α e β . Em particular, deseja-se realizar o
teste de significância da regressão já mencionado, com a finalidade verificar se a tendência linear captada pelo
modelo ajustado não é devida ao acaso. Em outras palavras, deseja-se testar se o verdadeiro coeficiente de
regressão (a inclinação da reta) na população é diferente de zero. Observe que se a verdadeira inclinação da reta
é igual a zero (isto é, se 0=β ), então a variável Y não depende linearmente da variável X; de fato, neste caso a
média de Y é igual para todos os valores de X.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
134
Resíduo Padronizado Observado
3210-1-2
Val
or E
sper
ado
pela
Nor
mal
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Figura 7.6 – Q-Q plot dos resíduos padronizados gerados
pelo modelo linear ajustado aos dados do Exemplo 7.2
As hipóteses do teste de significância da regressão são
XarelaçãoY emea linear ddependênci existe :HXarelaçãoY emar deência lineste depend não exi :H
0 0
1
0
⇒≠β⇒=β
e o teste é baseado na estatística de teste ^
bEP
bT β−= que tem uma distribuição t de Student com 2−n graus de
liberdade, onde é o erro padrão do coeficiente de regressão estimado na amostra, definido por ^
bEP
( )( )
( )
−−
−=
−
−
−
=
−
=
∑∑
∑
∑∑
∑
∑∑
=
=
=
=
=
=
=
=n
i
n
ii
i
n
ii
n
i
n
ii
i
n
ii
n
i
n
ii
i
^
b
n
xxn
yy
n
xx
n
yy
n
xx
sEP
1
2
12
1
2
1
2
12
1
2
1
2
12 2
2 ,
mas também pode ser escrito como
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
135
( )
−−
−−
=
∑∑
∑ ∑ ∑
=
=
= = =
n
i
n
ii
i
n
i
n
i
n
iiiii^
b
n
xxn
yxbyayEP
1
2
12
1 1 1
2
2
.
O teste de hipóteses pode ser executado através das etapas descritas anteriormente, ou seja:
1ª) Identificar as variáveis em estudo:
a palavra a primeirpronunciarmeses) ao idade (em Xdente)ças (depen das crianvolvimentosendeGessel de escore de Y
==
2ª) Especificar as hipóteses estatísticas:
XarelaçãoY emea linear ddependênci existe :HXarelaçãoY emar deência lineste depend não exi :H
0 0
1
0
⇒≠β⇒=β
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar os valores de t tabelado: 0932025019 ,t ,; −=− e t 0932025019 ,,; +=
5ª) Calcular o valor da estatística de teste: ( )2−= n^
b
calc t~EP
bt
( )
( )
( )31020
1023996592308
21302560619
592308
2
2
1
2
12
1
2
,,
,,
n
xxn
yyEP
n
i
n
ii
i
n
ii^
b ==
−×
=
−−
−=
∑∑
∑
=
=
= ,
de tal forma que 6333102012701 ,
,,
EP
bt ^
b
calc −=−
== .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
136
6ª) Decisão estatística:
Se ( ) ( ) 2222 α−α−+≤≤− ;ncalc;n ttt ⇒ não se rejeita 00 =β:H
Se ( ) 22 α−−< ;ncalc tt ou ( ) 22 α−
+> ;ncalc tt ⇒ rejeita-se 00 =β:H em favor de 01 ≠β:H
Como 0932633 (19);0,025 ,t,tcalc −=−<−= , então deve-se rejeitar, para o nível de
significância de 5%.
00 =β:H
7ª) Conclusão:
Há evidências de que na população em estudo existe uma estrutura de dependência linear
entre o escore Gessel de desenvolvimento das crianças e a idade (em meses) ao pronunciar a primeira palavra,
para o nível de significância 5%. Esta dependência linear pode ser representada pela equação de regressão
estimada x,,y 1270188109 −= que é interpretada da seguinte forma: para cada acréscimo de um mês na idade
que a criança pronuncia a primeira palavra, o escore Gessel de desenvolvimento diminui 1,1270 unidades.
Uma vez que o modelo foi validado, ele pode ser usado para fazer predições, ou seja, para
estimar o valor médio da variável dependente Y para um determinado valor da variável explicativa X. No
exemplo em discussão, o pesquisador poderia estar interessado em estimar o valor médio do escore Gessel de
desenvolvimento para uma determinada idade em que a criança pronuncia a primeira palavra. Por exemplo, para
uma criança que pronuncia a primeira palavra aos 20 meses de idade, o escore médio de desenvolvimento é
33872012701881091270188109 ,,,x,,y =×−=−= .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
137
Entretanto, é preciso ter extrema cautela ao fazer predições, não sendo recomendado estimar
a média de Y para valores de X fora da região de valores observados na amostra. Ao invés de estimativas
pontuais, é preferível obter estimativas por intervalo, já que os intervalos de confiança para a média de Y levam
em conta o aumento da variabilidade na medida que os valores dos preditores se afastam da média x .
Para finalizar, é importante salientar alguns aspectos: existem diversos procedimentos para
análise de resíduos e diagnóstico de regressão, mediante os quais é possível detectar perturbações no modelo
ajustado e identificar as ações corretivas. A maioria destas técnicas é baseada em procedimentos gráficos ou
necessitam cálculos exaustivos, de tal forma que são factíveis apenas mediante a utilização de procedimentos
computacionais. Também não foram considerados outros aspectos da análise de regressão linear, tais como
intervalos de confiança para os parâmetros α e β , intervalos de confiança para a média de Y para um dado
valor x ou intervalos de precisão para uma nova observação. Outros aspectos que também não foram
explorados são multicolinearidade, estimação do erro puro na presença de repetições genuínas, transformações
nas variáveis, regressão inversa e a generalização do modelo para a Regressão Linear Múltipla, mediante a
incorporação de outras variáveis no modelo. Diante do interesse ou da necessidade de detalhar a metodologia da
análise de regressão, recomenda-se consultar a extensa literatura da área – veja, por exemplo, Draper & Smith
(1981), Johnson & Wichern (1988, p.273-339), Zar (1996, p.317-447), Soares, Farias e Cesar (1991, p.263-
279).
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
138 8 Análise de Dados Categóricos
Na Seção 1.2 foram apresentadas as definições básicas dos tipos de variáveis que
freqüentemente surgem em investigações científicas, destacando que estão diretamente relacionadas à escala de
medida utilizada para observá-las. Recordando, as variáveis medidas em escala nominal ou ordinal são
classificadas como variáveis qualitativas, enquanto que variáveis medidas através da escala de intervalo ou da
escala de razão são chamadas de variáveis quantitativas.
No Capítulo 6 foram apresentados alguns procedimentos básicos para avaliar a existência de
diferenças entre dois tratamentos (drogas, dietas, métodos cirúrgicos, procedimentos laboratoriais, etc.) quando
a resposta é contínua, mediante a comparação das médias populacionais. Ainda, para avaliar a relação entre
variáveis quantitativas, no Capítulo 7 foram apresentadas as técnicas estatísticas chamadas de correlação e
regressão linear.
Entretanto, em muitas situações práticas as características nas quais o pesquisador está
interessado não podem ser adequadamente medidas na forma quantitativa, tal que as variáveis são observadas
através de um conjunto disjunto de categorias, dando origem às denominadas variáveis categóricas ou
qualitativas. O conjunto de informações sobre um fenômeno aleatório observado através de variáveis
categóricas é chamado de dados categóricos ou dados qualitativos. Usualmente são organizados em tabelas de
contingência, as quais consistem essencialmente nas freqüências de indivíduos observadas em cada uma das
categorias mutuamente exclusivas e exaustivas das variáveis ou do cruzamento de duas ou mais variáveis.
Alguns estudos reais que envolvem a observação de variáveis categóricas foram brevemente
comentados na Seção 1.1, destacando os exemplos relativos aos dados dispostos na Tabela 1.1 e na Tabela 1.3,
os quais serão retomados nas próximas seções.
Neste capítulo serão apresentados alguns métodos estatísticos básicos para a análise de dados
categóricos, destacando o teste de aderência, o teste de independência e o teste de homogeneidade de
populações. Convém ressaltar que os métodos de análise abordados não levam em conta a ordem das categorias
das variáveis envolvidas, ou seja, tratam as variáveis como nominais. Ao leitor que deseja aprofundar o estudo
sobre métodos de análise estatística de dados qualitativos sugere-se consultar a literatura estatística clássica, tais
como Agresti (1990), Agresti (1984), Everitt (1992) ou Hosmer & Lemeshow (1989).
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
139 8.1 Teste de Aderência
Neste tipo de teste de hipóteses, a partir dos dados observados na amostra deseja-se avaliar
se a distribuição de probabilidade da variável sob investigação está de acordo com a distribuição especificada
sob a hipótese nula. Em outras palavras, deseja-se verificar se os dados observados na amostra apresentam uma
boa aderência ao modelo probabilístico especificado. Em caso afirmativo, pode-se utilizar o modelo postulado
para descrever a distribuição de probabilidade na população, mas em caso contrário, o modelo probabilístico
postulado é inadequado.
Existem diversas maneiras de realizar testes de aderência, dentre os quais destacam-se o teste
de aderência, o teste de Kolmogorov-Smirnov e procedimentos gráficos. De fato, um procedimento gráfico
para avaliar a aderência dos dados à distribuição normal de probabilidade, denominado de Q-Q plot, já foi
apresentado nos capítulos anteriores. Procedimentos similares também estão disponíveis para outras
distribuições de probabilidade, porém requerem a utilização de procedimentos computacionais, os quais estão
disponíveis nos pacotes estatísticos tradicionais (SPSS, S-Plus, SAS, etc.).
2χ
Nesta seção será abordado apenas o teste de aderência baseado na estatística de Pearson,
o qual foi introduzido por Karl Pearson em 1900 e é considerado um dos primeiros métodos de inferência
estatística. Os demais procedimentos estão amplamente descritos na literatura, cabendo destacar Agresti (1990,
p.42), Daniel (1974, p.302), Zar (1996, p.457), Mood, Graybill e Boes (1974, p.442) e Costa Neto (1977,
p.130).
2χ
Para desenvolver os aspectos metodológicos do teste de aderência é conveniente utilizar o
exemplo hipotético abaixo, onde deseja-se avaliar se a ocorrência de acidente de trabalho entre os membros da
equipe de enfermagem de determinado hospital é igualmente provável em todos os dias da semana.
Exemplo 8.1: Devido às características intrínsecas da atividade, acidentes de trabalho envolvendo enfermeiros
e assistentes de enfermagem de um hospital constituem um enorme risco para a saúde dos membros da equipe
de enfermagem. Assim, na implementação de um programa de redução de acidentes no Hospital HC foi
estabelecido, como procedimento inicial, a identificação do dia da semana em que os acidentes acontecem. O
objetivo é avaliar se a ocorrência de acidentes de trabalho é igualmente provável em todos os dias da semana;
caso contrário, a identificação das causas e ações preventivas deveriam ser adotas para evitar acidentes,
especialmente nos dias em que ocorrem com maior freqüência. As informações relativas aos acidentes ocorridos
nos últimos 12 meses no Hospital HC foram obtidas junto aos registros do hospital. Em particular, considere os
dados da Tabela 8.1 que contém a distribuição de freqüências de acidentes com seringas que ocorreram nos
diferentes dias da semana. Para o nível de significância de 5%, é possível afirmar que a probabilidade de ocorrer
acidentes com seringas é igual para todos os dias da semana?
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
140
Tabela 8.1 – Freqüências de acidentes com seringas ocorridos nos últimos 12 meses entre enfermeiros e assistentes de enfermagem do Hospital HC, de acordo como dia da semana.
Dia da Semana Número de Acidentes Observados ( )iO
Segunda-feira 3
Terça-feira 2
Quarta-feira 5
Quinta-feira 5
Sexta-feira 4
Sábado 9
Domingo 12
Total 40 Nota: Dados fictícios.
Neste problema, a hipótese nula especifica que o número de acidentes é igual em todos os
dias da semana, o que resultaria que a chance do acidente com seringa acontecer em uma segunda feira, por
exemplo, é igual à chance de ocorrer em qualquer outro dia da semana. Em outras palavras, se de fato a
probabilidade de acontecer um acidente com seringa é igual para todos os dias da semana, então o número de
acidentes deveria ser aproximadamente equivalente para todos os dias. Os dados observados é que vão
evidenciar se a hipótese nula é verdadeira ou não, mediante a comparação do número de acidentes observados
em cada dia da semana com o correspondente número de acidentes esperados se a hipótese nula é verdadeira.
É importante observar que não está sendo modelada a probabilidade de um acidente
acontecer, mas sim a probabilidade do dia da semana em que o acidente ocorre. Assim, a variável aleatória sob
consideração é o “dia da semana em que o acidente ocorre”, observada através das sete categorias mutuamente
exclusivas e exaustivas, correspondentes ao dia da semana, isto é, Segunda, Terça, Quarta, Quinta, Sexta,
Sábado, Domingo. Portanto, o espaço amostral é
=Ω Segunda, Terça, Quarta, Quinta, Sexta, Sábado, Domingo.
Por simplicidade, considere a variável aleatória X: dia da semana em que o acidente ocorre,
tal que a hipótese nula que os dias da semana são equiprováveis pode ser escrita como
[ ] [ ] [ ]
[ ] [ ] [ ] [ ] .gominDoXPSábadoXPSextaXPaintQuXP
QuartaXPTerçaXPSegundaXP:H o
71 ========
======
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
141
Por outro lado, a hipótese alternativa especifica que a probabilidade do dia da semana em
que o acidente ocorre é diferente de 71 , para pelo menos um dia da semana. Alternativamente, as hipóteses
podem ser escritas através das freqüências de acidentes em cada dia da semana, ou seja,
.anaias da semtodos os dIGUAIS em SÃOOidentes NÃcias de acas freqüên:Hanaias da semtodos os dIGUAIS em Oidentes SÃcias de acas freqüên:H
1
0
As freqüências esperadas sob a hipótese nula são determinadas multiplicando o número de
acidentes observados na amostra pela probabilidade do acidente ocorrer no dia da semana correspondente. No
exemplo, os dias da semana são equiprováveis quanto à ocorrência de acidente com seringas, tal que as
freqüências esperadas são tais que
7157140
71 ,nEi =×=×= ,
onde o índice i indica os diferentes dias da semana. Isto significa que se a hipótese nula é verdadeira, então
deveriam ser esperados 5,71 (aproximadamente seis) acidentes em cada dia da semana.
Note que existem discrepâncias entre as freqüências observadas O e as freqüências
esperadas , tal que quanto maiores as diferenças entre elas, então maiores as evidências de que a hipótese
nula é falsa. Reciprocamente, se as freqüências observadas estão próximas das respectivas freqüências
esperadas, então os dados amostrais evidenciam a veracidade da hipótese nula. Assim, a estatística de teste é
baseada nas diferenças entre as freqüências observadas e esperadas sob a hipótese nula, sendo definida por
i
iE
( )∑=
−=χ
C
i i
iicalc E
EO
1
22 .
Esta estatística é chamada de estatística de Pearson e, sob a hipóse nula, segue uma
distribuição de probabilidade de qui-quadrado com
2χ
1−C graus de liberdade, onde é o número de categorias
da variável em estudo. É vital mencionar que a adequação da distribuição qui-quadrado como distribuição de
referência desta estatística depende de algumas condições que serão detalhadas posteriormente. Naturalmente, a
decisão estatística do teste de hipóteses deve ser tomada levando-se em consideração o nível de significância
C
α
fixado.
Para a execução do teste de hipóteses podem ser utilizadas as etapas consideradas
anteriormente, como descrito a seguir:
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
142
1ª) Identificar a variável em estudo:
X: dia da semana em que o acidente ocorre, observado mediante as seguintes categorias:
Segunda, Terça, Quarta, Quinta, Sexta, Sábado, Domingo
2ª) Especificar as hipóteses estatísticas:
.anaias da semtodos os dIGUAIS em SÃOOidentes NÃcias de acas freqüên:Hanaias da semtodos os dIGUAIS em Oidentes SÃcias de acas freqüên:H
1
0
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de χ tabelado: Como a variável em estudo tem C categorias de
resposta, então a estatística de teste deve ser comparada com a distribuição qui-quadrado com
2 7=
61 =−C
graus de liberdade, isto é, ( )∑
=
χ−
=C
i i
ii ~E
EO
1
26
2
χcalc2 . Assim, para 050,=α o valor tabelado é
, onde χ representa o valor da distribuição de probabilidade qui-quadrado com 5921220506 ,,; =χ 2
r( α); r
graus de que delimita a área a sua direita. α
5ª) Calcular o valor da estatística de teste:
Dia da Semana
Freqüência Observada
( )iO
Freqüência Esperada ( )iE
( )ii EO −
( )2ii EO −
( )2
i
ii
EEO −
Segunda-feira 3 5,71 -2,71 7,37 1,29
Terça-feira 2 5,71 -3,71 13,80 2,41
Quarta-feira 5 5,71 -0,71 0,51 0,09
Quinta-feira 5 5,71 -0,71 0,51 0,09
Sexta-feira 4 5,71 -1,71 2,94 0,51
Sábado 9 5,71 3,29 10,80 1,89
Domingo 12 5,71 6,29 39,51 6,91
Total 40 40 0 13,2
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
143
A tabela acima apresenta os cálculos intermediários e o valor observado para a estatística de teste, tal que
( )∑=
=+++=−
=χ7
1
22 213916412291
i i
iicalc ,,,,
EEO
L .
6ª) Decisão estatística:
Se ⇒ rejeita-se para o nível ( )2
12
α−χ>χ ;Ccalc 0H α fixado, em favor de 1H
Se ⇒ não se rejeita para o nível ( )2
12
α−χ≤χ ;Ccalc 0H α fixado
No exemplo, χ , então deve-se rejeitar a hipótese nula para o nível de
significância 5%.
59212213 20506
2 ,, ,;calc =χ>=
7ª) Conclusão:
Há evidências de que no Hospital HC o número de acidentes com seringas entre os enfermeiros
e assistentes de enfermagem não é igual nos diferentes dias da semana, para o nível de significância 5%. Note
que o número de acidentes que ocorrem aos domingos é muito superior à freqüência que seria esperada,
sugerindo que acidentes com seringas ocorrem com maior freqüência aos domingos do que nos demais dias.
Quanto às causas do aumento do número de acidentes aos domingos, seria possível especular sobre dois motivos
iniciais: a) aos domingos existe um menor número de profissionais trabalhando, ficando sobrecarregados; ou, b)
as escalas de trabalho contemplaram profissionais com menos consciência ou treinamento para reduzir os riscos
acidentes.
Para finalizar, convém mencionar que o teste de aderência pode ser útil em um grande
número de situações práticas, podendo ser utilizado, por exemplo, para avaliar se a distribuição normal de
probabilidade é plausível para representar a verdadeira distribuição de probabilidade de uma característica
contínua. Um exemplo para tipo de aplicação é detalhadamente apresentado por Daniel (1974, p.302). As
condições necessárias para usar a distribuição qui-quadrado como distribuição de referência da estatística de
Pearson serão apresentadas na Seção 8.4.
2χ
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
144 8.2 Teste de Independência
Um problema muito comum envolvendo variáveis qualitativas surge quando os
indivíduos que formam a amostra aleatória são classificados segundo duas ou mais variáveis categóricas e
deseja-se avaliar se estas variáveis são estatisticamente independentes ou se estão associadas de alguma
maneira. No caso em que são consideradas apenas duas variáveis, a independência entre elas pode ser avaliada
através do teste de independência ou de associação que será abordado nesta seção. Porém, quando há o
interesse de considerar simultaneamente mais variáveis, recomenda-se a utilização de métodos estatísticos mais
elaborados, tais como modelos log-lineares, regressão logística ou análise de correspondências. Devido às
limitações de tempo, não será possível explorar estas técnicas de análise; ao leitor interessado sugere-se
consultar, por exemplo, Everitt (1992, p.73), Hosmer & Lemeshow (1989), Escofier & Pagès (1992), Lebart,
Morineau e Piron (1995).
n
2χ
Na Seção 1.1 foi apresentado o estudo observacional que trata da classificação de 1398
crianças segundo o tamanho relativo de amígdala e se eram ou não portadoras da bactéria Streptococcus
pyogenes, cujos dados estão dispostos na Tabela 1.1. Este exemplo será retomado para apresentar o
desenvolvimento do teste χ de independência no contexto de duas variáveis categóricas. 2
Exemplo 8.2: Este estudo observacional foi conduzido para avaliar a relação entre a presença da bactéria
Streptococcus pyogenes e o aumento das amígdalas em crianças. Por conveniência, a Tabela 8.2 reproduz os
dados referentes à classificação de 1398 crianças entre 0 a 15 anos de acordo com o tamanho relativo de suas
amígdalas e com a característica “portadora” ou “não portadora” de Streptococcus pyogenes. A informação foi
inicialmente apresentada por Holmes & Williams (1954) e os dados têm sido amplamente analisados na
literatura, tais como por Armitage (1955), Armitage (1974), McCullagh (1980) e Vigo (1994).
O objetivo básico é identificar se o aumento das amígdalas em crianças está ou não
associado à presença da bactéria Streptococcus pyogenes. Em particular, deseja-se avaliar se crianças portadoras
da bactéria possuem maior risco de apresentar amígdalas aumentadas. Contudo, face às limitações naturais do
curso, será apresentada apenas a análise através do teste de independência; o leitor interessado em
aprofundar a discussão da análise do problema é convidado a consultar as referências citadas, nas quais são
relatados os resultados mediante a utilização de métodos estatísticos mais sofisticados.
2χ
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
145
Tabela 8.2 – Freqüências de indivíduos segundo o tamanho relativo das amígdalas e a presença de Streptococcus pyogenes.
Streptococcus Tamanho relativo da amígdala
pyogenes Presente mas não aumentada
Aumentada Grandemente aumentada
Total
Portadoras 19 29 24 72
Não portadoras 497 560 269 1326
Total 516 589 293 1398
Fonte: McCullagh (1980).
Na Seção 3.1 foi apresentada a definição de independência entre dois eventos A e B
pertencentes ao mesmo espaço de probabilidade Ω . Esta definição especifica que os eventos A e B são
independentes se e somente se a probabilidade de ocorrência simultânea é igual ao produto das probabilidades
individuais, ou seja, se [ ] [ ] [ ]BPAPBAP ×=∩ .
Essa definição de independência pode ser estendida para o caso de duas variáveis aleatórias
discretas, tal que as variáveis categóricas X e Y são independentes se e somente se a sua distribuição conjunta é
o produto das distribuições de probabilidade marginais.
Para facilitar a compreensão, considere o caso populacional com duas variáveis categóricas
X e Y observadas mediante e C categorias disjuntas, respectivamente. Seja a probabilidade de que um
indivíduo da população tenha simultaneamente a característica i da variável X e a característica j da variável Y,
para todo e para todo , ou seja,
L ijp
L,,,i L21= C,,,j L21=
( ) ( )[ ] ,C,, j,L e ,, i; jYiXPpij LL 2121 =∀=∀=∩== .
A distribuição de probabilidade conjunta das variáveis categóricas X e Y pode ser
organizada como na Tabela 8.3. Note que as probabilidades conjuntas estão dispostas no corpo da tabela,
enquanto que o total linha contém a distribuição marginal da variável Y e o total coluna contém a distribuição
marginal da variável X. Assim, pela notação apresentada a distribuição de probabilidade da variável X é dada
por
ijp
[ ] L,,,i;iXP.pi L21 =∀==
e a distribuição de probabilidade da variável Y é
[ ] C,,,;jYP.p j L21j =∀== .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
146
Tabela 8.3 – Distribuições de probabilidades conjunta e marginal das variáveis categóricas X e Y.
Categorias da Variável Y Categorias da
Variável X 1 2 ... C
Total
1 11p 12p ... Cp1 .p1
2 21p 22p ... Cp2 .p2
M M M M M
L 1Lp 2Lp ... LCp . pL
Total 1.p 2.p ... C.p 1
O critério de independência para variáveis discretas, mencionado acima, especifica que as
variáveis categóricas X e Y são independentes se e somente se as probabilidades conjuntas são iguais ao produto
das correspondentes probabilidades marginais, podendo ser escrito como
( ) ( )[ ] [ ] [ ] ,C,, j ,L ,, i; jYPiXPjYiXP LL 21e21 =∀=∀=×===∩= ,
ou, equivalentemente, ,C,, j ,L ,, i.p.pp jiij LL 21e21 ; =∀=∀×= .
No teste χ de independência a hipótese nula especifica que as variáveis em estudo são
independentes, enquanto que a hipótese alternativa postula que existe associação entre as variáveis.
Consequentemente, as hipóteses estatísticas podem ser escritas por
2
⇒=∀=∀×= 21 e 21 0 C,,,jL,,,i;.p.pp:H jiij LL as variáveis são independentes
⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas.
De forma similar ao teste de aderência apresentado na Seção 8.1, o teste χ de
independência também é baseado na estatística χ de Pearson, porém é definida de maneira levemente
diferente, ou seja,
2
2
( )∑ ∑= =
−=χ
L
i ij
ijijC
jcalc E
EO
1
2
1
2 ,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
147 onde e representam, respectivamente, a freqüência observada e a freqüência esperada da célula de
contingência associada à categoria i da variável linha (X) e à categoria j da variável coluna (Y).
ijO ijE
A Tabela 8.4 ilustra a situação genérica onde os indivíduos da amostra são classificados
segundo as variáveis X e Y. Assim, esta tabela informa o número de indivíduos observados em cada célula de
contingência resultante do cruzamento das duas variáveis, bem como o número de indivíduos em cada categoria
das variáveis, isoladamente.
n
Tabela 8.4 – Freqüências observadas nas células de contingência resultantes do cruzamento das variáveis categóricas X e Y, na amostra de n indivíduos.
Categorias da Variável Y Categorias da
Variável X 1 2 ... C
Total
1 11O 12O ... CO1 . n1
2 21O 22O ... CO2 .n2
M M M M M
L 1LO 2LO ... LCO .nL
Total 1.n 2.n ... C.n n
Convém salientar que O é a freqüência observada na célula de contingência
correspondente à categoria i da variável X e à categoria j da variável Y, ou seja , é o número de indivíduos da
amostra que foram classificados simultaneamente na categoria i da variável X e na categoria j da variável Y.
Note que
ij
L,,,i;O.nC
jiji L21
1
=∀=∑=
representa o número de indivíduos da amostra classificados na categoria i da variável X, enquanto que
C,,,j;O.nL
iijj L21
1
=∀=∑=
representa o número de indivíduos da amostra classificados na categoria j da variável Y. Naturalmente,
∑∑∑∑= ===
===L
i
C
jij
C
jj
L
ii O.n.nn
1 111
.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
148
As freqüências esperadas sob a hipótese nula, estimadas pelo método da máxima
verossimilhança, são determinadas por
n.n.n
E jiij
×= .
É vital perceber que o teste de independência depende das diferenças entre as freqüências
observadas e esperadas O ijij E− , tal que duas variáveis são independentes se estas diferenças são pequenas.
Assumindo que as freqüências observadas seguem uma distribuição de probabilidade multinomial, se as
freqüências esperadas sob a hipótese nula não são muito pequenas, então a estatística de teste
( )∑ ∑= =
−=χ
L
i
ijC
jcalc E
O
1 1
2 ij
ijE 2
tem aproximadamente distribuição qui-quadrado com ( ) ( 11 )−×− CL graus de
liberdade. Assim, a hipótese nula é rejeitada para valores grandes da estatística de Pearson, que deve ser
comparada com o valor tabelado da distribuição qui-quadrado com
2χ
( ) ( )11 −×− CL graus de liberdade, para o
nível de significância fixado. α
Os detalhes da execução e da interpretação do teste de hipóteses podem ser melhor
compreendidos utilizando os dados do Exemplo 8.2, seguindo as etapas descritas anteriormente.
1ª) Identificar as variáveis em estudo:
Variável linha → Bactéria Streptococcus pyogenes, com duas categorias: portadoras e não portadoras
Variável coluna → Tamanho relativo de amígdala, com três categorias: presente mas não aumentada,
aumentada e grandemente aumentada
2ª) Especificar as hipóteses estatísticas:
⇒=∀=∀×= 21 e 21 0 C,,,jL,,,i;.p.pp:H jiij LL as variáveis são independentes
⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas
ou, equivalentemente,
0:H Não existe associação entre o tamanho relativo das amígdalas em crianças e a presença ou
ausência da bactéria Streptococcus pyogenes
:H1 Existe associação entre o tamanho relativo das amígdalas em crianças e a presença ou ausência da
bactéria Streptococcus pyogenes.
3ª) Escolher (fixar) o nível de significância: 050,=α
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
149
4ª) Determinar o valor de χ tabelado: 2
Variável linha com duas categorias: portadoras e não portadoras ⇒ 2=L
Variável coluna com três categorias: presente mas não aumentada, aumentada e grandemente
aumentada ⇒ 3=C
Assim, a estatística de teste deve ser comparada com a distribuição qui-quadrado com
( ) ( ) 22111 =×=−×− CL graus de liberdade, isto é, ( ) 2
21
2
1
2 )(
L
i ij
ijijC
jcalc ~
EEO
χ−
=∑ ∑= =
α);
χ . Para
o valor tabelado é χ , onde representa o valor da distribuição de
probabilidade qui-quadrado com
050,=α 99520502 ,,; = 2χ r(
r graus de que delimita a área α a sua direita.
5ª) Calcular o valor da estatística de teste:
As freqüências esperadas são determinadas por n
.n.nE ji
ij×
= , tal que
424891398
5161326 58261398
51672 1221
1111 ,
n.n.nE,
n.n.nE =
×=
×==
×=
×=
675581398
5891326 33301398
58972 2222
2112 ,
n.n.nE,
n.n.nE =
×=
×==
×=
×=
912771398
2931326 09151398
29372 3223
3113 ,
n.n.n
E,n
.n.nE =
×=
×==
×=
×=
Freqüência Observada
( )iO
Freqüência Esperada
( )iE
( )ii EO −
( )2ii EO −
( )2
i
ii
EEO −
19 26,58 -7,58 57,46 2,16 29 30,33 -1,33 1,77 0,06 24 15,09 8,91 79,39 5,26
497 489,42 7,58 57,46 0,12 560 558,67 1,33 1,77 0,00 269 277,91 -8,91 79,39 0,29
1398 1398 0 7,89
A tabela acima apresenta os cálculos intermediários e o valor observado para a estatística de teste, tal que
( )∑∑= =
=+++=−
=χ2
1
3
1j
22 897290060162
i ij
ijijcalc ,,,,
EEO
L .
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
150
6ª) Decisão estatística:
Se ⇒ rejeita-se para o nível ( ) ( )2
1 12
α−×−χ>χ ;CLcalc 0H α fixado, em favor de 1H
Se ⇒ não se rejeita para o nível ( ) ( )2
1 12
α−×−χ≤χ ;CLcalc 0H α fixado
No exemplo, , então deve-se rejeitar a hipótese nula para o nível de
significância 5%.
995897 20502
2 ,, ,;calc =χ>=χ
7ª) Conclusão:
Há evidências de que o tamanho relativo das amígdalas em crianças está associado com a
bactéria Streptococcus pyogenes, para o nível de significância 5%. A comparação das freqüências observadas
com as freqüências esperadas sob a hipótese nula sugere que o tamanho relativo das amígdalas é maior para
crianças portadoras da bactéria em relação às não portadoras.
Na situação em que ambas as variáveis possuem duas categorias de resposta, a classificação dos
indivíduos produz uma tabela de contingência 2 2× , como ilustra a Tabela 8.5. Para simplificar a notação, as
freqüências observadas podem ser representadas por , de tal forma que a estatística de Pearson
pode ser calculada por
dc,b,a e 2χ
( )( ) ( ) ( ) ( )dbcadcba
bcadncalc ++++
−=χ
2
2 ,
cuja distribuição de referência é a distribuição de probabilidade qui-quadrado com 1 grau de liberdade. No
entanto, a distribuição qui-quadrado é uma distribuição contínua de probabilidade e está sendo usada como uma
aproximação da distribuição discreta de probabilidade das freqüências observadas. Mediante a utilização da
denominada correção de continuidade de Yates, é possível melhorar esta aproximação. A correção de Yates
consiste essencialmente em subtrair a constante 0,5 às discrepâncias positivas entre as freqüências observadas e
esperadas ( e somar 0,5 às discrepâncias negativas. A estatística de teste implementada com a correção
de Yates pode ser definida por
)EO −
( )( ) ( ) ( ) ( )
( )∑∑= =
−−=
++++
−−=χ
2
1
2
1
2212
2
50
i j ij
ijijcalc E
EO
dbcadcban,bcadn
,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
151 onde o termo bcad − representa o valor absoluto da diferença ( )bcad − , ou seja, o sinal é sempre positivo.
Tabela 8.5 – Tabela de contingência para duas variáveis dicotômicas.
Variável Y
Variável X 1 2
Total
1 a b ba +
2 c d dc +
Total ca + db + n
Exemplo 8.3: Os indivíduos de uma amostra de 5375 casos de morte por tuberculose foram classificados de
acordo com o sexo e com o tipo de tuberculose, mediante as categorias tuberculose do sistema respiratório ou
outro tipo de tuberculose. Os dados são apresentados por Everitt (1992, p.3) e reproduzidos na Tabela 8.6. O
objetivo básico é avaliar se o tipo de tuberculose que causou a morte está associado com o sexo dos indivíduos.
Tabela 8.6 – Freqüências de indivíduos mortos por tuberculose, classificados quanto ao sexo e o tipo de tuberculose.
Sexo
Tipo de Tuberculose Masculino Feminino
Total
Sistema respiratório 3534 1319 4853
Outro tipo 270 252 522
Total 3804 1571 5375
Fonte: Everitt (1992, p.3)
1ª) Identificar as variáveis em estudo:
Variável linha → Tipo de Tuberculose: sistema respiratório e outro tipo de tuberculose
Variável coluna → Sexo: masculino e feminino
2ª) Especificar as hipóteses estatísticas:
⇒=∀=∀×= 21 e 21 0 C,,,jL,,,i;.p.pp:H jiij LL as variáveis são independentes
⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas
ou, equivalentemente,
0:H Não existe associação entre o tipo de tuberculose que causou a morte do indivíduo e o sexo
:H1 Existe associação entre o tipo de tuberculose que causou a morte do indivíduo e o sexo
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
152
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de χ tabelado: 2
Variável linha com duas categorias: ⇒ 2=L
Variável coluna com duas categorias: ⇒ 2=C
Assim, a estatística de teste deve ser comparada com a distribuição qui-quadrado com
( ) ( ) 11111 =×=−×− CL grau de liberdade, isto é, ( ) 2
11
2
1
2 )(
L
i ij
ijijC
jcalc ~
EEO
χ−
=χ ∑ ∑= =
α);
. Para
o valor tabelado é , onde representa o valor da distribuição de
probabilidade qui-quadrado com
050,=α 84320501 ,,; =χ 2χ r(
r graus de que delimita a área α a sua direita.
5ª) Calcular o valor da estatística de teste:
( )( ) ( ) ( ) ( )
( )157138045224853
537550270131925235345375
50 222
×××
×−×−××=
++++
−−=χ
,dbcadcba
n,bcadncalc
( ) .,,..calc 39100
157138045224853568724385345375 2
2 =×××
−×=χ
6ª) Decisão estatística:
Se ⇒ rejeita-se para o nível ( ) ( )2
1 12
α−×−χ>χ ;CLcalc 0H α fixado, em favor de 1H
Se ⇒ não se rejeita para o nível ( ) ( )2
1 12
α−×−χ≤χ ;CLcalc 0H α fixado
No exemplo, , então deve-se rejeitar a hipótese nula para o nível de
significância 5%.
84339100 20501
2 ,, ,;calc =χ>=χ
7ª) Conclusão:
Há evidências de que o sexo e o tipo de tuberculose que causou a morte do indivíduo estão
associados, para o nível de significância 5%. A comparação das freqüências observadas com as freqüências
esperadas sob a hipótese nula sugere que a proporção de mortes por tuberculose do sistema respiratório é maior
em homens do que em mulheres.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
153 8.3 Teste de Homogeneidade
No teste de independência apresentado na seção anterior, o procedimento de amostragem
consiste essencialmente em selecionar uma amostra aleatória de e classificá-los de acordo com as categorias
das duas variáveis em investigação. Entretanto, em muitas situações práticas o objetivo é avaliar a equivalência
ou não de tratamentos (drogas, procedimentos cirúrgicos, dietas, terapias, etc.), onde a resposta é observada
através de duas ou mais categorias. Neste contexto, ao invés de apenas uma amostra, amostras independentes
são delineadas e extraídas ao acaso da população e ao término do experimento os indivíduos são classificados
nas categorias da variável resposta. Os dados observados podem ser resumidos em uma tabela de
contingência análoga à Tabela 8.4.
n
L
2
L
≥C
De maneira similar, se fosse possível classificar todos os indivíduos das populações nas
categorias da variável resposta, as probabilidades das células de contingência poderiam ser organizadas como
na Tabela 8.7. É importante observar que representa a probabilidade de um indivíduo apresentar resposta na
categoria j, dado foi submetido ao tratamento i, ou seja,
LC
ijp
[ ] ,C,,j,L,,i; iTratamentometido ao j| foi subCategoria sposta na RePpij LL 21 e 21 =∀=∀= .
Tabela 8.7 – Distribuições de probabilidades associadas aos tratamentos. LCategorias da Variável Resposta
Tratamento 1 2 ... C
Total
1 11p 12p ... Cp1 1
2 21p 22p ... Cp2 1
M M M M M
L 1Lp 2Lp ... LCp 1
-
A hipótese nula especifica que as populações (os tratamentos) são homogêneas, sendo
escrita como
L
C,,,j;ppp:H jLjj LL 21 210 =∀=== ,
enquanto que a hipótese alternativa especifica que existe pelo menos uma diferença nas probabilidades acima.
Como no teste de independência, o teste de homogeneidade é baseado na estatística de Pearson 2χ
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
154
( )∑ ∑= =
−=χ
L
i ij
ijijC
jcalc E
EO
1
2
1
2 .
As freqüências esperadas sob a hipótese nula são estimadas de maneira análoga ao teste de
independência, ou seja,
n.n.n
E jiij
×= .
É importante mencionar que, para amostras grandes, a comparação de dois tratamentos com
respostas dicotômicas conduz ao teste Z (bilateral) para comparação duas proporções populacionais com
amostras independentes descrito na Seção 6.2.6. Para ilustrar a aplicação do teste de homogeneidade de
populações, é conveniente retomar o exemplo brevemente descrito na Seção 1.1, relativo ensaio clínico
planejado para comprovar a eficácia do AZT (zidunovina) no prolongamento da vida de aidéticos.
Exemplo 8.4: Os dados reproduzidos na Tabela 8.8 referem-se aos resultados do ensaio clínico planejado
para comprovar a eficácia do AZT (zidovudina) no prolongamento da vida de aidéticos, os quais foram
publicado por Fischl et al. (1987) e posteriormente discutidos por Soares & Siqueira (1999, p.176-183).
O experimento considerou essencialmente o acompanhamento de 282 pacientes aidéticos
durante 24 semanas de tratamento, os quais foram aleatoriamente divididos em dois grupos: o grupo de
pacientes tratados com AZT (composto por 145 aidéticos) e o grupo controle, composto por 137 aidéticos que
receberam o placebo. A variável resposta (desfecho) é a situação do paciente (sobrevivente ou não sobrevivente)
após as 24 semanas de tratamento.
Tabela 8.8 – Número de sobreviventes após 24 semanas de tratamento com AZT ou Placebo
SITUAÇÃO GRUPO VIVO MORTO
Total
AZT 144 1 145 PLACEBO 121 16 137 Total 265 17 282 Fonte: Soares & Siqueira (1999, p.177)
A avaliação da eficácia do AZT para o prolongamento da vida de aidéticos consiste
basicamente em comparar as proporções de sobreviventes dos dois grupos. Entre os indivíduos tratados com
AZT, a proporção de sobreviventes é 9930145144 ,pAZT == , enquanto que no grupo de pacientes que receberam
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
155
o placebo é 8830137121 ,pPLACEBO == . Aparentemente a proporção de sobreviventes é maior no grupo de
pacientes tratados com AZT, mas para estender este resultado para a população é vital avaliar se as diferenças
observadas não são devidas ao acaso, mediante a utilização do teste de homogeneidade.
⇒== 22122111 pp;pp
≠≠ e/ou 22122111 pppp
2
( ) 1111 =×=−× C
1ª) Identificar a variável em estudo:
Tratamentos: AZT e Placebo
Variável resposta → Sobrevivência após 24 semanas de tratamento: vivo ou morto
2ª) Especificar as hipóteses estatísticas:
0 :H o tratamento com AZT é equivalente ao PLACEBO
⇒ 1 :H os tratamentos não são equivalentes
3ª) Escolher (fixar) o nível de significância: 050,=α
4ª) Determinar o valor de χ tabelado:
Variável linha com duas categorias: ⇒ 2=L
Variável coluna com duas categorias: ⇒ 2=C
Assim, a estatística de teste deve ser comparada com a distribuição qui-quadrado com
( )1−L grau de liberdade, isto é, ( ) 2
11
2
1
2 )(
L
i ij
ijijC
jcalc ~
EEO
χ−
=χ ∑ ∑= =
α);
. Para
o valor tabelado é , onde representa o valor da distribuição de
probabilidade qui-quadrado com
050,=α 84320501 ,,; =χ 2χ r(
r graus de que delimita a área α a sua direita.
5ª) Calcular o valor da estatística de teste:
As freqüências esperadas sob a hipótese nula são tais que n
.n.nE ji
ij×
= , ou seja,
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
156
268282
17137 74128282
265137
748282
17145 26136282
265145
1111
1111
,E,E
,E,E
=×
==×
=
=×
==×
=
A estatística de teste é determinada por
( ) ( ) ( ) ( ) ( ) 01715268
2681674128
741281377487481
2613626136144
2222
1
2
1
2 ,,
,,
,,,
,,
EEOL
i ij
ijijC
jcalc =
−+
−+
−+
−=
−=χ ∑ ∑
= =
,
mas como é recomendado utilizar a correção de Yates, a estatística de teste fica
( )( ) ( ) ( ) ( )
( )1413
1726513714528250121116144282
50 22
2 ,,
dbcadcban,bcadn
calc =×××
×−×−××=
++++
−−=χ .
6ª) Decisão estatística:
Se ⇒ rejeita-se para o nível ( ) ( )2
1 12
α−×−χ>χ ;CLcalc 0H α fixado, em favor de 1H
Se ⇒ não se rejeita para o nível ( ) ( )2
1 12
α−×−χ≤χ ;CLcalc 0H α fixado
No exemplo, , então deve-se rejeitar a hipótese nula para o nível de
significância 5%.
8431413 20501
2 ,, ,;calc =χ>=χ
7ª) Conclusão:
Há evidências de que a proporção de pacientes com AIDS tratados com AZT que sobreviveram
após 24 semanas de tratamento é diferente da proporção de sobreviventes quando tratados com o placebo, para o
nível de significância 5%, sugerindo que sob as condições do experimento o tratamento com AZT prolonga a
vida de pacientes aidéticos.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
157
8.4 Considerações sobre a Estatística 2χ de Pearson
Os teste de hipótese baseados na estatística de Pearson abordados nas seções anteriores
devem ser utilizados com alguma cautela, pois uma distribuição discreta de probabilidade está sendo
aproximada pela distribuição qui-quadrado, que é uma distribuição contínua de probabilidade.
Conseqüentemente, a adequação da distribuição de referência qui-quadrado depende criticamente do número de
freqüências esperadas sob a hipótese nula associadas a cada célula de contingência. Para o caso de tabelas de
contingência recomenda-se que
2χ
22× sempre seja utilizada a correção de Yates para melhorar a aproximação,
mas ainda não é uma condição suficiente.
Everitt (1992, p.39) descreve as condições que permitem a adequada utilização da
distribuição de probabilidade qui-quadrado como distribuição de referência da estatística de Pearson.
Variantes destas condições foram apresentadas por diversos autores, porém é conveniente utilizar as regras
propostas por W.C. Cochran, que especificam que todas as freqüências esperadas devem ser maiores ou iguais a
1 e no máximo 20% das células de contingência podem ter freqüências esperadas menores do que 5.
2χ
Se estas condições não podem ser atendidas, então recomenda-se a utilização do teste exato
de Fisher ou de um teste de significância baseado na generalização do teste exato de Fisher para tabelas 2 2× .
No entanto, face ao enorme esforço computacional necessário para a execução deste tipo de testes, eles não
podem ser abordados neste momento, mas estão implementados em diversos procedimentos computacionais,
tais como os pacotes estatísticos SPSS, SAS, S-plus, STATA, etc. O leitor interessado neste tipo de testes pode
consultar, por exemplo, Everitt (1992, p.18) ou Zar (1996, p.540-552).
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
158
9 Referências Bibliográficas
AGRESTI, A. (1984). Analysis of Ordinal Categorical Data. New York, Wiley.
AGRESTI, A. (1990). Categorical Data Analysis. New York, Wiley.
ARMITAGE, P. (1955). Tests for linear trends in proportions and frequencies. Biometrics. 11: 375-385.
ARMITAGE, P. (1974). Statistical Methods in Medical Research. New York, Wiley.
ARMITAGE, P. & DOLL, R. (1962). Stochastic models for carcinogenesis. Proceedings of the 4th Berkeley
Symposium. 19-38.
AYUB, R.M.; ROSSATO, R.; MAGNI, J.R.T. e PRATI, F. (1997). Classificação das lesões na pré-temporada
da categoria júnior do Grêmio Foot-Ball Porto Alegrense quanto ao mecanismo de lesão e o Vo2 máximo.
Nosso Jornal - Ano 2 - N° 9, Agosto/97. Faculdade de Ciências da Saúde e Faculdade de Nutrição e
Fonoaudiologia, Porto Alegre.
BOLFARINE, H. & BUSSAB, O. (1994). Elementos de Amostragem. 11° Simpósio Nacional de
Probabilidade e Estatística. Belo Horizonte, MG.
BRESLOW, N. E. & DAY, N. E. (1980). Statistical Methods in Cancer Research - The Analysis of Case-
Control Studies. Lyon, IARC Scientific Publications.
BRESLOW, N. E. & DAY, N. E. (1987). Statistical Methods in Cancer Research - The Design and Analysis
of Cohort Studies. Lyon, IARC Scientific Publications.
CURETON, E.E. (1978). Psychometrics. Em: KRUSKAL, W.H. & TANUR, J.M. (Editores). International
Encyclopedia of Statistics, p.764-782. New York, The Free Press.
COCHRAN, W.G. (1963). Sampling Techniques. Second Edition. New York: John Wiley.
COSTA NETO, P.L. de O. (1977). Estatística. São Paulo, Editora Edgar Blücher LTDA.
DANIEL, W.W. (1974). Biostatistics: A Foundation for Analysis in the Health Sciences. New York, Wiley.
DANTAS, C.A.B. (1997). Probabilidade: Um Curso Introdutório. São Paulo, Edusp.
DRAPER, N.R. & SMITH, H. (1981). Applied Regression Analysis. Second Edition. New York, Wiley.
ESCOFIER, B. & PAGÈS, J. (1990). Análisis Factoriales Simples y Múltiples: Objetivos, métodos e
interpretación. Tradución de: FDEZ., E.A..; AGUIRRE, K.F.; CALVO, M.I.L.; LAESPADA, J.M.P. e
CASTRO, A. Z. (1992). Servício Editorial de la Universidad del País Vasco, Bilbao.
EVERITT, B.S. (1992). The Analysis of Contingency Tables. Second Edition. London, Chapman & Hall.
FISCHL, M.A., RICHMAN, D.D., GRIECO, M.H. et al. (1987). The efficacy of azidothymidine (AZT) in
treatment of patients with AIDS and AIDS-related complex. A double-blind, placebo-controlled trial. The
New England Journal of Medicine. 317 (4):185-91.
HOLMES, M.C. & WILLIAMS, R.E.O. (1954). The distribution of carriers of Streptococcus pyogenes among
2413 healthy children. J. Hyg. Camb. 52: 165-179.
HOSMER Jr., D.W. & LEMESHOW, S. (1989). Applied Logistic Regression. New York, Wiley.
IBGE (1993). Normas de Apresentação Tabular. 3ª Edição. Instituto Brasileiro de Geografia e Estatística –
IBGE.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório
159 JAMES, B.R. (1981). Probabilidade: Um Curso em Nível Intermediário. Rio de janeiro, IMPA-Projeto
Euclides.
JOHNSON, R.A. & WICHERN, D.W. (1988). Applied multivariate statistical analysis. Second Edition. Englewood Cliffs, Prentice-Hall.
KIRKPATRICK, C.H. & ALLING, D.W. (1978). Treatment of chronic oral candidiasis with clotrimazole
troches: a controlled clinical trial. The New England Journal of Medicine. 299: 1201-1203.
KISH, L. (1965). Survey Sampling. New York: John Wiley.
KUZMA, J.W. (1998). Basic Statistic for Health Sciences. Third Edition, Palo Alto, Mayfield Publishing
Company.
LARSON, H.J. (1982). Introduction to Probability Theory and Statistical Inference. Third Edition, New
York, Wiley.
LEBART, L.; MORINEAU, A. e PIRON, M. (1995). Statistique Exploratoire Multidimensionelle. Paris,
Dunod.
MARDIA, K.V., KENT, J.T. e BIBBY, J.M. (1979). Multivariate Analysis. New York,, Academic Press.
McCULLAGH, P. (1980). Regression models for ordinal data. J. R. Statist. Soc. B. 42(2): 109-142.
MOOD, A.M.; GRAYBILL, F.A. e BOES, D.C. (1974). Introduction to the Theory of Statistics. Third Edition,
Singapore, McGraw-Hill International Editions.
MONTGOMERY, D.C. (1991). Design and Analysis of Experiments. Third Edition, New York, Wiley.
MOSES, L.E. et al. (1984). Analyzing data from ordered categories. The New England Journal of Medicine.
111: 442-448.
PEREIRA, B. de B. (1997). Estatística: A Tecnologia da Ciência. Boletim da Associação Brasileira de
Estatística, Ano XIII, Nº 37.
ROHATGI, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. New York,
Wiley.
SNEDECOR, D.W. & COCHRAN, W.G. (1967). Statistical Methods. 6th Edition. Ames: University Press.
TAVARES, E.C. (1995). Estudo ultra-sonográfico e clínico neurológico das hemorragias peri-
intraventricu-lares em recém-nascidos com peso de nascimento menor do que 2000 g. Belo Horizonte,
Faculdade de Medicina da UFMG (Dissertação de Mestrado).
SOARES, J.F.; FARIAS, A. A. e CESAR, C.C. (1991). Introdução à Estatística. Rio de Janeiro, Livros
Técnicos e Científicos Editora S.A.
SOARES, J.F. & SIQUEIRA, A.L. (1999). Introdução à Estatística Médica. Belo Horizonte, Departamento
de Estatística – UFMG.
VIEIRA, S. (1981). Introdução à Bioestatística. Segunda Edição, Rio de Janeiro, Editora Campus.
VIGO, A. (1994). Análise de Experimentos Industriais com Respostas Categóricas Ordenadas: Método de
Taguchi e Modelo de McCullagh. Dissertação de Mestrado, UNICAMP, Campinas, São Paulo.
ZAR, J.H. (1996). Biostatistical Analysis. Upper Saddle River, Prentice Hall.
Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório