elementos de bioestatÍstica: um curso introdutÓriogiacomo/livros/elementos de...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE MATEMÁTICA Cadernos de Matemática e Estatística

Série B: Trabalho de Apoio Didático

ELEMENTOS DE BIOESTATÍSTICA: UM CURSO INTRODUTÓRIO

Prof. Álvaro Vigo Departamento de Estatística/UFRGS

[email protected]

Série B, nº 46

Porto Alegre, setembro de 1999

APRESENTAÇ‹O

Esta publicação reúne algumas notas de aula da disciplina de Bioestatística ministrada para o Curso de Enfermagem desta Universidade, devendo ser vista essencialmente como material de apoio didático para o ensino da disciplina.

A organização deste material tem como objetivo básico a pretensão de apresentar de uma maneira intuitiva os princípios básicos da metodologia estatística para análise de dados e de motivar o aluno para uma reflexão sobre a importância da Estatística na pesquisa científica e tecnológica, em especial na área médica. Na tentativa de ilustrar com clareza a aplicação das técnicas estatísticas ou de explorar algum detalhe porventura importante, foram escolhidos ou construídos exemplos específicos.

Ao longo dos capítulos foram inseridas diversas referências que podem ser úteis como uma orientação inicial ao leitor que deseja aprofundar ou esclarecer aspectos dos métodos estatísticos abordados.

Naturalmente é uma abordagem introdutória ao repertório estatístico, mas o autor tem a pretensão de colaborar com a melhoria do ensino da disciplina. Como trata-se de uma primeira versão, correções e contribuições visando o aperfeiçoamento sempre serão bem aceitas.

Porto Alegre, setembro de 1999.

Prof. ˘lvaro Vigo

¸NDICE

1 Introdução ................................................................................................................... 1

1.1 0 Papel da Estatística na Área Biológica ................................................................... 11.2 Definições Básicas .................................................................................................... 6 2 Organização de Dados e Análise Descritiva ............................................................ 9

2.1 Organização de Dados .............................................................................................. 132.2 Medidas de Síntese Numérica ................................................................................... 202.2.1 Medidas de Tendência Central .............................................................................. 202.2.2 Medidas de Variabilidade ....................................................................................... 292.2.3 Coeficiente de Variação ......................................................................................... 32 3 Probabilidade .............................................................................................................. 33

3.1 Conceitos Básicos ..................................................................................................... 333.2 Risco Relativo e Razão de Chances ......................................................................... 403.3 Distribuições de Probabilidade .................................................................................. 483.3.1 Distribuição Binomial .............................................................................................. 493.3.2 Distribuição Normal ................................................................................................ 57 4 Princípios Básicos de Amostragem .......................................................................... 65

4.1 População e Amostra ................................................................................................. 654.2 Amostra Aleatória e Amostragem .............................................................................. 664.2.1 Amostra Aleatória Simples (AAS) ........................................................................... 664.2.2 Amostra Aleatória Estratificada (AAE) .................................................................... 674.2.3 Amostra Aleatória por Conglomerados (AAC) ........................................................ 684.2.4 Amostra Aleatória Sistemática (AASt) .................................................................... 68 5 Distribuição da Média Amostral e Teorema Central do Limite ............................... 69

6 Introdução à Inferência Estatística ............................................................................ 75

6.1 Estimação de Parâmetros .......................................................................................... 756.1.1 Estimação por Ponto ............................................................................................... 766.1.2 Estimação por Intervalo .......................................................................................... 796.1.2.1 Intervalo de Confiança para µ, quando σ é Conhecido ....................................... 806.1.2.2 Intervalo de Confiança para µ, quando σ é Desconhecido .................................. 826.1.2.3 Intervalo de Confiança para a Proporção Populacional p (n grande) .................. 846.2 Introdução aos Testes de Hipóteses ......................................................................... 856.2.1 Teste de Hipóteses para Uma Média Populacional µ, quando σ é Conhecido (TESTE Z) ................................................................................................ 906.2.2 Teste de Hipóteses para Uma Média Populacional µ, quando σ é Desconhecido (TESTE t) ......................................................................................... 956.2.3 Teste de Hipóteses sobre Duas Médias Populacionais, com Amostras Independentes ........................................................................................... 1006.2.4 Teste de Hipóteses sobre Duas Médias Populacionais, com Amostras Pareadas ................................................................................................... 1046.2.5 Teste de Hipóteses para Uma Proporção Populacional p (n grande) .................... 1116.2.6 Teste de Hipóteses sobre Duas Proporções Populacionais, com Amostras Independentes (n grande) .................................................................. 115 7 Correlação e Regressão Linear Simples .................................................................. 121

7.1 Correlação Linear ...................................................................................................... 1217.2 Regressão Linear Simples ......................................................................................... 127 8 Análise de Dados Categóricos .................................................................................. 138

8.1 Teste de Aderência .................................................................................................... 1398.2 Teste de Independência ............................................................................................ 1448.3 Teste de Homogeneidade ......................................................................................... 1538.4 Considerações sobre a Estatística χ de Pearson ................................................... 2 157 9 Referências Bibliográficas ......................................................................................... 158

1 1 Introdução

1.1 O Papel da Estatística na Área Biológica

Na natureza existem dois tipos básicos de fenômenos: determinísticos e aleatórios. Os

fenômenos determinísticos usualmente são regidos por leis físicas (matemáticas ou químicas) e são

caracterizados pelo fato de que, mantidas as condições iniciais, os resultados serão sempre os mesmos. Como

ilustração deste tipo de fenômeno, considere o ponto de ebulição da água, que passa do estado líquido para o

estado gasoso quando atinge a temperatura de 100 graus Celsius. Ao contrário dos fenômenos determinísticos,

os fenômenos aleatórios não são regidos por leis físicas e, por conseqüência, seus resultados não são

previsíveis, mesmo que as condições iniciais sejam idênticas. Usualmente, os fenômenos aleatórios podem ser

descritos através de modelos probabilísticos. Como um exemplo trivial, considere o experimento que consiste

em lançar uma moeda honesta, observando o resultado da face superior. Neste caso existem dois resultados

possíveis, que são cara ou coroa. Contudo, não é possível garantir a priori qual deles acontecerá, pois pode

ocorrer cara com probabilidade ½, ou coroa, também com probabilidade ½. Outros exemplos de fenômenos

aleatórios, na área das ciências biomédicas, são o tempo de efeito de um medicamento, o tipo ou gravidade de

uma lesão provocada por esforço repetitivo, a severidade de determinada doença ou o estágio de uma doença

após a administração de um determinado tratamento. O que caracteriza estes exemplos como fenômenos

aleatórios é a presença de variabilidade na resposta, de indivíduo para indivíduo, mesmo mantendo-se as

mesmas condições iniciais.

É usual que um pesquisador utilize o método científico para fazer observações sobre o

fenômeno aleatório de interesse, com a finalidade de descrever as relações existentes entre as características que

o definem. Assim, no seu dia a dia, o pesquisador está constantemente gerando dados, os quais podem ser

usados para descrever certo fenômeno. Essas observações são vitais para que as conclusões sejam válidas e, para

tanto, devem ser coletadas de forma adequada e organizada.

A ciência que permite organizar a geração de dados e sua transformação em informação é a

Estatística, que pode ser definida como o estudo da variabilidade e a avaliação da conseqüente incerteza,

para extrair eficientemente a informação necessária em estudos científicos e tecnológicos das mais

diversas áreas. Conseqüentemente, a aplicação da Estatística é parte fundamental do método científico, de tal

forma que a Estatística pode ser vista como a tecnologia da ciência – veja Vigo (1994, p.4) e Pereira (1997).

O método científico, por sua vez, permite aprender sobre um fenômeno ou processo,

combinando observadores perspicazes por um lado e eventos críticos (carregados de informação) por outro.

Uma primeira forma de aprendizagem é a coleta sistemática de eventos críticos, realizada por observadores que

não interferem no processo. Esses estudos, denominados observacionais, permitem aprender mediante a

acumulação relativamente automática e a análise de evidências, realizadas com métodos estatísticos.

Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório

2

Uma segunda forma de aprendizagem é a experimentação, caracterizada pela intervenção

ativa e deliberada do observador, no processo que gera os eventos críticos. A execução e análise dessas

intervenções – possibilitadas pela Estatística – permitem acelerar enormemente o aprendizado sobre os

fenômenos ou processos de interesse.

A aplicação dos métodos estatísticos em situações da área biológica e de ciências da saúde

denomina-se Bioestatística. É inegável, no entanto, que muitas das técnicas de análise foram desenvolvidas a

partir de necessidades do contexto biológico ou médico.

Existe uma tendência crescente no sentido de quantificar os fenômenos da área de biometria,

sendo que freqüentemente observa-se grande variabilidade do material biológico ou médico. Por exemplo,

réplicas observadas sob as mesmas condições experimentais podem apresentar respostas diferentes, tal que os

resultados de um mesmo experimento realizado em ocasiões diferentes podem não ser idênticos.

No contexto biométrico, cada medida é constituída por três fontes básicas de variabilidade:

variação biológica, variação temporal e variação devido aos erros de medida. A variação biológica corresponde

aos fatores que fazem um indivíduo ser diferente do outro, tais como idade, sexo, raça, fatores genéticos e

histórico médico. A variação temporal está associada aos fatores que produzem variação nas observações em

um mesmo indivíduo de um tempo para o outro, tais como estado emocional, nível de atividades, clima,

biorritmo. Os erros de medida, por sua vez, referem-se aos erros ocasionados por fatores que podem produzir

diferenças associadas aos aspectos de medição, tais como os observadores, instrumentos de medida, erro

técnico, condições de laboratório ou estabilidade dos reagentes. Assim, o erro experimental é apenas uma parte

da variação encontrada em uma medida biológica ou médica, de tal forma que existe variabilidade nos dados

mesmo quando o erro de medida é pequeno e as condições da pesquisa são bem controladas.

Como ilustrações do papel da Estatística na área médica, a seguir serão mencionados alguns

estudos observacionais e experimentais que contribuíram enormemente para o avanço da ciência e para o

melhoramento das condições de vida da população. Como referência básica, é conveniente mencionar o

excelente livro recentemente publicado por Soares & Siqueira (1999), intitulado “Introdução à Estatística

Médica”, no qual são descritos diversos estudos observacionais e experimentais da área médica. Alguns destes

estudos serão utilizados ao longo do curso para ilustrar e discutir os aspectos metodológicos das técnicas de

análise estatística de dados.

Um primeiro exemplo de estudo observacional é o efeito da exposição nuclear nos

sobreviventes à irradiação decorrente da explosão das bombas atômicas sobre Hiroshima e Nagasaki, que pode

ser quantificado através do aumento do número de casos leucemia, conforme descrito no artigo de Armitage &

Doll (1962).

Outro estudo observacional foi a classificação das lesões dos atletas da categoria júnior de

futebol do Grêmio Foot-Ball Porto Alegrense na pré-temporada de 1997 – veja Ayub, Rossato, Magni e Prati

(1997). Neste estudo, os atletas foram classificados quanto ao tipo e mecanismo de lesão e, posteriormente,

relacionados com a quantidade máxima de oxigênio que o corpo é capaz de transportar (Vo2 máximo). Quanto

à característica “mecanismo da lesão”, uma lesão pode ser autógena ou exógena. Lesões autógenas são


3 causadas por ação dinâmica do próprio atleta (sem contato físico com outros atletas), enquanto que lesões

exógenas são aquelas causadas pelo contato físico com outros atletas. Os tipos de lesão são contratura (espasmo

muscular), contusão, entorse, deformidade da coluna vertebral, distensão, fratura, lesão tendínea e luxação.

Durante a pré-temporada de 1997, os atletas apresentaram 11 lesões (seis lesões tendíneas,

quatro contraturas e uma entorse), sendo que 90,9% das lesões foram provocadas por mecanismos autógenos.

O valor médio da característica Vo2 máximo na pré-temporada foi 53,47 ml/Kg/min, sendo que

aproximadamente metade dos atletas (17) apresentou valores de Vo2 máximo acima desta média. Os 18 atletas

restantes apresentaram valores de Vo2 máximo abaixo da média. Os procedimentos utilizados para medir o Vo2

máximo são descritos na referência citada.

É conveniente, também, apresentar um estudo observacional amplamente analisado na

literatura, que será discutido no decorrer do curso. Trata-se de uma investigação onde se procurou avaliar a

relação entre a presença da bactéria Streptococcus pyogenes e o aumento das amígdalas em crianças. A Tabela

1.1 apresenta os dados referentes à classificação de 1398 crianças entre 0 a 15 anos de acordo com o tamanho

relativo de suas amígdalas e com a característica “portadora” ou “não portadora” de Streptococcus pyogenes. A

informação foi inicialmente apresentada por Holmes & Williams (1954) e analisada por Armitage (1955),

Armitage (1974), McCullagh (1980) e Vigo (1994).

Tabela 1.1 – Freqüências de indivíduos segundo o tamanho relativo das amígdalas e a presença de Streptococcus pyogenes.

Streptococcus Tamanho relativo da amígdala

pyogenes Presente mas não aumentada

Aumentada Grandemente aumentada

Total

Portadoras 19 29 24 72

Não portadoras 497 560 269 1326

Total 516 589 293 1398

Fonte: McCullagh (1980).

O objetivo básico é identificar se o aumento das amígdalas em crianças está ou não

associado à presença da bactéria Streptococcus pyogenes. Em particular, deseja-se avaliar se crianças portadoras

da bactéria possuem maior risco de apresentar amígdalas aumentadas.

Como os dados foram coletados para investigar a natureza e direção de um possível efeito do

Streptococcus pyogenes no tamanho das amígdalas, o tamanho das amígdalas, com três categorias ordenadas, é

considerado como a variável resposta ou desfecho, enquanto a presença ou ausência de Streptococcus pyogenes

é um possível fator explanatório.


4

A Tabela 1.2 apresenta um resumo dos resultados produzidos pela aplicação de diferentes

técnicas de análise estatística aos dados deste exemplo. Uma detalhada discussão sobre o emprego dessas

técnicas de análise e dos correspondentes resultados gerados pode ser encontrada em Vigo (1994). Neste

momento, é conveniente enfatizar o modelo de odds proporcionais proposto por McCullagh (1980), que faz

parte de uma classe de modelos de regressão para analisar a dependência entre uma variável categórica ordenada

e um conjunto de covariáveis. Uma de suas vantagens sobre as demais técnicas é que permite estimar tanto a

direção quanto a magnitude do efeito da presença de Streptococcus pyogenes sobre o tamanho das amígdalas.

Assim, os resultados sugerem que crianças portadoras da bactéria Streptococcus pyogenes têm

aproximadamente 1,8 vezes mais chances de apresentar amígdalas aumentadas ou grandemente aumentadas do

que crianças não portadoras da bactéria.

Tabela 1.2 – Resumo dos resultados das técnicas de análise estatística aplicadas aos dados do estudo observacional sobre o tamanho relativo de amígdalas.

Método de análise Conclusões χ2 DE PEARSON veja Vigo (1994, p. 12)

Há evidências de que as proporções das categorias de tamanho de amígdalas são diferentes para portadores e não portadores de Streptococcus pyogenes.

DECOMPOSIÇÃO χ χ χ2 2 2= +LIN RESveja Vigo (1994, p. 12-16)

Há evidências de que as crianças infectadas pelo Streptococcus pyogenes apresentam amígdalas maiores.

TESTE DE MANN-WHITNEY veja Vigo (1994, p. 16)

Há evidências de que as crianças portadoras do Streptococcus pyogenes possuem amígdalas maiores do que os não portadores.

RIDIT ANALYSIS veja Vigo (1994, p. 22-23)

Há evidências de que o tamanho relativo das amígdalas é maior para as crianças portadoras de Streptococcus pyogenes.

ANÁLISE DE ACUMULAÇÃO DE TAGUCHI veja Vigo (1994, p. 36-39)

Há evidências de que o Streptococcus pyogenes provoca um impacto significativo no tamanho relativo das amígdalas.

MODELO DE ODDS PROPORCIONAIS veja Vigo (1994, p. 95-99)

A chance relativa de um tamanho de amígdala aumentada ou grandemente aumentada é 1,8 vezes maior para os portadores do que para os não portadores de Streptococcus pyogenes.


5

Estes casos são exemplos de estudos observacionais, caracterizados pelo fato de que não

houve interferência do pesquisador, ao contrário dos estudos experimentais. Existem vários tipos de estudos

experimentais utilizados na área biológica e médica, e definições básicas e exemplos reais de alguns

experimentos podem ser encontrados em Soares & Siqueira (1999, p.14-29). Uma descrição detalhada dos

aspectos teóricos da metodologia de planejamento de experimentos pode ser encontrada, por exemplo, Agresti

(1990) e Montgomery (1991).

Como ilustração de um estudo experimental aplicado à pesquisa médica, é interessante

mencionar o primeiro relato de um ensaio clínico planejado para comprovar a eficácia do AZT (zidovudina) no

prolongamento da vida de aidéticos. Os dados foram publicados por Fischl et al. (1987) e posteriormente

discutidos por Soares & Siqueira (1999, p.176-183).

O experimento considerou essencialmente o acompanhamento de 282 pacientes aidéticos

durante 24 semanas de tratamento, os quais foram aleatoriamente divididos em dois grupos: o grupo de

pacientes tratados com AZT (composto por 145 aidéticos) e o grupo controle, composto por 137 aidéticos que

receberam o placebo. A variável resposta (desfecho) é a situação do paciente (sobrevivente ou não sobrevivente)

após as 24 semanas de tratamento. Os resultados são reproduzidos na Tabela 1.3.

Tabela 1.3 – Número de sobreviventes após 24 semanas de tratamento com AZT ou Placebo

SITUAÇÃO GRUPO VIVO MORTO

Total

AZT 144 1 145 PLACEBO 121 16 137 Total 265 17 282 Fonte: Soares & Siqueira (1999, p.177)

A avaliação da eficácia do AZT para o prolongamento da vida de aidéticos consiste

basicamente em comparar as proporções de sobreviventes dos dois grupos. Entre os indivíduos tratados com

AZT, a proporção de sobreviventes é 9930145144 ,pAZT == , enquanto que no grupo de pacientes que receberam

o placebo é 8830137121 ,pPLACEBO == . Aparentemente a proporção de sobreviventes é maior no grupo de

pacientes tratados com AZT, mas para estender este resultado para a população é vital avaliar se as diferenças

observadas não são devidas ao acaso, mediante um teste de hipóteses.

Neste problema, a estratégia de análise adotada foi o teste de homogeneidade de populações,

baseado na estatística (lê-se qui-quadrado) de Pearson, o qual será discutido na Seção 8.3. O valor calculado

da estatística de teste foi χ , cuja probabilidade “exata” de significância associada (p_value, em

inglês) é . Este resultado evidencia que a verdadeira proporção de pacientes aidéticos que

2χ

017,152calc =

00010,p <


6 sobrevivem após 24 semanas é maior quando são tratados com AZT em relação aos não tratados (isto é, que

recebem o placebo).

A definição formal de testes de hipóteses e dos aspectos teóricos necessários para suas

aplicações serão abordados na Seção 6.2. Testes de hipóteses particulares também serão abordados nos capítulos

7 e 8. Na Seção 8.2, por exemplo, o teste de homogeneidade de populações será discutido e, na sua

exemplificação, o problema acima será detalhadamente considerado.

Outro exemplo de estudo experimental é o ensaio clínico planejado para avaliar a eficácia do

tratamento da candidíase oral crônica mediante a droga denominada clotrimazole. Utilizando um sistema de

aleatorização foram definidos dois grupos de 10 indivíduos: o grupo controle ao qual foi administrado um

placebo e o grupo de pacientes tratados, que recebeu a droga. Os dados mostrados na Tabela 1.4 ilustram essa

questão; eles foram publicados por Kirkpatrick & Alling (1978) e posteriormente analisados por Moses et al.

(1984) – a ordem de classificação é explicada nessas referências.

Tabela 1.4 – Freqüências nas categorias de resposta ordenadas no ensaio clínico para tratamento de candidíase oral crônica.

CATEGORIA DE RESPOSTA TRATAMENTO

1 2 3 4

Total

CLOTRIMAZOLE 6 3 1 0 10

PLACEBO 1 0 0 9 10

Fonte: Moses et al. (1984).

Moses et al. (1984) ilustram a aplicação de diferentes métodos estatísticos para analisar os

resultados gerados neste experimento, cabendo destacar o teste de Mann-Whitney (também conhecido como

teste de Wilcoxon) para amostras independentes, concluindo que o tratamento mediante a droga clotrimazole é

superior ao placebo; ou seja, a droga clotrimazole é eficaz para o tratamento da candidíase oral crônica.

1.2 Definições Básicas

Antes de abordar as técnicas de análise estatística de dados, é conveniente apresentar

algumas definições básicas que serão utilizadas ao longo do curso. A expressão “dados”, por exemplo, foi citada

diversas vezes neste texto, sem que tenha sido definida adequadamente. Em linguagem informal, dados são

informações (numéricas ou não) sobre um indivíduo (pessoa, animal, planta, objeto ou evento), associadas a

uma ou mais características de um fenômeno. Por sua vez, uma característica associada ao mesmo fenômeno,


7 cuja informação pode diferir de um indivíduo para outro, é denominada variável. Existem vários tipos de

variáveis, as quais são definidas basicamente de acordo com o sistema de medida associado.

Um sistema de medida é um procedimento operacional que utiliza uma regra para atribuir

números ou outros rótulos a indivíduos. A regra usualmente especifica as categorias de um atributo variável ou

algum aspecto quantitativo de uma observação variável, definindo, assim, uma escala de medida. Escalas de

medidas comumente são classificadas como sendo nominais, ordinais, de intervalo e de razão, podendo medir

variáveis discretas ou contínuas - veja Cureton (1978, p.764) e Vigo (1994, p.7-8).

Variáveis cuja escala de medida consiste de um conjunto de categorias disjuntas são

denominadas variáveis categóricas ou qualitativas. Elas surgem nas mais diversas áreas do conhecimento, tais

como ciências sociais, epidemiologia, ecologia, educação, medicina, etc. Por exemplo, o estado de evolução de

uma doença pode ser medido como “doença progressiva”, “remissão parcial” ou “remissão completa”. Existem

muitos tipos de variáveis categóricas, de acordo com a escala de medida utilizada. Assim, variáveis categóricas

para as quais não existe uma ordem natural dos níveis ou categorias são ditas nominais. Em uma escala nominal,

os números meramente identificam os indivíduos ou as categorias de um atributo através do qual os indivíduos

podem ser classificados. Os números atribuídos aos jogadores de futebol constituem um bom exemplo de escala

nominal. Sem perda de informação, letras, palavras ou símbolos arbitrários poderiam ser empregados nesse

caso. Exemplos de variáveis nominais são estado civil (solteiro, casado, divorciado, viúvo, desquitado) e

religião (católica, protestante, judaica, outra). Para variáveis nominais, a ordem em que aparecem as categorias

deveria ser irrelevante na análise estatística, no sentido de que diferentes permutações na ordem das mesmas

devem conduzir aos mesmos resultados, veja Cureton (1978).

Em muitas variáveis categóricas, contudo, existe uma ordem natural dos seus níveis, mas as

distâncias absolutas entre eles são desconhecidas ou nem mesmo estão definidas. Essas variáveis são chamadas

de categóricas ordenadas. A principal característica de um conjunto de categorias ordenadas é que elas

expressam, em ordem crescente ou decrescente, a extensão ou o grau de intensidade de um fenômeno

observável. O exemplo anterior, relativo ao estado de evolução de uma doença, constitui uma aplicação na área

médica. Outros exemplos são gravidade de uma fratura (leve, média, grave), classe social (baixa, média, alta) e

atitude política (liberal, moderado, conservador). Variáveis contínuas medidas através de postos ou escores

(denominados ranks em inglês) também são tratadas como categóricas ordenadas.

Variáveis cuja escala medida é a escala de intervalo ou a escala de razão são chamadas de

variáveis quantitativas. A escala de razão é caracterizada pelo fato de que existe um tamanho de intervalo

constante e o ponto zero é verdadeiro (absoluto). O tamanho de intervalo constante significa que, por exemplo

na medição da altura de determinado indivíduo, a diferença de altura entre 36 cm e 37 cm é a mesma do que

entre 39 cm e 40 cm. Exemplos de escala de razão são as medidas de altura, número de itens, peso, volume,

capacidade, taxas, tempo, etc. A escala de intervalo, por sua vez, é caracterizada pelo fato de que embora esteja

satisfeita a propriedade de tamanho de intervalo constante, o ponto zero não é absoluto. Um exemplo clássico é

quando a temperatura é medida em graus Celsius ou em graus Fahrenheit, em cujas escalas o ponto zero é

arbitrário.


8

As variáveis quantitativas podem ser divididas em discretas e contínuas. As variáveis

discretas usualmente assumem valores no conjunto dos números inteiros e geralmente são originárias de

contagens. Como exemplo, pode-se citar número de lesões musculares em um grupo de atletas durante um certo

período de tempo e o número de sessões de um tratamento fisioterapêutico até a reabilitação. Ao contrário das

variáveis discretas, as variáveis contínuas podem assumir qualquer valor dentro de um intervalo especificado. O

tempo de efeito de um medicamento, idade, peso, altura, a relação peso/altura são exemplos típicos de variáveis

contínuas.


9 2 Organização de Dados e Análise Descritiva

A aplicação dos métodos estatísticos tem como finalidade básica a análise e a interpretação

de dados gerados em estudos observacionais ou experimentais. Como mencionado anteriormente, a Estatística é

vital para transformar uma massa crítica de dados em informação relevante sobre o fenômeno em estudo.

Procedimentos simples de organização e síntese dos dados usualmente geram uma quantidade de informação

bem maior do que com os dados brutos, pois permitem interpretá-los de forma mais rápida e simples. A área da

Estatística que trata da organização e do resumo de dados é chamada de Estatística Descritiva ou, mais

recentemente, de Análise Exploratória de Dados.

A Análise Exploratória de Dados é um conjunto de métodos que permite identificar a

presença de valores aberrantes (outliers, em inglês), construir valores que traduzam o elemento típico e

quantificar a variabilidade dos dados. Quanto à organização e descrição dos dados, a Análise Exploratória de

Dados consiste basicamente na representação dos dados em tabelas e gráficos, bem como na construção de

medidas de síntese numérica. Em geral, é aplicada antes de técnicas de análise mais sofisticadas e pode

contribuir enormemente para a geração de hipóteses sobre o objeto em estudo.

Para ilustrar os procedimentos de análise exploratória de dados, é conveniente considerar o

exemplo abaixo, que trata do estudo sobre doenças cardiovasculares em Honolulu, Havaí.

Exemplo 2.1: Em 1969 foi conduzido um estudo para investigar o comportamento de algumas características

possivelmente associadas às doenças cardiovasculares, em homens da cidade de Honolulu, Havaí. Para tanto,

foram observados 7683 casos de homens com problemas cardíacos. Este estudo é descrito por Kuzma (1998) e

por Soares & Siqueira (1999, p.37), sendo que nesta última referência foram disponibilizadas (através do site

www.est.ufmg.br/~estmed) as informações relativas a uma amostra de 100 destes pacientes. As características

estudadas e os correspondentes códigos utilizados são:

Nível de Instrução → variável qualitativa observada mediante as seguintes categorias ordenadas:

1 = Nenhuma 2 = Primeiro Grau Incompleto 3 = Primeiro Grau Completo 4 = Segundo Grau Completo 5 = Curso Técnico 6 = Curso Superior


10

Peso (em kg) → variável quantitativa contínua.

Altura (em cm) → variável quantitativa contínua.

Idade (em anos) → variável quantitativa contínua.

Hábito de Fumar → variável qualitativa nominal, codificada mediante as categorias

0 = Não Fumante 1 = Fumante

Atividade Física → variável qualitativa observada através das seguintes categorias ordenadas:

1 = Sedentário 2 = Moderada 3 = Alta

Nível de Glicose no Sangue (em miligramas percentuais) → variável quantitativa contínua.

Nível de Colesterol Sérico (em miligramas percentuais) → variável quantitativa contínua.

Pressão Sangüínea Sistólica (em mmHg) → variável quantitativa contínua.

A Tabela 2.1 apresenta os dados brutos correspondentes à amostra de 100 pacientes

com problemas cardíacos, extraídos dos 7683 casos pesquisados. As variáveis observadas foram registradas de

acordo com a codificação descrita acima. A primeira coluna da tabela, rotulada por “Paciente nº” serve apenas

para identificar as observações, enquanto que a demais coluna contém as informações de cada paciente da

amostra, para as características estudadas. Assim, por exemplo, o nível de instrução do primeiro paciente é igual

a 2, significando que possui primeiro grau incompleto. Analogamente, para o Paciente 6 o nível de instrução 4

indica que ele possui segundo grau completo.

É importante observar que os números associados às categorias de resposta da variável

nível de instrução são apenas rótulos utilizados para simplificar a codificação e a digitação dos resultados e,

consequentemente, não podem ser utilizados para quantificar o nível de instrução dos indivíduos. Em outras

palavras, não é possível afirmar que o Paciente 6 (cujo nível de instrução é codificado pelo rótulo “4”) é duas

vezes mais instruído do que o Paciente 2 (cujo nível de instrução é codificado com o rótulo “2”).

A interpretação dos códigos das demais variáveis qualitativas (hábito de fumar e

atividade física) pode ser realizada de maneira similar. Assim, por exemplo, uma rápida inspeção da Tabela 2.1

revela que o Paciente 1 é fumante e sedentário. As variáveis quantitativas, por sua vez, são interpretadas da

maneira usual. O Paciente 1, por exemplo, tem 70 quilogramas, altura igual a 165 centímetros, 61 anos de idade

e apresentou nível de glicose no sangue igual a 107 mg%, nível de colesterol sérico igual a 199 mg% e pressão

sistólica igual 102 mmHg.


11

Tabela 2.1 – Codificação das respostas associadas às variáveis do estudo sobre doenças cardiovasculares em Honolulu, para a amostra de 100 pacientes.

Paciente nº

Nível de Instrução

Peso (em kg)

Altura (em cm)

Idade (em anos)

Hábito de

Fumar

Atividade Física

Nível de Glicose

(em mg%)

Nível de Colesterol Sérico

(em mg%)

Pressão Sistólica

(em mmHg)1 2 70 165 61 1 1 107 199 102 2 1 60 162 52 0 2 145 267 138 3 1 62 150 52 1 1 237 272 190 4 2 66 165 51 1 1 91 166 122 5 2 70 162 51 0 1 185 239 128 6 4 59 165 53 0 2 106 189 112 7 1 47 160 61 0 1 177 238 128 8 3 66 170 48 1 1 120 223 116 9 5 56 155 54 0 2 116 279 134

10 2 62 167 48 0 1 105 190 104 11 4 68 165 49 1 2 109 240 116 12 1 65 166 48 0 1 186 209 152 13 1 56 157 55 0 2 257 210 134 14 2 80 161 49 0 1 218 171 132 15 3 66 160 50 0 2 164 255 130 16 4 91 170 52 0 2 158 232 118 17 3 71 170 48 1 1 117 147 136 18 5 66 152 59 0 2 130 268 108 19 1 73 159 59 0 2 132 231 108 20 4 59 161 52 0 1 138 199 128 21 1 64 162 52 1 1 131 255 118 22 3 55 161 52 1 1 88 199 134 23 2 78 175 50 1 1 161 228 178 24 2 59 160 54 0 1 145 240 134 25 3 51 167 48 1 2 128 184 162 26 3 83 171 55 0 1 231 192 162 27 2 66 157 49 1 2 78 211 120 28 4 61 165 51 0 1 113 201 98 29 2 65 160 53 0 1 134 203 144 30 3 75 172 49 0 1 104 243 118 31 4 61 164 49 0 2 122 181 118 32 1 73 157 53 1 2 442 382 138 33 2 66 157 52 0 1 237 186 134 34 1 73 155 48 0 2 148 198 108 35 2 61 160 53 0 1 231 165 96 36 3 68 162 50 0 2 161 219 142 37 2 52 157 50 0 2 119 196 122 38 5 73 162 50 0 1 185 239 146 39 1 52 165 61 1 2 118 259 126 40 1 56 162 53 1 1 98 162 176 41 3 67 170 48 1 2 218 178 104 42 1 61 160 47 0 1 147 246 112 43 3 52 166 62 1 2 176 176 140 44 2 61 172 56 1 2 106 157 102 45 3 62 164 55 1 2 109 179 142 46 2 56 155 57 1 2 138 231 146 47 1 55 157 50 0 2 84 183 92 48 3 66 165 48 1 2 137 213 112 49 1 59 159 51 0 2 139 230 152 50 3 53 152 53 1 2 97 134 116 51 5 71 173 52 0 2 169 181 118


12

Tabela 2.1 – Codificação das respostas associadas às variáveis do estudo sobre doenças cardiovasculares em Honolulu, para a amostra de 100 pacientes.

Paciente nº


Peso (em kg)

Altura (em cm)

Idade (em anos)

Hábito de

Fumar

Atividade Física

Nível de Glicose

(em mg%)

Nível de Colesterol Sérico

(em mg%)

Pressão Sistólica

(em mmHg)52 2 57 152 49 0 1 160 234 128 53 2 73 165 50 1 1 123 161 116 54 3 75 170 49 0 2 130 289 134 55 3 80 171 50 1 2 198 186 108 56 4 49 157 53 0 1 215 298 134 57 4 65 162 52 0 1 177 211 124 58 2 82 170 56 0 2 100 189 124 59 3 55 155 52 0 2 91 164 114 60 3 61 165 58 0 1 141 219 154 61 2 50 155 54 1 2 139 287 114 62 5 58 160 56 0 1 176 179 114 63 1 55 166 50 1 2 218 216 98 64 5 59 161 47 0 2 146 224 128 65 2 68 165 53 1 1 128 212 130 66 2 60 170 53 1 2 127 230 122 67 1 77 160 47 1 1 76 231 112 68 5 60 155 52 0 1 126 185 106 69 3 70 164 54 0 1 184 180 128 70 2 70 165 46 0 1 58 205 128 71 3 77 160 58 1 1 95 219 116 72 5 86 160 53 0 2 144 286 154 73 2 67 152 49 1 2 124 261 126 74 3 77 165 53 1 1 167 221 140 75 3 75 169 57 0 2 150 194 122 76 2 70 165 52 0 2 156 248 154 77 2 70 165 49 1 1 193 216 140 78 1 71 157 53 0 1 194 195 120 79 1 55 162 49 0 2 73 217 140 80 2 59 165 53 1 2 98 186 114 81 3 64 159 50 0 2 127 218 122 82 1 66 160 54 0 1 153 173 94 83 4 59 165 60 0 2 161 221 122 84 3 68 165 57 0 1 194 206 172 85 5 58 160 52 0 1 87 215 100 86 1 57 154 65 1 1 188 176 150 87 2 60 160 65 0 2 149 240 154 88 2 53 162 62 0 1 215 234 170 89 2 61 159 62 1 2 163 190 140 90 1 66 154 62 0 1 111 204 144 91 1 61 152 67 0 2 198 256 156 92 2 52 152 66 0 2 265 296 132 93 1 59 155 62 0 2 143 223 140 94 1 63 155 62 1 1 136 225 150 95 2 61 165 63 0 2 298 217 130 96 2 68 155 67 0 2 173 251 118 97 1 58 170 62 0 1 148 187 162 98 3 68 160 55 0 1 110 290 128 99 5 60 159 50 0 2 188 238 130

100 2 61 160 54 1 1 208 218 208

Fonte: Soares & Siqueira (1999, p.37) Nota: Dados disponíveis no site www.est.ufmg.br/~estmed


13

Na forma como os dados estão apresentados na Tabela 2.1, contudo, não é possível extrair

praticamente nenhuma informação sobre o comportamento das variáveis em estudo. Em outras palavras, para

entender melhor o comportamento dessas variáveis é necessário organizar e apresentar os dados brutos em uma

forma mais apropriada, como será visto na próxima seção.

2.1 Organização e Apresentação de Dados

Por simplicidade, considere inicialmente apenas as observações relativas à variável pressão

sangüínea sistólica (em mmHg) para a amostra de 100 pacientes do Exemplo 2.1. Uma inspeção dos dados

brutos permite concluir apenas que os valores da pressão sistólica dos indivíduos da amostra variaram entre 92

mmHg (o menor valor da amostra) e 208 mmHg (o maior valor). Contudo, apesar da relativa simplicidade deste

procedimento de inspeção, na prática este resultado pode ser de pouca utilidade, pois não se tem clareza sobre o

comportamento dos valores observados para os demais pacientes. Assim, é conveniente organizar e apresentar

os dados observados em uma forma mais prática e transparente. Isto pode ser realizado através da construção da

tabela de distribuição de freqüências, a qual permite visualizar e interpretar com maior rapidez as informações

geradas na amostra.

A construção de uma tabela de distribuição de freqüências consiste essencialmente em contar

o número de ocorrências de cada valor observado para a variável em estudo, sendo que esses valores devem ser

dispostos na tabela em ordem crescente. O resumo dos dados através de tabelas deve seguir as normas de

apresentação tabular do IBGE, veja IBGE (1993). Uma breve descrição dessas normas pode ser encontrada em

Vieira (1981, p.9-19). Contudo, cabe destacar os seguintes aspectos: uma tabela é basicamente composta pelo

título, corpo, cabeçalho e coluna indicadora.

O título da tabela deve explicar de forma clara e concisa as informações que a tabela contém

em seu corpo, que é constituído pelas linhas e colunas de dados (informações). O cabeçalho informa o conteúdo

das colunas, enquanto que a coluna indicadora detalha o conteúdo das linhas. Outros aspectos também devem

ser observados: traços verticais podem ser usados para separar as colunas, mas não podem ser usados traços

verticais para delimitar a tabela. O cabeçalho deve ser separado do corpo da tabela através de uma linha

horizontal. Ainda, a tabela pode conter a fonte dos dados, bem como notas para esclarecer outros detalhes sobre

as informações.

No Exemplo 2.1, a distribuição de freqüências (por tratar-se de uma amostra, também pode

ser chamada de distribuição empírica) para a variável pressão sistólica é apresentada na Tabela 2.2. As colunas

desta tabela contêm algumas medidas que usualmente são úteis e práticas para interpretar as informações

disponíveis no conjunto de observações.

A primeira coluna, por exemplo, identifica a variável em estudo (pressão sistólica – em

mmHg), que está sendo rotulada pela letra " . Os valores dispostos nesta coluna representam os níveis de "x


14 pressão sistólica observados na amostra e estão em ordem crescente. Assim, na primeira linha da tabela, o valor

representa o menor nível de pressão sistólica observado na amostra, que é igual a 92 mmHg. Por sua

vez, o maior valor observado foi .

92=x

mmHg 208=x

f

mmHg 128

f r

%1=

A segunda coluna da Tabela 2.2 contém o número de vezes que cada valor de pressão

sistólica foi observado na amostra. Esta medida é chamada de )x( freqüência absoluta e usualmente

representada por . Assim, é a freqüência absoluta da linha i e representa o número de indivíduos da

amostra que apresentaram um valor da característica em estudo igual ao valor

f if

x da i-ésima linha da tabela.

Para os dados da Tabela 2.2, 11 = significa que apenas um paciente da amostra apresentou

pressão sistólica igual a 92 mmHg (que é o valor da primeira linha da tabela). Analogamente, na 18ª linha, o

valor da pressão sistólica é , ao qual está associada a freqüência absoluta , ou seja, 8

pacientes apresentaram pressão sistólica igual a 128 mmHg.

=x 818 =f

Naturalmente, o total da coluna de freqüências absolutas é igual ao número de indivíduos

estudados na amostra (tamanho da amostra), usualmente representado por , isto é, , onde é o

número de linhas da tabela.

n ∑=

=L

iifn

1

L

A partir das freqüências absolutas e do tamanho da amostra n , é possível determinar a if

freqüência relativa correspondente ao valor da i-ésima linha da tabela, usualmente representada por e

definida por

rif

nf

f iri = . Assim, a freqüência relativa representa a rif proporção de indivíduos da amostra que

apresentam um valor da variável em estudo igual ao valor de x da linha i.

Por exemplo, na Tabela 2.2, 010100

11 ,== e 080

1008

18 ,f r ==

f r 10018 ×

∑=

L

irif

1

. Uma maneira usual de

interpretar a freqüência relativa é transformá-la em percentual, mediante a sua multiplicação por 100. Dessa

forma, , significa que 1% dos indivíduos da amostra apresentaram pressão

sistólica igual a 92 mmHg. Analogamente, 8% dos pacientes da amostra (isto é, ) apresentaram

pressão sistólica igual a 128 mmHg. Como as freqüências relativas são calculadas em relação ao tamanho da

amostra , então o total desta coluna será obrigatoriamente igual a 1, , ou seja, (exceto, em alguns

casos, por pequenos erros de arredondamento).

,f r 1000101001 ×=×

n

%8=

= 1


15

Tabela 2.2 – Distribuição de freqüências da pressão sistólica para os

100 pacientes da amostra de indivíduos cardíacos de Honolulu. Pressão Sistólica

)x(Freqüência Absoluta

)f( i

Freqüência Relativa

)f( ri

Freqüência Absoluta Acumulada

)F( i 92 1 0,01 1 94 1 0,01 2 96 1 0,01 3 98 2 0,02 5

100 1 0,01 6 102 2 0,02 8 104 2 0,02 10 106 1 0,01 11 108 4 0,04 15 112 4 0,04 19 114 4 0,04 23 116 5 0,05 28 118 6 0,06 34 120 2 0,02 36 122 6 0,06 42 124 2 0,02 44 126 2 0,02 46 128 8 0,08 54 130 4 0,04 58 132 2 0,02 60 134 7 0,07 67 136 1 0,01 68 138 2 0,02 70 140 6 0,06 76 142 2 0,02 78 144 2 0,02 80 146 2 0,02 82 150 2 0,02 84 152 2 0,02 86 154 4 0,04 90 156 1 0,01 91 162 3 0,03 94 170 1 0,01 95 172 1 0,01 96 176 1 0,01 97 178 1 0,01 98 190 1 0,01 99 208 1 0,01 100

Total 100 1 Fonte: Soares & Siqueira (1999, p.37) Nota: Dados disponíveis no site www.est.ufmg.br/~estmed


16

Outra medida que geralmente pode ser útil para interpretar os dados gerados na amostra é a

freqüência absoluta acumulada, denotada por . A freqüência absoluta acumulada da linha i é definida pela

soma das freqüências absolutas até a i-ésima linha, ou seja, . Consequentemente, representa o

número de indivíduos da amostra que apresentam valores da variável em estudo menores ou iguais ao valor

F

∑=

=i

jji fF

1iF

x

correspondente a i-ésima linha da tabela. Por exemplo, na Tabela 2.2, a freqüência absoluta acumulada da linha

18 é . Isto significa que 54 pacientes da amostra apresentaram pressão sistólica 5418 =F menor ou igual a 128

mmHg (veja a 18ª linha da Tabela 2.2).

A organização dos dados relativos à variável pressão sistólica do Exemplo 2.1, através da

tabela de freqüências, claramente facilita a visualização e interpretação das informações geradas pela amostra.

Contudo, a Tabela 2.2 ainda é consideravelmente extensa, pois o número de linhas da tabela ( )L 38= é

grande. Assim, as observações da variável pressão sistólica podem ser agrupadas em intervalos de classe, com

perda mínima de informação. Ou seja, os dados podem ser sintetizados ainda mais, mediante a construção de

uma tabela de distribuição de freqüências agrupadas por intervalo de classe.

Não existem regras rígidas para construir tabelas de distribuição de freqüências agrupadas

por intervalos de classe, por isso é importante mencionar alguns procedimentos práticos e empíricos descritos

por Soares & Siqueira (1999, p.41-42) e Daniel (1974, p.14).

Inicialmente é necessário determinar o número de intervalos de classe (ou classes),

lembrando que o objetivo básico é resumir os dados com perda mínima de informação. Se o número de classes

for muito grande, então o objetivo de sintetizar o conjunto de dados não será atingido. Por outro lado, se o

número de classes for muito pequeno, poderá ocorrer excessiva perda de informação.

Uma regra prática recomenda que o número de intervalos de classe deve variar entre 5 e 15.

Entretanto, pode-se determinar o número de classes através da fórmula de Sturges, que especifica o número de

classes como k

( )nlog,k 32231 10×+= ,

onde é o tamanho da amostra. Naturalmente que este resultado é apenas uma referência, devendo-se fazer os

ajustes apropriados levando-se em conta as características práticas do problema. Em outras palavras, pode-se

aumentar ou diminuir o valor k em função da conveniência e clareza de apresentação. O número de intervalos

de classe também pode ser determinado através das expressões

n

nk = ou k nlog 1 2+= , descritas por Soares

& Siqueira (1999, p.42).

É importante salientar que os intervalos de classe devem ser disjuntos, ou seja, não pode

ocorrer sobreposição de classes, pois cada observação deve ser colocada em somente um intervalo de classe. É

preferível, também, que os intervalos de classe sejam todos do mesmo tamanho (amplitude). O tamanho dos


17

intervalos de classe pode ser determinado, ao menos aproximadamente, por kAa = , onde é a amplitude dos

intervalos de classe e é a amplitude de variação amostral, definida pela diferença entre o maior e o menor

valor observados na amostra.

a

A

Para ilustrar a construção de uma tabela de agrupamento por intervalos de classe, considere

as observações da variável pressão sistólica do Exemplo 2.1, apresentadas na Tabela 2.2. Como o tamanho da

amostra é , a aplicação da fórmula de Sturges produz 100=n

( ) 8647232231 32231 10 ≅=×+=×+= ,,nlog,k ,

ou seja, o número de classes deveria ser aproximadamente igual a 8. Para determinar a amplitude das classes,

primeiro é necessário identificar o menor e o maior valor da amostra, isto é, a menor e a maior pressão sistólica

observada, que são respectivamente mmHgx )( 921 = e mmHgx )n( 208= . Assim, a amplitude amostral é

e, conseqüentemente, o tamanho de cada intervalo de classe é mmHgxxA )()n( 116922081 =−=−=

mmHg,kAa 15514

8116

≅=== .

Resumindo, a tabela de distribuição de freqüências agrupadas por intervalos de classe para a

variável pressão sistólica deveria considerar 8 classes, todas com amplitude de 15 mmHg. Naturalmente que o

número de classes e a amplitude das classes poderiam ser modificados se na prática esta configuração implicasse

substancial perda de informação ou se o número de classes ainda fosse demasiadamente grande. Entretanto, a

solução obtida parece ser bastante razoável, produzindo o agrupamento disposto na Tabela 2.3.

Tabela 2.3 – Distribuição de freqüências agrupadas por intervalos de classe para a pressão sistólica dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.

Intervalo de Classe

(em mmHg)

Freqüência Absoluta

)f( i


)f( ri


)F( i 90 |- 105 10 0,10 10 105 |- 120 24 0,24 34 120 |- 135 33 0,33 67 135 |- 150 15 0,15 82 150 |- 165 12 0,12 94 165 |- 180 4 0,04 98 180 |- 195 1 0,01 99 195 |- 210 1 0,01 100

Total 100 1


18

Procedimentos gráficos também podem ser extremamente úteis para interpretar as

informações contidas nas tabelas de distribuições de freqüências. Dentre os tipos de gráficos mais comuns, cabe

destacar o gráfico de barras, o gráfico de setores, o histograma e o polígono de freqüências, sendo que a

escolha do gráfico depende essencialmente do tipo de variável considerada.

As variáveis qualitativas usualmente podem ser representadas através de gráficos de barras

ou de setores, enquanto que as variáveis discretas podem ser representadas através do gráfico de barras. As

variáveis contínuas agrupadas em intervalos de classe, por sua vez, podem ser representadas graficamente

através de um histograma ou de um polígono de freqüências. A Figura 2.1 ilustra o histograma para os dados da

Tabela 2.3, onde os valores dispostos no eixo horizontal correspondem ao ponto médio do intervalo de classe.

Pressão Sistólica (em mmHg)

202,5187,5172,5157,5142,5127,5112,597,5

Freq

üênc

ia R

elat

iva

40

35

30

25

20

15

10

5

0

Figura 2.1 – Histograma da pressão sangüínea sistólica na amostra de 100 pacientes com doenças cardiovasculares do estudo realizado em Honolulu.

Naturalmente, o mesmo procedimento de organização dos dados pode ser utilizado para as

demais variáveis do Exemplo 2.1, permitindo apresentá-las de uma maneira mais adequada e diminuindo

substancialmente o esforço necessário para interpretá-las. A título de ilustração, considere a variável qualitativa

nível de instrução, cujas informações geradas na amostra são apresentadas através da distribuição empírica de

freqüências mostrada na Tabela 2.4.


19

Tabela 2.4 – Distribuição de freqüências da variável nível de instrução dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.



)f( i


)f( ri


)F( i

Nenhuma 25 0,25 25

1º Grau Incompleto 32 0,32 57

1º Grau Completo 24 0,24 81

2º Grau Completo 9 0,09 90

Curso Técnico 10 0,10 100

Curso Superior 0 0,00 100

Total 100 1

Como se trata de uma variável qualitativa, a representação gráfica dos dados da Tabela 2.4

pode ser realizada mediante o gráfico de barras disposto na Figura 2.2.


Curso Técnico2º Grau Comp.

1º Grau Comp.1º Grau Inc.

Nenhuma

Freq

üênc

ia R

elat

iva

40

35

30

25

20

15

10

5

0

Figura 2.2 – Distribuição empírica do nível de instrução dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu.


20 2.2 Medidas de Síntese Numérica

Na seção anterior foi ilustrado que a organização de dados em tabelas e a representação

gráfica permitem interpretar as informações de forma fácil e rápida. Contudo, na análise estatística de dados

freqüentemente é necessário resumir ainda mais o conjunto de observações, através de estatísticas que

possibilitem extrair de forma mais eficiente a informação que ele contém. Em especial, deseja-se calcular

medidas de tendência central, que são úteis para representar um elemento típico da amostra (ou da população),

bem como medidas de variabilidade, para avaliar o comportamento dos indivíduos.

2.2.1 Medidas de Tendência Central

As medidas de tendência central, também chamadas de medidas de posição ou de locação,

podem ser extremamente úteis para representar todo o conjunto de dados. Em geral, busca-se uma medida que

seja o centro da distribuição da variável de interesse. Entre as principais medidas de posição, cabem destacar a

média aritmética, a mediana e a moda.

A média aritmética simples de elementos – doravante chamada simplesmente de média –

onde é o tamanho da amostra, é denotada por

n

n x (lê-se x barra) e definida por

n

xx

n

ii∑

== 1 ,

e representa o “centro de gravidade” ou o “ponto de equilíbrio” da distribuição.

O termo representa a soma dos elementos do conjunto de dados ( )∑=

n

iix

1nx...xx +++ 21 ,

ou seja, a soma dos valores da variável em estudo para cada indivíduo da amostra. Para facilitar a ilustração do

cálculo das medidas de tendência central, é conveniente utilizar os dados da variável pressão sangüínea sistólica

definida no Exemplo 2.1, onde a soma dos valores da pressão sistólica para cada um dos 100 indivíduos da

amostra é igual a – veja os valores

originais na Tabela 2.1. A média amostral, portanto, é

( ) ( ) mmHgxxi

i 130102081381021002

100

1

=+++=++=∑=

LLxx1 +

mmHg,n

xx

n

ii

10130100

130101 ===∑= .


21

Apesar da sua simplicidade, quando o conjunto de observações é grande, o cálculo manual

da média aritmética pode tornar-se excessivamente trabalhoso. A organização dos dados em tabelas de

freqüências (tabela de agrupamento simples) ou em tabelas de freqüências agrupadas por intervalos de classe

(tabela de agrupamento em intervalos de classe) pode simplificar bastante o processo de cálculo, mas

seguramente é mais prático utilizar algum procedimento computacional.

Quando os dados estão agrupados em uma tabela de agrupamento simples, a média

aritmética pode ser determinada mediante o emprego da expressão

n

xfx

L

iii∑

=

×= 1 ,

onde é o número de linhas da tabela, ou seja, o número de valores distintos que apareceram na amostra,

enquanto que é a freqüência absoluta associada a cada valor .

L ix

if ix

Para exemplificar, é conveniente reproduzir na Tabela 2.5 os dados da variável pressão

sistólica descrita no Exemplo 2.1, onde o maior volume de operações já foi processado. Observe, na Tabela 2.5,

que o total da coluna rotulada como informa o valor da soma de todos os valores observados para a

pressão sistólica, isto é ∑ . Assim, a média amostral da

pressão sistólica é

ii xf ×

...x2 +( ) mmHgxfxxx i

L

iin

ii 13010

11

100

1

=×=++= ∑==

mmHg,n

xfx

L

iii

10130100

13010100

20819829619419211 ==×++×+×+×+×

=×

=∑= L

.

Se os dados estão agrupados por intervalos de classe, o cálculo da média aritmética segue os

mesmos princípios do caso em que os dados estão em uma tabela de agrupamento simples. Entretanto, como as

informações disponíveis são os intervalos de classe (e não os valores exatos da variável), deve-se utilizar o

ponto médio de cada classe como o valor de , para todo iix L,...,,21= , onde kL = é o número de classes. Os

demais procedimentos são idênticos ao caso anterior.

Para ilustrar, considere os dados da variável pressão sistólica do agrupada por intervalos,

dispostos na Tabela 2.3. O ponto médio de cada intervalo de classe é apresentado na Tabela 2.6, juntamente com

os resultados das operações matemáticas. O primeiro intervalo de classe é 90 |- 105 mmHg e o seu

correspondente ponto médio é determinado por mmHg,x 597210590

1 =+

= . Na segunda classe (105 |- 120

mmHg) , o ponto médio é mmHg,x 51122

1201052 =

+= e o procedimento é similar para as demais classes.


22

É importante mencionar que no cálculo da média para dados agrupados em intervalos de

classe, admite-se que em cada classe todas as observações da variável estão concentradas no ponto médio do

intervalo, que é o valor mais provável.

Tabela 2.5 – Distribuição de freqüências da variável pressão sistólica

dos 100 pacientes da amostra de indivíduos cardíacos de Honolulu. Pressão Sistólica

)x( i


)f( i

ii xf ×

2ii xf ×

92 1 92 8464 94 1 94 8836 96 1 96 9216 98 2 196 19208

100 1 100 10000 102 2 204 20808 104 2 208 21632 106 1 106 11236 108 4 432 46656 112 4 448 50176 114 4 456 51984 116 5 580 67280 118 6 708 83544 120 2 240 28800 122 6 732 89304 124 2 248 30752 126 2 252 31752 128 8 1024 131072 130 4 520 67600 132 2 264 34848 134 7 938 125692 136 1 136 18496 138 2 276 38088 140 6 840 117600 142 2 284 40328 144 2 288 41472 146 2 292 42632 150 2 300 45000 152 2 304 46208 154 4 616 94864 156 1 156 24336 162 3 486 78732 170 1 170 28900 172 1 172 29584 176 1 176 30976 178 1 178 31684 190 1 190 36100 208 1 208 43264

Total 100 13010 1737124


23

Tabela 2.6 – Distribuição de freqüências agrupadas por intervalos de classe para a variável pressão sistólica na amostra de 100 pacientes cardíacos do estude de Honolulu.

Intervalo de Classe (em mmHg)

Ponto Médio do I.C. ( )xi


)f( i

ii xf ×

2ii xf ×

90 |- 105 97,5 10 975,00 95062,50 105 |- 120 112,5 24 2700,00 303750,00 120 |- 135 127,5 33 4207,50 536456,25 135 |- 150 142,5 15 2137,50 304593,75 150 |- 165 157,5 12 1890,00 297675,00 165 |- 180 172,5 4 690,00 119025,00 180 |- 195 187,5 1 187,50 35156,25 195 |- 210 202,5 1 202,50 41006,25

Total 100 12990 1732725

Utilizando os resultados da Tabela 2.6, quando a pressão sistólica está agrupada por

intervalos de classe, a média aritmética amostral é dada por

mmHg,,,,n

xfx

L

iii

90129100

12990100

52021511224597101 ==×++×+×

=×

=∑= L

.

Deve-se observar que o agrupamento dos dados em intervalos de classe praticamente não

provocou perda de informação, pois o valor de mmHg,x 90129= está muito próximo da média

mmHg,x 10130= obtida sem o agrupamento.

Devido à facilidade de cálculo e às propriedades matemáticas e estatísticas que possui, a

média aritmética é a medida de tendência central mais utilizada, podendo ser extremamente útil nas

comparações entre populações. Outra vantagem que possui é a simplicidade de interpretação. No caso da

variável pressão sistólica descrita no Exemplo 2.1, considerando-se os valores de x obtidos tanto para a Tabela

2.2 quanto na Tabela 2.3, pode-se afirmar que os 100 pacientes estudados na amostra apresentaram, em média,

pressão sistólica aproximadamente igual a 130 mmHg.

Outros tipos de média podem ser definidos, tais como a média aritmética ponderada, a

média geométrica e a média harmônica. A média aritmética ponderada é extremamente útil quando os números

que desejamos sintetizar possuem graus de importância diferentes, sendo definida por

∑

∑

=

=

×= n

ii

n

iii

p

p

xpx

1

1 ,


24 onde representa o peso associado à observação . Um exemplo trivial surge no caso da nota final de uma

disciplina, onde a importância das provas é representada, por exemplo, pelos pesos 2, 3 e 5, respectivamente

para a primeira ( , segunda ( e terceira ( prova. Assim, a média ponderada seria determinada por

ip ix

))x1 )x2 x3

532532 321

++×+×+×

=xxx

m pond .

Para uma amostra com observações , a média geométrica amostral é definida

por

n nx,,x,x L21

nng xxxx ×××= L21 ,

enquanto que a média harmônica amostral é dada por

∑=

= n

i i

h

x

nx

1

1.

No contexto deste curso seguramente a média aritmética simples tem um papel mais

importante. No entanto, apesar das suas qualidades, nem sempre ela é uma medida de tendência central

adequada para representar o centro de gravidade de uma distribuição de probabilidades. De fato, quando uma

variável apresenta um comportamento assimétrico, isto é, com a maioria dos valores concentrados em um dos

extremos, é mais apropriado utilizar a mediana.

A mediana pode ser definida como o valor da variável que divide o conjunto de

observações exatamente ao meio, de tal forma que 50% dos indivíduos da amostra (ou da população)

apresentam valores menores ou iguais ao valor mediano, enquanto que os outros 50% dos indivíduos possuem

valores maiores ou iguais ao valor mediano. A mediana está definida para variáveis medidas em escala ordinal

de intervalo ou de razão e, para determiná-la pode ser conveniente seguir as seguintes etapas:

1ª) ordenar o conjunto de observações;

2ª) determinar a posição da mediana, que funciona como um endereço que ajuda na sua localização. Para

amostras com tamanho ímpar, a posição da mediana é dada por n2

1+n, de tal forma que a mediana

amostral é o valor que está na posição 2

1+n do conjunto ordenado de observações. Na situação em

que o tamanho da amostra é par, a mediana é a média dos elementos de ordens n2n

e 2

2+n do

conjunto ordenado de observações; e,

3ª) determinar o valor da mediana.


25

Para ilustrar, considere os dados da variável pressão sistólica do Exemplo 2.1, dispostos na

Tabela 2.2. A primeira etapa está satisfeita, pois como os dados estão em uma tabela de distribuição de

freqüências, já estão ordenados. Na segunda etapa, como o tamanho da amostra é par, o valor da

mediana é a média entre os valores que estão, respectivamente, nas posições

( 100=n )

502=

n e 51=

22+n

do conjunto

ordenado de observações. Outra alternativa para determinar a posição da mediana, independentemente do

tamanho da amostra ser par ou ímpar, é utilizar a expressão n2

1+n. No exemplo, a posição da mediana é

52

1n=

+ 50, e significa que a mediana é determinada através da média aritmética dos valores que estão nas 50ª

e 51ª posições do conjunto ordenado observações. Assim, a mediana amostral é

Hgmmmd 1282

128128=

+= ,

devendo ser interpretada da seguinte forma: metade dos indivíduos da amostra (50%) apresentou pressão

sistólica menor ou igual a 128 mmHg, enquanto que os outros 50% dos pacientes apresentaram pressão sistólica

maior ou igual a 128 mmHg.

Se os dados estão agrupados por intervalo de classe, entretanto, o procedimento para

determinar a mediana é diferente daquele descrito acima, devendo-se calcular a mediana através da expressão

−×+=

fF

aLm antn

infd2

,

onde

=infL limite inferior do intervalo de classe que contém a mediana;

=a amplitude do intervalo de classe que contém a mediana;

=n tamanho da amostra;

=antF freqüência absoluta acumulada do intervalo de classe imediatamente anterior à classe que

contém a mediana; e,

=f freqüência absoluta do intervalo de classe que contém a mediana.

Os dados da pressão sistólica agrupados por intervalos de classe dispostos na Tabela 2.3 são

úteis para ilustrar o procedimento de cálculo da mediana nesta situação. Como foi visto anteriormente, a

mediana está entre o 50º e 51º elementos do conjunto ordenado de observações. Isto significa que o valor da


26 mediana está dentro do intervalo de classe 120 | 135 mmHg. Então, para o cálculo da mediana deve-se

identificar as seguintes informações:

.333415120135120100 ====== f e , F-, a, Ln antinf

Consequentemente, a mediana amostral da pressão sistólica agrupada em intervalos de classe

é

mmHg,,md 27127277120331615120

3334

15120 2100

=+=×+=−

×+= ,

sendo interpretada da forma usual.

É importante salientar que todas as observações são diretamente utilizadas para calcular a

média, não ocorrendo o mesmo com a mediana. Dessa forma, valores extremos (muito grandes ou muito

pequenos quando comparados aos demais valores da amostra) causam grandes perturbações na média, o que em

geral não ocorre com a mediana. Por esta razão, diz-se que a mediana é uma medida robusta, como pode ser

ilustrado através do exemplo hipotético descrito abaixo.

Exemplo 2.2 (dados hipotéticos): Um sonífero foi administrado em dois grupos de 5 pacientes

determinados aleatoriamente (denominados Grupo A e Grupo B). A característica ou variável de interesse ( é

o tempo (em minutos) até o início do efeito do medicamento e os resultados são mostrados na Tabela 2.7.

)x

Tabela 2.7 – Tempo (em minutos) até o início do efeito do sonífero administrado aos pacientes do Grupo A e do Grupo B.

Grupo A )x(

Grupo B )y(

2x 2y

5,75 5,75 33,06 33,06 5,85 5,85 34,22 34,22 6,05 6,05 36,60 36,60 6,10 6,10 37,21 37,21 6,60 25,90 43,56 670,81

Σ 30,35 49,65 184,66 811,91 Nota: Dados fictícios.


27

Observe que apesar da semelhança entre os conjuntos de dados, o Grupo B apresenta um

elemento que pode ser considerado atípico, que é a observação 25,90 minutos. Assim, as duas médias amostrais

são diferentes e, se interpretadas no contexto do problema, poderiam revelar que o tempo médio até o início do

efeito do sonífero é menor no grupo A do que no grupo B. De fato, a média amostral do Grupo A é

utosmin,,n

xx

n

ii

076535301 ===

∑= ,

enquanto que no Grupo B é

utosmin,,n

yy

n

ii

939565491 ===

∑= .

Cabe observar que a discrepância entre essas médias é devida ao valor aparentemente atípico

em um paciente do grupo B (25,90 minutos), que está afetando substancialmente a média do grupo. Ao contrário

da média, a mediana amostral é igual nos dois grupos (6,05 minutos), indicando que o tempo até o início do

efeito do sonífero é similar em ambos os grupos. Em situações com esta, a mediana pode ser uma medida mais

adequada para representar o elemento típico da amostra, pois não é afetada por valores extremos.

Quando a característica de interesse é medida através de uma variável ordinal a mediana

deve ser utilizada para representar o centro da distribuição, haja vista que neste caso a média sequer está

definida. Como ilustração, considere o exemplo hipotético descrito abaixo:

Exemplo 2.3 (dados hipotéticos): A gravidade de uma fratura (da bacia, por exemplo) não pode ser

quantificada, mas é usual adotar uma variável ordinal definida pelas categorias “1-fratura leve”, “2-fratura

moderada” e “3-fratura severa”. Um grupo de 7 pacientes com fratura na bacia foi classificado de acordo com

este critério, tendo sido observados os seguintes níveis ou graus de severidade da fratura:

leve, leve, moderada, moderada, severa, severa, severa


28

É vital perceber que, no presente exemplo, os números 1, 2 e 3 associados às categorias são

apenas rótulos de identificação, de tal forma que não é possível calcular a média, pois as observações não

assumem valores numéricos. No exemplo, a medida de tendência central adequada é a mediana, que apresentou

valor fratura moderada, ou seja, o grau mediano de severidade da fratura da bacia dos 7 pacientes pode

ser considerado moderado. Isso significa que 50% dos pacientes apresentaram fratura de severidade leve ou

moderada, enquanto que os outros 50% dos pacientes tiveram fratura moderada ou severa.

=dm

Por outro lado, a utilização de escores para representar a severidade da fratura deve ser

acompanha por uma profunda e criteriosa discussão, haja vista que a escolha subjetiva de diferentes sistemas de

escores poderia conduzir a conclusões diferentes ou até mesmo conflitantes. Por exemplo, ao invés de usar os

escores 1, 2 e 3 para as categorias leve, moderada e severa da variável severidade da fratura, poderiam ser

usados os escores 1, 5 e 7, respectivamente. Assim, a validade das conclusões depende essencialmente da

adequação do sistema de escores adotado.

Um exemplo real onde a média não está definida é o caso da variável nível de instrução

apresentada no Exemplo 2.1, cuja distribuição empírica de freqüências foi disposta na Tabela 2.4. A posição da

mediana, neste caso, é 5502

1 ,n=

+, de tal forma que o valor da mediana é =dm 1º Grau Incompleto; ou seja

50% dos pacientes da amostra não tem instrução ou tem, no máximo, o primeiro grau incompleto.

Outra medida de tendência central comumente usada é a moda, que nada mais é do que o

valor mais freqüente do conjunto de observações. A moda está definida para qualquer tipo de variável, ou seja,

qualquer que seja a escala de medida utilizada. No entanto, ela é mais usada no caso de variáveis nominais, para

as quais a média e a mediana não estão definidas.

Como primeira ilustração, considere os dados do Exemplo 2.3, onde o valor modal é fratura

severa. Para os dados da variável pressão sistólica do Exemplo 2.1, a moda amostral é , que é

o valor mais freqüente do conjunto de observações.

mmHgmo 128=

Para os casos em que os dados estão agrupados em intervalos de classe, é usual falar em

classe modal, definida como o intervalo de classe que contém maior freqüência absoluta. Por exemplo, para a

variável pressão sistólica do Exemplo 2.1, cuja distribuição de freqüências agrupadas em intervalos de classe é

mostrada na Tabela 2.3, a classe modal é 120 | 135 mmHg. Embora não seja importante neste momento,

nestas situações é possível determinar o valor modal através dos métodos denominados de moda de King e

moda de Kzuber.

Nas representações gráficas a moda da distribuição pode ser identificada por um pico de

freqüência, sendo comum distribuições que apresentam dois ou mais picos. Nestas situações a distribuição é

chamada de bimodal ou polimodal, respectivamente.


29 2.2.2 Medidas de Variabilidade

Freqüentemente não é suficiente usar apenas uma medida de posição para interpretar

adequadamente um conjunto de dados. Assim, juntamente com uma medida de tendência central é desejável

dispor de uma medida de dispersão dos dados, através da qual é possível quantificar a variabilidade em relação

ao centro da distribuição. As medidas de variabilidade comumente usadas são amplitude de variação e o desvio

padrão, definido como a raiz quadrada da variância.

A amplitude de variação, ou simplesmente amplitude, é a medida de dispersão mais simples,

definida como a diferença entre os valores extremos da distribuição e, quanto maior a amplitude, maior é a

variabilidade dos dados. No caso amostral, é a diferença entre o valor máximo e o valor mínimo observados na

amostra, isto é, )()n( XXA 1−= , onde e são as estatística que representam o máximo o mínimo

da amostra, respectivamente.

)n(X )(X 1

Para as observações da variável pressão sistólica do Exemplo 2.1, a amplitude amostral foi

calculada na Seção 2.1, quando foram determinados o número de intervalos de classe e o tamanho de cada

classe. Repetindo o procedimento, o mínimo e o máximo da amostra foram, respectivamente, mmHgx )( 921 =

e , de tal forma que a amplitude amostral é mmHgx )n( 208= mmHg 116xxA )()n( 922081 =−=−= .

Contudo, apesar da simplicidade, a amplitude não é uma medida de variabilidade satisfatória

e apresenta alguns problemas sérios. Em especial, a amplitude utiliza apenas os valores extremos da

distribuição, desperdiçando a informação contida nas demais observações. Ainda, como utiliza apenas os

valores mínimo e máximo, a amplitude da amostra tem a tendência de subestimar a verdadeira amplitude (a

amplitude populacional), pois os valores extremos da população são raros e, consequentemente, difíceis de

serem observados em uma amostra.

Neste sentido, a variância é uma medida de variabilidade mais adequada, pois considera toda

a informação contida nos dados. Ela mede a variabilidade dos dados em torno da média e, no caso amostral, é

definida por

( )

111

2

12

1

2

2

−

−=

−

−=

∑∑

∑=

=

=

nn

xx

n

xxS

n

i

n

ii

i

n

ii

.

Os dados do Exemplo 2.2, dispostos na Tabela 2.7 podem ser usados para ilustrar o cálculo

da variância amostral nesta situação. Assim, aplicando o último termo da fórmula acima, a variância do tempo

até o início do efeito do sonífero no Grupo A é


30

2

2

2 11015

5353066184

)utos(min,

),(,sA =

−

−= ,

enquanto que para o Grupo B é dada por

2

2

2 727915

5654991811

)utos(min,

),(,s B =

−

−= .

Quando os dados estão organizados em uma tabela de freqüências ou em uma tabela de

freqüências agrupadas em intervalos de classe, a variância amostral é definida por

( )

11

2

1

1

2

1

2

2

−

×

−

×

=−

−×=

∑∑∑ =

==

nn

xfxf

n

xxfS

L

iiiL

iii

L

iii

.

Assim, por exemplo, para os dados da pressão sistólica do Exemplo 2.1, agrupados como na

Tabela 2.5, a variância amostral é

( )

( ) .mmHg,.....

...

nn

xfxf

s

L

iiiL

iii

2

2

2

1

1

2

2

734499952344

9960169211247371

99100010131247371

1

==−

=

−=

−

×

−

×

=

∑∑ =

=

Ainda para a pressão sistólica do Exemplo 2.1, a Tabela 2.6 apresenta o agrupamento por

intervalos de classe e, portanto, os valores são os pontos médios das classes. A variância amostral é ix

( )( )mmHg,

...

nn

xfxf

s

L

iiiL

iii

2

2

2

1

1

2

2 8345799

100990127257321

1=

−=

−

×

−

×

=

∑∑ =

= .


31

Como conseqüência direta da sua definição, a variância sempre assume valores maiores ou

iguais a zero e, em linhas gerais, pode-se dizer que quanto maior a variância, maior é a variabilidade dos dados

em torno da média. A interpretação da variância fica prejudicada pelo fato de que sua unidade é o quadrado da

unidade da variável, como pode ser constatado nos exemplos acima. Dessa forma, para retornar a unidade de

medida original, define-se a medida de variabilidade chamada de desvio padrão como a raiz quadrada da

variância, isto é, o desvio padrão é S S= 2 .

Assim, para os dados do Exemplo 2.2, mostrados na Tabela 2.7, o desvio padrão do tempo

até o início de efeito do sonífero no Grupo A é

( ) utosmin,utosmin,ss AA 330 110 22 === ,

e, para o Grupo B,

( ) utosmin,utosminss BB 938 9,727 22 === .

Neste exemplo, tanto com a variância quanto com o desvio padrão claramente percebe-se

que a variabilidade em torno da média é muito superior no Grupo B, como conseqüência da observação

discrepante 25,90 minutos.

Para variável pressão sistólica do Exemplo 2.1, o desvio padrão é igual a

( ) mmHg,mmHg,s 2121 73449 2 == ,

e, após o agrupamento dos dados da pressão sistólica em intervalos de classe, o desvio padrão é igual a

( ) mmHg,mmHg,s 4021 83457 2 == .

Percebe-se, assim, que o agrupamento em intervalos de classe adotado para a variável pressão sistólica

praticamente não alterou o valor do desvio padrão, sugerindo que a estratégia de agrupamento está adequada.

De forma análoga à variância, o desvio padrão também assume apenas valores maiores ou

iguais a zero e, de maneira geral, valores grandes indicam a presença de grande variabilidade. Contudo, devido à

ordem de grandeza intrínseca às variáveis, em muitas situações é difícil ou subjetivo definir o que é um valor

grande para o desvio padrão, sendo mais apropriado utilizar uma medida de variabilidade que independe da

unidade de medida da variável, chamada de coeficiente de variação, discutido na próxima seção.


32 2.2.3 Coeficiente de Variação

O coeficiente de variação permite expressar a variabilidade dos dados eliminando a

influência da ordem de grandeza da variável e, por ser adimensional, também possibilita comparar a

variabilidade de dois conjuntos de dados distintos. O coeficiente de variação é uma medida relativa da

variabilidade e é definido por

XSCV = .

O coeficiente de variação assume valores no intervalo [ ]+∞,0 e quanto menor o seu valor

mais homogêneo é o conjunto de dados. O coeficiente de variação é zero quando o desvio padrão é igual a zero,

ou seja, quando todos os valores observados na amostra são iguais (ausência completa de variabilidade). Como

uma regra geral, características que apresentam valor do coeficiente de variação menor do que 0,25 (ou 25%)

são relativamente homogêneas, mas isso depende muito da área de aplicação. Em variáveis vitais, por exemplo,

geralmente espera-se um coeficiente de variação muito menor do que 25% para que o conjunto de dados possa

ser considerado homogêneo.

No Exemplo 2.2, a intensidade da variabilidade em torno da média da variável tempo até o

início do efeito do sonífero pode ser avaliada através do coeficiente de variação. No Grupo A,

%, ou ,,,CVA 44505440076330

== ,

enquanto que no Grupo B,

%, ou ,,,CVB 938989930939938

== .

Assim, as observações do Grupo A podem ser consideradas homogêneos, ou seja, a variabilidade em torno da

média é pequena, mas o mesmo não ocorre no Grupo B.

A pressão sistólica do Exemplo 2.1, por sua vez apresenta um coeficiente de variação igual a

%,ou,,

,CV 3016 16300101302121

== ,

podendo ser considerada relativamente homogênea.

Justamente por ser adimensional, o coeficiente de variação permite, ainda, comparar a

variabilidade de variáveis com ordens de grandeza diferentes e, portanto, que não seriam diretamente

comparáveis.


33 3 Probabilidade

3.1 Conceitos Básicos

A grande maioria das variáveis da área biológica está sujeitas à variabilidade, devido ao fato

de que ela é inerente aos seres vivos. Assim, é conveniente dispor de uma medida que exprima essa incerteza,

através de uma escala numérica que varie do impossível ao certo. Esta medida é a probabilidade e o seu

conceito é fundamental para o estudo de situações onde os resultados não são previsíveis, veja Soares, Farias e

Cesar (1991).

Antes de definir probabilidade, é importante apresentar os conceitos de experimento

aleatório, de espaço amostral e de evento aleatório. Segundo Soares, Farias e Cesar (1991), um experimento

aleatório é o processo de coleta de dados, relativos a um fenômeno aleatório. O espaço amostral, por sua vez, é o

conjunto de todos os resultados possíveis de um experimento aleatório, enquanto que um evento aleatório é

qualquer subconjunto do espaço amostral. Esses conceitos podem ser melhor compreendidos através de

exemplos.

Exemplo 3.1: Considere o experimento aleatório que consiste no lançamento de uma moeda honesta, onde o

resultado observado é a face superior. Mantidas as mesmas condições, para cada repetição do experimento não é

possível prever o resultado, mas pode-se afirmar que o resultado será cara (C) ou coroa (K). Assim, o espaço

amostral associado ao experimento é o conjunto , KC=Ω , pois esses são os dois resultados possíveis em

cada lançamento da moeda honesta. Aqui, a “ocorrência do resultado cara” pode ser considerada um evento.

Exemplo 3.2: Considere o experimento aleatório que consiste no lançamento de um dado, observando-se o

resultado da face superior. O espaço amostral é o conjunto 6,5,4,3,2,1=Ω , que corresponde aos possíveis

resultados do experimento. Exemplos de eventos são: ou A

ocorrência de “face par” também é um evento, sendo escrito como .

,, 2ou 161

,,,, 5432

6ou 4ou 2

.3ou 1

Exemplo 3.3: Uma ilustração da área da médica é a observação da pressão sistólica descrita no Exemplo 2.1.

O espaço amostral associado a este experimento é o intervalo ( )+∞,0 , ou seja, conjunto ( )+∞=Ω ,0 . Assim,

admita que a variável X representa a pressão sistólica de um homem com problemas cardíacos da população

que foi investigada em Honolulu. Neste contexto, inúmeros eventos podem interessar ao pesquisador, tais como:

a) um paciente apresenta pressão sistólica maior do que 150 mmHg, ou seja, [ ]; mmHgX 150>


34

b) um paciente apresenta pressão sistólica inferior a 200 mmHg, ou seja, [ ]mmHgX 200< ; ou,

c) um paciente tem pressão sistólica entre 110mmHg e 160 mmHg, ou seja,

. [ ]mmHgXmmHg 160 110 <<

Exemplo 3.4: O número de pessoas acidentadas que chegam em um pronto socorro de um determinado

hospital durante uma madrugada pode ser considerado uma variável aleatória, cujo espaço amostral é

. L,,,, 3210=Ω

Exemplo 3.5: Outra ilustração da área médica é o peso ao nascer, que pode estar associado a diversos fatores

genéticos ou ao comportamento da mãe, tais como a histórico clínico, alimentação, hábito de fumar, esforço

físico, renda, grau de instrução, etc. Nesta situação, o espaço amostral consiste no intervalo de peso ( )0,+∞ ,

medido em gramas, quilogramas ou outra unidade de peso. Assim, se Y é a variável que representa o peso ao

nascer, então o espaço amostral associado à variável aleatória Y é ( )+∞=Ω ,0 . É claro que uma criança não

apresentaria um peso muito próximo ao valor 0 kg, nem tampouco um valor elevado (por exemplo, 10 kg).

Diversos eventos podem ser definidos neste contexto, mas se o pesquisador está interessado

em identificar os fatores que possivelmente favorecem o nascimento de uma criança com baixo peso, o primeiro

passo seria definir o evento “a criança apresenta baixo peso ao nascer”. Um critério usual é classificar como

baixo peso ao nascer as crianças que apresentam peso de nascimento inferior a 2,5 kg. Consequentemente, o

evento representa o nascimento de uma criança com baixo peso, enquanto que o evento

representa uma criança que não apresenta baixo peso ao nascer. A próxima etapa seria estimar a

probabilidade de que uma criança apresente baixo peso ao nascer, em função da sua exposição aos fatores de

risco (fatores genéticos, habito de fumar da mãe, renda, hábitos alimentares da mãe, etc). A probabilidade deste

tipo de evento é denominada de probabilidade condicional e será definida a seguir.

[ kgY 5,2<

]kg 5

][Y ,2≥

Existem diversas definições de probabilidade, as quais serão brevemente descritas. No caso

em que o espaço amostral Ω é finito, pode-se utilizar a definição clássica de Probabilidade, baseada no

conceito de resultados equiprováveis, ou seja, que todos os resultados possíveis do experimento possuem a

mesma chance de ocorrer. Assim, define-se a probabilidade do evento A como:

[ ] possíveisresultadosnúmero de

o As ao event favorávei resutadosnúmero de AP = .

Assim, no Exemplo 3.2, a probabilidade de ocorrer o evento “face par” é


35

[ ] [ ]21

636ou 4ou 2 ====

possíveisresultadosnúmero de o FACE PARs ao event favoráveiresultadosnúmero de PPARFACEP

Outra maneira de definir probabilidade é através da freqüência relativa, chamada de

definição freqüentista ou estatística. Ela baseia-se na estabilidade da freqüência relativa de ocorrência de

eventos, quando ele é repetido muitas vezes, sendo escrita como

[ ]n

ensaios"o A em "ns do eventocorrêncianúmero de AP = .

Como pode ser observado, a probabilidade associada ao evento A, denotada por [ ]AP , é

uma medida de quão provável é a ocorrência desse evento. Embora essas definições de probabilidade sejam

insatisfatórias do ponto de vista teórico, elas são bastante úteis para apresentar as principais idéias da teoria das

probabilidades no contexto do curso. Existem, contudo, outras definições de probabilidade, cabendo destacar a

definição subjetiva e a definição geométrica, que podem ser encontradas, por exemplo, em James (1981) e

Dantas (1997). Nestas referências encontra-se, também, a definição axiomática de probabilidade, atribuída ao

probabilista russo Andrey N. Kolmogorov, mas devido à complexidade do tema não serão discutidas neste

curso. A seguir serão apresentados os tipos de eventos e as regras básicas para a determinação das respectivas

probabilidades associadas.

A intersecção de dois eventos A e B equivale à ocorrência simultânea de ambos eventos,

sendo denotada por [ ] ou [ , e ilustrada pelo diagrama de Venn na Figura 3.1 BeA ]BA∩

Figura 3.1 – Diagrama de Venn ilustrando a intersecção dedois eventos A e B pertencentes ao mesmo espaçoamostral . Ω


36

Para ilustrar, considere o Exemplo 3.2 relativo a um lançamento de um dado, onde o evento

A=[o resultado do experimento é par] e B=[o resultado do experimento é menor do que 5]. Assim, o evento

significa que o resultado é par e é menor do que 5. Mas o evento A ocorre [ BA∩ ] se e somente se o

resultado é 2 ou 4 ou 6, enquanto que B ocorre se e somente se o resultado é 1 ou 2 ou 3 ou 4.

Portanto, como o evento [ ]BA∩ deve satisfazer as duas condições, ele está associado a ocorrência do resultado

2 ou do resultado 4. Assim, a probabilidade de ocorrência do evento [ ]BA∩ é

[ ] [ ] 31

61

6142 =+==∩ ouPBAP .

Dois eventos A e B são ditos mutuamente exclusivos se a ocorrência de um deles

impossibilita a ocorrência do outro, ou seja, os dois eventos não têm nenhum elemento em comum. Este fato

pode ser escrito como A ∩ B = e representado através pelo diagrama de Venn mostrado na Figura 3.2. ∅

Figup e

Como ilus

a um lançamento de um dad

ímpar]. Assim, a ocorrência

resultados 2, 4 ou 6, e

Em outras palavras, os event

cuja probabilidade é

Prof. Álv

ra 3.2 – Diagrama de Venn ilustrando dois eventos A e Bertencentes ao mesmo espaço amostal Ω e mutuamentexclusivos.

tração de eventos mutuamente exclusivos, considere ainda o Exemplo 3.2 relativo

o, onde A=[o resultado do experimento é par] e B=[o resultado do experimento é

do evento A impede a ocorrência de B, pois o primeiro está associado aos

nquanto que o segundo está associado à ocorrência dos resultados 1, 3 ou 5.

os A e B não podem ocorrer simultaneamente, para o que se escreve ∅=∩ BA ,

[ ] [ ] [ ] 0=∅==∩ Pimpossível eventoPBAP .

aro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório

37

Um exemplo trivial na área médica é o sexo de uma criança, cujos resultados possíveis são

masculino (M) e feminino (F), ou seja, o espaço amostral é F,M=Ω . Assim, a probabilidade de uma

criança ser do sexo masculino é [ ] 21=MP e [ ] 2

1=FP . Observe que estes eventos são mutuamente

exclusivos, pois a ocorrência de um dos eventos impede a ocorrência do outro. Em outras palavras, se uma

criança é do sexo masculino, então a mesma criança não pode ser do sexo feminino, e vice-versa. Nesta

situação, a ocorrência simultânea dos dois eventos, isto é, uma criança ser simultaneamente do sexo masculino e

do sexo feminino, definida por [ ]FM ∩ é um evento impossível e, consequentemente,

. [ ] [ ] 0=∅=∩ PFMP

A união de dois eventos A e B equivale à ocorrência de A, ou de B ou de ambos, ou seja,

contém os elementos do espaço amostral que estão em pelo menos um dos dois conjuntos. A união de dois

eventos A e B pode ser ilustrada pelo diagrama de Venn na Figura 3.3, como segue:

Figur

A e

Para ilustr

A=[o resultado do experimen

significa que o resu[ BA∪ ]resultado é 2 ou 4 ou 6

Portanto, como o evento [Aocorrência do resultado 1

probabilidade de ocorrência do

[ ] [=∪ PBAP

Prof. Álva

a 3.3 – Diagrama de Venn ilustrando a união de dois eventos B pertencentes ao mesmo espaço amostral Ω .

ar, considere o exemplo relativo a um lançamento de um dado, onde o evento

to é par] e B=[o resultado do experimento é menor do que 5]. Assim, o evento

ltado é par ou é menor do que 5. Mas o evento A ocorre se e somente se o

, enquanto que B ocorre se e somente se o resultado é 1 ou 2 ou 3 ou 4.

]B∪ deve satisfazer pelo menos uma das condições, ele está associado a

ou 2 ou 3 ou 4 ou 6, que são eventos mutuamente exclusivos. A

evento [ ] é BA∪

] 65

61

61

61

61

616 4 3 2 1 =++++=ouououou .

ro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório

38

Outro tipo de evento, chamado de negação do evento A ou de evento complementar de A,

corresponde a não ocorrência do evento A, é denotado por A ou e representado pelo diagrama de Venn

mostrado na Figura 3.4.

CA

Figura 3.4 – Diagrama ilustrando o complementar de um

evento A pertencente ao espaço amostral Ω .

Com base nestas definições de tipos de eventos, se A e B são dois eventos pertencentes a um

mesmo espaço amostral Ω , então valem as seguintes regras básicas:

a) uma probabilidade sempre é um número entre 0 e 1; [ ] ⇒≤≤ 10 AP

b) o espaço amostra é um evento certo; e, [ ] ⇒=Ω 1P

c) se A e B são eventos mutuamente exclusivos, então [ ] [ ] [BPAPBAP ]+=∪ .

Como conseqüência destas regras, também se pode mostrar que para dois eventos A e B, valem as seguintes relações:

d) se os eventos A e B não são mutuamente exclusivos, então [ ] [ ] [ ] [ ]BAPBPAPBAP ∩−+=∪ ; e,

e) como , então [ ] 1=ΩP [ ] [ ]APAP C −= 1 .

É importante, ainda, apresentar os conceitos de probabilidade condicional e de

independência entre eventos. Dois eventos A e B são chamados de eventos independentes se tanto a ocorrência

quanto a não ocorrência de A não altera a probabilidade do evento B ocorrer. Outra forma de definir a

independência entre eventos é através probabilidade conjunta (ou simultânea), que deve ser igual ao produto das

probabilidades marginais ou individuais. Assim, os eventos A e B são independentes se e somente se a

probabilidade da ocorrência simultânea é o produto de suas probabilidades individuais, isto é,

[ ] [ ] [ ]BPAPBAP ×=∩ .


39

Exemplo 3.6: Como ilustração, considere um experimento que consiste em lançar um dado honesto duas

vezes e de forma independente, observando-se o resultado da face superior. Os 36 resultados possíveis desse

experimento são apresentados abaixo, onde cada par j,i representa a ocorrência da face no primeiro

lançamento e da face no segundo lançamento, para todo i

i

j 621 ,..,,= e 621 ,..,,j = . Assim, o espaço amostral

associado ao experimento é

=Ω

6,6 6,5 6,4 6,3 6,2 6,15,6 5,5 5,4 5,3 5,2 5,14,6 4,5 4,4 4,3 4,2 4,13,6 3,5 3,4 3,3 3,2 3,12,6 2,5 2,4 2,3 2,2 2,11,6 1,5 1,4 1,3 1,2 1,1

.

Sejam os eventos A=[o resultado do primeiro lançamento é igual a 1] e B=[o resultado do

segundo lançamento é igual a 2]. Assim,

[ ] [ ] 61

366615141312111 === ,ou,ou,ou,ou,ou,PAP

e

[ ] [ ] 61

366262524232221 === ,ou,ou,ou,ou,ou,PBP ,

de tal forma que tanto a ocorrência quanto a não ocorrência do evento A não muda a probabilidade do evento B

ser observado, e vice-versa. Assim, intuitivamente fica caracterizado que os eventos A e B são independentes.

Ainda, os eventos A e B ocorrem simultaneamente somente quando o resultado é o par

1,2, cuja chance ou probabilidade é 361 . Assim, a probabilidade da ocorrência simultânea dos eventos A e B é

[ ] [ ] [ ] [ ] 361

61

6121 =×=×==∩ BPAP,PBAP ,

e fica provado que os eventos são independentes.

Em muitas situações, contudo, a probabilidade de um evento modifica-se quando se dispõe

de informação sobre a ocorrência de outro evento associado. Assim, a probabilidade do evento A, quando se

sabe que o evento B ocorreu, é denominada de probabilidade condicional de A dado B. Ela é denotada por

e, se , é determinada pela expressão [ B|AP ] [ ] 0>BP

[ ] [ ][ ]BP

BAPB|AP ∩= .


40

A probabilidade condicional entre dois eventos A e B também pode ser usada para definir a

independência entre eles. De fato, o evento A é independente de B se e somente se a probabilidade do evento A

ocorrer não é afetada pela ocorrência ou não do evento B, de tal forma que [ ] [APB|AP = ]]

. Analogamente,

deve-se ter . [ ] [ .BPA|BP =

Para ilustrar, considere os eventos A e B definidos no caso do Exemplo 3.6, acima. O evento

A é favorecido pela ocorrência dos pontos 1,1, 1,2, 1,3, 1,4, 1,5 ou 1,6, enquanto que o evento B

está associado à ocorrência dos pontos 1,2, 2,2, 3,2, 4,2, 5,2 ou 6,2. Assim, A e B ocorrem

simultaneamente se e somente se ocorre o ponto 1,2, com probabilidade 136 . Desta forma, a probabilidade

de ocorrer face 2 no segundo lançamento, sabendo-se que no primeiro lançamento o resultado é igual a 1, é

[ ] [ ][ ]

[ ] [ ]BP,PAP

BAPA|BP ====∩

= 61

6136

1

61

21.

Segue, portanto, que os eventos A e B são independentes, como já havia sido mostrado.

3.2 Risco Relativo e Razão de Chances

A utilização de probabilidades condicionais pode ser um poderoso procedimento para avaliar

se a exposição a fatores de risco aumenta a probabilidade de desenvolvimento de alguma doença. Considere, por

exemplo, a situação que envolve a exposição ou não ao fator A e o desenvolvimento ou não de uma doença D.

Admita que a investigação da população de interesse produziu a distribuição de probabilidade conjunta e as

distribuições marginais dispostas na Tabela 3.1, abaixo:

Tabela 3.1 – Distribuições de probabilidades conjunta e marginal do fator A e da doença D na população.

DOENÇA D FATOR A PRESENTE AUSENTE

Total

EXPOSTO 1P 3P 31 PP +

NÃO EXPOSTO 2P 4P 42 PP +

Total 21 PP + 43 PP + 1


41

O corpo da Tabela 3.1 informa a distribuição de probabilidade conjunta das variáveis,

enquanto que a linha e coluna de totais informam as distribuições de probabilidade da variável exposição ao

fator A (sim ou não) e desenvolvimento da doença D (presente ou ausente), respectivamente. Naturalmente que

esta é uma situação teórica, haja vista que dificilmente as verdadeiras probabilidades seriam conhecidas. Por

exemplo, a probabilidade conjunta de um indivíduo da população em estudo estar exposto ao fator A e

desenvolver a doença é igual , enquanto que 1P 31 PP + é a probabilidade de um indivíduo dessa população

estar exposto ao fator A.

A probabilidade condicional de um indivíduo desenvolver a doença, dado que foi exposto ao

fator A é, por definição,

[ ] [ ][ ] 31

1 PP

PExpostoP

ExpostoeDoentePExposto|DoenteP+

== ,

sendo conhecida como “o risco de desenvolver a doença para os indivíduos expostos ao fator A”.

De maneira similar, “o risco de desenvolver a doença para os indivíduos não expostos ao

fator A” é a probabilidade condicional

[ ] [ ][ ] 42

2

PPP

ExpostoNãoPoNão ExposteDoentePExpostoNão|DoenteP

+== .

Se o risco de desenvolver a doença é substancialmente maior para os indivíduos expostos ao

fator A, isto é, se [ ] [ ]ExpostoNão|DoentePExposto|DoenteP > , então o fator A possivelmente pode ser

considerado um fator de risco. Em outras palavras, a exposição ao fator A é um fator de risco para o

desenvolvimento da doença D.

A magnitude do risco, entanto, pode ser determinada (quantificada) através da medida

denominada risco relativo, definida pela razão dos riscos de desenvolver a doença entre expostos e não expostos

ao fator A, ou seja,

[ ][ ] ,

PPP

PPP

ExpostoNão|DoentePExposto|DoentePRR

RR

42

2

31

1

Afator ao expostos não indivíduos entre doença da RiscoAfator ao expostos indivíduos entre doença da Risco

+

+==

=

que assume valores no intervalo . Conseqüentemente, para determinar o risco relativo é necessário

conhecer (estimar) as probabilidades condicionais de desenvolver a doença

( +∞,0 )

31

1

PPP+

e 42

2

PPP+

.


42

Na prática, contudo, as probabilidades condicionais definidas acima só podem ser estimadas

através de estudos prospectivos ou de coorte. Nestes estudos, um grupo de indivíduos (sem a doença) expostos

e um grupo de indivíduos (sem a doença) não expostos ao fator A são acompanhados durante algum período de

tempo, registrando-se o número de casos da doença em cada grupo.

Para facilitar a compreensão, considere um estudo de coorte constituído por dois grupos de

indivíduos sem a doença: um grupo com indivíduos expostos ao fator A e um grupo com indivíduos não

expostos ao fator A. Os indivíduos do estudo foram acompanhados durante um período de tempo especificado e,

no final, avaliados quanto ao surgimento ou não da doença D. O número de casos de desenvolvimento da

doença D foi a e c , respectivamente para o grupo indivíduos de expostos e não expostos ao fator A. Os

resultados podem ser sintetizados como na Tabela 3.2, onde

1n 2n

ban +=1 , dcn +=2 e n . 2nn= 1 +

Tabela 3.2 – Distribuição de freqüências de indivíduos do estudo de coorte, segundo o desenvolvimento da doença D e exposição ao fator A.

DOENÇA D FATOR A PRESENTE AUSENTE

Total

EXPOSTO a b ba + NÃO EXPOSTO c d dc + Total ca + db + n Nota: , nban +=1 dc +=2 e 21 nnn += .

Assim, o risco de desenvolver a doença entre os indivíduos expostos ao fator A pode ser

estimado por

baa

PPP^

+=

+ 31

1

e, analogamente, o risco de desenvolver a doença entre os indivíduos não expostos é

dcc

PPP^

+=

+ 42

2 .

Consequentemente, nesta situação o risco relativo pode se estimado por

dcc

baa

RR^

+

+= .


43

Para exemplificar uma aplicação da medida do risco relativo, considere o estudo sobre o

efeito preventivo da aspirina na mortalidade de doenças cardiovasculares, discutido por Soares & Siqueira

(1999, p.2-3, p.246-247) e descrito a seguir.

Exemplo 3.7: Um ensaio clínico duplo-cego foi planejado e criteriosamente conduzido para avaliar o

potencial do uso da aspirina na redução do risco de doenças cardiovasculares. O experimento considerou 22.071

médicos americanos com idade entre 40 e 84 anos, os quais foram aleatoriamente divididos em dois grupos,

denominados de grupo de pacientes tratados e grupo controle. Os 11.037 médicos do grupo de pacientes

tratados tomaram 325 mg de aspirina a cada dois dias, enquanto que aqueles do grupo controle, composto por

11.043 médicos, tomaram um comprimido semelhante ao da aspirina, mas sem o princípio ativo (ou seja, um

placebo).

Após 5 anos de acompanhamento, o experimento foi encerrado. Entre as características

observadas no experimento, foram confirmados 139 casos de infarto no grupo de pacientes tratados com

aspirina e 239 casos no grupo que recebeu o placebo. Estes resultados parciais são sintetizados na Tabela 3.3.

Tabela 3.3 – Resultados do ensaio clínico realizado para avaliar o efeito preventivo da aspirina na mortalidade de doenças cardiovasculares.

INFARTO TRATAMENTO SIM NÃO

Total

ASPIRINA 139 10.898 11.037 PLACEBO 239 10.795 11.034

Fonte: Soares & Siqueira (1999, p.2-3)

Assim, o risco de infarto entre os indivíduos tratados com aspirina é a probabilidade

condicional de um médico ter infarto, dado que foi tratado com aspirina, que pode ser estimada por

[ ] 013003711

139 ,.ba

aAspirina|InfartoP ==+

= ,

enquanto que para um médico que recebeu o placebo é

[ ] 022003411

239 ,.dc

cPlacebo|InfartoP ==+

= .


44

Como esperado, o risco de infarto é menor para indivíduos tratados com aspirina, sugerindo

que o uso freqüente de aspirina possivelmente é um fator de proteção do risco de infarto. O risco relativo é

estimado por

[ ][ ] 590

02200130 ,,,

Placebo|InfartoPAspirina|InfartoPRR

^===

e significa que o risco de infarto em um indivíduo tratado com aspirina é 59% do risco de infarto para um

indivíduo não tratado. Outra forma de interpretar o resultado é fazer 6911 ,RR

^ = , que significa que um

indivíduo que não tomou aspirina regularmente tem aproximadamente 1,7 vezes mais chances de ter infarto, em

relação a quem tomou.

Em muitos estudos epidemiológicos, entretanto, são utilizados estudos retrospectivos ou de

caso-controle. Ao contrário de um estudo de coorte, em um estudo caso-controle os indivíduos com e sem a

doença são investigados para trás no tempo (followed backwards in time, em inglês) para averiguar se o fator de

risco estava presente ou não.

Em estudos caso-controle o risco relativo não pode ser estimado, pois não é possível estimar

o risco da doença entre os indivíduos expostos e não expostos ao fator de risco. De fato, o que é possível estimar

é o risco do fator estar presente entre os indivíduos com a doença, dado por caa+ e, similarmente, o risco do fator

estar presente entre os indivíduos sem a doença, dado por dbb+ .

Contudo, na maioria das situações, a proporção de indivíduos com a doença na população é

pequena. Assim, a proporção populacional é pequena quando comparada com e, similarmente, é

pequena em relação a , de tal forma que a

1P 3P 2P

4P razão dos riscos pode ser aproximada por

32

41

4

2

3

1

42

2

31

1

PPPP

PPPP

PPP

PPP

=≅

+

+.

Esta medida é chamada de razão de chances ou razão de odds (odds ratio, em inglês) e pode

ser usada como uma estimativa aproximada do risco relativo para o caso de doenças raras. A razão de

chances está definida para qualquer tipo de estudo epidemiológico, motivo pelo qual tem sido grandemente

utilizada. A chance (odds, em inglês) de desenvolver a doença entre os indivíduos expostos ao fator de risco é

definida por 3

1

PP

, enquanto que entre os não expostos é 4

2

PP

. Consequentemente, a razão de chances é


45

32

41

4

2

3

1

PPPP

PPPP

==ψ .

Observe que a razão de chances ψ assume valores maiores ou iguais 0, isto é, ( )∞+∈ , 0ψ ,

cabendo salientar os seguintes aspectos: a) 1=ψ significa que a característica em estudo não é um fator de

risco para a doença; b) 1>ψ indica a possibilidade de que a característica em estudo seja um fator de risco para

a doença; e, c) 1<ψ sugere a possibilidade de que a característica em estudo seja um fator de proteção da

doença.

No contexto amostral onde estão sendo consideradas duas características dicotômicas, os

resultados podem ser apresentados como na Tabela 3.2, de tal forma que a razão de chances pode ser estimada

por

bcad

dcd

dcc

bab

baa

ˆ =

+

+

+

+

=ψ .

Contudo, ψ é um estimador pontual da razão de chances, que não considera a variabilidade

intrínseca aos dados. Usualmente é preferível estimar a razão de chances através de um intervalo que leve em

conta esta incerteza, o que pode ser realizado mediante um intervalo de confiança, mas para isso é necessário

estimar a variabilidade de ψ . A variância do estimador ψ é mais fácil de ser estimada na escala logarítmica,

que é dada por

( )dcba

ˆ ln Var^ 1111

+++=ψ .

A variável aleatória ψ ln tem distribuição de probabilidade aproximadamente normal, de tal

forma que um intervalo com aproximadamente ( ) %1001 ×α− de confiança para ψ ln é dado por

( ) ( )

×+×−

^^ˆ ln Varzˆ ln ;ˆ ln Varzˆ ln ψψψψ αα

22,

onde 2

αz é o valor da distribuição de probabilidade normal padrão tal que α−=

+<<− αα 1

22zZzP .


46

O intervalo de confiança para a verdadeira razão de chances ψ pode ser obtido mediante a

aplicação da função exponencial nos extremos do intervalo obtido para ψ ln . Em outras palavras, um intervalo

com ( ) para %1001 ×α− ψ é

( ) ( )

×+

×−^^

ˆ ln Varzˆ lnexp ;ˆ ln Varzˆ lnexp ψψψψ αα22

.

Se o intervalo de confiança para ψ contém o valor 1 ou, equivalentemente, se o intervalo de

confiança para ψ ln contém o valor 0, então não há evidências estatísticas de que o fator de risco em

consideração e a doença estejam associados.

É conveniente ressaltar que nesta seção foram considerados apenas aspectos básicos sobre a

aplicação do risco relativo e da razão de chances em estudos epidemiológicos. O leitor interessado em

aprofundar os estudos pode consultar, por exemplo, Breslow & Day (1980, 1987), Everitt (1992) ou Hosmer &

Lemeshow (1989). A seguir será ilustrado um estudo epidemiológico onde pode ser utilizada a razão de chances

para avaliar se o peso ao nascer é um fator de risco para a ocorrência de hemorragia peri-intraventricular.

Exemplo 3.8: O presente problema foi tratado por Tavares (1995) em sua Dissertação de Mestrado em

Pediatria da Faculdade de Medicina da UFMG e descrito também por Soares & Siqueira (1999, p.127-128,

p.259). Uma das causas mais freqüentes de agressão ao sistema nervoso central no período neonatal e a segunda

causa mais freqüente de morte em prematuros é a hemorragia peri-intraventricular (HPIV). Tavares (1995)

estudou a ocorrência desta doença em 120 recém-nascidos com peso menor do que 2000 g, no Hospital de

Clínicas da UFMG, no período de 18/01/94 a 17/05/95. Um dos possíveis fatores de risco para a ocorrência de

HPIV é o baixo peso ao nascer, sendo usual utilizar 1500 g como limite. Os dados relativos as 120 crianças

estudadas são sintetizados na Tabela 3.4.

Tabela 3.4 – Resultados do estudo sobre ocorrência de HPIV em 120 crianças com menos de 2000 g, observadas no Hospital de Clínicas da UFMG.

HPIV PESO AO NASCER (em g) PRESENTE AUSENTE

Total

< 1500 24 32 56 1500 – 2000 15 49 64

Total 39 81 120

Fonte: Soares & Siqueira (1999, p.259)


47

Uma estimativa aproximada do risco de ocorrer HPIV para crianças com peso ao nascer

menor do que 1500 g, em relação às crianças com peso ao nascer entre 1500 g e 2000 g, pode ser obtida através

da razão de chances dada por

452480

117615324924 ,

bcadˆ ==

××

==ψ .

Isto significa que crianças com peso ao nascer menor do que 1500 g têm aproximadamente 2,5 vezes mais

chance de ocorrência de HPIV do que crianças com peso ao nascer entre 1500 g e 2000 g. No entanto, é

preferível estimar o risco através de um intervalo de confiança. A variância estimada de ψ ln é

( ) 160491

151

321

2411111 ,

dcbaˆ ln Var

^=+++=+++=ψ .

Como ψ ln tem uma distribuição de probabilidade aproximadamente normal, o intervalo

com 95% de confiança para ψ ln é dado por

( ) ( )

×+×−

^^ˆ ln Var,ˆ ln ;ˆ ln Var,ˆ ln ψψψψ 961961 .

O limite inferior e o limite superior do intervalo de confiança são, respectivamente,

( ) 112107840089610160961452961 ,,,,,, lnˆ ln Var,ˆ ln^

=−=×−=×− ψψ

e

( ) .,,,,,, lnˆ ln Var,ˆ ln^

680117840089610160961452961 =+=×−=×+ ψψ

Portanto, com 95% de confiança, o intervalo ( )6801111210 , ;, contém o verdadeiro valor de

ψ ln . Observe que o intervalo não contém o valor 0, sugerindo que de fato existe uma associação entre o peso

ao nascer e a ocorrência de HPIV. No entanto, é mais informativo interpretar a estimativa do risco ao invés da

estimativa do logaritmo do risco. Para tanto, basta transformar o intervalo de confiança para ψ ln em um


48 intervalo de confiança para ψ , tomando-se a exponencial dos limites inferior e superior do intervalo de

confiança determinado acima. Assim, os novos limites são

exp

( ) 121961 11210 ,eˆ ln Var,ˆ lnexp ,^

==

×− ψψ

e

( ) 375961 68011 ,eˆ ln Var,ˆ ln ,^

==

×+ ψψ ,

de tal forma que, com 95% de confiança, o intervalo ( )375121 , ;, contém o verdadeiro valor do risco ψ .

3.3 Distribuições de Probabilidade

Uma distribuição de probabilidade consiste essencialmente na coleção de todos os valores

que uma variável aleatória pode assumir e suas respectivas probabilidades. Existem diversas distribuições de

probabilidades conhecidas, as quais podem ser expressadas por uma função matemática. Usualmente as

distribuições de probabilidades são divididas em distribuições discretas de probabilidade e distribuições

contínuas de probabilidade, as quais estão associadas às variáveis aleatórias discretas e contínuas,

respectivamente.

Dentre as principais distribuições discretas, cabe mencionar a distribuição binomial, a

distribuição de Poisson, a distribuição hipergeométrica e a multinomial. Existem, também, diversas

distribuições contínuas de probabilidade, dentre as quais a distribuição normal seguramente é a mais importante

e conhecida. Outros tipos de distribuições contínuas são a distribuição exponencial, distribuição gama,

distribuição t de Student, distribuição F de Snedecor, distribuição qui-quadrado, etc.

Nas próximas seções serão estudadas algumas distribuições de probabilidades, que

freqüentemente podem ser úteis para representar fenômenos aleatórios em diversas áreas do conhecimento, com

especial ênfase em problemas da área médica.


49 3.3.1 Distribuição Binomial

Para introduzir a definição da distribuição binomial, é conveniente considerar o exemplo descrito abaixo:

Exemplo 3.9: Admita que 25% dos indivíduos de uma determinada população têm sangue do tipo B. Uma

amostra aleatória de quatro indivíduos desta população é selecionada, os quais são submetidos a um teste para

determinar o tipo de sangue.

O resultado deste “experimento aleatório” poderia ser representado pela variável aleatória X

definida como o “número de indivíduos da amostra com sangue do tipo B”. Equivalentemente, X = nº de

sucessos em 4 ensaios independentes, onde se diz que ocorre sucesso quando um indivíduo tem sangue do tipo

B, e os 4 ensaios independentes são os quatro indivíduos aleatoriamente selecionados da população

especificada.

Nesta situação, os valores que a variável aleatória X pode assumir são descritos no espaço

amostral . O que se deseja determinar, portanto, são exatamente as probabilidades associadas

às ocorrências de cada valor admissível para X, se possível mediante um modelo probabilístico conhecido. Por

exemplo, sob estas condições, qual é a probabilidade de que dos 4 indivíduos extraídos ao acaso da população,

exatamente em 2 (dois) tenham sangue do tipo B?

4 ,3 ,2 ,1 ,0=Ω

Para responder esta questão, considere a amostra aleatória de 4 indivíduos, rotulados como

. Para cada um dos indivíduos da amostra, o sangue é do tipo B ou não, ou seja, para

,

4321 X,X,X,X

4321 ,,,i =

= do tipo Btem sangueíduosimo indiv, se o i-é

do tipo Bem sangue íduo não tsimo indiv, se o i-éX i 1

0

e a probabilidade do i-ésimo indivíduo ter sangue do tipo B é [ ] 2501 ,XP i == , . Assim, a

probabilidade de um indivíduo não ter sangue do tipo B é dada por

4321 ,,,i =∀

[ ] [ 1XP i ] 7501 ,0XP i ==−== . Os

possíveis resultados desse experimento aleatório podem ser visualizados no esquema abaixo:


50

1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X 1X 2X 3X 4X

0 0 0 0 1 0 0 0 1 1 0 0 1 1 1 0 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 0 1 1 0 1 1 0 0 0 1 0 1 1 0 0 1 1 1 0 1 0 1 0 0 1 1

0=X 1=X 2=X 3=X 4=X

Como se pode notar, existem 16 combinações de resultados possíveis. A probabilidade de

que nenhum dos quatro indivíduos da amostra aleatória tenha sangue do tipo B pode ser determinada através da

variável aleatória , que representa o número de indivíduos da amostra com sangue do tipo B.

Assim, a probabilidade de é

∑=

=4

1iiXX

=X 0

[ ] [.,,,,,,

XXXXPXP

31640)750(750750750750

)0()0()0()0(04

4321

==×××=

= ]∩=∩=∩===

É importante perceber que, nesta situação, a probabilidade do evento

[ )0()0()0()0( 4321 ]=∩=∩=∩= XXXX

4321 X,X,X,X

é igual ao produto das probabilidades individuais, pois as

variáveis são independentes e identicamente distribuídas (por serem uma amostra aleatória).

Analogamente, a probabilidade de que exatamente um dos quatro indivíduos da amostra

tenha sangue do tipo B é

[ ]

( )( )( )( )

( ) ( ) 421907502504

)1()0()0()0( )0()1()0()0( )0()0()1()0( )0()0()0()1(

1 31

4321

4321

4321

4321

,,,

XXXXXXXXXXXXXXXX

PXP =××=

=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=

== .

Ainda, a probabilidade de que dois dos quatro indivíduos da amostra apresentem sangue do

tipo B é

[ ]

( )( )( )( )( )( )

( ) ( ) 210907502506

)1()1()0()0( )1()0()1()0( )0()1()1()0( )1()0()0()1( )0()1()0()1( )0()0()1()1(

2 22

4321

4321

4321

4321

4321

4321

,,,

XXXXXXXXXXXXXXXXXXXXXXXX

PXP =××=

=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=

==


51 e, por sua vez, a probabilidade de que exatamente três dos quatro indivíduos tenham sangue do tipo B é igual a

[ ]

( )( )( )( )

( ) ( ) 046907502504

)1()1()1()0( )1()1()0()1( )1()0()1()1( )0()1()1()1(

3 13

4321

4321

4321

4321

,,,

XXXXXXXXXXXXXXXX

PXP =××=

=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=∪=∩=∩=∩=

== .

Por fim, resta determinar a probabilidade de que os quatro indivíduos da amostra tenham

sangue do tipo B, que é dada por

[ ] [( ) .,

XXXXPXP

003900,250,250,250,250,25

)1()1()1()1(44

4321

==×××=

]=∩=∩=∩===

Portanto, a distribuição de probabilidade da variável aleatória X, número de indivíduos com

sangue do tipo B, dentre os quatro selecionados aleatoriamente da população, é

x 0 1 2 3 4 Total

[ xXP ]= 0,3164 0,4219 0,2109 0,0469 0,0039 1

Observe que

[ ] [ ] [ ] [ ] [ ] [ ].,,,,,XPXPXPXPXPP

10039004690210904219031640 43210

=++++==+=+=+=+==Ω

No exemplo acima, a distribuição de probabilidades da variável aleatória X (genericamente

definida pelo número de sucessos em ensaios independentes) está completamente caracterizada. Entretanto,

quando o tamanho da amostra aumenta, o número de combinações de resultados possíveis aumenta

rapidamente, fato que usualmente inviabiliza a construção do quadro de resultados possíveis, como o do

exemplo. Assim, precisa-se um mecanismo prático para determinar as probabilidades dos eventos de interesse.

nn

Utilizando o Exemplo 3.9, observe que existe apenas uma maneira de ocorrer o resultado

, ou seja, o evento [ 0=X ] ][ 0=X

0

ocorre se e somente se ocorrer o resultado

e 0 e 0 e 432 = 01 == XXX

[ ]0=X

=X . O número de diferentes combinações de resultados que conduzem à

ocorrência do evento também pode ser determinado mediante o coeficiente binomial

1040

404

=−

=

)!(!

!,


52 onde a expressão (lê-se !x x fatorial) representa a função fatorial do número inteiro x , definida como

. Convém lembrar ainda que, por definição, 0 e 1 . ( ) ) 121 ×××−×= Lxx!x ( −x 2× 1=! 1=!

Por outro lado, a ocorrência do evento [ ]1=X está associada a quatro resultados possíveis

(veja no quadro acima). O número de diferentes combinações também poderia ser determinado por

43 134

1414

14

=×

=−

=

!!!

)!(!!

.

Da mesma forma, existem

62 2

234242

424

=××

=−

=

!!

!)!(!

!

combinações possíveis que conduzem a ocorrência do evento [ ]2=X ,

41 334

3434

34

=×

=−

=

!!!

)!(!!

diferentes maneira de ocorrer o evento [ ]3=X e, finalmente, apenas uma maneira de ocorrer o evento

. [ ]4=X

Genericamente, é possível escrever o número de diferentes combinações de resultados

favorecem a ocorrência do evento [ através do coeficiente binomial ]xX =

)!x(!x!

x −=

444

,

e, consequentemente, para o exemplo em questão, a probabilidade do evento [ ]xX = pode ser determinada

mediante a expressão

[ ] ( ) ( ) ,,,,,x;,,x

xXP xx 43210 750250 4 4 =∀

== −

ou, equivalentemente,

[ ] ( ) ( ) .,,,,x;,,)!x(!x

!xXP xx 43210 750250 44 4 =∀−

== −


53

Para ilustrar, a probabilidade de que entre os quatro indivíduos da amostra, exatamente dois

tenham sangue do tipo B é igual a

[ ] ( ) ( ) ( ) ( ) 210907502506750250 24 2

42 22242 ,,,,,)!(!

!XP =××=−

== − ,

como determinado anteriormente.

Através do exemplo acima, foi ilustrada a construção do modelo binomial de

probabilidades, que pode ser formalmente definido da seguinte maneira: considere um experimento que é

repetido vezes, sob condições idênticas, e tem as seguintes características: n

a) cada repetição do experimento pode assumir um dos dois resultados possíveis, os quais são

mutuamente exclusivos e tecnicamente designados por sucesso (S) ou fracasso (F);

b) a probabilidade de sucesso, [ ] pSucessoP = é a mesma em cada repetição e permanece constante em

todo o experimento. A probabilidade de fracasso é [ ] [ ] pSucessoPFracassoPq −=−== 11 e

também é constante, de tal forma que 1=+ qp ;

c) as repetições são independentes, de tal forma que o resultado de uma realização do experimento não

interfere no resultado de outra realização qualquer.

Sob as condições especificadas, a variável aleatória que representa o número de sucessos nas

repetições do experimento, definida por , possui distribuição de probabilidades binomial com

parâmetros n e

n

∑=

=n

iiXX

1

p , cuja função massa de probabilidades é dada por

[ ] ( )

( ) .n,,,,x;pp)!xn(!x

!n

ppxn

xXP

xnx

xnx

L210 1

1

=∀−−

=

−

==

−

−

Uma variável aleatória X com distribuição de probabilidades binomial com parâmetros e n p

tem esperança (média) igual a e variância igual , sendo usualmente denotada por

. A forma da distribuição de probabilidade binomial depende criticamente do tamanho da amostra

(número de ensaios independentes) e da probabilidade de sucesso

np=µ )p(np −=σ 12

),(~ pnBX

n p , podendo ser simétrica, assimétrica

positiva ou assimétrica negativa. O seu comportamento pode ser visualizado através de um gráfico, como a

Figura 3.5, que representa a distribuição binomial para o experimento aleatório descrito no Exemplo 3.9.


54

Número de Sucessos (x)

43210

P[X

=x]

50

40

30

20

10

0

Figura 3.5 – Forma da distribuição binomial com 4=n e

do experimento aleatório descrito no Exemplo 3.9. 250,p =

As figuras mostradas a seguir ilustram o comportamento da distribuição binomial para

diferentes valores dos parâmetros e n p . É importante observar aspectos básicos tais como simetria, valores

admissíveis e suas respectivas probabilidades. A Figura 3.6, por exemplo, ilustra o comportamento de uma

variável aleatória X com distribuição binomial com tamanho de amostra 10=n e probabilidade de sucesso

, isto é, . Naturalmente, os valores admissíveis nesta situação são os valores de 50,p = ( 50 ,;nB )~X x tais

que e a distribuição é caracterizada essencialmente pela simetria em relação ao

número esperado (médio) de sucessos, dado por

65,, 109874 ,,,,,3210 ,,,x∈

55010 =×==µ ,np sucessos. Isto significa que, nesta

situação, em 10 ensaios independentes seriam esperados 5 sucessos.

Prof. Álv


109876543210

P[X=

x]

,4

,3

,2

,1

0,0

Figura 3.6 – Forma da distribuição binomial com

e 10=n 50,p = .

aro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório

55

A Figura 3.7 e a Figura 3.8, por sua vez, ilustram o comportamento da distribuição binomial

de probabilidade com e probabilidade de sucesso 10=n 70,p = e 90,p = , respectivamente. É vital observar

que a assimetria negativa torna-se mais acentuada na medida que o valor da probabilidade de sucesso p se

afasta de ½ em direção ao valor . 1=p ,4

,3

,2

,1


109876543210

P[X

=x]

,4

,3

,2

,1

0,0

Figura 3.7 – Forma da distribuição binomial

com n e . 10= 70,p =


109876543210

P[X

=x]

0,0


e = . 10=n 90,p

De forma análoga, a Figura 3.9 e a Figura 3.10 ilustram o comportamento da distribuição

binomial de probabilidade com n e probabilidade de sucesso 10= 40,p = e 150,p = , respectivamente. Como

seria esperado, a assimetria positiva torna-se mais acentuada na medida que o valor de p se afasta de ½ em

direção ao valor . 0=p

Finalmente, a Figura 3.11 e a Figura 3.12 ilustram o comportamento da distribuição binomial

quando o tamanho da amostra é grande. Observe que mesmo considerando probabilidades de sucesso

afastadas de

n

21=p , a forma da distribuição é relativamente simétrica em relação à média. De fato, este é um

resultado importante, conhecido como aproximação da distribuição binomial pela distribuição normal, derivado

do Teorema Central do Limite para variáveis independentes e identicamente distribuídas, o qual será

apresentado, discutido e ilustrado no Capítulo 5.


56


109876543210

P[X

=x]

,4

,3

,2

,1

0,0


e . 10=n 40,p =


109876543210

P[X

=x]

,4

,3

,2

,1

0,0


10=n e 150,p = .

,3

Número de Sucessos

17161514131211109876543210

P[X

=x]

,3

,2

,1

0,0


e . 25=n 30,p =


14131211109876543210

P[X

=x]

,2

,1

0,0


25=n e 20,p = .


57 3.3.2 Distribuição Normal

A distribuição normal seguramente é a distribuição contínua de probabilidades mais

importante. Ela foi introduzida em 1733 pelo matemático francês Abraham de Moivre, como uma aproximação

da distribuição binomial para o caso em que o tamanho da amostra é grande. Veja Zar (1996, p.65). n

Contudo, foram os astrônomos Karl F. Gauss e Pierre S. de Laplace que, no início do

século XIX, verificaram a importância e a aplicação da distribuição normal em outros contextos. Gauss, por

exemplo, deduziu sua equação como a distribuição dos erros de observação, denominado-a “lei normal dos

erros”, veja Soares, Farias e Cesar (1991, p.111). Esta distribuição também é conhecida como “distribuição

gaussiana” ou “curva de Gauss”, apesar de ter sido descoberta por De Moivre, aproximadamente cem anos

antes.

A distribuição normal possui uma grande aplicabilidade nas mais variadas áreas, para

representar e descrever características que apresentam um comportamento aleatório. Matematicamente, a

distribuição normal é representada pela função

( ),;x;e)x(f

xℜ∈µ>σℜ∈

πσ=

µ−σ

−

0 e 2

12

22

1

onde são parâmetros da distribuição, usualmente desconhecidos. O parâmetro representa a média da

distribuição, enquanto que

σµ e µ

σ representa o seu desvio padrão. A forma geral da distribuição normal é ilustrada

na Figura 3.13, abaixo:

Figura 3.13 – Forma da densidade da distribuição

normal de probabilidade. )x(f


58

É importante mencionar que, por tratar-se de uma distribuição de probabilidades, a área total

sob a curva definida pela densidade é igual a 1, correspondendo a 100% da distribuição de

probabilidades. A distribuição normal possui diversas características importantes, cabendo destacar:

)x(f

a) a curva tem forma de sino e é simétrica em relação ao eixo vertical que passa por µ=x ;

b) a curva tem inflexões nos pontos σ−µ=x e σ+µ=x ; ou seja, é côncava para baixo no

intervalo ( )σ+µσ−µ ; e côncava para cima caso contrário; e,

c) a curva é assintótica ao eixo horizontal, em ambas as direções.

É importante observar, também, que dependendo do valor da média µ e do desvio padrão σ

a forma da distribuição pode mudar, apesar de preservar a forma de sino e demais propriedades e características.

Por exemplo, a Figura 3.14 ilustra diversas formas que a densidade da distribuição normal pode assumir,

essencialmente variando os valores da média e do desvio padrão.

F

Um

pela densidade )x(f

aproximadamente 68,3

igura 3.14 – Diferentes formas da densidade da distribuição normal.

a propriedade importante da distribuição normal é a seguinte: a área sob a curva definida

, delimitada pelos intervalos σ±µσ±µσ±µ 3 e 2 , corresponde, respectivamente, a

%, 95,4% e 99,7% da distribuição, como pode ser observado na Figura 3.15.


59

Figura 3.15 – Algumas propriedades da distribuição normal.

Considere a variável aleatória X com distribuição normal com média e desvio padrão µ σ , a

qual usualmente é denotada por ( )2σµ,N~X . A propriedade da distribuição normal, ilustrada no gráfico

acima, significa que a probabilidade do valor da variável aleatória X pertencer ao intervalo ( )σ+µσ−µ ; é de

aproximadamente 68,3%; ou seja,

[ ] 6830,XP ≅σ+µ≤<σ−µ .

Analogamente,

[ ] 954022 ,XP ≅σ+µ≤<σ−µ

e

[ ] 997033 ,XP ≅σ+µ≤<σ−µ .

O cálculo das probabilidades é realizado mediante a determinação da área sob a densidade da

distribuição normal, exigindo recursos do cálculo infinitesimal, e usualmente não é um processo elementar. Por

exemplo, se a variável aleatória X tem distribuição normal com média µ e desvio padrão σ , isto é, se

( )2σµ,N~X , então a probabilidade de X pertencer ao intervalo ( )b,a é dada por

[ ]( )

dxedx)x(fbXaPb

a

b

a

x

∫ ∫µ−

σ−

πσ==≤<

2

22

1

2

1.

Uma alternativa para determinar probabilidades desse tipo é recorrer a uma mudança de

variável, transformando a variável aleatória X na variável aleatória padronizada Z, definida por σµ−

=xZ .

Esta nova variável é chamada de variável normal padronizada ou reduzida, e possui média igual a 0 (zero) e

variância igual a 1 (um), sendo denotada por ( )10,N~Z .


60

As probabilidades associadas à distribuição de probabilidade normal padrão ou normal

reduzida encontram-se tabeladas. Portanto, o problema de determinar a probabilidade [ ]bXaP ≤< é

equivalente a determinar a probabilidade de Z pertencer ao intervalo

σµ−

σµ− b,a

, a qual pode ser obtida na

tabela da distribuição normal padrão.

É importante mencionar que existem diversos tipos de tabelas que fornecem áreas sob a

curva da distribuição normal padrão. Para evitar maiores complicações, será adotada a tabela em anexo, a qual

informa a área à esquerda de , ou seja, z [ ]zZP ≤ . A Figura 3.16 ilustra a área ou probabilidade informada na

tabela da normal padrão e uma relação importante na prática é dada por

[ ] [ ] [ ]1221 zZPzZPzZzP ≤−≤=≤< .

Figura 3.16 – Área à esquerda de z para a

densidade normal padrão, informada na tabelada distribuição acumulada da normal padrão.

Para ilustrar algumas aplicações e propriedades da distribuição normal, é conveniente

considerar o exemplo abaixo, onde são determinadas probabilidades de diversos eventos através da distribuição

normal padrão.

Exemplo 3.10: Admita que a pressão sistólica em indivíduos saudáveis de uma determinada população segue

uma distribuição normal com média µ e desvio padrão mmHg 130= mmHg9=σ . Algumas relações são

imediatas: por exemplo, como a distribuição da pressão sistólica dos indivíduos desta população é simétrica em

relação à média, então 50% dos indivíduos da população apresentam pressão sistólica menor do que

e, naturalmente, metade das pessoas tem pressão sistólica maior do que µ . mmHg 130=µ mmHg 130=


61

Considere uma pessoa selecionada ao acaso desta população e, por simplicidade, represente

por X o valor da sua pressão sistólica. Assim, utilizando a notação usual, ( )2 81 130 (mmHg);mmHgN~X

mmHg 130=

,

que é interpretada da seguinte forma: a variável aleatória X representa a pressão sistólica de um indivíduo

extraído ao acaso da população em estudo e tem distribuição normal com média igual a µ e

desvio padrão σ . Considere, agora, os eventos abaixo, os quais são úteis para ilustrar o cálculo de

probabilidades mediante os valores tabelados da distribuição normal padrão, representada pela variável aleatória

mmHg9=

Z , ou seja, . ( )10,N~Z

a) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica menor

do que 120 mmHg é ilustrada e determinada por

[ ] [ ] 133501119

130120120120 ,,ZPZPXPXP =−<=

−

<=

σµ−

<σµ−

=< .

b) A probabilidade de que um indivíduo escolhido ao acaso desta populaç

do que 140 mmHg é ilustrada e determinada por

[ ]

[ ] .,,,ZP

ZPXPXP

133508665011111

9130140140140

=−=+≤−=

−

>=

σµ−

>σµ−

=>

Prof. Álvaro Vigo – UFRGS – Departamento de Estatística – Elem

ão apresente pressão sistólica maior

[ ],ZP 111+>=

entos de Bioestatística: Um Curso Introdutório

62 c) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica maior do

que 116 mmHg e menor do que 147 mmHg é ilustrada e determinada por

[ ]

[ ]

[ ] [ ] .,,,,ZP,ZP

,Z,PZP

XPXP

911200594097060561891

8915619

1301479

130116

147116147116

=−=−<−+<=

+<<−=

−

<<−

=

σµ−

<σµ−

<σ

µ−=<<

d) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente pressão sistólica maior

do que 133 mmHg e menor do que 146 mmHg é ilustrada e determinada por

[ ]

[ ]

[ ] [ ] .,,,,ZP,ZP

,Z,PZP

XPXP

333206293096250330781

7813309

1301469

130133

146133146133

=−=+<−+<=

+<<+=

−

<<−

=

σµ−

<σµ−

<σ

µ−=<<


63

É importante salientar que não é aconselhável utilizar o modelo normal de probabilidades

antes de verificar se ele de fato é plausível. Na maioria das situações práticas, contudo, a média e o desvio

padrão populacionais e µ σ são desconhecidos. No entanto, para um tamanho de amostra suficientemente

grande ( n ), a média e o desvio padrão amostrais

n

30≥ X e usualmente são bons estimadores de S µ e σ ,

respectivamente (veja a Seção 6.1). Assim, dispondo da uma amostra aleatória , pode-se

determinar os intervalos

nX,X,X 21 ,L

( )SX,S + X − , ( )X,SX +×− 2 2 S× e ( )S×+ 3X,SX ×− 3 e contar o número

de observações contidas em cada intervalo. Se a característica em estudo segue uma distribuição normal de

probabilidades, então esses intervalos deveriam conter aproximadamente 68,3%, 95,4% e 99,7% das

observações, respectivamente. Observe que este resultado segue naturalmente da propriedade da distribuição

normal de probabilidade.

Outros métodos estatísticos podem ser aplicados para avaliar se uma determinada

característica tem distribuição normal de probabilidade, tais como testes de aderência ou procedimentos

gráficos. O teste de aderência baseado na estatística de Pearson e o teste de Kolmogorov-Smirnov são os

mais conhecidos, mas não é factível apresentá-los neste momento. Ao leitor interessado sugere-se consultar, por

exemplo, Costa Neto (1977, p.130-135), Daniel (1974, p.302-306, 343-345), Zar (1996, p.86-90, 457-479).

2χ

Entre os métodos gráficos, convém destacar o gráfico chamado de Q-Q plot, disponível em

diversos procedimentos computacionais e caracterizado pelo fato de que se os dados seguem uma distribuição

normal, então estão dispostos segundo uma linha reta. Para ilustrar uma aplicação deste método gráfico,

considere os dados relativos à variável pressão sangüínea sistólica na amostra de 100 pacientes com problemas

cardíacos descrita no Exemplo 2.1. A Figura 3.17 sugere que, neste caso, a pressão sistólica não possui uma

distribuição normal, fato que já havia sido constatado pela assimetria mostrada no histograma da Figura 2.1.

Pressão Sistólica (mmHg)

2202001801601401201008060

Valo

r Esp

erad

o pe

la N

orm

al

200

180

160

140

120

100

80

60

Figura 3.17 – Q-Q plot para a pressão sistólica (mmHg) na

amostra de 100 pacientes com problemas cardíacos do estudode Honolulu, descrito no Exemplo 2.1.


64

No Exemplo 2.1 também foram apresentados os dados relativos à variável nível de colesterol

sérico (veja a Tabela 2.1). A Figura 3.18 apresenta o Q-Q plot para o nível de colesterol sérico, através do qual

pode-se constatar que o modelo normal aparentemente é plausível para esta variável, embora haja uma

observação que parece ser atípica.

Nível de Colesterol Sérico (mg%)

400300200100

Val

or E

sper

ado

pela

Nor

mal

400

300

200

100

Figura 3.18 – Q-Q plot para nível de colesterol sérico (mg%) na

amostra de 100 pacientes com problemas cardíacos do estudode Honolulu, descrito no Exemplo 2.1.


65 4 Princípios Básicos de Amostragem 4.1 População e Amostra

O estudo de um determinado fenômeno (social, médico, biológico, físico, na engenharia da

qualidade, etc.) usualmente envolve a observação de diversas características que possivelmente o definem ou a

ele estão associadas. Assim, como foi mencionado na Seção 1.1, com base no método científico o pesquisador

deseja descrever as relações entres essas características, se possível formulando e testando hipóteses científicas

sobre o mesmo.

Em muitas situações não tem sentido ou é inviável (devido ao custo, tempo, etc.) observar

toda a população, sendo necessário trabalhar com uma amostra. Ainda, em determinados estudos tecnológicos a

observação de determinado fenômeno envolve testes destrutivos (por exemplo, o teste do tempo de vida de uma

lâmpada), de tal forma que é impossível estudar a população toda. No contexto clínico, considere o caso de um

exame de sangue – não tem sentido retirar todo o sangue (a população) de um indivíduo, de tal forma que

obrigatoriamente tem-se que trabalhar com amostras.

No contexto da Estatística, a população em estudo é o conjunto de todos os indivíduos

(pessoas, animais, plantas, famílias, etc.) que apresentam as características que definem o fenômeno aleatório

em estudo. Uma população pode ser finita ou infinita, dependendo essencialmente do número de indivíduos que

a compõe. Por exemplo, se o estudo em questão é relativo aos indivíduos submetidos a um transplante de

coração no Hospital de Clínicas HC, então a população de interesse é definida por todas aquelas pessoas que

fizeram transplante de coração no referido hospital, caracterizando uma população finita. Por outro lado, se o

objeto de estudo são mosquitos da Reserva do Taim, então, evidentemente, esta população pode ser considerada

infinita, haja vista que, além da grande quantidade de mosquitos existente, seria impossível identificá-los.

Quando uma amostra é extraída da população – segundo algum critério rigorosamente

definido previamente – cada indivíduo distinto (pessoa, animal, planta, família, lâmpada, etc.) que a compõe é

chamado de unidade amostral. Assim, uma amostra consiste essencialmente do conjunto de

medidas/observações realizadas sobre as unidades amostrais que definem o estudo observacional ou

experimental. A partir dos resultados amostrais e fundamentado pelo método científico, o pesquisador deseja

fazer generalizações plausíveis (inferências) para a população, bem como medir a incerteza dessas

generalizações.

Entretanto, a validade das conclusões derivadas desses estudos depende criticamente do

planejamento e da forma de coleta das observações. Em outras palavras, a utilização de procedimentos de

amostragem adequados é vital para a validação dos resultados. Assim, é oportuno dedicar algumas palavras

sobre as técnicas de amostragem mais comuns, brevemente descritas na próxima seção. Embora sejam de suma

importância, a descrição de procedimentos de planejamento de experimentos não pode ser realizada neste

momento, principalmente devido às limitações de tempo.


66 4.2 Amostra Aleatória e Amostragem

O planejamento de um estudo observacional ou experimental exige que o pesquisador

considere, a priori, alguns aspectos fundamentais. Em particular, é essencial definir claramente a população-

alvo, ou seja, a população sobre a qual deseja fazer inferências, baseado na amostra, sob pena de invalidar suas

conclusões. Em muitas situações ocorrem falhas graves no levantamento das observações e, consequentemente,

nas inferências, devido ao fato de que a população-alvo não foi bem definida.

Outra etapa fundamental é a escolha apropriada das características a serem estudadas

(observadas), o que deve ser feito mediante uma detalhada revisão bibliográfica e/ou com base no conhecimento

e experiência do pesquisador. É importante mencionar que, usualmente, a precisão/qualidade da mensuração

diminui com o aumento do número de questões, de tal forma que é aconselhável observar apenas aquelas

variáveis que são realmente importantes para o estudo.

Como se deseja realizar inferências a partir da amostra, deve-se garantir que a amostra seja

representativa da população-alvo. Em outras palavras, a amostra deve refletir o mesmo comportamento básico

da população, no que diz respeito às variáveis em estudo. Uma das maneiras de garantir esta representatividade

é através da utilização de algum mecanismo aleatório para selecionar as unidades amostrais.

Se as unidades amostrais são selecionadas da população mediante um mecanismo aleatório,

mediante o qual é possível conhecer as respectivas probabilidades de que os indivíduos da população sejam

selecionados, então o procedimento de amostragem é denominado de amostragem probabilística. Caso

contrário, a amostragem é chamada de amostragem não-probabilística.

As técnicas mais comuns para a extração de amostras probabilísticas são a Amostragem

Aleatória Simples, a Amostragem Estratificada, a Amostragem por Conglomerados e a Amostragem

Sistemática. Contudo, o planejamento da amostra é um assunto demasiadamente extenso e complexo para os

propósitos desse curso, no qual o objetivo básico é descrever brevemente os principais procedimentos de

amostragem probabilística. Algumas referências iniciais são Montgomery (1991), Bolfarine & Bussab (1994),

Snedecor & Cochran (1967), Cochran (1963) e Kish (1965).

4.2.1 Amostra Aleatória Simples (AAS)

Este tipo de amostra é caracterizado essencialmente pelo fato de que cada indivíduo da

população tem a mesma probabilidade de ser selecionado (ou seja, de pertencer à amostra). Se a população é

constituída de elementos (pessoas, animais, plantas, residências, lâmpadas, etc.), e deseja-se extrair uma

amostra de tamanho , a quantidade

N

n Nnf = é chamada de fração de amostragem. Ainda, se amostra é feita


67

sem reposição, como ocorre usualmente, então existem ( )!nN!n!N

nN

−=

N

n

possíveis amostras, as quais têm a

mesma probabilidade de serem extraídas.

Assim, se a população é composta por elementos, uma maneira prática de extrair uma

AAS é, primeiro, identificar cada indivíduo da população, por exemplo, numerando-os de 1 até . Em seguida,

mediante um mecanismo aleatório qualquer (por exemplo, uma tabela de números aleatórios ou através de uma

rotina computacional que gere números aleatórios), sorteia-se números dessa seqüência, os quais

correspondem aos indivíduos que compõem a amostra.

N

4.2.2 Amostra Aleatória Estratificada (AAE)

Com relativa freqüência, a população possui uma estrutura de estratos (ou grupos) bem

definidos, de tal forma que a(s) variável(eis) de interesse possivelmente apresenta(m) um comportamento

substancialmente diferente de um estrato para outro, porém com um comportamento homogêneo dentro de cada

estrato. Nesta situação, se for utilizada uma amostra aleatória simples (ou seja, se não for considerada a

existência dos estratos), os estratos podem não estar adequadamente representados na amostra. Assim, a amostra

poderia ser influenciada pelo comportamento específico que a variável apresenta nos estratos mais favorecidos

pelo sorteio. A adoção de uma amostra aleatória estratificada é uma maneira de evitar a possível ocorrência

deste problema, sendo um dos tipos mais utilizados.

Comumente utiliza-se uma amostra aleatória estratificada proporcional, que consiste

essencialmente em adotar um tamanho de amostra de cada estrato proporcional ao número de elementos

existentes no estrato correspondente. Assim, considere

≡N número de elementos da população;

≡L número de estratos;

≡iN número de elementos do i-ésimo estrato;

≡n é o tamanho da amostra,

de tal forma que . A fração de amostragem é dada por LNNNN +++= L21 Nnf =

ni

e, consequentemente,

na amostragem aleatória estratificada proporcional, o número de elementos a serem sorteados em cada estrato é

. É importante observar que a extração dos indivíduos de

cada estrato deve ser realizada seguindo os mesmos princípios da amostra aleatória simples.

fNn,,fN LL = 2 Ln,fNn == 211 fNi=


68 4.2.3 Amostra Aleatória por Conglomerados (AAC)

Em determinadas situações a população é formada por pequenos grupos, os quais são

denominados de conglomerados, de tal forma que pode ser conveniente formar a amostra através do sorteio

desses conglomerados. Usualmente uma amostra por conglomerados é uma amostra aleatória simples, sendo

que cada unidade de amostragem é um conglomerado. Uma vez que um determinado conglomerado é

selecionado, todos os indivíduos que o compõe são observados.

Neste tipo de amostragem, uma característica geral esperada sobre a população é que o

número de conglomerados deve ser relativamente grande. Ao mesmo tempo, o número de indivíduos dentro de

cada conglomerado deve ser pequeno em relação ao total da população e os indivíduos devem ter características

similares.

Neste momento é conveniente destacar a diferença entre a amostragem aleatória estratificada

e por conglomerados: na primeira, após a definição dos estratos, seleciona-se uma amostra aleatória simples

dentro de cada um dos estratos. Na amostragem por conglomerados, por sua vez, seleciona-se, ao acaso, os

conglomerados e todos os indivíduos dos conglomerados selecionados são observados.

Do ponto de vista prático, recomenda-se a utilização da amostragem por conglomerados

quando não se dispõe do registro de todos os elementos da população (ou é excessivamente caro construí-lo) ou

quando o custo para obter as informações cresce com o aumento da distância entre os indivíduos.

4.2.4 Amostra Aleatória Sistemática (AASt)

A amostragem aleatória sistemática é recomendável quando os elementos da população estão

ordenados e a retirada dos elementos precisa ser feita com certa periodicidade. O princípio básico consiste em

escolher, ao acaso, o ponto de início da seqüência de observações, a partir do qual regularmente é selecionado o

próximo elemento da amostra, até completar o tamanho n especificado.

Por exemplo, se a população contém indivíduos e deseja-se selecionar uma amostra de

tamanho , então inicialmente deve-se escolher, ao acaso, um número inteiro

N

n K entre 1 e , o qual será o

ponto de início da amostra. Assim, a amostra aleatória sistemática de tamanho n será constituída pelos

elementos de ordem

n

etc. , 3 2 rK,rK,rK,K +++ , onde r é o inteiro mais próximo da fração nN .

Entretanto, se o tamanho da população é desconhecido, não é possível determinar com

precisão o valor de r , sendo recomendável escolher intuitivamente um valor razoável. Apesar de sua

simplicidade, é preciso ter cuidado com este tipo de amostragem, pois na hipótese da característica em estudo

apresentar um comportamento cíclico, há a possibilidade do período do ciclo coincidir com a retirada das

unidades amostrais.


69 5 Distribuição da Média Amostral e Teorema Central do Limite

No contexto da pesquisa científica e/ou tecnológica, o exame individual de uma determinada

unidade amostral é usualmente pouco informativo, haja vista que não reflete o comportamento global dos

indivíduos. Considere, por exemplo, o caso de uma amostra aleatória de 15 de indivíduos que foram submetidos

a transplante de coração no Hospital de Clínicas HC. O fato de que um particular indivíduo da amostra não

tenha sobrevivido ao transplante não significa que a equipe de transplante deste hospital não tem o domínio

técnico necessário e, muito menos, que o transplante de coração não é um procedimento recomendável

(naturalmente para pacientes com problemas cardíacos com uma especificada gravidade).

Assim, é natural que o pesquisador esteja interessado em uma estatística (que nada mais é do

que uma função da amostra) que represente o comportamento típico dos indivíduos em estudo. Usualmente, esta

estatística pode ser a média, a mediana, a proporção, etc. Se a amostra é representativa da população, ela contém

uma informação que pode ser útil fazer inferências sobre a população. Em particular, a média aritmética tem

um papel de destaque no contexto deste curso.

Como foi definido na Seção 2.2.1, a média amostral da variável aleatória X é n

xX

n

ii∑

== 1 .

Contudo, como existem diversas maneiras de selecionar uma amostra aleatória de tamanho , a média amostral n

X também é uma variável aleatória, de tal forma que é vital conhecer sua distribuição de probabilidade.

Exemplo 5.1 (didático): Sabe-se que, até o presente momento, foram registrados apenas quatro casos de

uma determinada doença rara, para os quais foi observado o consumo renal de oxigênio, medido em

. Nesta situação, a população-alvo tem tamanho min/cm3 4=N e é constituída pelos quatro pacientes nos

quais foi diagnosticada a doença. A variável de interesse neste estudo é, em particular, ≡X consumo renal de

oxigênio, cujos valores observados são mostrados no esquema abaixo:

PACIENTE

X: Consumo Renal de Oxigênio ( )min/cmem 3

1 14,0 2 14,1 3 14,2 4 14,3


70

Assim, a média populacional da variável em estudo X pode ser calculada mediante a

definição da média populacional, de tal forma que

min/cm,,,,,x

N

xi

i

N

ii

3

4

11 15144

3142141140144

=+++

===µ∑∑== .

Por sua vez, o desvio padrão populacional é, por definição, determinado por

( )

( ) ( ) ( ) ( )

min/ cm,,

,,,,,,,,

N

xN

ii

3

2222

1

2

1118040504

1514314151421415141141514014

==σ

−+−+−+−=σ

µ−=σ∑=

.

Admita, para fins pedagógicos, que deseja-se retirar uma amostra aleatória de tamanho

desta população. Inicialmente o pesquisador deseja estudar o comportamento da variável 2=n X na amostra

e, se possível, utilizar a amostra para fazer inferências sobre a população-alvo (neste caso, a população de

indivíduos com a doença rara especificada).

Observe, entretanto, que se a amostragem é com reposição, então nesta situação existem

maneiras distintas de selecionar uma amostra aleatória de tamanho . O Quadro 5.1 ilustra

as diferentes amostras possíveis e o respectivo valor médio observado para a média amostral

1642 ==nN 2=n

X .

É importante observar que, na prática, apenas uma amostra é selecionada, mas ela pode ser

obtida de diferentes maneiras, ou seja, mediante diferentes combinações dos indivíduos que compõem a

população. Por exemplo, como pode ser observado no Quadro 5.1, o valor min/ cm,x 31514= pode ser

gerado pelas amostras de número 4, 7, 10 ou 13. De forma similar, o mesmo raciocínio pode ser aplicado aos

demais valores admissíveis de X . Este exemplo ilustra o fato de que, antes de coletar a amostra, a média

amostral X também é uma variável aleatória, cuja distribuição de probabilidade deseja-se determinar, pois

pode ser útil para fazer inferências sobre a população.

No Quadro 5.1 são apresentadas todas as amostras possíveis de tamanho 2=n e os

respectivos valores da média amostral. Estas informações podem ser organizadas de maneira mais apropriada,

mediante a distribuição de freqüências da variável X apresentada na Tabela 5.1, e melhor visualizadas

mediante o gráfico de barras apresentado na Figura 5.1.


71

Quadro 5.1 - Possíveis amostras de tamanho 2=n , com reposição, e respectivos valores da média amostral X . Amostra nº Valores

Observados

x

1 14,0 14,0 14,00 2 14,0 14,1 14,05 3 14,0 14,2 14,10 4 14,0 14,3 14,15 5 14,1 14,0 14,05 6 14,1 14,1 14,10 7 14,1 14,2 14,15 8 14,1 14,3 14,20 9 14,2 14,0 14,10

10 14,2 14,1 14,15 11 14,2 14,2 14,20 12 14,2 14,3 14,25 13 14,3 14,0 14,15 14 14,3 14,1 14,20 15 14,3 14,2 14,25 16 14,3 14,3 14,30

Tabela 5.1 – Distribuição de freqüências da variável aleatória X para o Exemplo 5.1 ( 2 e 4 == nN ).

x f rf 14,00 1 0,06 14,05 2 0,13 14,10 3 0,19 14,15 4 0,24 14,20 3 0,19 14,25 2 0,13 14,30 1 0,06 Total 16 1,00

Prof.

Média Amostral

14,3014,2514,2014,1514,1014,0514,00

Freq

üênc

ia R

elat

iva 30

20

10

0

Figura 5.1 – Distribuição da variável aleatória X para o Exemplo 5.1 ( ).neN 2 4 ==

Álvaro Vigo – UFRGS – Departamento de Estatística – Elementos de Bioestatística: Um Curso Introdutório

72

Como já foi mencionado, antes da amostra ser selecionada a média amostral X é uma

variável aleatória (pois diferentes valores x podem ser gerados), de tal forma que deseja-se encontrar a sua

distribuição de probabilidade, denominada distribuição da média amostral. Além da forma da distribuição,

deseja-se determinar, em particular, a média e o desvio padrão da variável aleatória X . Assim, para ilustrar,

considere as informações do Exemplo 5.1, onde a média da variável X é

min/ cm,,,,,,X

3151416

3014251410140514014=

+++++=µ

L,

enquanto que o desvio padrão de X é dado por

( ) ( ) ( ) ( )

.min/ cm,,,

,,,,,,,,

X

X

3

2222

079100063016100

1615143014151410141514051415140014

===σ

−++−+−+−=σ

L

Para os resultados do exemplo, observe que o valor da média da variável aleatória X é igual

a min/ cm,X31514=µ , que coincide com o valor da média populacional da variável original X (ou seja,

min/cm,X3 1514=µ=µ ). Analogamente, o desvio padrão da variável aleatória X ,

min/ cm,X3 07910=σ , é igual ao valor do desvio padrão populacional da variável original X , dividido pela

raiz quadrada do tamanho da amostra, ou seja, min/ cm,,nX

3 079102

11180==

σ=σ .

O resultado ilustrado através do exemplo pode ser generalizado: se uma amostra aleatória de

tamanho é extraída de uma população com média igual a n µ e desvio padrão igual a , então o valor

esperado da variável aleatória

σ

X é igual a µ e desvio padrão de X (também denominado de erro padrão da

média) é igual a nσ . Em outras palavras, a distribuição da variável aleatória X tem média igual a µ (isto é,

está centrada em µ=x ) e desvio padrão igual a nσ . Consequentemente, para , a variabilidade de 2≥n X é

menor do que a variabilidade da variável aleatória original X .

A forma da distribuição de probabilidade de X , por sua vez, depende criticamente do

tamanho da amostra e da forma da distribuição da variável n X . Contudo, se o tamanho da amostra é grande

, então a distribuição de probabilidade de ( ∞→n ) X aproxima-se da distribuição de probabilidade normal.

Este resultado é extremamente importante e decorre do Teorema Central do Limite, enunciado abaixo:


73

Teorema Central do Limite: Sejam variáveis aleatórias independentes e

identicamente distribuídas, com média comum

L,X,X,X 321

µ e variância comum σ , onde . Seja,

. Então,

2 ∞<σ< 20

nn XXXS +++= L21

[ ] ( ) ∞→→σ

µ−=

−quando n,N

nnS

SVarSES Dn

n

nn ,1 0

.

Na prática, a amostra aleatória usualmente consiste das n observações , as

quais são independentes (pois a amostra é aleatoriamente extraída da população) e identicamente distribuídas

(pois são observações sobre a mesma característica, realizadas em indivíduos extraídos da mesma população).

Assim, um resultado imediato do Teorema Central do Limite é que, para um tamanho de amostra

suficientemente grande (usualmente ), a distribuição de probabilidade da variável aleatória

nX,X,X L21

30≥n X

aproxima-se de uma distribuição normal com média µ e desvio padrão nσ , onde e µ σ são,

respectivamente, a média e o desvio padrão populacional da variável original X . No jargão probabilístico, diz-

se que X converge em distribuição para uma distribuição normal com média µ e desvio padrão nσ , sendo

denotado por

∞→

σµ→ quando n,

n,NX D

2.

É importante salientar que este resultado é válido apenas para amostras grandes, ou seja, para

. Contudo, um resultado amplamente conhecido do cálculo de probabilidade é que a soma de variáveis

aleatórias com distribuição normal e independentes, também segue uma distribuição de probabilidade normal.

Consequentemente, no caso em que é uma amostra aleatória de uma variável

∞→n

nX,X,X L21 X com

distribuição normal com média µ e desvio padrão σ , isto é, ( )2σµ,N~X , então a variável aleatória X

segue uma distribuição de probabilidade normal com média µ e desvio padrão nσ , independentemente do

tamanho da amostra . nA distribuição da média amostral é extremamente importante e útil para o cálculo de

probabilidades e, particularmente, para estender os resultados da amostra para a população-alvo (fazer

inferências), mediante o uso intervalos de confiança ou testes de hipóteses sobre médias populacionais, temas

que serão abordados na seqüência do curso.


74

Para exemplificar, considere o Exemplo 3.10, relativo à pressão sistólica em indivíduos

saudáveis de uma determinada população, que segue uma distribuição normal de probabilidade com

e σ , isto é, mmHg 130=µ mmHg 9= ( )81 130,N~X . Na Seção 3.3.2 foi ilustrado o cálculo de

probabilidades para diversos eventos associados a esta variável aleatória.

Considere, no entanto, uma amostra aleatória de 10 indivíduos desta população, rotuladas

por . Antes de selecionar a amostra a média amostral 1021 X,X,X L X é uma variável aleatória, pois poderiam

existir inúmeras maneiras de selecionar uma amostra de tamanho 10 desta população, ou seja, o valor observado

x pode variar de uma amostra para outra, pois as pessoas selecionadas poderiam ser diferentes. Como a

variável original (pressão sistólica de um indivíduo) tem distribuição normal, isto é, , então ( 81 130,N~X ) X

também tem distribuição normal, independentemente do tamanho da amostra. Especificamente, a distribuição da

média X está centrada em 130 , pois mmHg mmHgX 130=µ=µ . Porém, o desvio padrão de X é menor

do que o desvio padrão da variável original, isto é, mmHg,nX 852

109

==σ

=σ .

Nesta situação, a probabilidade da média amostra X ser maior do que 140 mmHg é dada por

[ ] [ ]

[ ] .,ZP

,ZP,

ZPX

PXPX

X

X

X

0115131

513852

130140140140

=−=+≤−=

+>=

−

>=

σ

µ−>

σ

µ−=>


75 6 Introdução à Inferência Estatística

Nos últimos anos os métodos estatísticos têm sido largamente utilizados em estudos

científicos e tecnológicos das mais diversas áreas do conhecimento. Essa é uma tendência crescente e

irreversível, de maneira que a Estatística possui um papel vital na tomada de decisões e na produção de

conhecimentos ou de novas tecnologias, podendo ser considerada a “tecnologia da ciência”, veja Pereira (1997).

Fica evidente, portanto, que a Estatística é parte fundamental do método científico, cabendo

destacar a enorme importância dos procedimentos de estimação de parâmetros e testes de hipóteses. Mediante

o rigoroso atendimento das condições especificadas, estes procedimentos de inferência estatística permitem

estender para a população-alvo os resultados obtidos da amostra.

Neste capítulo serão brevemente abordados alguns aspectos sobre inferência estatística, que

embora sejam os mais simples e tradicionais, podem ser extremamente úteis para avaliar a veracidade de

hipóteses científicas ou estimar parâmetros populacionais em muitas situações práticas. Em especial, serão

apresentados procedimentos para estimação da média e da proporção populacional, por ponto e por intervalo,

para o caso de uma amostra aleatória extraída de populações com distribuição normal ou para tamanho de

amostra grande. Ainda no contexto de normalidade, também serão desenvolvidos testes de hipóteses para média

e para proporção populacional no caso de uma amostra, teste para comparação de médias e proporções

populacionais no caso de duas amostras independentes e teste para comparação de médias populacionais

mediante duas amostras pareadas.

6.1 Estimação de Parâmetros

Em muitas situações práticas o estudo experimental ou observacional é realizado com o

intuito de “descobrir” o valor de algum parâmetro populacional desconhecido, associado à distribuição de

probabilidade da característica em estudo (variável aleatória X). Em outras palavras, a partir dos dados gerados

na amostra (ou pelo experimento), o pesquisador deseja obter conclusões probabilísticas sobre os verdadeiros

valores dos parâmetros populacionais desconhecidos. Este procedimento é denominado estimação de

parâmetros, que pode ser realizada através de estimadores pontuais ou através de um intervalo que contenha o

valor do parâmetro, com um nível de confiança especificado.


76 6.1.1 Estimação por Ponto

Um estimador nada mais é do que uma função da amostra, usualmente chamada de

estatística. Por exemplo, na amostra , cada observação individual é uma estatística, assim

como subconjuntos ou funções apenas dessas observações também são. Assim, o mínimo e o máximo

da amostra; a mediana, a moda e a média amostral também são estatísticas e, portanto, candidatos a

estimadores de algum parâmetro. Como qualquer estatística (função da amostra) pode ser vista como um

estimador pontual, é natural que sejam utilizados estimadores que possuam propriedades ótimas, ou seja, que

representem adequadamente o valor populacional de interesse.

nX,,X,X L21 iX

)(X 1

)n(X

Diferentes métodos para construir estimadores, bem como as propriedades matemáticas

desejáveis em um estimador são extensamente discutidas na literatura estatística. Apesar de não ser objetivo do

curso, é conveniente mencionar brevemente os conceitos básicos das principais propriedades – o leitor

interessado pode consultar, por exemplo, Rohatgi (1976, p.333), Mood, Graybill e Boes (1974, p.271) ou Larson

(1982, p.359).

Para falar das propriedades desejáveis nos estimadores, admita que T é um estimador do

parâmetro populacional θ , definido pela função da amostra ( ) ( )nX,X,XfXT 21 ,LT == . Qualquer que

seja o tamanho da amostra, um bom estimador deve fornecer, em média, estimativas exatas para o parâmetro θ ,

ou seja, deve coincidir com o verdadeiro valor de θ . Esta é precisamente uma das principais propriedades, que

especifica que T deve ser um estimador imparcial do parâmetro θ . O estimador T é imparcial para θ se a

esperança matemática de T (isto é, o seu valor médio, considerando repetidas amostras) é igual ao parâmetro

. Um estimador imparcial também é chamado de estimador não tendencioso, não viciado ou não viesado. No

entanto, é preciso alguma cautela, pois estimadores não tendenciosos podem não existir ou então produzir

resultados absurdos.

θ

Como podem existir diversos estimadores não tendenciosos para o parâmetro θ , é desejável

que, além de imparcial, o estimador T seja consistente. A propriedade de consistência está associada à precisão

do estimador, quando o tamanho da amostra aumenta. Assim, na medida que o tamanho da amostra aumenta,

maior é a certeza de que T assume um valor na vizinhança de θ , ou seja, maior é a confiança que T inspira

como estimador de θ . Em outras palavras, se T é estimador consistente para , então para amostras

suficientemente grandes o erro de estimação pode ser tornado mínimo, de tal forma que a estimativa vai ser

“melhor’. Na prática, se

θ

T é um estimador imparcial e consistente para θ , então a sua variância tende para

zero quando o tamanho da amostra é suficientemente grande, ou seja, quando o tamanho da amostra aumenta

para o infinito ( ), a variância do estimador ∞→n T converge para zero ( ). 0 ∞

→= TVar2σT

→n

Assim, se T é um estimador imparcial para θ , desejamos que sua variância seja tão

pequena quanto possível, pois, dessa forma, o valor de T tende a ficar próximo de θ . Por isso, usualmente


77 deseja-se escolher como estimador do parâmetro θ , o estimador T que pertence à classe de estimadores não

tendenciosos e que tenha variância mínima. O estimador T que satisfaz estas condições é chamado de

estimador não tendencioso e de variância mínima.

Outra propriedade importante em um estimador é a normalidade assintótica, que especifica

que a distribuição de probabilidade do estimador é aproximadamente normal. Assim, se T é um estimador

assintoticamente normal, então ele pode ser utilizado para construir intervalos de confiança e testes de hipóteses

para o parâmetro , baseados na distribuição normal de probabilidade. Existem ainda outras propriedades

desejáveis para estimadores, tais como

θ

suficiência, completeza (completeness, em inglês) e invariância, mas não

cabe descrevê-las no momento.

Neste curso o objetivo básico é ilustrar procedimentos de estimação para a média, para o

desvio padrão e para uma proporção, no contexto da distribuição normal e/ou para amostras grandes. Assim, é

conveniente utilizar o exemplo descrito a seguir.

Exemplo 6.1: O peso ao nascer é uma característica interessante, pois pode revelar a existência de problemas

de saúde pública. A Secretaria de Saúde de uma pequena cidade deseja estimar o peso médio de nascimento das

crianças da comunidade. Para tanto, planejou e selecionou uma amostra aleatória de 50 crianças nascidas no

único hospital da cidade, registrando o peso de nascimento de cada criança. Os resultados são mostrados no

Quadro 6.1.

Quadro 6.1 – Peso de nascimento na amostra de 50 crianças, em gramas.

2678 3945 3127 2958 3063 3514 3199 2499 2413 3159 3188 3485 3701 3266 3328 2909 3008 4228 3794 2566 3142 3326 2681 2435 2607 2668 3360 3377 3295 3111 2342 2585 2740 3401 3114 2606 2922 2885 3030 3410 3113 3354 3494 2701 3088 3244 2814 2725 3447 3026

Nota: Dados fictícios.


Peso ao Nascer (em gramas)

5000400030002000

Val

or E

sper

ado

pela

Nor

mal

5000

4000

3000

2000

Figura 6.1 – Q-Q plot para o peso ao nascer (em gramas).

78

A Figura 6.1 ilustra o Q-Q plot para os dados do peso de nascimento gerados na amostra,

sugerindo que a distribuição normal parece ser adequada para descrever o comportamento desta característica,

na população. No entanto, a distribuição normal de probabilidades é caracterizada também pelos parâmetros µ

e , que são a média e o desvio padrão populacionais. Em outras palavras, constatou-se empiricamente que o

modelo normal parece ser apropriado para representar o peso ao nascer da comunidade, mas a média e o desvio

padrão do peso ao nascer são desconhecidos. Assim, é necessário estimar

σ

µ e σ desta população.

Existem diversos métodos de estimação de parâmetros, cabendo destacar o método da

máxima verossimilhança, cujo desenvolvimento foi inicialmente apresentado por Ronald A. Fisher em 1925, no

trabalho intitulado “Theory of Statistical Estimation”. O princípio da Máxima Verossimilhança consiste

essencialmente em admitir que a amostra é representativa da população e “escolher” como estimador o valor do

parâmetro que maximiza a probabilidade daquela particular amostra ser observada. Aspectos teóricos do método

da máxima verossimilhança e procedimentos para determinar os estimadores podem ser encontrados na

literatura estatística, veja Rohatgi (1976, p.375), Mood, Graybill e Boes (1974, p.276) ou Larson (1982, p.360).

O estimador pontual para a média populacional µ , derivado pelo método da máxima

verossimilhança, é dado por

n

XXˆ

n

ii∑

===µ 1 ,

e, para a variância populacional σ , é 2

( )n

XXSˆ

n

ii∑

=

−==σ 1

2

22 .

Cabe observar que a média amostral X é um estimador não tendencioso para µ , mas a

variância amostral 2S não é um estimador imparcial de . Por este motivo, usualmente utiliza-se a variância

amostral definida como

2σ

( )1

1

2

2

−

−=∑=

n

XXS

n

ii

,

que é um estimador não tendencioso da variância populacional.

Voltando ao Exemplo 6.1, X é o estimador (pontual) de máxima verossimilhança para a

média populacional µ , produzindo a estimativa g,x 423081= , enquanto que o estimador não tendencioso

para σ gerou a estimativa , ou seja, o desvio padrão amostral é . 2 22 25165510 g,s = g,s 83406=

Em muitas situações o pesquisador está estudando uma característica dicotômica, ou seja,

que assume apenas dois resultados possíveis, usualmente denotados por sucesso e fracasso. Na Seção 3.3.1 foi


79 apresentada a distribuição binomial, que pode ser usada para descrever o comportamento de uma variável

aleatória definida pelo número de sucessos em uma amostra aleatória de tamanho n .

Recordando, se é uma amostra aleatória de uma característica dicotômica,

isto é,

nX,,X,X L21

= 1

0,oo é sucesssimo ensai, se o i-é

soo é fracassimo ensai, se o i-éX i

onde e [ ] pXP i == 1 [ ] ,n,, ip, XP i L2110 =∀−== , então a variável aleatória definida pelo número de

sucessos nos ensaios independentes segue uma distribuição de probabilidade binomial com parâmetros e n n

p , ou seja, . ( )p,nB~X

Na prática, contudo, a probabilidade de sucesso p pode ser desconhecida, de tal forma que

pode ser necessário estimá-la. O estimador de máxima verossimilhança para a probabilidade de sucesso p é

definido pela proporção de sucessos na amostra, ou seja,

n

x

nxp

n

ii∑

=== 1 ,

enquanto que o estimador de máxima verossimilhança para a variância populacional é dado por ( )ppn −1 .

Apesar de sua simplicidade, os estimadores pontuais produzem apenas um valor sobre o

parâmetro populacional correspondente, não levando em conta a variabilidade do estimador. Na prática,

entretanto, é mais aconselhável construir um intervalo (usualmente simétrico) em torno da estimativa pontual,

de tal forma que este intervalo contenha o verdadeiro valor do parâmetro, para uma probabilidade conhecida.

Este procedimento é chamado estimação por intervalo e os intervalos produzidos são denominados intervalos

de confiança. Na próxima seção serão brevemente apresentados os intervalos de confiança para média de uma

variável aleatória com distribuição normal e, no contexto de grandes amostras, para uma proporção

populacional.

6.1.2 Estimação por Intervalo

Um intervalo de confiança por ser visto como uma família de conjuntos que, com uma

probabilidade alta, contém o verdadeiro valor do parâmetro populacional . Assim, se a estatística

é um estimador do parâmetro

θ

( ) ( )nX,,X,XfXTT L21== θ , então deseja-se determinar os limites ( )X1T

e , tal que ( )XT2 ( )[ ( )] α−=< 12 XTθ<1 XTP . Logicamente, o limite inferior T e o limite superior (X1 )


80

( )XT2 dependem da estimador ( ) ( )nX,,X,XfXT L21T ==

( ) %1001 ×α−

, e o intervalo [ ] é chamado

intervalo de confiança de nível para o parâmetro

)X(T),X(T 21

θ . Os valores que freqüentemente são mais

utilizados para α são 0,01 ou 0,05, os quais respectivamente produzem os intervalos com 99% ou 95% de

confiança para . θ

( ) ( )nXfXT ==

)T =

( )XT

nX,,X,X L21 X

µ 2

nσ

=

σµ

n,N~

2

X

( )10,N~

n

Xσµ−

É importante observar que a determinação do intervalo de confiança depende essencialmente

da distribuição de probabilidades do estimador X,,X, L21T e, portanto, nem sempre

podem ser construídos. No contexto do curso serão abordados casos que em que a distribuição de probabilidade

de é normal ou, então, problemas nos quais o tamanho de amostra é suficientemente grande e

possui a propriedade de normalidade assintótica, de tal forma que é possível obter intervalos de

confiança aproximados para os parâmetros em investigação. Os métodos para construção de intervalos de

confiança estão fora do objetivo do curso; ao leitor interessado no aprofundamento destes aspectos teóricos

recomenda-se consultar, por exemplo, Rohatgi (1976, p.467), Mood, Graybill e Boes (1974, p.372) ou Larson

(1982, p.382). A seguir serão apresentados os intervalos de confiança para algumas situações básicas.

(XT

6.1.2.1 Intervalo de Confiança para µ, quando σ é Conhecido

Considere a amostra aleatória de uma característica que possui

distribuição normal com média desconhecida , porém com variância conhecida σ . O estimador pontual para

a média populacional µ , apresentado na Seção 6.1, é a média amostral X . Como a variável original X tem

distribuição normal, então a média amostral tem distribuição normal de probabilidade, com média µ=µ X e

variância X

22σ , ou seja, X . Convém lembrar que este resultado foi discutido no Capítulo 5.

Consequentemente, mediante a padronização da variável aleatória , obtém-se a variável

normal padrão definida como

.

Assim, sabe-se que


81

α−=

+≤σµ−

≤− αα 1 22

z

n

XzP ,

onde 2

αz é o valor da distribuição normal padrão que delimita a área 2α à sua direita e 10 <α< . Como

deseja-se um intervalo com ( ) de confiança para %1001 ×α− µ , deve-se isolar o parâmetro na expressão

acima, isto é,

µ

22 αα +≤

σµ−

≤− z

n

Xz .

Assim,

nzX

nz σ

×+≤µ−≤σ

×− αα22

,

e, portanto, o intervalo com ( ) %1001 ×α− de confiança para µ , é dado por

nzX

nzX σ

×+≤µ≤σ

×− αα22

.

Este intervalo também pode ser escrito como

σ×+

σ×− αα n

zXn

zX22

; e

significa que com uma probabilidade igual a ( )α−1 este intervalo contém o verdadeiro valor da média

populacional µ ou, equivalentemente, com ( ) 100%1 ×α− de confiança o intervalo contém . µ

Se a característica em estudo não possui distribuição normal, então pode ser perigoso utilizar

a expressão acima para obter um intervalo de confiança para µ . Contudo, devido à propriedade de normalidade

assintótica e ao Teorema Central do Limite, para um tamanho de amostra grande a expressão é

adequada, produzindo um intervalo de confiança aproximado.

( 30≥n )


82 6.1.2.2 Intervalo de Confiança para µ, quando σ é Desconhecido

Na seção anterior foi descrito o problema onde é uma amostra aleatória de

uma característica

nX,,X,X L21

X extraída de população com distribuição normal com média desconhecida µ e variância

conhecida . O estimador pontual 2σ X tem distribuição normal de probabilidade, com média µ=µ X e

variância nX

2 σ=σ

2, seja,

σµ

n,N~X

2.

Contudo, se a variância populacional σ também é 2 desconhecida, não é possível utilizar a

variável padronizada

n

Xσµ−

para construir o intervalo de confiança, pois não possui distribuição normal

padrão. É relevante mencionar que este é o caso mais freqüente na prática. A solução deste problema consiste

em estimar o desvio padrão populacional através do estimador pontual σ

( )1

1

2

−

−=∑=

n

XXS

n

ii

,

substituindo-o na expressão da variável padronizada acima. Um importante resultado do cálculo de

probabilidades assegura que, sob estas condições, a variável aleatória

nS

X µ−=T segue uma distribuição de

probabilidade t de Student com graus de liberdade, onde é o tamanho da amostra. Assim, sabe-se que 1−n n

α−=

+≤µ−

≤− α−α− 1 2

12

1 ),n(),n( t

nS

XtP ,

onde 2

1 α− ),n(t é o valor de distribuição probabilidade t de Student com 1−n graus de liberdade que delimita

a área 2α à sua direita e 0 1<α< . De forma similar ao caso anterior, deve-se isolar µ na expressão

2 1

2 1 α−α− +≤

µ−≤− ),n(),n( t

nS

Xt ,

de tal forma que


83

nStX

nSt ),n(),n( ×+≤µ−≤×− α−α−

2 1

2 1 ,

e, finalmente,

nStX

nStX ),n(),n( ×+≤µ≤×− α−α−

2 1

2 1 .

Portanto, o intervalo com ( ) %1001 ×α− de confiança para µ é

×+×− α−α− n

StXn

StX ),n(),n(2

12

1 ; .

É importante destacar que para um tamanho de amostra grande ( , o intervalo de

confiança acima é aproximadamente igual ao caso em que

)30≥n

σ é conhecido, pois a distribuição de probabilidade

t de Student converge para a distribuição normal padrão, quando ∞→n .

Também convém mencionar que se a característica em estudo não possui distribuição

normal, então pode ser perigoso utilizar a expressão acima para obter um intervalo de confiança para µ .

Entretanto, levando-se em conta o Teorema Central do Limite, quando ∞→n a expressão acima produz um

intervalo de confiança aproximado.

Para exemplificar, considere os dados do Exemplo 6.1 descrito na Seção 6.1, que trata do

peso ao nascer em determinada comunidade. As estimativas pontuais de µ e σ foram, respectivamente,

g,x 423081= e . Como o tamanho da amostra é grande g,s 83406= ( )50=n , então pode ser apropriado

aproximar a distribuição de probabilidade t de Student pela distribuição normal padrão. Assim, um intervalo

com 95% de confiança para o peso médio ao nascer da população é dado por

×−

nS

nSX 1,96 ×+X 1,96 ; , ou seja,

( )

( )193194 652968

12,76751 081,423 12,7675;1 081,423

50834061,96 081,423 ;

50834061,96 081,423

,;,

,,

+−

×+×−

Portanto, com 95% de confiança o intervalo (2968,65; 3194,19) contém o verdadeiro peso

médio de nascimento na população de crianças da cidade da qual a amostra foi retirada.


84 6.1.2.3 Intervalo de Confiança para a Proporção Populacional p (n grande)

Também é conveniente apresentar a expressão do intervalo de confiança para uma proporção

populacional p . É importante observar que o resultado apresentado a seguir só é válido para um tamanho de

amostra é grande, pois a distribuição de probabilidade do estimador p está sendo aproximada pela distribuição

normal de probabilidades.

Na Seção 6.1 foi verificado que se é uma amostra aleatória de uma

característica dicotômica, isto é,

nX,,X,X L21

= 1

0,oo é sucesssimo ensai, se o i-é

soo é fracassimo ensai, se o i-éX i

com e [ ] pXP i == 1 [ ] ,n,, ip, XP i L2110 =∀−== , então

n

x

nxp

n

ii∑

=== 1

é o estimador de máxima verossimilhança para a probabilidade de sucesso p e X é definida como o número

de sucessos nos ensaios independentes, tal que n ( )p,nB~X .

Cabe salientar que o estimador p pode ser visto como uma espécie de média amostral, isto

é, como o número médio de sucessos na amostra. Portanto, segue naturalmente do resultado denominado

“distribuição da média amostral” estudado no Capítulo 5, que p tem uma distribuição de probabilidade

centrada em p e com erro padrão ( )

npEPp =

1 p−, o qual pode ser estimado por

( )n

ppEP^

p−

=1

. Em

outras palavras, o estimador p tem média igual a p e desvio padrão igual a ( )

nppEPpDes p

−==

1 .

Quanto à forma da distribuição, segue do Teorema Central do Limite que, para um tamanho de amostra

suficientemente grande, p tem uma distribuição de probabilidade aproximadamente normal.

Sob as condições especificadas acima, o intervalo com ( ) %1001 ×α− de confiança para a

proporção populacional p é dado por

( ) ( )

−×+

−×− αα n

ppzpn

ppzp 1 ;1 22

,

onde 2

αz é o valor da distribuição normal padrão que delimita a área 2α à sua direita e . 10 <α<


85 6.2 Introdução aos Testes de Hipóteses

Em um processo de investigação científica, na tentativa de explicar um determinado

fenômeno, usualmente o pesquisador postula hipóteses ou modelos, cuja veracidade precisa ser avaliada. Com

base em fatos, ou seja, a partir de observações sobre este fenômeno, o modelo é aceito ou modificado, de tal

forma que isso caracteriza um processo contínuo de aprendizagem. Os procedimentos de inferência estatística

são fundamentais na etapa de “validação” do modelo, pois o pesquisador deve utilizar critérios científicos para

decidir se as hipóteses formuladas são verdadeiras ou falsas.

Em linhas gerais, um processo de investigação científica sobre um determinado fenômeno

começa com a revisão bibliográfica sobre os assunto e tópicos relacionados. Dessa forma, o pesquisador define

seus objetivos da pesquisa sobre o fenômeno de interesse, levantando as possíveis características (variáveis) que

definem este fenômeno, bem como as possíveis relações existente entre elas. Assim, ele identifica as leis válidas

até o presente, as quais foram definidas em pesquisas anteriores. As observações realizadas em uma nova etapa

da pesquisa (segundo estudos observacionais ou experimentais criteriosamente planejados) permitem concluir

sobre a veracidade de algumas dessas leis, ou seja, não há a necessidade de modificá-las. Outras, contudo,

podem e devem ser questionadas, fato que pode dar origem a novas leis (quando novos conhecimentos são

construídos) ou, então, tornam-se “definitivamente” válidas.

O questionamento da veracidade de uma determinada lei freqüentemente é realizado através

da postulação de uma hipótese de pesquisa, que será avaliada mediante um conjunto de observações sobre o

fenômeno. Como mencionado anteriormente, se esta nova lei for “aceita”, isto é, se os dados evidenciam que ela

é verdadeira, então um novo conhecimento sobre o fenômeno foi gerado, podendo, portanto, ser “descartada” a

lei anterior. Fica caracterizado, assim, um processo contínuo de aprendizagem que define o método científico.

Depois de definir os objetivos e especificar adequadamente as hipóteses de pesquisa a serem

testadas, a próxima etapa é planejar a coleta de dados sobre o fenômeno, os quais são imprescindíveis para a

avaliação da veracidade das hipóteses científicas. Isso pode ser feito através de um estudo observacional ou

experimental, devendo ser cuidadosamente planejado a priori, para que as conclusões sejam válidas. Cuidados

especiais devem ser dedicados às variáveis a serem observadas, ao tipo e tamanho da amostra ou do

experimento, ao custo, tempo e, principalmente, à metodologia de análise dos dados, sob pena de inviabilizar o

trabalho de pesquisa.

A etapa seguinte, então, é a análise dos dados observados, seguindo a metodologia estatística

previamente escolhida. A partir dos resultados da análise estatística o pesquisador pode, finalmente, fazer as

generalizações (inferências) sobre o fenômeno de interesse.

O problema, entretanto, é como formular as hipóteses a serem avaliadas e qual procedimento

estatístico deve ser utilizado para verificar a veracidade dessas hipóteses. Antes de tudo, é importante definir

uma hipótese como uma afirmação sobre uma característica da população. O exemplo abaixo é útil para


86 apresentar algumas definições essenciais, as quais são necessárias na tomada de decisão sobre a veracidade das

hipóteses.

Exemplo 6.2: Sabe-se que em homens saudáveis de uma determinada população o nível de colesterol sérico

segue uma distribuição de probabilidade normal com média dl/mg 220=µ e desvio padrão

. Um pesquisador deseja avaliar se em homens (da população especificada) que

desenvolvem doença cardíaca coronariana (DCC) o nível de colesterol sérico é

dl/mg 40=σ

maior do que em homens

saudáveis.

Neste problema, a hipótese de pesquisa especifica que o nível de colesterol sérico em

homens com DCC é, em geral, maior do que em homens saudáveis. Assim, a veracidade desta hipótese deve ser

avaliada mediante algum procedimento científico, que contempla a observação dos níveis de colesterol sérico

em uma amostra aleatória de homens com DCC. A amostra consiste essencialmente em um estudo

observacional de 25 homens que foram aleatoriamente selecionados da população de homens com DCC,

registrando-se o nível de colesterol sérico de cada indivíduo.

O Quadro 6.2 apresenta os dados gerados pela amostra, os quais produziram média amostral

igual a dl/mgx 253= e desvio padrão dl/mg,s 540= . O histograma mostrado na Figura 6.2 ilustra o

comportamento do nível de colesterol sérico dos homens com DCC observados na amostra. O exame do gráfico

Q-Q plot mostrado na Figura 6.3 revela que a distribuição normal parece adequada para descrever o

comportamento do nível de colesterol sérico para os homens com DCC na população em estudo.

Nível de Colsterol Sérico (mg/dl)

340320300280260240220200180160

7

6

5

4

3

2

1

0

Figura 6.2 – Histograma para o nível de colesterol sérico na amostra de 25 homens com DCC.

Quadro 6.2 – Níveis de colesterol sérico na amostra de 25 homens com DCC.

159,9 249,1 288,9 192,2 250,6 294,4 203,1 251,7 307,0 212,3 255,7 324,6 218,2 258,2 333,5 223,7 258,8 225,9 260,4 231,5 276,9 244,9 278,1 248,4 279,0

Nota: Dados fictícios.


87

Nível de Colesterol Sérico (em mg/dl)

400350300250200150100

Val

or E

sper

ado

pela

Nor

mal

400

350

300

250

200

150

100

Figura 6.3 – Q-Q plot para o nível de colesterol sérico na amostra de 25 homens com DCC.

No início do Capítulo 5 mencionou-se que no contexto da pesquisa científica ou tecnológica,

o exame individual das unidades amostrais usualmente pouco revela sobre o comportamento global da

característica em estudo. Assim, é necessária uma medida que represente o comportamento típico do nível de

colesterol sérico dos homens com DCC na amostra e que permita avaliar a veracidade da hipótese postulada

pelo pesquisador.

A hipótese de que o nível de colesterol sérico é maior na população de homens com DCC,

em relação aos homens saudáveis, pode ser avaliada mediante a comparação das médias das duas populações.

Contudo, até o presente momento o pesquisador conhece apenas a média da população de homens saudáveis;

mais especificamente, em homens saudáveis (da população especificada), o nível de colesterol sérico segue uma

distribuição normal com dl/mg 220=µ e desvio padrão dl/mg 40=σ , ou seja, . A média

amostral é uma estatística que usualmente pode ser utilizada para avaliar a veracidade da igualdade de duas

médias populacionais, como no exemplo em discussão.

)( 2σµ,N~X

Consequentemente, a hipótese de pesquisa pode ser formulada em função das médias das

duas populações. Dessa forma, seja o verdadeiro (porém desconhecido) nível médio de colesterol sérico

em homens com DCC (da população especificada). A hipótese de pesquisa, portanto, pode ser escrita como: na

população em estudo, os homens com DCC apresentam,

DCCµ

em média, nível de colesterol sérico maior do que

homens saudáveis. Assim, através das respectivas médias populacionais, pode-se escrever esta hipótese como

. dl/mgDCC 220=µ>µ

Cabe observar que a comparação dessas duas populações, mediante as suas médias, não

significa que todos os homens com nível de colesterol sérico “elevado” são portadores de DCC. De forma

análoga, um homem com DCC poderia, eventualmente, apresentar nível de colesterol sérico comparável ao dos


88 homens saudáveis. Em outras palavras, a comparação de duas populações através das suas médias considera o

comportamento típico ou global de cada população (que usualmente pode ser representado pela média).

A questão, agora, é como avaliar a veracidade da hipótese de pesquisa. Um procedimento

inicial é escrever o problema através de duas hipóteses estatísticas:

eis.ens saudávhomo que em É MAIOR d NÃO

C ens com DChomsérico emolesterol médio de c: O nível H 0

. 1

eisens saudávhom que emÉ MAIOR do

C ens com DChomsérico emolesterol médio de c: O nível H

A hipótese é chamada de hipótese nula, enquanto é denominada de hipótese

alternativa e, usualmente, representa a hipótese de pesquisa sob investigação. Usando uma notação estatística

mais simples, as hipóteses acima podem ser escritas, de forma equivalente, como:

0H 1H

dl/mg: H DCC 2200 =µ≤µ

dl/mg: H DCC 2201 =µ>µ .

Os dados amostrais é que vão evidenciar se a hipótese nula ( ou se a hipótese

alternativa é verdadeira. Na prática, com base na média observada na amostra, o pesquisador vai decidir

sobre a veracidade de uma das hipóteses, ou seja, ele deverá optar por ou por . Contudo, neste processo

de decisão estatística existe uma “chance” de tomar uma decisão errada, justamente porque a realidade é

desconhecida. No exemplo em questão, o verdadeiro valor da média populacional é desconhecido, de tal

forma que se o pesquisador soubesse qual é o valor da média populacional

)

)0H

DCC

( 1H

0H 1H

µ

DCCµ , ele não precisaria testar

hipóteses sobre ele. Consequentemente, o pesquisador não conhece qual hipótese é verdadeira, precisando

buscar na amostra evidências que permitam uma tomada de decisão a favor de (isto é, ele escolhe

como sendo verdadeira e, neste caso é falsa) ou, então, a favor de (isto é, ele escolhe como

verdadeira e, portanto é falsa). Contudo, existem duas possibilidades de tomar uma decisão errada, como

mostra o Quadro 6.3.

0H 0H

1H 1H 1H

0H


89

Quadro 6.3 – Tipos de erros de decisão envolvidos em um teste de hipóteses.

SITUAÇÃO REAL (DESCONHECIDA) DECISÃO

ESTATÍSTICA 0H É VERDADEIRA 1H É VERDADEIRA

Rejeitar 0H Decisão Incorreta

(ERRO TIPO I)

Decisão Correta

Aceitar 0H Decisão Correta Decisão Incorreta

(ERRO TIPO II)

Os dois tipos de erro de decisão são indesejáveis, mas usualmente considera-se o Erro Tipo I

como mais grave. Para controlar este erro, trabalha-se com uma probabilidade pré-especificada e pequena,

geralmente valores menores do que 0,05 (ou 5%). A probabilidade do Erro Tipo I é chamada de nível de

significância do teste e é representada por α . Assim, a probabilidade do Erro Tipo I representa a probabilidade

de rejeitar a hipótese nula quando ela é verdadeira, de tal forma que, usualmente, trabalha-se com ( 0H )

[ ] 050a verdadeiré quando Rejeitar 00 ,HHP <=α .

No exemplo, o Erro Tipo I significa que o pesquisador rejeita a hipótese

, quando, de fato, ela é verdadeira. Em outras palavras, com base na informação

gerada na amostra, o pesquisador estaria afirmando que, na população especificada, o nível médio de colesterol

sérico em homens com DCC é maior do que em homens saudáveis, quando não é maior ( é verdadeira). É

desejável, portanto, controlar esse erro de decisão mediante a atribuição de uma probabilidade pequena para o

Erro Tipo I, isto é, um valor pequeno. Na maioria das situações práticas utiliza-se ou


α

0H

05,0=α 010,=α .

Como geralmente o erro mais grave de decisão está associado ao Erro Tipo I, na prática o

pesquisador não precisa se preocupar com o outro tipo de erro de decisão, chamado de Erro Tipo II, pois os

testes de hipóteses comumentemente utilizados são tais que para o nível de significância α fixado, a

probabilidade de Erro Tipo II é mínima. Estes testes são chamados de testes de hipóteses mais poderosos ou

uniformemente mais poderosos, sendo preferíveis em relação aos demais testes com mesmo nível de

significância . α

O Erro Tipo II representa o erro associado à decisão de aceitar hipótese nula ( quando

ela é falsa, ou seja,

)0H

[ ]falsa é quando Aceitar P 00 HH=β .


90

No exemplo em discussão, o erro de decisão do Tipo II significaria que o pesquisador estaria

admitindo que em homens com DCC o nível médio de colesterol sérico não é maior do que na população de

homens saudáveis, quando na realidade é maior.

Neste ponto é conveniente introduzir o conceito de poder do teste de hipóteses, que pode ser

definido como 1 menos a probabilidade do Erro Tipo II, ou seja,

[ ] [ ] .HH 1falsa é quando Aceitar P1II Tipo ErroP1 testedoPoder 00 β−=−=−=

Assim, outro aspecto a ser considerado é o fato de que o pesquisador pode planejar um

estudo observacional ou experimental de tal forma que o teste de hipóteses a ser realizado atinja o poder pré-

especificado e, consequentemente, ele estaria “controlando” também a probabilidade de um eventual Erro Tipo

II.

Nas próximas seções serão descritos alguns testes de hipóteses para médias, para o caso em

que a característica em estudo possui distribuição de probabilidade normal ou quando o tamanho da amostra é

suficientemente grande. 6.2.1 Teste de Hipóteses para Uma Média Populacional µ , quando

σ é Conhecido (Teste Z)

No exemplo apresentado e discutido na seção anterior, a variável em estudo é o nível de

colesterol sérico em homens com DCC. Parece razoável assumir que esta variável segue uma distribuição de

probabilidade aproximadamente normal com desvio padrão conhecido dl/mg 40=σ (conhecido), veja a

Figura 6.3.

O pesquisador deseja avaliar se em homens com DCC o nível médio de colesterol sérico é

superior à média da população de homens saudáveis, como ele suspeita. Ou seja, com base na amostra

(especificamente falando, com base em X ) o pesquisador deseja avaliar se é

verdadeira ou, ao contrário, se


dl/mg: H 2201 DCC =µ>µ é verdadeira, considerando a probabilidade de

Erro Tipo I igual a . α


91

As informações geradas pela amostra é que irão evidenciar se em homens com DCC o nível

médio de colesterol sérico é realmente maior do que para homens saudáveis, mediante a utilização de um teste

de hipóteses. Mas, a média amostral X carrega toda informação que a amostra contém sobre a

média populacional desconhecida µ ( embora seja um conceito explorado em um curso formal de

Inferência Estatística, diz-se que ∑ é uma estatística suficiente para o parâmetro populacional

nX,,X,X L21

DCC

iX=

n

i 1

µ ).

Assim, no exemplo em discussão, para o pesquisador decidir entre uma das hipóteses

ou dl/mg: H DCC 2200 =µ≤µ dl/mg: H DCC 2201 =µ>µ , parece razoável e intuitivo adotar a seguinte

estratégia: se o valor da média amostral X for significativamente maior do que µ , então ele

decidirá a favor de

dl/mg 220=

dl/mg 220=µ: H DCC1 >µ e, neste caso, poderia concluir que homens com DCC

apresentam nível sérico de colesterol em média maior do que em homens saudáveis, para o nível de

significância . Por outro lado, se o valor de α X for menor ou igual a dl/mg 220=µ , então decidirá a favor

de , sugerindo que o nível médio de colesterol sérico em homens com DCC não

é maior do que em homens saudáveis.


O problema, então, é saber o que quer dizer a expressão significativamente maior do ponto

de vista estatístico. No exemplo, a amostra produziu média amostral dl/mgx 253= – é este valor

significativamente maior do que µ ? A resposta para esta questão pode ser obtida através da

distribuição da média amostral discutida no Capítulo 5 e mediante a escolha do valor α fixado para a

probabilidade de Erro Tipo I. Assim, se o valor da média amostral

dl/mg 220=

X for maior do que o valor crítico C , então

deve-se rejeitar a hipótese especificada sob , em favor de . O valor crítico 0H 1H Cx = é determinado a partir

do valor que foi fixado para a probabilidade do Erro Tipo I, ou seja, o valor de C é determinado a partir da

probabilidade de rejeitar quando é verdadeira, que pode ser escrita como

α

0H 0H

[ ] α=> a verdadeiré 0H|CXP .

Conseqüentemente, o valor crítico C divide da distribuição de probabilidade de X em duas

regiões mutuamente exclusivas: a região de aceitação de , à qual está associada uma probabilidade igual a

, e a região de rejeição de ou simplesmente região crítica, cuja área é igual ao valor fixado para

0H

α−1 0H α .

Portanto, para o nível de significância fixado, se o valor α x pertence à região crítica, então deve-se rejeitar a

hipótese nula ( ); caso contrário não se rejeita . 0H 0H


92

Figura 6.4 – Região crítica associada ao Exemplo 6.2, para o nível de significância 050,=α .

A Figura 6.4 ilustra a região crítica associada ao Exemplo 6.2, para o nível de significância

. Como foi mencionado anteriormente, parece razoável admitir que o nível de colesterol sérico em

homens com DCC possui distribuição de probabilidade aproximadamente normal média (desconhecida)

e desvio padrão igual a σ (conhecido, no contexto do problema). Conseqüentemente,

050,=α

DCCµ

dl/mg 40= X também

tem distribuição de probabilidade normal, com média DCCX µ=µ e desvio padrão

dl/mg nX 82540 ===σ σ . Observe que este resultado segue naturalmente da distribuição da média

amostral; não é necessário usar o Teorema Central do Limite, pois, neste caso, a variável X tem distribuição

normal. Assim, o valor crítico C é tal que,

[ ]

. 0508220

050 220 a verdadeiré 0

,CZP

,dl/mgCX

PHCXP DCCn

DCC

n

DCC

=

−

>=

=

=µ

µ−>

µ−=>

σσ

Assim,

dl/mg,C,C,C 12233 2208641 6418220 =⇒+×=⇒+=− .

Portanto, se média amostral apresentar um valor da x maior do que C ,

então deve-se rejeitar , em favor de

dl/mg, 12233=

dl/mg 220=dl/mg: H DCC 2200 =µ≤µ : H DCC1 µ>µ . No

exemplo, o valor da média amostral é dl/mgx 253= e, como é maior do que o valor crítico, deve-se rejeitar

a hipótese nula. Este resultado sugere que homens portadores de doença cardíaca coronariana (DCC)

apresentam o nível médio de colesterol sérico superior aos homens saudáveis, para o nível de significância

. 050,=α


93

É importante observar que o pesquisador não pode garantir que o nível médio de colesterol

sérico é maior em homens com DCC, haja vista que existe uma probabilidade (5%) de ocorrer um erro de

decisão do tipo I (Erro Tipo I) e, portanto, deve-se sempre mencionar o nível de significância utilizado para

testar as hipóteses. Alternativamente, pode-se determinar a probabilidade exata de significância, também

denominada nível descritivo amostral ou valor-p (p-value, em inglês) associada ao teste. No exemplo, o nível

descritivo amostral do teste é igual a área sob a distribuição de probabilidade de X – no caso,

)40220( 2; N~X – que está a direita do valor dl/mgx 253= , conforme ilustração da Figura 6.5. Ou seja,

o nível descritivo amostral é a probabilidade

[ ]

[ ] .,,ZPZPZ

dl/mgX

PHdl/mgxXP DCCn

DCC

n

DCC

000001348

2202538

220253

220 253

a verdadeiré | 253 0

≅>=

−

>=

−

>=

=µ

µ−>

µ−==>

σσ

Figura 6.5 – Ilustração do valor crítico C e do nível descritivo amostral para o Exemplo 6.2.

No Exemplo 6.2, a probabilidade exata de significância é o valor . Assim, pode-

se dizer que a verdadeira média populacional em homens com DCC é significativamente maior do que

, para uma probabilidade

00000,p ≅

dl/mg 220=µ 000010,p < .

Uma regra útil para interpretar probabilidade informada pelo valor-p é a seguinte: se o valor

de p é menor do que o nível de significância α , então rejeita-se , pois este valor será menor do que 0H α se e

somente se o valor da estatística de teste estiver na região de rejeição de . Contudo, se 0H p é maior do que α ,

então o valor da estatística de teste pertence à região de aceitação de e, neste caso, não deve ser

rejeitada.

0H 0H


94

É conveniente, ainda, apresentar uma maneira alternativa de executar um teste de hipóteses,

que consiste em seguir as etapas relacionadas abaixo, aplicadas ao problema do Exemplo 6.2:

1ª) Identificar a variável em estudo:

≡X nível de colesterol sérico em homens com DCC

),( 2DCC σµN~X , onde dl/md 40=σ

2ª) Especificar as hipóteses estatísticas:


dl/mg: H DCC 2200 =µ>µ

3ª) Escolher (fixar) o nível de significância: 050,=α

4ª) Determinar o valor de z tabelado: 641,ztab +=

5ª) Calcular o valor da estatística de teste:

134

2540

220253 ,

n

xzcalc =−

=σ

µ−=

6ª) Decisão estatística:

Se ⇒ Rejeita-se para o nível tabcalc zz > 0H α fixado

Se ⇒ Não se rejeita para o nível tabcalc zz ≤ 0H α fixado.

No exemplo, como 641 > 134 ,z,z tabcalc == , então deve-se rejeitar a hipótese nula

ao nível de significância de 5%. dl/mg: H DCC 2200 =µ≤µ

7ª) Conclusão:

Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população

especificada) é superior aos homens saudáveis, para o nível de significância de 5%.


95

É extremamente importante observar que no Exemplo 6.2 as hipóteses que foram testadas

são do tipo contra 00 µ≤µ:H 01 µ>µ:H , onde 0µ é um valor de referência especificado (no caso

). Existem situações, contudo, nas quais o pesquisador deseja testar hipóteses do tipo 2200 =µ 00 µ≥µ:H

contra ou, então, contra 0µ<µ1H : 00 µ=µ:H 01 µ≠µ:H , para as quais as regiões de rejeição de

serão diferentes. Os dois primeiros testes são denominados de testes unilaterais, enquanto que o último é

chamado de teste bilateral. O Quadro 6.4 apresenta um resumo das regiões de rejeição de , para os

diferentes tipos de hipóteses a serem testadas.

0H

0H

Quadro 6.4 – Hipóteses e respectivas regiões de rejeição para o teste Z, com nível de significância .α

HIPÓTESES REJEITA-SE SE 0H

00 µ≥µ:H contra 01 µ<µ:H α−

σ

µ−= z

nx

zcalc < 0

00 µ≤µ:H contra 01 µ>µ:H α

σ

µ−= z

nx

zcalc > 0

00 µ=µ:H contra 01 µ≠µ:H

2

0

2

0

>

ou

<

α

α

σ

µ−=

−σ

µ−=

zn

xz

zn

xz

calc

calc

6.2.2 Teste de Hipóteses para Uma Média Populacional µ , quando é Desconhecido (Teste t) σ

O teste de hipóteses apresentado na Seção 6.2.1 corresponde ao caso especial em que o

desvio padrão populacional σ é conhecido. Contudo, na grande maioria das situações práticas o desvio padrão

é desconhecido, de tal forma que a estatística de teste definida para o teste Z não poderia ser calculada.

Assim, o desvio padrão deve ser estimado pelo desvio padrão amostral S e a estatística de teste passa a ser

σ

σ

nSX 0µ−=T , que deve ser comparada com o valor tabelado da distribuição de referência t de Student com


96

1−n graus de liberdade, para o nível fixado. Contudo, quando o tamanho da amostra é grande α ( )30≥n , a

substituição de por S não afeta substancialmente a distribuição da estatística σ

n

XZcalc σµ−

=

dl

, podendo ser

utilizada, portanto, a distribuição normal padrão como distribuição de referência. Em outras palavras, quando o

tamanho da amostra é grande ( , o teste Z e o teste t são praticamente equivalentes. )30≥n

σ

(N σ

dl

dl

/mg 220

/mg 220

DCCµ

DCCµ

07440253 ,

n

tcalc =µ−

255

220,

=−

sx

=

calc

calc

Como ilustração, considere o Exemplo 6.2, relativo ao nível de colesterol sérico em homens

portadores de doença cardíaca coronariana, porém com desvio padrão populacional desconhecido. Assim, o

desvio padrão deve ser estimado pelo desvio padrão amostral /mg,s 540= . Para executar o teste de

hipóteses, podem ser seguidas as etapas ilustradas anteriormente:


≡X nível de colesterol sérico em homens com DCC

), 2DCC σµ~X , onde desconhecido


: H 0 =µ≤

: H 0 =µ>


4ª) Determinar o valor de t tabelado: t 7111,tab +=



Se ⇒ Rejeita-se para o nível tabzz > 0H α fixado

Se ⇒ Não se rejeita para o nível tabzz ≤ 0H α fixado.


97

No exemplo, como 7111 > 074 ,t,t tabcalc +== , então deve-se rejeitar a hipótese nula

ao nível de significância de 5%. dl/mg: H DCC 2200 =µ≤µ

7ª) Conclusão:

Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população

especificada) é maior do que em homens saudáveis, para o nível de significância de 5%.

Como esperado, os resultados são praticamente idênticos, pois o tamanho da amostra é

relativamente grande e, assim, o teste Z e o teste t têm praticamente o mesmo comportamento. Quando o

tamanho da amostra é pequeno, contudo, não é recomendável utilizar a distribuição normal padrão como

distribuição de referência para o teste t, pois os resultados podem ser catastróficos. Ao contrário, deve-se

utilizar a distribuição t de Student como distribuição de referência da estatística de teste. A Figura 6.6 ilustra o

comportamento da distribuição de probabilidade t de Student em relação à distribuição normal padrão,

considerando diferentes graus de liberdade.

Figura 6.6 – Comportamento da distribuição t de Student em relação à distribuição normal padrão.


98 Exemplo 6.3: O órgão governamental responsável pela fiscalização e controle da qualidade dos medicamentos

comercializados em um país deseja avaliar a qualidade do analgésico “A”, fabricado por um grande laboratório,

particularmente com respeito à quantidade de ácido acetilsalicílico (AAS) por comprimido. Como rotina de

fiscalização, seleciona amostras (aleatórias) de comprimidos de cada lote e observa a quantidade de AAS em

cada comprimido. Naturalmente que, como em qualquer processo produtivo, a quantidade de AAS apresenta

variabilidade de um comprimido para outro (bem como de um lote para outro). Se a quantidade de AAS for

muito alta ou muito baixa, o(s) lote(s) não poderá(ão) ser comercializado(s). Assim, com base nas

especificações exigidas para o produto e nas características do próprio fenômeno, sabe que é razoável admitir

que a quantidade de AAS nos comprimidos é uma variável aleatória com distribuição normal com média

. Para o lote nº 777, foi observada uma amostra aleatória de 23 comprimidos, produzindo g, 50=µ g,x 470=

e desvio padrão . Ao nível de significância g,s 020= 050,=α , qual deveria ser a decisão do órgão

governamental? Em outras palavras, o lote nº 777 deveria ser comercializado?

Para resolver este problema é conveniente seguir as etapas apresentadas nos exemplos

anteriores:


≡X quantidade de ácido acetilsalicílico por comprimido

),( 2σµN~X , com é σ desconhecido


g,H 50 :0 =µ g,H 50 :1 ≠µ


4ª) Determinar os valores de t tabelados: 0742 0742 ,te,t tabtab +=−=−


197

23020

504700 ,,,,

ns

xtcalc −=−

=µ−

=


99


Se ⇒ Rejeita-se para o nível ou tabcalctabcalc tttt −<> 0H α fixado

Se ⇒ Não se rejeita-se para o nível tabcalctab ttt ≤≤− 0H α fixado.

No exemplo, como t 0742 t197 ,, tabcalc −=−<−= , então deve-se rejeitar g,H 50 :0 =µ

ao nível de significância de 5%, em favor de g,H 50 :1 ≠µ .

7ª) Conclusão:

A rejeição da hipótese nula , para o nível de significância de 5%, sugere que a quantidade

de AAS dos comprimidos do lote nº 777 não está dentro das especificações exigidas (em média, possuem

quantidade de AAS menor do que o exigido). Consequentemente, o órgão governamental não deveria permitir a

comercialização do lote nº 777.

g,H 50 :0 =µ

Como no teste Z apresentado na Seção 6.2.1, é útil apresentar as regiões de rejeição

associadas ao teste t para outras hipóteses estatísticas. O Quadro 6.5 apresenta um resumo das regiões de

rejeição de associadas aos diferentes tipos de hipóteses para o teste t para comparação de uma média

populacional com um valor de referência, quando o desvio padrão populacional é desconhecido.

0H

Quadro 6.5 – Hipóteses e respectivas regiões de rejeição para o teste t, para comparação de uma média populacional com um valor de referência, quando σ é desconhecido e nível de significância α .


00 µ≥µ:H contra 01 µ<µ:H α−−

µ−= ,ncalc t

nsx

t 10 <

00 µ≤µ:H contra 01 µ>µ:H α−

µ−= ,ncalc t

nsxt 1

0 >

00 µ=µ:H contra 01 µ≠µ:H

21

0

21

0

>

ou

<

α

α−

µ−=

−µ−

=

,n-calc

,ncalc

tns

xt

tns

xt


100 6.2.3 Teste de Hipóteses sobre Duas Médias Populacionais,

com Amostras Independentes

Em uma grande variedade de situações práticas o pesquisador deseja avaliar a “equivalência”

ou a “eficiência” de dois tratamentos (drogas, dietas, procedimentos cirúrgicos, procedimentos laboratoriais,

etc.), definidos de acordo com os objetivos específicos da pesquisa. Para tanto, é comum a utilização de uma

amostra aleatória de indivíduos (unidades amostrais, que podem ser pessoas, animais, plantas, etc.), sobre os

quais é alocado, também ao acaso, um dos dois tratamentos (digamos Tratamento 1 ou Tratamento 2). Assim, os

indivíduos são divididos em dois grupos: o

n

n Grupo 1, composto pelos indivíduos que recebem o

Tratamento 1 ; e, o

1n

Grupo 2, composto pelos indivíduos que recebem o Tratamento 2. Esses dois grupos de

indivíduos (Grupo 1 e Grupo 2) constituem duas amostras independentes e os resultados gerados serão

utilizados para fazer inferências sobre as populações.

2n

Como ocorre na grande maioria das características biológicas, a reação a um determinado

tratamento pode ser diferente de indivíduo para indivíduo. Em outras palavras, as n unidades amostrais do

Grupo 1 podem reagir ao Tratamento 1 de maneira diferente. O mesmo fato pode ser observado para as

unidades amostrais do Grupo 2. Consequentemente, a “equivalência” ou “eficiência” dos tratamentos 1 e 2 deve

ser avaliada em função do comportamento “global” dos indivíduos de cada grupo, usualmente mediante a

comparação das médias dos grupos.

1

Embora possam ser utilizadas outras estatísticas para comparar os dois tratamentos (por

exemplo, a mediana de cada grupo), neste curso será abordado apenas o teste de hipóteses para médias. O

exemplo descrito a seguir é útil para ilustrar um problema que envolve a comparação de médias de duas

populações, com base em amostras independentes.

Exemplo 6.4: Um experimento foi realizado para avaliar se as drogas “B” e “G” são equivalentes quanto ao

tempo de coagulação sangüínea em humanos. O experimento consistiu em selecionar aleatoriamente treze

indivíduos da população, dos quais, também ao acaso, seis foram alocados ao Grupo B (isto é, tratados com a

droga B). Os outros sete indivíduos foram alocados ao Grupo G (isto é, tratados com a droga G). Uma amostra

de sangue é retirada de cada pessoa, sendo observado o respectivo tempo até a coagulação (em minutos). Este

exemplo é discutido por Zar (1996, p.123) e os dados são apresentados no Quadro 6.6.


101

Quadro 6.6 – Tempo até a coagulação sangüínea para os indivíduos tratados com a droga B e Droga G.

Droga B Droga G8,8 9,9 8,4 9,0 7,9 11,1 8,7 9,6 9,1 8,7 9,6 10,4

9,5

Este é um típico problema que envolve duas amostras independentes, as quais devem ser

usadas para fazer inferências sobre as populações. No caso, trata-se de duas populações hipotéticas: a população

de “todos” os indivíduos que seriam tratados pela droga B ou pela droga G. Assim, existem duas variáveis

aleatórias envolvidas:

:1X tempo até a coagulação sangüínea para um indivíduo tratado coma droga B

:2X tempo até a coagulação sangüínea para um indivíduo tratado coma droga G.

Embora o enunciado do problema não especifique as distribuições de probabilidades das

variáveis aleatórias e definidas acima, no contexto deste curso é fundamental admitir que seguem

distribuição normal, com mesmo desvio padrão. Assim, e , de tal forma

que se existir alguma diferença entre as duas populações, elas diferem entre si apenas quanto ao tempo médio

até a coagulação sangüínea.

1X 2X

),(N~X 211 σµ ),(N~X 2

22 σµ

Neste ponto é importante salientar que freqüentemente não se dispõe da informação que o

desvio padrão é igual nas duas populações em estudo, não sendo razoável simplesmente admitir que são iguais.

Ao contrário, primeiro deve-se testar a hipótese nula que especifica que as variâncias das duas populações são

iguais. Veja, por exemplo, Costa Neto (1977, p.115) e Zar (1996, p.137).

Se a hipótese nula for aceita, então o teste para médias descrito nesta seção pode ser

executado. Contudo, se as variâncias das duas populações são diferentes, então o teste de hipóteses descrito

nesta seção não é apropriado e uma alternativa é apresentada por Costa Neto (1977, p.114). Por fim, convém

observar que o teste de hipóteses para igualdade de variâncias, bem como para comparação de médias quando as

variâncias são diferentes, não serão apresentados no momento, pois não estão incluídos no Plano de Ensino da

disciplina.

Retornando ao Exemplo 6.4, sua solução consiste essencialmente em testar as hipóteses

, podendo-se seguir as etapas descritas nas seções anteriores, ou seja: contra 211210 µ≠µµ=µ :H:H


102

1ª) Identificar as variáveis do problema:

:1X tempo até a coagulação sangüínea para um indivíduo tratado coma droga B ⇒ ),(N~X 211 σµ

:2X tempo até a coagulação sangüínea para um indivíduo tratado coma droga G ⇒ ),(N~X 222 σµ


0H : o tempo médio até a coagulação sangüínea na população de indivíduos tratados com a Droga B é igual ao da população de indivíduos tratados com a Droga G

1H : o tempo médio até a coagulação sangüínea na população de indivíduos tratados com a Droga B é

diferente da população de indivíduos tratados com a Droga G,

ou seja, contra 211210 µ≠µµ=µ :H:H .

3ª) Escolher o nível de significância: 050,=α

4ª) Estatística de teste e valores de t tabelados:

)nn(calc t~

nns

xxt 221

21

20

21 11

−+

+

−=

Na amostras, foram observados: Grupo 1 (Droga B): 22111 33900 758 6 min,smin;,x;n ===

Grupo 2 (Droga G): 22222 66950 749 7 min,smin;,x;n ===

Como as variâncias das duas populações são iguais, então é uma estimativa conjunta da

variância populacional (desconhecida), considerando as observações das duas amostras. Em outras palavras,

pode ser vista como uma média ponderada das variâncias amostrais, onde os pesos associados são

proporcionais aos tamanhos de cada amostra. No exemplo, a estimativa conjunta de σ é

20s

2σ20s

2

2

21

222

2112

0 519301171215

276669506339005

211 min,,,,

nns)n(s)n(s ==

−+×+×

=−+

−+−= .

Portanto, o valor calculado da estatística de teste é dado por


103

( )46932

40090990

51930749758

11 71

61

21

20

21 ,,

,,

,,

nns

xxtcalc −=−

=+×

−=

+

−= .

Como o teste de hipóteses é bilateral e a estatística de teste deve ser comparada com a

distribuição de probabilidade t com 11276221 =−+=−+ n

2012025011 ,,);

n graus de liberdade, então os valores

tabelados são t - e 2012025011 t, (,);( −== , os quais delimitam a região de rejeição de

ilustrada na Figura 6.7. 210 µ=µ:H

Figura 6.7 – Região de rejeição do teste de hipóteses

no Exemplo 6.4, para 050,=α .


.:Hta-seário rejeicaso contr

para :Ha se rejeit então não,,tt,tSe ,);(calc,);(

210

210025011025011

0,05;

20122012

µ=µ=α

µ=µ+=<<−=−

Portanto, como o valor calculado da estatística de teste 201246932 025011 ,t,t ,);(calc −=−<−= , então

deve-se rejeitar 210 µ=µ:H para o nível de significância de 5%, em favor de . 211 µ≠µ:H

6ª) Conclusão:

A rejeição da hipótese nula 210 µ=µ:H , para o nível de significância de 5%, evidencia que as drogas

B e G não são “equivalentes” quanto ao tempo médio até a coagulação sangüínea, sugerindo o tempo médio de

coagulação sangüínea é menor quando os indivíduos são tratados com a droga B.


104

De maneira similar aos testes anteriores, é conveniente apresentar as regiões de rejeição do

teste t para amostras independentes, considerando os demais tipos de hipóteses estatísticas, conforme disposto

no Quadro 6.7.

Quadro 6.7 – Hipóteses e respectivas regiões de rejeição para o teste t para duas amostras independentes, com nível de significância α .


contra 211210 µ≠µµ=µ :H:H

2221

21

20

21

2221

21

20

21

11

11

α−+

α−+

−<

+

−=

>

+

−=

);nn(calc

);nn(calc

t

nns

xxt

ou

t

nns

xxt

contra 211210 µ<µµ≥µ :H:H

α−+−<

+

−= );nn(calc t

nns

xxt 221

21

20

21

11

contra 211210 µ>µµ≤µ :H:H

α−+>

+

−= );nn(calc t

nns

xxt 221

21

20

21

11

6.2.4 Teste de Hipóteses sobre Duas Médias Populacionais,

com Amostras Pareadas O teste de hipótese discutido na Seção 6.2.3 pode ser útil para comparar duas médias

populacionais no caso em que as amostras são independentes. Em outras palavras, quando os experimentos são

delineados de tal forma que as unidades amostrais são aleatoriamente alocadas aos tratamentos de uma maneira

que garanta que as duas amostras sejam independentes. A independência entre as duas amostras, neste caso,

significa que cada unidade amostral de uma amostra não está associada (ou correlacionada) com qualquer outra

observação da outra amostra.

Para facilitar a compreensão do conceito de independência entre duas amostras, é

conveniente considerar o Exemplo 6.4 discutido na Seção 6.2.3, relativo à comparação do tempo até a

coagulação sangüínea em indivíduos submetidos à droga B ou à droga G. O referido experimento foi organizado


105 da seguinte maneira: inicialmente 13 (treze) indivíduos (pacientes) foram aleatoriamente selecionados da

população sob estudo. Em seguida, 6 (seis) destes indivíduos foram aleatoriamente alocados ao tratamento com

a droga B, enquanto que os 7 (sete) restantes foram submetidos ao tratamento com a droga G. Nesta situação

existem dois tratamentos, essencialmente definidos pela droga que foi administrada para cada indivíduo, de tal

forma que ficam claramente definidos dois grupos de indivíduos, denominados de Grupo B e de Grupo G.

Como as 13 (treze) unidades amostrais foram extraídas ao acaso da população e cada unidade amostral foi

alocada, também ao acaso, a apenas um dos tratamentos (isto é, cada indivíduo é tratado com apenas uma das

drogas), então os dois grupos de indivíduos constituem duas amostras independentes.

Em muitas situações, contudo, cada unidade amostral de um dos grupos está de alguma

maneira associada (ou correlacionada) com uma unidade amostral do outro grupo. Freqüentemente esta estrutura

de correlação ocorre de maneira proposital, permitindo que o pesquisador controle fatores externos que podem

afetar as comparações de interesse. Estes conceitos podem ser melhor compreendidos mediante a utilização do

exemplo discutido por Larson (1982, p.453-455), apresentado abaixo.

Admita que um pesquisador está investigando o efeito do consumo de álcool (para uma

quantidade ou nível especificado) sobre o tempo de reação necessário para pisar no pedal do freio de um

automóvel. O objetivo básico é avaliar se o tempo médio de reação ( )2µ na população de indivíduos que

consomem o nível especificado de álcool é maior do que na população de pessoas que não consomem álcool

. O estudo poderia ser organizado e executado como descrito abaixo: )( 1µ

Estudo 1: Seleciona-se ao acaso um grupo de indivíduos (que não consumiram álcool), submetendo-os ao

teste para determinar o respectivo tempo de reação necessário para pisar no pedal de freio do automóvel. Em

seguida, um segundo grupo com indivíduos é aleatoriamente selecionado e cada indivíduo consome a

quantidade especificada de álcool, realizando o teste para registrar o correspondente tempo de reação necessário

para pisar no pedal de freio do automóvel. Desta forma, seriam delineadas duas amostras ou grupos

independentes de indivíduos: na primeira amostra (Grupo 1) são registrados os tempos de reação das pessoas

que não consumiram álcool e, na segunda (Grupo 2), são registrados os tempos de reação das m pessoas que

consumiram álcool. Assumindo normalidade e igualdade de variâncias, as médias das duas populações

poderiam ser comparadas mediante a utilização do teste t para amostras independentes descrito na Seção 6.2.3,

onde as hipóteses poderiam ser especificadas como

n

m

n

210 µ≥µ:H e 211 µ<µ:H .


106

Entretanto, um possível problema deste procedimento é que, devido ao acaso, o Grupo 1

poderia ser constituído por pessoas que naturalmente possuem um alto tempo de reação, ou seja, que

naturalmente possuem uma “reação lenta”. Também devido ao acaso, o Grupo 2 poderia ser constituído por

indivíduos que naturalmente apresentam baixo tempo de reação, ou seja, que “rapidamente reagem” e pisam no

freio. Assim, uma eventual aceitação (não rejeição) de 210 µ≥µ:H poderia ser conseqüência da constituição

das amostras, e não pelo fato de que o consumo de álcool não aumenta o tempo de reação.

Outra limitação do procedimento experimental descrito no Estudo 1 é a suposição de

igualdade de variâncias das duas populações, haja vista que após o consumo da quantidade de álcool

especificada o comportamento pode ser diferente de indivíduo para indivíduo. Veja Larson (1982, p.453).

Fica evidente, portanto, a necessidade de “controlar” a influência do tempo de reação

intrínseco a cada pessoa, de tal forma que o mesmo não interfira na comparação das médias. Para tanto, poderia

ser utilizado o seguinte procedimento experimental:

Estudo 2: Seleciona-se ao acaso um grupo de indivíduos (que não consumiram álcool), submetendo-os ao

teste para determinar o respectivo tempo de reação necessário para pisar no pedal de freio do automóvel. Ao

invés de selecionar uma segunda amostra, estes indivíduos consomem a quantidade de álcool especificada e

novamente realizam o teste, registrando-se os correspondentes tempos de reação. Este procedimento produz

pares de observações ( , que correspondem as duas medidas do tempo de reação

em cada indivíduo da amostra. Assim, para

n

Y,n

,1

n

)X(,),Y,X(),Y,X nL2211

,i L2 n,=∀

. APÓS

ANTES

álcooldeconsumoo,uo ido indivídreaçãodetempoY

álcooldeconsumodo,uo ido indivídreaçãodetempoX

i

i

=

=

Dessa forma, parece ser razoável admitir que os pares ( são variáveis aleatórias

correlacionadas, pois são medidas do tempo de reação do mesmo indivíduo. Em outras palavras, se o indivíduo i

naturalmente tem um rápido tempo de reação, então se espera que tanto antes quanto após o consumo de álcool

o tempo de reação seja rápido.

)Y,X ii

Admita que é razoável assumir que os pares ( formam uma

amostra aleatória, extraída de uma população com distribuição de probabilidade normal bivariada com

parâmetros . Assim, a variável aleatória

)Y,X(,),Y,X(),Y,X nnL2211

ρσσµµ 22

2121 ,,,, X tem média igual a e variância σ , enquanto

que a variável aleatória

1µ21

Y tem média igual a 2µ e variância e a correlação entre as variáveis 22σ X e Y é


107 igual a . Sob estas condições, um resultado conhecido do cálculo de probabilidades garante que a variável

aleatória

ρ

n,,,i;YXD iii L21 =∀−= , tem distribuição de probabilidade normal com média 21 µ−µ=µ ,

com variância igual a . É importante notar que

D

212 σρσ22

21

2 −σ+σ=σD 0=µD é equivalente a dizer que

e, consequentemente, a hipótese 21 µ=µ 210 µ≥µ:H pode ser escrita como . Por sua vez, a

hipótese alternativa é equivalente a escrever

0≥µD:0H

211 µ<µ:H 01 <µD:H

YXD ii

.

n,L,,i 21 =∀−=

n,,, L21i;YX ii Di ∀−=

nD,,D,D L21

21 µ−µ= 2DσµD

ns

dd

calc =

n,,,i;xyd iii L21 =∀−=

1−n

( )1

2

−

−

n

ddi

e 1=∑=s

n

id 1=

∑=

n

dd

n

ii

1−n α

Assim, mediante a utilização da variável ;i é possível “isolar” a

influência do tempo de reação intrínseco a cada indivíduo sobre a comparação das médias populacionais. Em

outras palavras, a definição da nova variável aleatória = , implica em uma amostra

aleatória , extraída de uma população que possui distribuição de probabilidade normal com

média e variância . Portanto, a comparação das médias das duas populações pode ser

realizada através da utilização do teste t para uma única média, discutido na Seção 6.2.2. Contudo, neste

contexto a estatística de teste é t , cuja distribuição de referência é a distribuição t de Student

com graus de liberdade.

Na prática, portanto, a partir dos dados observados nas amostras deve-se determinar as

diferenças , determinando-se também a sua média e o seu desvio padrão amostral,

definidos respectivamente por

.

Em seguida, deve-se determinar o valor calculado da estatística de teste, comparando-o com o correspondente

valor tabelado da distribuição t de Student com graus de liberdade, para o nível de significância

fixado.

Antes de apresentar alguns exemplos convém fazer algumas observações importantes. Uma

das principais vantagens de utilizar estudos observacionais ou experimentais com amostras pareadas é que

usualmente permitem aumentar o poder das comparações. Isso ocorre devido ao fato de que o pareamento

permite controlar a influência de um ou mais fatores externos que podem influenciar nas comparações. Existem

três formas básicas de pareamento: autopareamento, pareamento natural e pareamento artificial, descritos

abaixo.

O autopareamento refere-se ao caso em que cada indivíduo é controle de si mesmo, como no

exemplo do tempo de reação para pisar no pedal de freio do automóvel. Outra situação típica de autopareamento


108 ocorre quando o mesmo indivíduo recebe duas drogas, administradas em duas ocasiões de tempo distintas.

Também se pode ter autopareamento quando se deseja comparar dois órgãos no mesmo indivíduo, tais como

olhos, pernas, narinas, etc., onde um dos órgãos foi submetido a um determinado tratamento e o outro órgão

funciona como “controle”.

O pareamento natural é construído mediante a formação de pares homogêneos, tais como a

utilização de gêmeos ou pares de animais oriundos de uma mesma ninhada.

Por sua vez, o pareamento artificial consiste em formar pares de indivíduos com

características semelhantes, tais como idade, sexo, raça, classe social, histórico clínico, etc. É importante

considerar as características que possivelmente influenciam a variável sob investigação. Convém salientar,

ainda, que é importante utilizar um procedimento aleatório para determinar qual elemento do par vai receber

cada tratamento, a fim de evitar a ocorrência de eventuais vícios.

Outra observação importante é que, na prática, não é necessário assumir que

é uma amostra aleatória de uma população com distribuição de probabilidade

normal bivariada; basta que as diferenças formem uma amostra aleatória extraída de uma

população com distribuição normal. Veja Rohatgi (1976, p.454).

)Y,X(,),Y,X(),Y,X( nnL2211

nD,,D,D L21

Por fim, se o tamanho da amostra é suficientemente grande (usualmente ), então a

distribuição de referência t de Student pode ser substituída pela distribuição normal padrão. Para ilustrar este

tipo de teste de hipóteses, considere o exemplo relativo ao tempo de reação necessário para pisar no pedal de

freio descrito anteriormente e complementado abaixo:

30≥n

Exemplo 6.5: Admita que um pesquisador está investigando o efeito do consumo de álcool (para uma

quantidade ou nível especificado) sobre o tempo de reação necessário para pisar no pedal do freio de um

automóvel. O objetivo básico é avaliar se o tempo médio de reação ( )2µ na população de indivíduos que

consomem o nível especificado de álcool é maior do que na população de pessoas que não consomem álcool

. Para tanto, foram selecionados 10 voluntários e submetidos ao teste para medir o tempo de reação

necessário para pisar no pedal de freio do automóvel. Em seguida, cada um dos 10 indivíduos consumiu a

quantidade de álcool especificada e novamente realizou o teste, registrando-se o correspondente tempo de

reação. Os dados gerados são apresentados no Quadro 6.8, onde

)( 1µ

. APÓS

ANTES

álcooldeconsumoo,uo ido indivídreaçãodetempoY

álcooldeconsumodo,uo ido indivídreaçãodetempoX

i

i

=

=


109

Quadro 6.8 – Tempos de reação necessários para pisar no freio do automóvel antes e após o consumo de álcool (em milisegundos).

Indivíduo ix iy id

1 469 697 -228 2 563 814 -251 3 693 850 -157 4 737 933 -196 5 706 821 -115 6 594 788 -193 7 634 818 -184 8 511 761 -250 9 620 762 -172

10 496 763 -267

Para executar o teste é conveniente seguir as etapas descritas nas seções anteriores, ou seja:

1ª) Identificar as variáveis em estudo:

( )( ).~ APÓS

ANTES 222

211

σµ⇒=

σµ⇒=

,Yálcooldeconsumoo,uo ido indivídreaçãodetempoY

,~Xálcooldeconsumodo,uo ido indivídreaçãodetempoX

ii

ii

Não é necessário que os pares ( sejam uma amostra

aleatória de uma população com distribuição de probabilidade normal bivariada. Basta admitir que as diferenças

, ou seja, que formem uma amostra aleatória extraída de uma

população com distribuição normal com média

)Y,X(,),Y,X(),Y,X nnL2211

nD,L

21

n,,,i;YXD iii L21 =∀−= ,D,D 21

µ−µ=µD .


210 µ≥µ:H ou , equivalentemente, 00 ≥µD:H

211 µ<µ:H ou, equivalentemente, 01 <µD:H .


4ª) Determinar o valor de t tabelado: 8331,ttab −=


Na amostra, observou-se 3201,d −= e 7747,sd = , de tal forma que

3313

107747

3201 ,,

,

ns

dtd

calc −=−

== .


110


Se 83310509 ,tt ,);(calc −=−< ⇒ Rejeita-se para o nível 0H α fixado

Se 83310509 ,tt ,);(calc −=−≥ ⇒ Não se rejeita para o nível 0H α fixado.

Como t 8331 t3313 (9);0,05 ,,calc −=<−= , então deve-se rejeitar , para o nível de

significância de 5%.

210 µ≥µ:H

7ª) Conclusão:

Há evidências de que na população com consumo da quantidade de álcool especificada, o

tempo médio de reação para pisar no pedal do freio do automóvel é maior do que na população de indivíduos

que não consomem álcool, para o nível de significância de 5%.


teste t para amostras pareadas, considerando os demais tipos de hipóteses estatísticas, conforme disposto no

Quadro 6.9.

Quadro 6.9 – Hipóteses e respectivas regiões de rejeição para o teste t para duas amostras pareadas, com nível de significância α.


contra 211210 µ≠µµ=µ :H:H

ou

0 contra 0 10 ≠µ=µ DD :H:H 21

21

α−

α−

−<=

>=

);n(d

calc

);n(d

calc

t

ns

dt

ou

t

ns

dt

contra 211210 µ<µµ≥µ :H:H

ou

0 contra 0 10 <µ≥µ DD :H:H

α−−<= );n(d

calc t

ns

dt 1

contra 211210 µ>µµ≤µ :H:H

ou

0 contra 0 10 >µ≤µ DD :H:H

α−+>= );n(d

calc t

ns

dt 1


111 6.2.5 Teste de Hipóteses para Uma Proporção Populacional p (n grande)

Na Seção 6.2.1 foi apresentado um procedimento para comparar a média de uma população

com um valor de referência, quando a variável em estudo segue uma distribuição normal com desvio padrão

populacional conhecido. A execução do teste de hipóteses consiste basicamente em comparar o valor observado

da média amostral X com o valor crítico definido pelo valor da distribuição de referência para o nível de

significância especificado.

De maneira similar, se a característica em estudo é dicotômica, isto é, se assume apenas dois

valores genericamente rotulados como “sucesso” ou “fracasso”, então a proporção amostral nxpp == pode

ser vista como uma espécie de média amostral (ou seja, como o número médio de sucessos na amostra), onde x

é o número de sucessos na amostra aleatória de tamanho . De fato, este resultado já foi comentado na Seção

6.1.2.3, quando foi derivada a expressão para o intervalo de confiança para uma proporção populacional

np .

Assim, procedimento de teste de hipóteses para esta situação é baseado na proporção amostral p e é similar ao

procedimento descrito na Seção 6.2.1. A utilização do Exemplo 6.6 facilita sua compreensão.

Exemplo 6.6 (didático): Um determinado hospital adquiriu um lote com uma grande quantidade de

seringas de um determinado fabricante, o qual garante que no máximo 10% das seringas que ele produz

apresentam algum defeito de fabricação. Entretanto, desconfiando da qualidade dessas seringas, o enfermeiro

responsável pela avaliação da qualidade do material hospitalar deseja avaliar se as seringas produzidas por esta

empresa de fato atendem esta especificação; em caso contrário, o lote de seringas deverá ser substituído. Para

tanto, o enfermeiro selecionou uma amostra de 80 seringas do referido lote, submetendo-as a vários testes para

verificar a presença ou não de defeitos de fabricação. Sabendo que dentre as 80 seringas examinadas 14

apresentaram algum problema, este lote deveria ser devolvido?

Deve-se ter em mente que trata-se de um teste de hipóteses e, consequentemente, a reposta

depende do nível de significância α . A solução pode ser melhor compreendida seguindo as etapas já

apresentadas nos testes de hipóteses anteriores:

1ª) Identificação da variável em estudo:

( )( )

= , sucessotuosa ga é defeisima serin, se a i-é

fracassoefeituosa ga não é dsima serin, se a i-éX i 1

0


112 onde é uma amostra aleatória de uma população tal que 8021 X,,X,X L [ ] pXP i == 1 e

. [ ] 10 ip, ∀−== 8021 ,,,XP i L=

A variável aleatória definida pelo número de sucessos na amostra é , onde ( p,B~XXi

i 8080

1∑=

= ) p é

verdadeira proporção de seringas defeituosas no lote ( p é desconhecida).


%) (,do que igualnor ou lote é meituosas noingas defeção de ser: a proporH 10100 0

%) (,do que ior lote é maituosas noingas defeção de ser: a proporH 10100 1 ,

ou seja, contra 10000 ,p: pH =≤ 10001 ,p: pH => .


4ª) Determinar o valor de z tabelado: 641,ztab +=


O teste é baseado na distribuição de probabilidade da proporção de seringas defeituosas na

amostra, definida por nXp = , onde X é o número de sucessos, isto é, . No entanto,

pelo Teorema Central do Limite, a distribuição binomial pode ser aproximada pela distribuição normal; mais

precisamente, para um tamanho de amostra suficientemente grande, a distribuição de probabilidade da

proporção amostral

( p,B~XXi

i 8080

1∑=

= )

p é aproximadamente normal com média e variância np ( )n

pp −1.

Consequentemente, sob a hipótese nula 10000 ,p: pH =≤ e para n suficientemente

grande, p segue uma distribuição aproximadamente normal com média 81080 =×0 = ,np e com variância

( )00110901001 00 ,

n,,

npp

=×

=−

. Assim, sob a hipótese nula, a estatística de teste é dada por

( )n

pppp

EPpp

zp

calc00

00

1−−

=−

= ,


113 devendo ser comparada com uma distribuição normal padrão. É importante salientar que a distribuição de

referência normal padrão é adequada apenas quando tamanho da amostra é grande. Uma maneira prática para

avaliar se o tamanho da amostra é suficientemente grande, ou seja, se a distribuição normal padrão é adequada,

é verificar se as condições e 50 ≥np ( ) 51 00 ≥− pnp estão satisfeitas. No exemplo em discussão, observe que

as condições acima estão satisfeitas, pois

58100800 >=×= ,np e ( ) 527900100801 00 >=××=− ,,,pnp

e, portanto, a distribuição normal padrão pode ser utilizada como distribuição de referência da estatística de

teste. Na amostra foram observadas 14 seringas defeituosas, de tal forma que a proporção amostral de seringas

defeituosas é

1808014 ,

nxp === .

Assim, a estatística de teste é determinada por

( )392

03350080

80900100

1001801 00

0 ,,,

,,,,

npp

ppzcalc ==

×−

=−

−= .


Se ⇒ Rejeita-se para o nível tabcalc zz < 0H α fixado

Se ⇒ Não se rejeita para o nível tabcalc zz ≥ 0H α fixado.


114

No exemplo, como 641 > 392 ,z,z tabcalc +== , então deve-se rejeitar a hipótese nula

, para o nível de significância de 5%. 10000 ,p: pH =≤

7ª) Conclusão:

Para o nível de significância 5%, há evidências de que a verdadeira proporção de seringas defeituosas

no lote é maior do que 0,10 (10%), contrariando a afirmação do fabricante. Consequentemente, por este critério

o lote deveria ser substituído.

Para finalizar, é conveniente apresentar as regiões de rejeição associadas aos outros tipos de

hipóteses estatísticas, para o teste de hipóteses utilizado para comparar uma proporção populacional com um

valor de referência , conforme disposto no Quadro 6.10. 0p

Quadro 6.10 – Hipóteses e respectivas regiões de rejeição para o teste para comparar uma proporção populacional com o valor de referência , para o nível de significância 0p .α


00 pp:H ≥ contra 01 pp:H <

( ) α−−

−= z

npp

ppzcalc <

1 00

0

00 pp:H ≤ contra 01 pp:H >

( ) α+>−

−= z

npp

ppzcalc

1 00

0

00 pp:H = contra 01 pp:H ≠

( )

( ) 200

0

200

0

> 1

ou

< 1

α

α

−

−=

−−

−=

z

npp

ppz

z

npp

ppz

calc

calc


115 6.2.6 Teste de Hipóteses sobre Duas Proporções Populacionais,

com Amostras Independentes (n grande)

O procedimento para comparação de duas médias populacionais com amostras

independentes apresentado na Seção 6.2.3 é útil na situação em que a característica em estudo apresenta resposta

contínua e com distribuição normal de probabilidade. Entretanto, se a resposta é dicotômica, outro teste de

hipóteses deve ser utilizado; o procedimento apresentado nesta seção pode ser utilizado quando as amostras são

suficientemente grandes.

Este tipo de situação é muito comum quando se deseja comparar a eficácia ou a equivalência

entre dois tratamentos (drogas, dietas, procedimentos cirúrgicos ou laboratoriais, etc.) e a resposta é dicotômica.

De fato, o procedimento é similar ao teste t descrito na Seção 6.2.3, porém é baseado na distribuição normal

padrão. É importante mencionar que trata-se de uma aproximação pela distribuição normal, motivo pelo qual

deve ser utilizado apenas quando as amostras são suficientemente grandes. Para definir e ilustrar o procedimento

de comparação das proporções populacionais, mediante duas amostras independentes, é conveniente utilizar o

exemplo descrito abaixo.

Exemplo 6.7: Um novo tratamento foi proposto para pacientes com determinada doença e um pesquisador

deseja avaliar se ele realmente é melhor do que um tratamento padrão. Para tanto, selecionou uma amostra

aleatória de 130 pacientes com a doença, aleatoriamente dividindo-os em dois grupos: um grupo constituído por

70 indivíduos, os quais foram submetidos ao tratamento padrão, enquanto que os outros 60 indivíduos foram

submetidos ao novo tratamento. Ao final do tratamento, verificou-se o número de indivíduos que estavam

recuperados da doença, constatando que dos 70 indivíduos que receberam o tratamento padrão, 50 estavam

recuperados. No grupo de pacientes submetidos ao novo tratamento, 51 estavam curados da doença. É possível

afirmar que o novo tratamento é mais eficaz do que o tratamento padrão?

Logicamente que esta pergunta deve ser respondida no contexto de um teste de hipóteses,

utilizando como critério de comparação a proporção de indivíduos recuperados da doença, para cada grupo.

Observe que os grupos claramente constituem duas amostras independentes, onde a resposta é dicotômica. Em

outras palavras, em cada um dos pacientes submetidos ao tratamento padrão a resposta ao final do tratamento é

“recuperado da doença” ou “não recuperado da doença”, que pode ser representada pela variável rotulada como


116

( )( )

=, sucessocuperou drão se retamento paido ao trante submetsimo pacie, se o i-é

fracassou e recuperodrão não stamento paido ao trante submetsimo pacie, se o i-éX i 1

0

onde representa a amostra aleatória de indivíduos submetidos ao tratamento padrão, tal que

e

7021 X,,X,X L

[ ] 11 p== XPXP i [ ] 702110 1 ,,, i, pi L=∀−== .

Analogamente, no grupo de pacientes submetidos ao novo tratamento, a resposta ao final do

tratamento pode ser representada por

( )( )

=, sucessoperou to se recuo tratamenido ao novnte submetsimo pacie, se o i-é

fracassorecuperou to não se o tratamenido ao novnte submetsimo pacie, se o i-éYi 1

0

onde representa a amostra aleatória de indivíduos submetidos ao novo tratamento, tal que

e

6021 Y,,Y,Y L

[ ] 21 p==YP i [ ] 602110 2 ,,, i, pYP i L=∀−== . Note que as probabilidades e são

desconhecidas, motivo pelo qual é necessário utilizar um teste de hipóteses para avaliar se de fato são diferentes.

1p 2p

No problema em questão, deseja-se avaliar se o novo tratamento é melhor do que o

tratamento padrão, ou seja, se a probabilidade de um indivíduo se recuperar da doença é maior quando é tratado

com o novo tratamento, em relação ao tratamento padrão. Assim, as hipóteses estatísticas podem ser formuladas

como

.pppp:H

pppp:H

0ou

0ou

21211

21210

<−<

≥−≥

O teste de hipóteses é baseado nas proporções amostrais 1p e 2p , pois para tamanhos de amostra

e n suficientemente grandes, as distribuições de probabilidade de 1n 2 1p e 2p podem ser aproximadas pela

distribuição normal. Assim, a estatística de teste é dada por

( )

+−

−=

2100

21

11 1nn

pp

ppzcalc ,

onde 21

22110 nn

pnpnp++

= é uma estimativa da proporção de sucessos populacional sob a hipótese nula. Quando

as amostras são suficientemente grandes, esta estatística de teste pode ser comparada com a distribuição normal


117 padrão. Na prática, um procedimento que é útil para avaliar se os tamanhos de amostras são suficientemente

grandes é verificar se estão satisfeitas as condições , , e

.

511 ≥pn ( ) 51 111 ≥− ppn 522 ≥pn

( ) 51 222 ≥− ppn

+

2

1n

70X,L

sucessocuperou u e recupero

1 X,X

drão se re( )

( ), fracasso

=, se o i-é, se o i-é

X i 10

[ 1XP i == ∑=

=70

1iiX

( )1 70 p,B~

7107050 ,=

Um resultado do cálculo de probabilidades garante que uma variável aleatória com

distribuição normal padrão, quando elevada ao quadrado, segue uma distribuição de probabilidade qui-quadrado

com 1 grau de liberdade. Assim, a estatística

( )

( )

−

−=

100

2212

1 1n

pp

ppZ

possui uma distribuição assintótica de qui-quadrado com 1 grau de liberdade. Este resultado implica que o teste

de hipóteses (bilateral) para comparar duas proporções populacionais com amostras independentes é equivalente

ao teste de homogeneidade de marginais mencionado na Seção 1.1 e que será apresentado na Seção 8.3. O leitor

interessado em discutir os aspectos teóricos do teste pode consultar, por exemplo, Costa Neto (1977, p.118) ou

Rohatgi (1976, p.446).

O problema apresentado no Exemplo 6.7 pode ser resolvido através das etapas descritas nas

seções anteriores, com segue:

1ª) Identificar as variáveis do problema:

Amostra de pacientes submetidos ao tratamento padrão: 701 =n ⇒ , onde 2 ,

tamento paido ao trante submetsimo paciedrão não stamento paido ao trante submetsimo pacie

tal que e ] 1p [ ] 702110 1 ,,, i, pXP i L=∀−== . Assim, representa o número de

pacientes submetidos ao tratamento padrão que se recuperaram da doença e . Na amostra,

X

X

501

1 nxpx ==⇒= .


118 Amostra de pacientes submetidos ao novo tratamento: 602 =n ⇒ Y , onde 6021 Y,,Y, L

( )( )

=, sucessoperou to se recuo tratamenido ao novnte submetsimo pacie, se o i-é

fracassorecuperou to não se o tratamenido ao novnte submetsimo pacie, se o i-éYi 1

0

tal que e [ ] 21 pYP i == [ ] 602110 2 ,,, i, pYP i L=∀−== . Assim, Y representa o número de

pacientes submetidos ao novo tratamento que se recuperaram da doença e

∑=

=60

1iiY

( )2p 60,B~Y . Na amostra,

8506051 51

22 ,

nypy ===⇒= .


0H : a proporção de indivíduos que se recuperam da doença pelo tratamento padrão é maior ou igual do que a proporção de indivíduos que se recuperam da doença através do novo tratamento.

1H : a proporção de indivíduos que se recuperam da doença pelo novo tratamento é menor do que a

proporção de indivíduos que se recuperam da doença através do novo tratamento. ou seja,

.pppp:Hpppp:H

0ou 0ou

21211

21210

<−<≥−≥

3ª) Escolher o nível de significância: 050,=α

4ª) Estatística de teste valor de z tabelado: 641,ztab −=

Observe que as condições 57497107011 >=×= ,,pn , ( ) 5414290710701 111 >=××=− ,,,ppn

577 >

,

e 52559206022 >=×= ,,pn ( ) 150850601 222 =××=− ,,pp ,n estão satisfeitas, de tal forma que o

teste Z pode ser utilizado para comparar as duas proporções populacionais. Sob a hipótese nula, a estimativa

conjunta da proporção de pacientes recuperados é

8106070

9206071070

21

22110 ,,,

nnpnpnp =

+×+×

=++

= .

Assim, a estatística de teste é dada por


119

( )032

06900140

601

701190810

850710

11 121

00

21 ,,

,

,,

,,

nnpp

ppzcalc −=−

=

+××

−=

+−

−=


Se rejeita-se em favor de 641 ⇒−=< ,zz tabcalc 210 pp:H ≥ 211 pp:H <Se não se rejeita . 641 ⇒−=≥ ,zz tabcalc 210 pp:H ≥

Como 641032 ,z,z tabcalc −=<−= , então deve-se rejeitar a hipótese nula rejeita-se

, para o nível de significância de 5%. 210 pp:H ≥

6ª) Conclusão:

A rejeição da hipótese nula , para o nível de significância de 5%, evidencia que a

proporção de indivíduos que se recuperam da doença é maior quando submetidos ao novo tratamento, ou seja, o

novo tratamento parece ser melhor do que o tratamento padrão.

210 pp:H ≥


teste Z para comparação duas proporções populacionais com amostras independentes, considerando os demais

tipos de hipóteses estatísticas, conforme disposto no Quadro 6.11.


120

Quadro 6.11 – Hipóteses e respectivas regiões de rejeição para o teste Z para comparar duas proporções populacionais com duas amostras independentes e nível de significância α.


contra 211210 pp:Hpp:H ≠=

( )

( )2

2100

21

2

2100

21

11 1

11 1

α

α

−<

+−

−=

+>

+−

−=

z

nnpp

ppz

ou

z

nnpp

ppz

calc

calc

contra 211210 pp:Hpp:H <≥( )

α−<

+−

−= z

nnpp

ppzcalc

2100

21

11 1

contra 211210 pp:Hpp:H >≤ ( )

α+>

+−

−= z

nnpp

ppzcalc

2100

21

11 1


121 7 Correlação e Regressão Linear Simples

Uma das situações que surge com grande freqüência no contexto biológico é a necessidade

de avaliar a existência de uma possível relação entre duas características quantitativas e, se for o caso,

determinar o grau dessa “relação”. Em outras palavras, deseja-se estudar o comportamento simultâneo entre

duas variáveis, com a finalidade de identificar se elas possuem algum tipo de relação ou, em determinadas

situações específicas, algum tipo de dependência.

A forma mais simples de relação entre duas variáveis quantitativas é a presença de uma

estrutura linear que descreve o comportamento simultâneo das variáveis. Sob condições controladas, é possível

estudar relações de causa e efeito entre as duas variáveis, caso em que se fala em estrutura de dependência

linear.

Neste capítulo serão brevemente discutidos dois métodos estatísticos para avaliar a

existência ou não de relação linear entre duas variáveis quantitativas. O primeiro, denominado de correlação

linear, é útil para medir o grau da relação linear entre as variáveis aleatórias. O segundo método é chamado de

regressão linear simples e pode ser utilizado para avaliar (e quantificar) a existência de uma estrutura de

dependência linear entre as variáveis; sob condições controladas, também é possível avaliar relações do tipo

causa e efeito.

7.1 Correlação Linear

O objetivo básico deste método estatístico é medir o grau em que duas variáveis aleatórias

quantitativas estão relacionadas segundo uma estrutura linear e, a partir deste valor, avaliar se esta relação linear

de fato existe na população. Para ilustrar o desenvolvimento e aplicação do método é conveniente considerar o

exemplo descrito por Daniel (1974, p.254).

Exemplo 7.1: Uma amostra de 25 pacientes foi selecionada ao acaso de uma população de indivíduos

hipertensos e, para cada indivíduo, foi observada a pressão sangüínea sistólica através de dois métodos,

denominados Método I e Método II. O objetivo é avaliar o grau de correlação linear entre os dois métodos

utilizados para medir a pressão sistólica. Os dados são mostrados na Tabela 7.1, onde também são apresentados

os cálculos básicos necessários para avaliar a existência de correlação linear. Note que a variável X representa as

medidas da pressão sistólica mediante o Método I, enquanto que Y representa as medidas da pressão sistólica

mediante o Método II.


122

Tabela 7.1 – Medidas da pressão sangüínea sistólica realizadas através do Método I e do Método II para a amostra de 25 indivíduos hipertensos.

Paciente Método I ( )x

Método II( )y

2x 2y yx

1 132 130 17424 16900 17160 2 138 134 19044 17956 18492 3 144 132 20736 17424 19008 4 146 140 21316 19600 20440 5 148 150 21904 22500 22200 6 152 144 23104 20736 21888 7 158 150 24964 22500 23700 8 130 122 16900 14884 15860 9 162 160 26244 25600 25920

10 168 150 28224 22500 25200 11 172 160 29584 25600 27520 12 174 178 30276 31684 30972 13 180 168 32400 28224 30240 14 180 174 32400 30276 31320 15 188 186 35344 34596 34968 16 194 172 37636 29584 33368 17 194 182 37636 33124 35308 18 200 178 40000 31684 35600 19 200 196 40000 38416 39200 20 204 188 41616 35344 38352 21 210 180 44100 32400 37800 22 210 196 44100 38416 41160 23 216 210 46656 44100 45360 24 220 190 48400 36100 41800 25 220 202 48400 40804 44440

Total 4440 4172 808408 710952 757276 Fonte: Daniel (1974, p.254).

X: Pressão Sistólica (Método I)

240220200180160140120

Y: P

ress

ão S

istó

lica

(Mét

odo

II)

220

200

180

160

140

120

Figura 7.1 – Diagrama de dispersão da pressão sistólica medida atravésdo Método I e do Método II para a amostra de 25 pacientes hipertensos.


123

O objetivo básico é avaliar se estes métodos são coerentes para medir a pressão sistólica dos

indivíduos. Observe que para cada indivíduo existe um par de valores ( )ii y,x que corresponde às medidas da

pressão sistólica realizadas pelo Método I e pelo Método II . Consequentemente, se o Método I e o Método II

são “coerentes” ou “equivalentes” para medir a pressão sistólica, então o valor deveria ser aproximadamente

igual ao valor , para todo .

ix

iy 2521 ,,,i L=

Um procedimento extremamente útil para visualizar o tipo de relação existente entre duas

variáveis quantitativas é o diagrama de dispersão. A Figura 7.1 mostra o diagrama de dispersão entre as medidas

da pressão sistólica realizadas pelo Método I e pelo Método II na amostra de 25 indivíduos hipertensos. Como

existe variabilidade nas respostas, a relação entre as variáveis pode ser avaliada através do coeficiente de

correlação linear de Pearson, que no caso amostral é definido por

∑∑

∑∑

∑∑∑

=

=

=

=

=

==

−×

−

−=

n

i

n

ii

i

n

i

n

ii

i

n

i

n

ii

n

ii

ii

n

yy

n

xx

n

yxyx

r

1

2

12

1

2

12

1

11

.

O coeficiente de correlação linear de Pearson é adimensional e assume valores no intervalo

. O caso extremo ( 1 1 +− , ) 1−=r corresponde a situação onde existe uma correlação negativa perfeita entre as

variáveis X e Y e é ilustrado na Figura 7.2. Por outro lado, no caso 1+=r existe correlação positiva perfeita

entre as variáveis X e Y, como ilustra a Figura 7.3.

X

Y

Figura 7.2 – Ilustração de correlaçãonegativa perfeita ( )1−=r entre asvariáveis aleatórias X e Y.

Fi

Prof. Álvaro Vigo – UFRGS – Departamento de Esta

X

Y

gura 7.3 – Ilustração de correlaçãopositiva perfeita ( entre asvariáveis aleatórias X e Y.

)1+=r

tística – Elementos de Bioestatística: Um Curso Introdutório

124

A inspeção visual da Figura 7.1 claramente revela a existência de uma correlação linear

positiva entre as medidas da pressão sistólica realizadas pelo Método I e pelo Método II. Para determinar o valor

da correlação linear é conveniente usar os resultados parciais apresentados na Tabela 7.1, de tal forma que

( ) ( )

.,,.,.

,.,.,..r

....

...r

n

yy

n

xx

n

yxyx

r

n

i

n

ii

i

n

i

n

ii

i

n

i

n

ii

n

ii

ii

9546067104178032816

6472814008641920947740276757

251724952710

254404408808

2517244404276757

22

1

2

12

1

2

12

1

11

==×

−=

−×−

×−

=

−×

−

−=

∑∑

∑∑

∑∑∑

=

=

=

=

=

==

Assim, constata-se que existe uma forte correlação linear entre as observações amostrais da

pressão sistólica realizadas através dos métodos em questão. Entretanto, este resultado permite apenas concluir

sobre a relação entre as variáveis na amostra; se o objetivo é avaliar a existência de correlação linear na

população, então é necessário realizar um teste de hipóteses sobre a correlação populacional, usualmente

denotada por . ρ

Neste momento é conveniente fazer algumas considerações teóricas sobre as exigências

necessárias para a avaliação da correlação linear. De fato, para calcular a coeficiente de correlação amostral não

é necessário fazer nenhuma suposição sobre a forma das distribuições de probabilidades das variáveis aleatórias

X e Y. Contudo, para testar hipóteses e construir intervalos de confiança para o coeficiente de correlação

populacional , os pares ρ ( ) ( ) ( )nn Y,X,,Y,X,Y,X 2211 L devem formar uma amostra aleatória extraída de uma

população com distribuição normal bivariada. Veja Zar (1996, p.374).

Neste curso não é possível abordar os aspectos teóricos da distribuição normal bivariada,

porém é conveniente ilustrar o seu comportamento genérico, conforme ilustração da Figura 7.4. Ao leitor

interessado sugere-se uma consulta à bibliografia clássica da análise multivariada, tais como Mardia, Kent e

Bibby (1979) ou Johnson & Wichern (1988).


125

Figura 7.4 – Comportamento genérico da função densidade( )y,xf da distribuição de probabilidade normal bivariada.

Embora seja possível testar vários tipos de hipóteses sobre a correlação populacional ρ ,

neste curso será abordado apenas o caso em que deseja-se verificar se a correlação é diferente de zero na

população. Em outras palavras, a partir do coeficiente de correlação amostral, deseja-se avaliar se existe

correlação linear na população, para o nível de significância α especificado. Os demais casos estão

extensamente descritos na literatura estatística, cabendo destacar Zar (1996, p.371), Daniel (1974, p.257) e

Costa Neto (1977, p.186).

Voltando ao Exemplo 7.1, deseja-se avaliar se na população de indivíduos hipertensos existe

correlação linear entre as leituras da pressão sistólica realizadas através do Método I e do Método II. As

hipóteses estatísticas podem ser formuladas como 00 =ρ:H e 01 ≠ρ:H . Assim, a rejeição da hipótese nula

significa que a amostra produziu evidências de que existe correlação linear na população, enquanto

que a não rejeição da hipótese nula evidencia que as variáveis em estudo não são linearmente correlacionadas na

população. O teste de hipóteses é baseado na estatística

00 =ρ:H

22 12

21 r

nr

nr

rtcalc−−

×=

−−

= ,

que sob a hipótese nula segue uma distribuição de probabilidade t de Student com graus de liberdade.

Para facilitar a execução do teste de hipóteses pode-se seguir as etapas descritas nas seções anteriores:

( 2−n )


Método IIdida pelo stólica mepressão siYMétodo Idida pelo stólica mepressão siX

==


126


⇒=ρ 00 :H Não existe correlação linear na população

⇒≠ρ 01 :H Existe correlação linear na população


4ª) Determinar os valores de t tabelado: 0692025023 ,t ,; −=− e t 0692025023 ,,; +=


( )3715

0621095460

225954601

95460 95460 e 252

,,,

,

,t,rn calc ==

−−

=⇒== .


Se ( ) ( ) 2222 α−α−+≤≤− ;ncalc;n ttt ⇒ não se rejeita 00 =ρ:H

Se ( ) 22 α−−< ;ncalc tt ou ( ) 22 α−

+> ;ncalc tt ⇒ rejeita-se 00 =ρ:H em favor de 01 ≠ρ:H

Como , então deve-se rejeitar, para o nível de


0692 t3715 (23);0,025 ,,tcalc +=>= 00 =ρ:H

7ª) Conclusão:

Há evidências de que existe uma correlação positiva entre as medidas da pressão sistólica

realizadas pelo Método I e pelo Método II, na população de pacientes hipertensos, para o nível de significância

0,05. Como a correlação amostra é positiva ( 95460,r += ), então na medida que crescem os valores da pressão

arterial observados pelo Método I, também aumentam os valores observados pelo Método II, e vice-versa.


127

Outra estatística que freqüentemente é útil para interpretar a intensidade ou força da

correlação linear entre duas variáveis quantitativas é o coeficiente de determinação, definido como o quadrado

do coeficiente de correlação linear de Pearson. No caso amostral, o coeficiente de determinação é denotado e

definido por 2r e usualmente é multiplicado por 100 para ser interpretado. Para os dados do Exemplo 7.1, o

coeficiente de determinação amostral é

( ) 91,13%1000,9113100 9113095460 222 =×=×⇒== r,,r

e significa que aproximadamente 91% da variabilidade das medidas da pressão sistólica realizadas pelo Método

I podem ser explicadas pela variabilidade das observações realizadas pelo Método II, e vice-versa.

7.2 Regressão Linear Simples

A origem da análise de regressão linear é devida ao cientista inglês Francis Galton (1822-

1911) e está intimamente relacionada com a análise de correlação linear. Pioneiro no estudo da correlação e

regressão linear, Galton desenvolveu esses procedimentos enquanto realizava estudos sobre herança genética.

Em particular no estudo da estatura humana, Galton descreveu a tendência da altura dos filhos (tanto filhos de

pais altos quanto filhos de pais baixos) “regredir” para a média da população em geral. De fato, a palavra

inicialmente utilizada por Galton para representar este fenômeno foi “reversion” e, depois, “regression”. Veja

Daniel (1974, p.224), Zar (1996, p.317, p.372).

A análise de regressão linear é uma técnica de análise estatística de dados extremamente útil

para investigar a dependência funcional de uma variável aleatória quantitativa em relação à outra característica

quantitativa. Se for razoável assumir uma estrutura linear para descrever o comportamento da variável

dependente em função da outra variável, então, sob certas condições, também é possível estimar o valor

esperado da variável dependente para um valor conhecido da variável explicativa.

No modelo de regressão linear simples existem duas variáveis sob investigação, usualmente

denominadas de variável dependente (Y) e de variável explicativa, independente, preditor ou regressor (X). Na

maioria dos problemas de pesquisa, contudo, a variável explicativa X é controlada pelo pesquisador, de tal

forma que não é caracterizada como uma variável aleatória. Em outras palavras, os valores da variável

explicativa são deliberadamente selecionados a priori pelo pesquisador, observando-se os correspondentes

valores da variável dependente e aleatória Y. É importante salientar que a escolha dos valores da variável

explicativa depende criticamente dos objetivos do estudo e, portanto, é uma etapa vital do delineamento do

experimento a ser conduzido.


128

Para apresentar os aspectos metodológicos básicos do modelo de regressão linear é

conveniente utilizar o exemplo apresentado e discutido por Soares, Farias e Cesar (1991, p.265), descrito a

seguir. Trata-se de um conhecido conjunto de dados descrito na literatura de análise de regressão, relatando a

utilização de uma amostra aleatória de crianças para avaliar a relação funcional entre o grau de desenvolvimento

de crianças e a idade em que pronunciam a primeira palavra.

Exemplo 7.2: A Tabela 7.2 apresenta um conhecido conjunto de dados descrito na literatura de análise de

regressão, relatando a utilização uma amostra aleatória de 21 crianças para avaliar a relação funcional entre o

grau de desenvolvimento de crianças e a idade em que pronunciam a primeira palavra. O grau de

desenvolvimento da criança, medido através do escore Gessel de desenvolvimento, é a variável resposta ou

dependente Y, enquanto que a idade (em meses) ao pronunciar a primeira palavra é a variável explicativa X.

Sobre a relação funcional, naturalmente espera-se que na medida que aumenta a idade ao pronunciar a primeira

palavra, diminui o valor do escore Gessel de desenvolvimento. O objetivo, então, é avaliar se o modelo linear é

plausível para descrever esta estrutura funcional.

Tabela 7.2 – Observações do escore Gessel de desenvolvimento e a idade ao pronunciar a primeira palavra, para uma amostra de 21 crianças.

Criança nº

Idade (em meses) ao pronunciar a primeira

palavra ( )x

Escore Gessel de desenvolvimento

( )y

1 15 95 2 26 71 3 10 83 4 9 91 5 15 102 6 20 87 7 18 93 8 11 100 9 8 104

10 20 94 11 7 113 12 9 96 13 10 83 14 11 84 15 11 102 16 10 100 17 12 105 18 42 57 19 17 121 20 11 86 21 10 100

Fonte: Soares, Farias e Cesar (1991, p.265)


129

Para investigar se o modelo linear é plausível para representar a estrutura de dependência

entre o escore Gessel de desenvolvimento (Y) e a idade ao pronunciar a primeira palavra (X) na população,

recomenda-se fazer o diagrama de dispersão, mostrado na Figura 7.5. É um importante procedimento inicial,

pois a visualização do comportamento das observações amostrais pode indicar a forma e a intensidade da

relação entre a variável dependente Y e a variável explicativa X.

Idade Meses (X)

50454035302520151050

Esco

re d

e G

esse

l (Y)

130

120

110

100

90

80

70

60

50

Figura 7.5 – Diagrama de dispersão dos dados da Tabela 7.2.

A inspeção visual da Figura 7.5 sugere a existência de uma relação aproximadamente linear

entre a variável dependente e a variável explicativa, revelando a tendência já esperada de que o escore Gessel de

desenvolvimento decresce com o aumento da idade ao pronunciar a primeira palavra. No entanto, os dados

amostrais indicam apenas a possibilidade desta dependência linear existir na população. Em outras palavras, os

dados amostrais sugerem a possibilidade de que a verdadeira estrutura de dependência entre a variável

dependente Y e a variável explicativa X é linear, podendo ser representada pelo modelo

N,,,i;XY iii L21 =∀ε+β+α= ,

onde é o tamanho da população. Esta é a equação da reta e representa a N relação teórica entre as variáveis e

só pode ser conhecida se toda a população é estudada. O parâmetro α é chamado de intercepto e representa o

ponto onde a reta encontra-se com o eixo dos , ou seja o valor de quando y y 0=x

* +α=

*iy−

. Por sua vez, o parâmetro

é denominado coeficiente de regressão ou coeficiente angular e representa a inclinação da reta. Observe que

sob este modelo linear, para cada valor corresponde um valor teórico . Assim, a diferença

entre o valor observado e o valor teórico é a variável aleatória , que representa a parte da

β

ix ii xy β

iyiy *iy i =ε


130 variabilidade da variável dependente Y que não pode ser explicada pela variável explicativa X através do modelo

linear.

Observe que a resposta Y é uma variável aleatória, pois é uma função da variável aleatória

. Portanto, para cada valor a variável resposta Y pode assumir diversos valores, tal que existe uma

distribuição de probabilidade para estes valores. Tecnicamente falando, o modelo de regressão linear é uma reta

que considera o valor médio da variável dependente e aleatória Y, dado os valores não aleatórios da variável

explicativa

iε ix

x . Em outras palavras, a modelagem é relativa à esperança condicional [ ] ii xx|YE β+α= , onde

os valores da variável explicativa são considerados não aleatórios. As suposições básicas do modelo de

regressão são as seguintes:

a) o erro aleatório é uma variável aleatória com média zero e variância (desconhecida), isto é, iε2σ

( ) [ ] 22 e 0ou 0 σ=ε=εσε∀ iii VarE,~;i ;

b) para todo i ji,j εε≠ e são não correlacionadas; ou seja, ( ) 0 =εε≠∀ ji ,corrji .

As exigências dispostas nos itens (a) e (b) implicam que os erros aleatórios, também

chamados de resíduos do modelo, são não correlacionados, têm variância constante σ e sua distribuição de

probabilidade está centrada no valor zero.

2

Outra suposição, não estritamente necessária, é que a forma da distribuição de probabilidade

dos erros aleatórios seja normal, isto é, iε ( )20 σε ,N~i . Assim, para todo ji ≠ os erros aleatórios iε e jε

são independentes. Para um tamanho de amostra suficientemente grande, como resultado imediato do Teorema

Central do Limite apresentado no Capítulo 5, há uma tendência para que os resíduos sejam normalmente

distribuídos, tal que a suposição de normalidade pode ser averiguada mediante os resíduos do modelo.

Na prática, entretanto, trabalha-se com uma amostra aleatória que consiste em n pares de

observações , através dos quais deseja-se estimar os parâmetros e ( ) ( ) ( nn y,x,,y,x,y,x L2211 ) α β . O modelo

pode ser escrito como

n,,,i;xy iii L21 =∀ε+β+α= ,

sendo que para cada valor corresponde o resíduo ou desvio ix ( )iii xy β+α−=ε , que são as discrepâncias

entre o valor observado e o valor teórico especificado pelo modelo linear. No entanto, esses valores teóricos

também são desconhecidos, pois os parâmetros

iy

α e β são desconhecidos.

O método de estimação consiste essencialmente em escolher como estimadores de α e β os

valores que minimizam a soma dos quadrados dos desvios ( )iii xy β+α−=ε , sendo chamado de método de

mínimos quadrados. A estimação dos parâmetros do modelo encontra-se amplamente descrita na literatura, não

cabendo demonstrar neste momento; o leitor interessado pode consultar, por exemplo, Draper & Smith (1981,

p.13-18) ou Costa Neto (1977, p.193).


131 Assim, o estimador de mínimos quadrados do coeficiente de regressão β é

( )( )

( )∑

∑

∑∑

∑∑∑

=

=

=

=

=

==

−

−−=

−

−= n

ii

n

iii

n

iin

ii

n

i

n

ii

n

ii

ii

xx

yyxx

n

xx

n

yxyx

b

1

2

12

1

1

2

1

11

e o estimador de mínimos quadrados paro o intercepto α é xbya −= , onde n

yy

n

ii∑

== 1 e n

xx

n

ii∑

== 1 .

Uma vez estimados os parâmetros α e β , obtém-se a equação de regressão estimada ou

ajustada, dada por

ii bxay += .

Se a equação de regressão ajustada apresenta uma boa aderência aos dados observados, então

ela pode ser utilizada para representar a verdadeira relação funcional entre as variáveis; alguns critérios de

avaliação do ajuste serão descritos a seguir. Observe que mediante a substituição dos valores na equação de

regressão ajustada, podem ser obtidos os respectivos valores estimados . Assim, na prática são considerados

os desvios , onde

ix

iy

ne,,e,e L21 n,,,i;yye iii L21 =∀−= .

Neste momento é conveniente retomar os dados do Exemplo 7.2 para ilustrar o procedimento

de obtenção das estimativas dos parâmetros. A Tabela 7.3 apresenta os resultados dos cálculos intermediários,

bem como os valores estimados pelo modelo e os correspondentes desvios e quadrados dos desvios em relação

aos valores observados. A estimativa do coeficiente de regressão é dada por

( )12701

952621334231

213025606

21196730286426

22

1

1

2

1

11

,,.,..

n

xx

n

yxyx

bn

iin

ii

n

i

n

ii

n

ii

ii

−==

−

×−

=

−

−=

∑∑

∑∑∑

=

=

=

==

,

As médias amostrais são 679321

19671 ,n

yy

n

ii

===∑= e 3814

213021 ,

n

xx

n

ii

===∑= .

Assim, o intercepto é estimado por


132

( ) 88109211667933814127016793 ,,,,,,xbya =+=×−−=−= .

Portanto, a equação de regressão estimada ou ajusta é x,,y 1270188109 −= . Observe que o

coeficiente de regressão é negativo, expressando a direção da relação já esperada, ou seja, que o grau de

desenvolvimento da criança decresce com o aumento da idade ao falar a primeira palavra.

É importante salientar que para poder utilizar o modelo de regressão para representar a

verdadeira relação funcional entre as variáveis na população, não é suficiente determinar a equação de regressão

ajustada. Em outras palavras, antes de estender os resultados para a população, é imprescindível avaliar a

qualidade ou precisão da reta ajustada, sob pena de cometer erros grosseiros nas conclusões. Em resumo, deseja-

se avaliar se o modelo ajustado é válido para a população, o que pode ser feito através de um teste de hipóteses

sobre a significância do coeficiente de regressão, chamado de teste de significância da regressão.

Tabela 7.3 – Observações do escore Gessel de desenvolvimento e da idade na amostra de 21 crianças do Exemplo 7.2 e demais cálculos intermediários para o ajuste do modelo de regressão linear simples.

Criança ix iy 2ix

2iy ii yx iy iii yye −=

2ie

1 15 95 225 9025 1425 92,97 2,03 4,122 26 71 676 5041 1846 80,57 -9,57 91,633 10 83 100 6889 830 98,60 -15,60 243,484 9 91 81 8281 819 99,73 -8,73 76,235 15 102 225 10404 1530 92,97 9,03 81,566 20 87 400 7569 1740 87,33 -0,33 0,117 18 93 324 8649 1674 89,59 3,41 11,648 11 100 121 10000 1100 97,48 2,52 6,379 8 104 64 10816 832 100,86 3,14 9,87

10 20 94 400 8836 1880 87,33 6,67 44,4311 7 113 49 12769 791 101,98 11,02 121,3312 9 96 81 9216 864 99,73 -3,73 13,9213 10 83 100 6889 830 98,60 -15,60 243,4814 11 84 121 7056 924 97,48 -13,48 181,6315 11 102 121 10404 1122 97,48 4,52 20,4616 10 100 100 10000 1000 98,60 1,40 1,9517 12 105 144 11025 1260 96,35 8,65 74,8218 42 57 1764 3249 2394 62,54 -5,54 30,6919 17 121 289 14641 2057 90,72 30,28 917,1820 11 86 121 7396 946 97,48 -11,48 131,7221 10 100 100 10000 1000 98,60 1,40 1,95

Σ 302 1967 5606 188155 26864 1967 0,00 2308,59


133

Também é importante realizar a análise dos resíduos do modelo para avaliar a adequação da

suposição de normalidade e homogeneidade de variâncias, bem como verificar a eventual existência de pontos

de influência ou pontos de alavanca que poderiam causar perturbações no ajuste do modelo e,

consequentemente, nas generalizações ou predições realizadas. No entanto, estes tópicos estão fora dos

objetivos do curso, sendo abordados apenas alguns aspectos básicos. Ao leitor interessado recomenda-se

consultar a literatura de análise de regressão, cabendo destacar Draper & Smith (1981).

Se o modelo ajustado é plausível, então os resíduos devem exibir tendências que confirmem

as suposições do modelo; ou seja, devem sugerir que o modelo está correto. A normalidade dos resíduos é

necessária para poder realizar o teste de significância da regressão. Assim, para avaliar a adequação da

normalidade dos resíduos, pode-se realizar os procedimentos gráficos já descritos (Q-Q plot, histograma,

diagrama de pontos, etc.); outra alternativa é utilizar um teste de aderência. Na análise de regressão é mais

comum a utilização de gráficos para o exame dos resíduos.

Convém lembrar que a suposição sobre os resíduos é que eles devem seguir uma distribuição

normal com média zero e variância igual a , isto é, 2σ ( )20 σε ,N~i . Assim, os resíduos padronizados seguem

uma distribuição normal padrão, ou seja, ( 10,Nσε )~i . Se o modelo ajustado está correto, então o desvio padrão

pode ser estimado pela raiz quadrada do quadrado médio dos desvios, definida por σ

( )

221

2

1

2

−==

−

−=

∑∑==

n

e

n

yys

n

ii

n

ii

.

A variável definida como se

r ii = é chamada de resíduo padronizado e tem distribuição

normal padrão, podendo ser usada para avaliar as violações da normalidade. A Figura 7.6 mostra o Q-Q plot

para os resíduos padronizados gerados pelo modelo de regressão ajustado aos dados do Exemplo 7.2, revelando

que a suposição de normalidade parece razoavelmente plausível. Note, porém, que existe um ponto discrepante,

o qual corresponde a observação número 19, devendo ser cuidadosamente inspecionada.

Como a suposição de normalidade parece estar satisfeita, pode-se então construir intervalos

de confiança e testar hipóteses sobre os parâmetros populacionais α e β . Em particular, deseja-se realizar o

teste de significância da regressão já mencionado, com a finalidade verificar se a tendência linear captada pelo

modelo ajustado não é devida ao acaso. Em outras palavras, deseja-se testar se o verdadeiro coeficiente de

regressão (a inclinação da reta) na população é diferente de zero. Observe que se a verdadeira inclinação da reta

é igual a zero (isto é, se 0=β ), então a variável Y não depende linearmente da variável X; de fato, neste caso a

média de Y é igual para todos os valores de X.


134

Resíduo Padronizado Observado

3210-1-2

Val

or E

sper

ado

pela

Nor

mal

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Figura 7.6 – Q-Q plot dos resíduos padronizados gerados

pelo modelo linear ajustado aos dados do Exemplo 7.2

As hipóteses do teste de significância da regressão são

XarelaçãoY emea linear ddependênci existe :HXarelaçãoY emar deência lineste depend não exi :H

0 0

1

0

⇒≠β⇒=β

e o teste é baseado na estatística de teste ^

bEP

bT β−= que tem uma distribuição t de Student com 2−n graus de

liberdade, onde é o erro padrão do coeficiente de regressão estimado na amostra, definido por ^

bEP

( )( )

( )

−−

−=

−

−

−

=

−

=

∑∑

∑

∑∑

∑

∑∑

=

=

=

=

=

=

=

=n

i

n

ii

i

n

ii

n

i

n

ii

i

n

ii

n

i

n

ii

i

^

b

n

xxn

yy

n

xx

n

yy

n

xx

sEP

1

2

12

1

2

1

2

12

1

2

1

2

12 2

2 ,

mas também pode ser escrito como


135

( )

−−

−−

=

∑∑

∑ ∑ ∑

=

=

= = =

n

i

n

ii

i

n

i

n

i

n

iiiii^

b

n

xxn

yxbyayEP

1

2

12

1 1 1

2

2

.

O teste de hipóteses pode ser executado através das etapas descritas anteriormente, ou seja:


a palavra a primeirpronunciarmeses) ao idade (em Xdente)ças (depen das crianvolvimentosendeGessel de escore de Y

==


XarelaçãoY emea linear ddependênci existe :HXarelaçãoY emar deência lineste depend não exi :H

0 0

1

0

⇒≠β⇒=β


4ª) Determinar os valores de t tabelado: 0932025019 ,t ,; −=− e t 0932025019 ,,; +=

5ª) Calcular o valor da estatística de teste: ( )2−= n^

b

calc t~EP

bt

( )

( )

( )31020

1023996592308

21302560619

592308

2

2

1

2

12

1

2

,,

,,

n

xxn

yyEP

n

i

n

ii

i

n

ii^

b ==

−×

=

−−

−=

∑∑

∑

=

=

= ,

de tal forma que 6333102012701 ,

,,

EP

bt ^

b

calc −=−

== .


136


Se ( ) ( ) 2222 α−α−+≤≤− ;ncalc;n ttt ⇒ não se rejeita 00 =β:H

Se ( ) 22 α−−< ;ncalc tt ou ( ) 22 α−

+> ;ncalc tt ⇒ rejeita-se 00 =β:H em favor de 01 ≠β:H

Como 0932633 (19);0,025 ,t,tcalc −=−<−= , então deve-se rejeitar, para o nível de


00 =β:H

7ª) Conclusão:

Há evidências de que na população em estudo existe uma estrutura de dependência linear

entre o escore Gessel de desenvolvimento das crianças e a idade (em meses) ao pronunciar a primeira palavra,

para o nível de significância 5%. Esta dependência linear pode ser representada pela equação de regressão

estimada x,,y 1270188109 −= que é interpretada da seguinte forma: para cada acréscimo de um mês na idade

que a criança pronuncia a primeira palavra, o escore Gessel de desenvolvimento diminui 1,1270 unidades.

Uma vez que o modelo foi validado, ele pode ser usado para fazer predições, ou seja, para

estimar o valor médio da variável dependente Y para um determinado valor da variável explicativa X. No

exemplo em discussão, o pesquisador poderia estar interessado em estimar o valor médio do escore Gessel de

desenvolvimento para uma determinada idade em que a criança pronuncia a primeira palavra. Por exemplo, para

uma criança que pronuncia a primeira palavra aos 20 meses de idade, o escore médio de desenvolvimento é

33872012701881091270188109 ,,,x,,y =×−=−= .


137

Entretanto, é preciso ter extrema cautela ao fazer predições, não sendo recomendado estimar

a média de Y para valores de X fora da região de valores observados na amostra. Ao invés de estimativas

pontuais, é preferível obter estimativas por intervalo, já que os intervalos de confiança para a média de Y levam

em conta o aumento da variabilidade na medida que os valores dos preditores se afastam da média x .

Para finalizar, é importante salientar alguns aspectos: existem diversos procedimentos para

análise de resíduos e diagnóstico de regressão, mediante os quais é possível detectar perturbações no modelo

ajustado e identificar as ações corretivas. A maioria destas técnicas é baseada em procedimentos gráficos ou

necessitam cálculos exaustivos, de tal forma que são factíveis apenas mediante a utilização de procedimentos

computacionais. Também não foram considerados outros aspectos da análise de regressão linear, tais como

intervalos de confiança para os parâmetros α e β , intervalos de confiança para a média de Y para um dado

valor x ou intervalos de precisão para uma nova observação. Outros aspectos que também não foram

explorados são multicolinearidade, estimação do erro puro na presença de repetições genuínas, transformações

nas variáveis, regressão inversa e a generalização do modelo para a Regressão Linear Múltipla, mediante a

incorporação de outras variáveis no modelo. Diante do interesse ou da necessidade de detalhar a metodologia da

análise de regressão, recomenda-se consultar a extensa literatura da área – veja, por exemplo, Draper & Smith

(1981), Johnson & Wichern (1988, p.273-339), Zar (1996, p.317-447), Soares, Farias e Cesar (1991, p.263-

279).


138 8 Análise de Dados Categóricos

Na Seção 1.2 foram apresentadas as definições básicas dos tipos de variáveis que

freqüentemente surgem em investigações científicas, destacando que estão diretamente relacionadas à escala de

medida utilizada para observá-las. Recordando, as variáveis medidas em escala nominal ou ordinal são

classificadas como variáveis qualitativas, enquanto que variáveis medidas através da escala de intervalo ou da

escala de razão são chamadas de variáveis quantitativas.

No Capítulo 6 foram apresentados alguns procedimentos básicos para avaliar a existência de

diferenças entre dois tratamentos (drogas, dietas, métodos cirúrgicos, procedimentos laboratoriais, etc.) quando

a resposta é contínua, mediante a comparação das médias populacionais. Ainda, para avaliar a relação entre

variáveis quantitativas, no Capítulo 7 foram apresentadas as técnicas estatísticas chamadas de correlação e

regressão linear.

Entretanto, em muitas situações práticas as características nas quais o pesquisador está

interessado não podem ser adequadamente medidas na forma quantitativa, tal que as variáveis são observadas

através de um conjunto disjunto de categorias, dando origem às denominadas variáveis categóricas ou

qualitativas. O conjunto de informações sobre um fenômeno aleatório observado através de variáveis

categóricas é chamado de dados categóricos ou dados qualitativos. Usualmente são organizados em tabelas de

contingência, as quais consistem essencialmente nas freqüências de indivíduos observadas em cada uma das

categorias mutuamente exclusivas e exaustivas das variáveis ou do cruzamento de duas ou mais variáveis.

Alguns estudos reais que envolvem a observação de variáveis categóricas foram brevemente

comentados na Seção 1.1, destacando os exemplos relativos aos dados dispostos na Tabela 1.1 e na Tabela 1.3,

os quais serão retomados nas próximas seções.

Neste capítulo serão apresentados alguns métodos estatísticos básicos para a análise de dados

categóricos, destacando o teste de aderência, o teste de independência e o teste de homogeneidade de

populações. Convém ressaltar que os métodos de análise abordados não levam em conta a ordem das categorias

das variáveis envolvidas, ou seja, tratam as variáveis como nominais. Ao leitor que deseja aprofundar o estudo

sobre métodos de análise estatística de dados qualitativos sugere-se consultar a literatura estatística clássica, tais

como Agresti (1990), Agresti (1984), Everitt (1992) ou Hosmer & Lemeshow (1989).


139 8.1 Teste de Aderência

Neste tipo de teste de hipóteses, a partir dos dados observados na amostra deseja-se avaliar

se a distribuição de probabilidade da variável sob investigação está de acordo com a distribuição especificada

sob a hipótese nula. Em outras palavras, deseja-se verificar se os dados observados na amostra apresentam uma

boa aderência ao modelo probabilístico especificado. Em caso afirmativo, pode-se utilizar o modelo postulado

para descrever a distribuição de probabilidade na população, mas em caso contrário, o modelo probabilístico

postulado é inadequado.

Existem diversas maneiras de realizar testes de aderência, dentre os quais destacam-se o teste

de aderência, o teste de Kolmogorov-Smirnov e procedimentos gráficos. De fato, um procedimento gráfico

para avaliar a aderência dos dados à distribuição normal de probabilidade, denominado de Q-Q plot, já foi

apresentado nos capítulos anteriores. Procedimentos similares também estão disponíveis para outras

distribuições de probabilidade, porém requerem a utilização de procedimentos computacionais, os quais estão

disponíveis nos pacotes estatísticos tradicionais (SPSS, S-Plus, SAS, etc.).

2χ

Nesta seção será abordado apenas o teste de aderência baseado na estatística de Pearson,

o qual foi introduzido por Karl Pearson em 1900 e é considerado um dos primeiros métodos de inferência

estatística. Os demais procedimentos estão amplamente descritos na literatura, cabendo destacar Agresti (1990,

p.42), Daniel (1974, p.302), Zar (1996, p.457), Mood, Graybill e Boes (1974, p.442) e Costa Neto (1977,

p.130).

2χ

Para desenvolver os aspectos metodológicos do teste de aderência é conveniente utilizar o

exemplo hipotético abaixo, onde deseja-se avaliar se a ocorrência de acidente de trabalho entre os membros da

equipe de enfermagem de determinado hospital é igualmente provável em todos os dias da semana.

Exemplo 8.1: Devido às características intrínsecas da atividade, acidentes de trabalho envolvendo enfermeiros

e assistentes de enfermagem de um hospital constituem um enorme risco para a saúde dos membros da equipe

de enfermagem. Assim, na implementação de um programa de redução de acidentes no Hospital HC foi

estabelecido, como procedimento inicial, a identificação do dia da semana em que os acidentes acontecem. O

objetivo é avaliar se a ocorrência de acidentes de trabalho é igualmente provável em todos os dias da semana;

caso contrário, a identificação das causas e ações preventivas deveriam ser adotas para evitar acidentes,

especialmente nos dias em que ocorrem com maior freqüência. As informações relativas aos acidentes ocorridos

nos últimos 12 meses no Hospital HC foram obtidas junto aos registros do hospital. Em particular, considere os

dados da Tabela 8.1 que contém a distribuição de freqüências de acidentes com seringas que ocorreram nos

diferentes dias da semana. Para o nível de significância de 5%, é possível afirmar que a probabilidade de ocorrer

acidentes com seringas é igual para todos os dias da semana?


140

Tabela 8.1 – Freqüências de acidentes com seringas ocorridos nos últimos 12 meses entre enfermeiros e assistentes de enfermagem do Hospital HC, de acordo como dia da semana.

Dia da Semana Número de Acidentes Observados ( )iO

Segunda-feira 3

Terça-feira 2

Quarta-feira 5

Quinta-feira 5

Sexta-feira 4

Sábado 9

Domingo 12

Total 40 Nota: Dados fictícios.

Neste problema, a hipótese nula especifica que o número de acidentes é igual em todos os

dias da semana, o que resultaria que a chance do acidente com seringa acontecer em uma segunda feira, por

exemplo, é igual à chance de ocorrer em qualquer outro dia da semana. Em outras palavras, se de fato a

probabilidade de acontecer um acidente com seringa é igual para todos os dias da semana, então o número de

acidentes deveria ser aproximadamente equivalente para todos os dias. Os dados observados é que vão

evidenciar se a hipótese nula é verdadeira ou não, mediante a comparação do número de acidentes observados

em cada dia da semana com o correspondente número de acidentes esperados se a hipótese nula é verdadeira.

É importante observar que não está sendo modelada a probabilidade de um acidente

acontecer, mas sim a probabilidade do dia da semana em que o acidente ocorre. Assim, a variável aleatória sob

consideração é o “dia da semana em que o acidente ocorre”, observada através das sete categorias mutuamente

exclusivas e exaustivas, correspondentes ao dia da semana, isto é, Segunda, Terça, Quarta, Quinta, Sexta,

Sábado, Domingo. Portanto, o espaço amostral é

=Ω Segunda, Terça, Quarta, Quinta, Sexta, Sábado, Domingo.

Por simplicidade, considere a variável aleatória X: dia da semana em que o acidente ocorre,

tal que a hipótese nula que os dias da semana são equiprováveis pode ser escrita como

[ ] [ ] [ ]

[ ] [ ] [ ] [ ] .gominDoXPSábadoXPSextaXPaintQuXP

QuartaXPTerçaXPSegundaXP:H o

71 ========

======


141

Por outro lado, a hipótese alternativa especifica que a probabilidade do dia da semana em

que o acidente ocorre é diferente de 71 , para pelo menos um dia da semana. Alternativamente, as hipóteses

podem ser escritas através das freqüências de acidentes em cada dia da semana, ou seja,

.anaias da semtodos os dIGUAIS em SÃOOidentes NÃcias de acas freqüên:Hanaias da semtodos os dIGUAIS em Oidentes SÃcias de acas freqüên:H

1

0

As freqüências esperadas sob a hipótese nula são determinadas multiplicando o número de

acidentes observados na amostra pela probabilidade do acidente ocorrer no dia da semana correspondente. No

exemplo, os dias da semana são equiprováveis quanto à ocorrência de acidente com seringas, tal que as

freqüências esperadas são tais que

7157140

71 ,nEi =×=×= ,

onde o índice i indica os diferentes dias da semana. Isto significa que se a hipótese nula é verdadeira, então

deveriam ser esperados 5,71 (aproximadamente seis) acidentes em cada dia da semana.

Note que existem discrepâncias entre as freqüências observadas O e as freqüências

esperadas , tal que quanto maiores as diferenças entre elas, então maiores as evidências de que a hipótese

nula é falsa. Reciprocamente, se as freqüências observadas estão próximas das respectivas freqüências

esperadas, então os dados amostrais evidenciam a veracidade da hipótese nula. Assim, a estatística de teste é

baseada nas diferenças entre as freqüências observadas e esperadas sob a hipótese nula, sendo definida por

i

iE

( )∑=

−=χ

C

i i

iicalc E

EO

1

22 .

Esta estatística é chamada de estatística de Pearson e, sob a hipóse nula, segue uma

distribuição de probabilidade de qui-quadrado com

2χ

1−C graus de liberdade, onde é o número de categorias

da variável em estudo. É vital mencionar que a adequação da distribuição qui-quadrado como distribuição de

referência desta estatística depende de algumas condições que serão detalhadas posteriormente. Naturalmente, a

decisão estatística do teste de hipóteses deve ser tomada levando-se em consideração o nível de significância

C

α

fixado.

Para a execução do teste de hipóteses podem ser utilizadas as etapas consideradas

anteriormente, como descrito a seguir:


142


X: dia da semana em que o acidente ocorre, observado mediante as seguintes categorias:

Segunda, Terça, Quarta, Quinta, Sexta, Sábado, Domingo


.anaias da semtodos os dIGUAIS em SÃOOidentes NÃcias de acas freqüên:Hanaias da semtodos os dIGUAIS em Oidentes SÃcias de acas freqüên:H

1

0


4ª) Determinar o valor de χ tabelado: Como a variável em estudo tem C categorias de

resposta, então a estatística de teste deve ser comparada com a distribuição qui-quadrado com

2 7=

61 =−C

graus de liberdade, isto é, ( )∑

=

χ−

=C

i i

ii ~E

EO

1

26

2

χcalc2 . Assim, para 050,=α o valor tabelado é

, onde χ representa o valor da distribuição de probabilidade qui-quadrado com 5921220506 ,,; =χ 2

r( α); r

graus de que delimita a área a sua direita. α


Dia da Semana

Freqüência Observada

( )iO

Freqüência Esperada ( )iE

( )ii EO −

( )2ii EO −

( )2

i

ii

EEO −

Segunda-feira 3 5,71 -2,71 7,37 1,29

Terça-feira 2 5,71 -3,71 13,80 2,41

Quarta-feira 5 5,71 -0,71 0,51 0,09

Quinta-feira 5 5,71 -0,71 0,51 0,09

Sexta-feira 4 5,71 -1,71 2,94 0,51

Sábado 9 5,71 3,29 10,80 1,89

Domingo 12 5,71 6,29 39,51 6,91

Total 40 40 0 13,2


143

A tabela acima apresenta os cálculos intermediários e o valor observado para a estatística de teste, tal que

( )∑=

=+++=−

=χ7

1

22 213916412291

i i

iicalc ,,,,

EEO

L .


Se ⇒ rejeita-se para o nível ( )2

12

α−χ>χ ;Ccalc 0H α fixado, em favor de 1H

Se ⇒ não se rejeita para o nível ( )2

12

α−χ≤χ ;Ccalc 0H α fixado

No exemplo, χ , então deve-se rejeitar a hipótese nula para o nível de

significância 5%.

59212213 20506

2 ,, ,;calc =χ>=

7ª) Conclusão:

Há evidências de que no Hospital HC o número de acidentes com seringas entre os enfermeiros

e assistentes de enfermagem não é igual nos diferentes dias da semana, para o nível de significância 5%. Note

que o número de acidentes que ocorrem aos domingos é muito superior à freqüência que seria esperada,

sugerindo que acidentes com seringas ocorrem com maior freqüência aos domingos do que nos demais dias.

Quanto às causas do aumento do número de acidentes aos domingos, seria possível especular sobre dois motivos

iniciais: a) aos domingos existe um menor número de profissionais trabalhando, ficando sobrecarregados; ou, b)

as escalas de trabalho contemplaram profissionais com menos consciência ou treinamento para reduzir os riscos

acidentes.

Para finalizar, convém mencionar que o teste de aderência pode ser útil em um grande

número de situações práticas, podendo ser utilizado, por exemplo, para avaliar se a distribuição normal de

probabilidade é plausível para representar a verdadeira distribuição de probabilidade de uma característica

contínua. Um exemplo para tipo de aplicação é detalhadamente apresentado por Daniel (1974, p.302). As

condições necessárias para usar a distribuição qui-quadrado como distribuição de referência da estatística de

Pearson serão apresentadas na Seção 8.4.

2χ


144 8.2 Teste de Independência

Um problema muito comum envolvendo variáveis qualitativas surge quando os

indivíduos que formam a amostra aleatória são classificados segundo duas ou mais variáveis categóricas e

deseja-se avaliar se estas variáveis são estatisticamente independentes ou se estão associadas de alguma

maneira. No caso em que são consideradas apenas duas variáveis, a independência entre elas pode ser avaliada

através do teste de independência ou de associação que será abordado nesta seção. Porém, quando há o

interesse de considerar simultaneamente mais variáveis, recomenda-se a utilização de métodos estatísticos mais

elaborados, tais como modelos log-lineares, regressão logística ou análise de correspondências. Devido às

limitações de tempo, não será possível explorar estas técnicas de análise; ao leitor interessado sugere-se

consultar, por exemplo, Everitt (1992, p.73), Hosmer & Lemeshow (1989), Escofier & Pagès (1992), Lebart,

Morineau e Piron (1995).

n

2χ

Na Seção 1.1 foi apresentado o estudo observacional que trata da classificação de 1398

crianças segundo o tamanho relativo de amígdala e se eram ou não portadoras da bactéria Streptococcus

pyogenes, cujos dados estão dispostos na Tabela 1.1. Este exemplo será retomado para apresentar o

desenvolvimento do teste χ de independência no contexto de duas variáveis categóricas. 2

Exemplo 8.2: Este estudo observacional foi conduzido para avaliar a relação entre a presença da bactéria

Streptococcus pyogenes e o aumento das amígdalas em crianças. Por conveniência, a Tabela 8.2 reproduz os

dados referentes à classificação de 1398 crianças entre 0 a 15 anos de acordo com o tamanho relativo de suas

amígdalas e com a característica “portadora” ou “não portadora” de Streptococcus pyogenes. A informação foi

inicialmente apresentada por Holmes & Williams (1954) e os dados têm sido amplamente analisados na

literatura, tais como por Armitage (1955), Armitage (1974), McCullagh (1980) e Vigo (1994).

O objetivo básico é identificar se o aumento das amígdalas em crianças está ou não

associado à presença da bactéria Streptococcus pyogenes. Em particular, deseja-se avaliar se crianças portadoras

da bactéria possuem maior risco de apresentar amígdalas aumentadas. Contudo, face às limitações naturais do

curso, será apresentada apenas a análise através do teste de independência; o leitor interessado em

aprofundar a discussão da análise do problema é convidado a consultar as referências citadas, nas quais são

relatados os resultados mediante a utilização de métodos estatísticos mais sofisticados.

2χ


145

Tabela 8.2 – Freqüências de indivíduos segundo o tamanho relativo das amígdalas e a presença de Streptococcus pyogenes.

Streptococcus Tamanho relativo da amígdala

pyogenes Presente mas não aumentada

Aumentada Grandemente aumentada

Total

Portadoras 19 29 24 72

Não portadoras 497 560 269 1326

Total 516 589 293 1398

Fonte: McCullagh (1980).

Na Seção 3.1 foi apresentada a definição de independência entre dois eventos A e B

pertencentes ao mesmo espaço de probabilidade Ω . Esta definição especifica que os eventos A e B são

independentes se e somente se a probabilidade de ocorrência simultânea é igual ao produto das probabilidades

individuais, ou seja, se [ ] [ ] [ ]BPAPBAP ×=∩ .

Essa definição de independência pode ser estendida para o caso de duas variáveis aleatórias

discretas, tal que as variáveis categóricas X e Y são independentes se e somente se a sua distribuição conjunta é

o produto das distribuições de probabilidade marginais.

Para facilitar a compreensão, considere o caso populacional com duas variáveis categóricas

X e Y observadas mediante e C categorias disjuntas, respectivamente. Seja a probabilidade de que um

indivíduo da população tenha simultaneamente a característica i da variável X e a característica j da variável Y,

para todo e para todo , ou seja,

L ijp

L,,,i L21= C,,,j L21=

( ) ( )[ ] ,C,, j,L e ,, i; jYiXPpij LL 2121 =∀=∀=∩== .

A distribuição de probabilidade conjunta das variáveis categóricas X e Y pode ser

organizada como na Tabela 8.3. Note que as probabilidades conjuntas estão dispostas no corpo da tabela,

enquanto que o total linha contém a distribuição marginal da variável Y e o total coluna contém a distribuição

marginal da variável X. Assim, pela notação apresentada a distribuição de probabilidade da variável X é dada

por

ijp

[ ] L,,,i;iXP.pi L21 =∀==

e a distribuição de probabilidade da variável Y é

[ ] C,,,;jYP.p j L21j =∀== .


146

Tabela 8.3 – Distribuições de probabilidades conjunta e marginal das variáveis categóricas X e Y.

Categorias da Variável Y Categorias da

Variável X 1 2 ... C

Total

1 11p 12p ... Cp1 .p1

2 21p 22p ... Cp2 .p2

M M M M M

L 1Lp 2Lp ... LCp . pL

Total 1.p 2.p ... C.p 1

O critério de independência para variáveis discretas, mencionado acima, especifica que as

variáveis categóricas X e Y são independentes se e somente se as probabilidades conjuntas são iguais ao produto

das correspondentes probabilidades marginais, podendo ser escrito como

( ) ( )[ ] [ ] [ ] ,C,, j ,L ,, i; jYPiXPjYiXP LL 21e21 =∀=∀=×===∩= ,

ou, equivalentemente, ,C,, j ,L ,, i.p.pp jiij LL 21e21 ; =∀=∀×= .

No teste χ de independência a hipótese nula especifica que as variáveis em estudo são

independentes, enquanto que a hipótese alternativa postula que existe associação entre as variáveis.

Consequentemente, as hipóteses estatísticas podem ser escritas por

2

⇒=∀=∀×= 21 e 21 0 C,,,jL,,,i;.p.pp:H jiij LL as variáveis são independentes

⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas.

De forma similar ao teste de aderência apresentado na Seção 8.1, o teste χ de

independência também é baseado na estatística χ de Pearson, porém é definida de maneira levemente

diferente, ou seja,

2

2

( )∑ ∑= =

−=χ

L

i ij

ijijC

jcalc E

EO

1

2

1

2 ,


147 onde e representam, respectivamente, a freqüência observada e a freqüência esperada da célula de

contingência associada à categoria i da variável linha (X) e à categoria j da variável coluna (Y).

ijO ijE

A Tabela 8.4 ilustra a situação genérica onde os indivíduos da amostra são classificados

segundo as variáveis X e Y. Assim, esta tabela informa o número de indivíduos observados em cada célula de

contingência resultante do cruzamento das duas variáveis, bem como o número de indivíduos em cada categoria

das variáveis, isoladamente.

n

Tabela 8.4 – Freqüências observadas nas células de contingência resultantes do cruzamento das variáveis categóricas X e Y, na amostra de n indivíduos.

Categorias da Variável Y Categorias da

Variável X 1 2 ... C

Total

1 11O 12O ... CO1 . n1

2 21O 22O ... CO2 .n2

M M M M M

L 1LO 2LO ... LCO .nL

Total 1.n 2.n ... C.n n

Convém salientar que O é a freqüência observada na célula de contingência

correspondente à categoria i da variável X e à categoria j da variável Y, ou seja , é o número de indivíduos da

amostra que foram classificados simultaneamente na categoria i da variável X e na categoria j da variável Y.

Note que

ij

L,,,i;O.nC

jiji L21

1

=∀=∑=

representa o número de indivíduos da amostra classificados na categoria i da variável X, enquanto que

C,,,j;O.nL

iijj L21

1

=∀=∑=

representa o número de indivíduos da amostra classificados na categoria j da variável Y. Naturalmente,

∑∑∑∑= ===

===L

i

C

jij

C

jj

L

ii O.n.nn

1 111

.


148

As freqüências esperadas sob a hipótese nula, estimadas pelo método da máxima

verossimilhança, são determinadas por

n.n.n

E jiij

×= .

É vital perceber que o teste de independência depende das diferenças entre as freqüências

observadas e esperadas O ijij E− , tal que duas variáveis são independentes se estas diferenças são pequenas.

Assumindo que as freqüências observadas seguem uma distribuição de probabilidade multinomial, se as

freqüências esperadas sob a hipótese nula não são muito pequenas, então a estatística de teste

( )∑ ∑= =

−=χ

L

i

ijC

jcalc E

O

1 1

2 ij

ijE 2

tem aproximadamente distribuição qui-quadrado com ( ) ( 11 )−×− CL graus de

liberdade. Assim, a hipótese nula é rejeitada para valores grandes da estatística de Pearson, que deve ser

comparada com o valor tabelado da distribuição qui-quadrado com

2χ

( ) ( )11 −×− CL graus de liberdade, para o

nível de significância fixado. α

Os detalhes da execução e da interpretação do teste de hipóteses podem ser melhor

compreendidos utilizando os dados do Exemplo 8.2, seguindo as etapas descritas anteriormente.


Variável linha → Bactéria Streptococcus pyogenes, com duas categorias: portadoras e não portadoras

Variável coluna → Tamanho relativo de amígdala, com três categorias: presente mas não aumentada,

aumentada e grandemente aumentada



⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas


0:H Não existe associação entre o tamanho relativo das amígdalas em crianças e a presença ou

ausência da bactéria Streptococcus pyogenes

:H1 Existe associação entre o tamanho relativo das amígdalas em crianças e a presença ou ausência da

bactéria Streptococcus pyogenes.



149

4ª) Determinar o valor de χ tabelado: 2

Variável linha com duas categorias: portadoras e não portadoras ⇒ 2=L

Variável coluna com três categorias: presente mas não aumentada, aumentada e grandemente

aumentada ⇒ 3=C

Assim, a estatística de teste deve ser comparada com a distribuição qui-quadrado com

( ) ( ) 22111 =×=−×− CL graus de liberdade, isto é, ( ) 2

21

2

1

2 )(

L

i ij

ijijC

jcalc ~

EEO

χ−

=∑ ∑= =

α);

χ . Para

o valor tabelado é χ , onde representa o valor da distribuição de

probabilidade qui-quadrado com

050,=α 99520502 ,,; = 2χ r(

r graus de que delimita a área α a sua direita.


As freqüências esperadas são determinadas por n

.n.nE ji

ij×

= , tal que

424891398

5161326 58261398

51672 1221

1111 ,

n.n.nE,

n.n.nE =

×=

×==

×=

×=

675581398

5891326 33301398

58972 2222

2112 ,

n.n.nE,

n.n.nE =

×=

×==

×=

×=

912771398

2931326 09151398

29372 3223

3113 ,

n.n.n

E,n

.n.nE =

×=

×==

×=

×=

Freqüência Observada

( )iO

Freqüência Esperada

( )iE

( )ii EO −

( )2ii EO −

( )2

i

ii

EEO −

19 26,58 -7,58 57,46 2,16 29 30,33 -1,33 1,77 0,06 24 15,09 8,91 79,39 5,26

497 489,42 7,58 57,46 0,12 560 558,67 1,33 1,77 0,00 269 277,91 -8,91 79,39 0,29

1398 1398 0 7,89

A tabela acima apresenta os cálculos intermediários e o valor observado para a estatística de teste, tal que

( )∑∑= =

=+++=−

=χ2

1

3

1j

22 897290060162

i ij

ijijcalc ,,,,

EEO

L .


150


Se ⇒ rejeita-se para o nível ( ) ( )2

1 12

α−×−χ>χ ;CLcalc 0H α fixado, em favor de 1H

Se ⇒ não se rejeita para o nível ( ) ( )2

1 12

α−×−χ≤χ ;CLcalc 0H α fixado

No exemplo, , então deve-se rejeitar a hipótese nula para o nível de

significância 5%.

995897 20502

2 ,, ,;calc =χ>=χ

7ª) Conclusão:

Há evidências de que o tamanho relativo das amígdalas em crianças está associado com a

bactéria Streptococcus pyogenes, para o nível de significância 5%. A comparação das freqüências observadas

com as freqüências esperadas sob a hipótese nula sugere que o tamanho relativo das amígdalas é maior para

crianças portadoras da bactéria em relação às não portadoras.

Na situação em que ambas as variáveis possuem duas categorias de resposta, a classificação dos

indivíduos produz uma tabela de contingência 2 2× , como ilustra a Tabela 8.5. Para simplificar a notação, as

freqüências observadas podem ser representadas por , de tal forma que a estatística de Pearson

pode ser calculada por

dc,b,a e 2χ

( )( ) ( ) ( ) ( )dbcadcba

bcadncalc ++++

−=χ

2

2 ,

cuja distribuição de referência é a distribuição de probabilidade qui-quadrado com 1 grau de liberdade. No

entanto, a distribuição qui-quadrado é uma distribuição contínua de probabilidade e está sendo usada como uma

aproximação da distribuição discreta de probabilidade das freqüências observadas. Mediante a utilização da

denominada correção de continuidade de Yates, é possível melhorar esta aproximação. A correção de Yates

consiste essencialmente em subtrair a constante 0,5 às discrepâncias positivas entre as freqüências observadas e

esperadas ( e somar 0,5 às discrepâncias negativas. A estatística de teste implementada com a correção

de Yates pode ser definida por

)EO −

( )( ) ( ) ( ) ( )

( )∑∑= =

−−=

++++

−−=χ

2

1

2

1

2212

2

50

i j ij

ijijcalc E

EO

dbcadcban,bcadn

,


151 onde o termo bcad − representa o valor absoluto da diferença ( )bcad − , ou seja, o sinal é sempre positivo.

Tabela 8.5 – Tabela de contingência para duas variáveis dicotômicas.

Variável Y

Variável X 1 2

Total

1 a b ba +

2 c d dc +

Total ca + db + n

Exemplo 8.3: Os indivíduos de uma amostra de 5375 casos de morte por tuberculose foram classificados de

acordo com o sexo e com o tipo de tuberculose, mediante as categorias tuberculose do sistema respiratório ou

outro tipo de tuberculose. Os dados são apresentados por Everitt (1992, p.3) e reproduzidos na Tabela 8.6. O

objetivo básico é avaliar se o tipo de tuberculose que causou a morte está associado com o sexo dos indivíduos.

Tabela 8.6 – Freqüências de indivíduos mortos por tuberculose, classificados quanto ao sexo e o tipo de tuberculose.

Sexo

Tipo de Tuberculose Masculino Feminino

Total

Sistema respiratório 3534 1319 4853

Outro tipo 270 252 522

Total 3804 1571 5375

Fonte: Everitt (1992, p.3)


Variável linha → Tipo de Tuberculose: sistema respiratório e outro tipo de tuberculose

Variável coluna → Sexo: masculino e feminino



⇒×≠ j i,um par elo menos ; para pp..pp:H jiij 1 as variáveis estão associadas


0:H Não existe associação entre o tipo de tuberculose que causou a morte do indivíduo e o sexo

:H1 Existe associação entre o tipo de tuberculose que causou a morte do indivíduo e o sexo


152


4ª) Determinar o valor de χ tabelado: 2

Variável linha com duas categorias: ⇒ 2=L

Variável coluna com duas categorias: ⇒ 2=C


( ) ( ) 11111 =×=−×− CL grau de liberdade, isto é, ( ) 2

11

2

1

2 )(

L

i ij

ijijC

jcalc ~

EEO

χ−

=χ ∑ ∑= =

α);

. Para

o valor tabelado é , onde representa o valor da distribuição de


050,=α 84320501 ,,; =χ 2χ r(



( )( ) ( ) ( ) ( )

( )157138045224853

537550270131925235345375

50 222

×××

×−×−××=

++++

−−=χ

,dbcadcba

n,bcadncalc

( ) .,,..calc 39100

157138045224853568724385345375 2

2 =×××

−×=χ



1 12



1 12



significância 5%.

84339100 20501

2 ,, ,;calc =χ>=χ

7ª) Conclusão:

Há evidências de que o sexo e o tipo de tuberculose que causou a morte do indivíduo estão

associados, para o nível de significância 5%. A comparação das freqüências observadas com as freqüências

esperadas sob a hipótese nula sugere que a proporção de mortes por tuberculose do sistema respiratório é maior

em homens do que em mulheres.


153 8.3 Teste de Homogeneidade

No teste de independência apresentado na seção anterior, o procedimento de amostragem

consiste essencialmente em selecionar uma amostra aleatória de e classificá-los de acordo com as categorias

das duas variáveis em investigação. Entretanto, em muitas situações práticas o objetivo é avaliar a equivalência

ou não de tratamentos (drogas, procedimentos cirúrgicos, dietas, terapias, etc.), onde a resposta é observada

através de duas ou mais categorias. Neste contexto, ao invés de apenas uma amostra, amostras independentes

são delineadas e extraídas ao acaso da população e ao término do experimento os indivíduos são classificados

nas categorias da variável resposta. Os dados observados podem ser resumidos em uma tabela de

contingência análoga à Tabela 8.4.

n

L

2

L

≥C

De maneira similar, se fosse possível classificar todos os indivíduos das populações nas

categorias da variável resposta, as probabilidades das células de contingência poderiam ser organizadas como

na Tabela 8.7. É importante observar que representa a probabilidade de um indivíduo apresentar resposta na

categoria j, dado foi submetido ao tratamento i, ou seja,

LC

ijp

[ ] ,C,,j,L,,i; iTratamentometido ao j| foi subCategoria sposta na RePpij LL 21 e 21 =∀=∀= .

Tabela 8.7 – Distribuições de probabilidades associadas aos tratamentos. LCategorias da Variável Resposta

Tratamento 1 2 ... C

Total

1 11p 12p ... Cp1 1

2 21p 22p ... Cp2 1

M M M M M

L 1Lp 2Lp ... LCp 1

-

A hipótese nula especifica que as populações (os tratamentos) são homogêneas, sendo

escrita como

L

C,,,j;ppp:H jLjj LL 21 210 =∀=== ,

enquanto que a hipótese alternativa especifica que existe pelo menos uma diferença nas probabilidades acima.

Como no teste de independência, o teste de homogeneidade é baseado na estatística de Pearson 2χ


154

( )∑ ∑= =

−=χ

L

i ij

ijijC

jcalc E

EO

1

2

1

2 .

As freqüências esperadas sob a hipótese nula são estimadas de maneira análoga ao teste de

independência, ou seja,

n.n.n

E jiij

×= .

É importante mencionar que, para amostras grandes, a comparação de dois tratamentos com

respostas dicotômicas conduz ao teste Z (bilateral) para comparação duas proporções populacionais com

amostras independentes descrito na Seção 6.2.6. Para ilustrar a aplicação do teste de homogeneidade de

populações, é conveniente retomar o exemplo brevemente descrito na Seção 1.1, relativo ensaio clínico

planejado para comprovar a eficácia do AZT (zidunovina) no prolongamento da vida de aidéticos.

Exemplo 8.4: Os dados reproduzidos na Tabela 8.8 referem-se aos resultados do ensaio clínico planejado

para comprovar a eficácia do AZT (zidovudina) no prolongamento da vida de aidéticos, os quais foram

publicado por Fischl et al. (1987) e posteriormente discutidos por Soares & Siqueira (1999, p.176-183).

O experimento considerou essencialmente o acompanhamento de 282 pacientes aidéticos

durante 24 semanas de tratamento, os quais foram aleatoriamente divididos em dois grupos: o grupo de

pacientes tratados com AZT (composto por 145 aidéticos) e o grupo controle, composto por 137 aidéticos que

receberam o placebo. A variável resposta (desfecho) é a situação do paciente (sobrevivente ou não sobrevivente)

após as 24 semanas de tratamento.

Tabela 8.8 – Número de sobreviventes após 24 semanas de tratamento com AZT ou Placebo

SITUAÇÃO GRUPO VIVO MORTO

Total

AZT 144 1 145 PLACEBO 121 16 137 Total 265 17 282 Fonte: Soares & Siqueira (1999, p.177)

A avaliação da eficácia do AZT para o prolongamento da vida de aidéticos consiste

basicamente em comparar as proporções de sobreviventes dos dois grupos. Entre os indivíduos tratados com

AZT, a proporção de sobreviventes é 9930145144 ,pAZT == , enquanto que no grupo de pacientes que receberam


155

o placebo é 8830137121 ,pPLACEBO == . Aparentemente a proporção de sobreviventes é maior no grupo de

pacientes tratados com AZT, mas para estender este resultado para a população é vital avaliar se as diferenças

observadas não são devidas ao acaso, mediante a utilização do teste de homogeneidade.

⇒== 22122111 pp;pp

≠≠ e/ou 22122111 pppp

2

( ) 1111 =×=−× C


Tratamentos: AZT e Placebo

Variável resposta → Sobrevivência após 24 semanas de tratamento: vivo ou morto


0 :H o tratamento com AZT é equivalente ao PLACEBO

⇒ 1 :H os tratamentos não são equivalentes


4ª) Determinar o valor de χ tabelado:

Variável linha com duas categorias: ⇒ 2=L

Variável coluna com duas categorias: ⇒ 2=C


( )1−L grau de liberdade, isto é, ( ) 2

11

2

1

2 )(

L

i ij

ijijC

jcalc ~

EEO

χ−

=χ ∑ ∑= =

α);

. Para

o valor tabelado é , onde representa o valor da distribuição de


050,=α 84320501 ,,; =χ 2χ r(



As freqüências esperadas sob a hipótese nula são tais que n

.n.nE ji

ij×

= , ou seja,


156

268282

17137 74128282

265137

748282

17145 26136282

265145

1111

1111

,E,E

,E,E

=×

==×

=

=×

==×

=

A estatística de teste é determinada por

( ) ( ) ( ) ( ) ( ) 01715268

2681674128

741281377487481

2613626136144

2222

1

2

1

2 ,,

,,

,,,

,,

EEOL

i ij

ijijC

jcalc =

−+

−+

−+

−=

−=χ ∑ ∑

= =

,

mas como é recomendado utilizar a correção de Yates, a estatística de teste fica

( )( ) ( ) ( ) ( )

( )1413

1726513714528250121116144282

50 22

2 ,,

dbcadcban,bcadn

calc =×××

×−×−××=

++++

−−=χ .



1 12



1 12



significância 5%.

8431413 20501

2 ,, ,;calc =χ>=χ

7ª) Conclusão:

Há evidências de que a proporção de pacientes com AIDS tratados com AZT que sobreviveram

após 24 semanas de tratamento é diferente da proporção de sobreviventes quando tratados com o placebo, para o

nível de significância 5%, sugerindo que sob as condições do experimento o tratamento com AZT prolonga a

vida de pacientes aidéticos.


157

8.4 Considerações sobre a Estatística 2χ de Pearson

Os teste de hipótese baseados na estatística de Pearson abordados nas seções anteriores

devem ser utilizados com alguma cautela, pois uma distribuição discreta de probabilidade está sendo

aproximada pela distribuição qui-quadrado, que é uma distribuição contínua de probabilidade.

Conseqüentemente, a adequação da distribuição de referência qui-quadrado depende criticamente do número de

freqüências esperadas sob a hipótese nula associadas a cada célula de contingência. Para o caso de tabelas de

contingência recomenda-se que

2χ

22× sempre seja utilizada a correção de Yates para melhorar a aproximação,

mas ainda não é uma condição suficiente.

Everitt (1992, p.39) descreve as condições que permitem a adequada utilização da

distribuição de probabilidade qui-quadrado como distribuição de referência da estatística de Pearson.

Variantes destas condições foram apresentadas por diversos autores, porém é conveniente utilizar as regras

propostas por W.C. Cochran, que especificam que todas as freqüências esperadas devem ser maiores ou iguais a

1 e no máximo 20% das células de contingência podem ter freqüências esperadas menores do que 5.

2χ

Se estas condições não podem ser atendidas, então recomenda-se a utilização do teste exato

de Fisher ou de um teste de significância baseado na generalização do teste exato de Fisher para tabelas 2 2× .

No entanto, face ao enorme esforço computacional necessário para a execução deste tipo de testes, eles não

podem ser abordados neste momento, mas estão implementados em diversos procedimentos computacionais,

tais como os pacotes estatísticos SPSS, SAS, S-plus, STATA, etc. O leitor interessado neste tipo de testes pode

consultar, por exemplo, Everitt (1992, p.18) ou Zar (1996, p.540-552).


158

9 Referências Bibliográficas

AGRESTI, A. (1984). Analysis of Ordinal Categorical Data. New York, Wiley.

AGRESTI, A. (1990). Categorical Data Analysis. New York, Wiley.

ARMITAGE, P. (1955). Tests for linear trends in proportions and frequencies. Biometrics. 11: 375-385.

ARMITAGE, P. (1974). Statistical Methods in Medical Research. New York, Wiley.

ARMITAGE, P. & DOLL, R. (1962). Stochastic models for carcinogenesis. Proceedings of the 4th Berkeley

Symposium. 19-38.

AYUB, R.M.; ROSSATO, R.; MAGNI, J.R.T. e PRATI, F. (1997). Classificação das lesões na pré-temporada

da categoria júnior do Grêmio Foot-Ball Porto Alegrense quanto ao mecanismo de lesão e o Vo2 máximo.

Nosso Jornal - Ano 2 - N° 9, Agosto/97. Faculdade de Ciências da Saúde e Faculdade de Nutrição e

Fonoaudiologia, Porto Alegre.

BOLFARINE, H. & BUSSAB, O. (1994). Elementos de Amostragem. 11° Simpósio Nacional de

Probabilidade e Estatística. Belo Horizonte, MG.

BRESLOW, N. E. & DAY, N. E. (1980). Statistical Methods in Cancer Research - The Analysis of Case-

Control Studies. Lyon, IARC Scientific Publications.

BRESLOW, N. E. & DAY, N. E. (1987). Statistical Methods in Cancer Research - The Design and Analysis

of Cohort Studies. Lyon, IARC Scientific Publications.

CURETON, E.E. (1978). Psychometrics. Em: KRUSKAL, W.H. & TANUR, J.M. (Editores). International

Encyclopedia of Statistics, p.764-782. New York, The Free Press.

COCHRAN, W.G. (1963). Sampling Techniques. Second Edition. New York: John Wiley.

COSTA NETO, P.L. de O. (1977). Estatística. São Paulo, Editora Edgar Blücher LTDA.

DANIEL, W.W. (1974). Biostatistics: A Foundation for Analysis in the Health Sciences. New York, Wiley.

DANTAS, C.A.B. (1997). Probabilidade: Um Curso Introdutório. São Paulo, Edusp.

DRAPER, N.R. & SMITH, H. (1981). Applied Regression Analysis. Second Edition. New York, Wiley.

ESCOFIER, B. & PAGÈS, J. (1990). Análisis Factoriales Simples y Múltiples: Objetivos, métodos e

interpretación. Tradución de: FDEZ., E.A..; AGUIRRE, K.F.; CALVO, M.I.L.; LAESPADA, J.M.P. e

CASTRO, A. Z. (1992). Servício Editorial de la Universidad del País Vasco, Bilbao.

EVERITT, B.S. (1992). The Analysis of Contingency Tables. Second Edition. London, Chapman & Hall.

FISCHL, M.A., RICHMAN, D.D., GRIECO, M.H. et al. (1987). The efficacy of azidothymidine (AZT) in

treatment of patients with AIDS and AIDS-related complex. A double-blind, placebo-controlled trial. The

New England Journal of Medicine. 317 (4):185-91.

HOLMES, M.C. & WILLIAMS, R.E.O. (1954). The distribution of carriers of Streptococcus pyogenes among

2413 healthy children. J. Hyg. Camb. 52: 165-179.

HOSMER Jr., D.W. & LEMESHOW, S. (1989). Applied Logistic Regression. New York, Wiley.

IBGE (1993). Normas de Apresentação Tabular. 3ª Edição. Instituto Brasileiro de Geografia e Estatística –

IBGE.


159 JAMES, B.R. (1981). Probabilidade: Um Curso em Nível Intermediário. Rio de janeiro, IMPA-Projeto

Euclides.

JOHNSON, R.A. & WICHERN, D.W. (1988). Applied multivariate statistical analysis. Second Edition. Englewood Cliffs, Prentice-Hall.

KIRKPATRICK, C.H. & ALLING, D.W. (1978). Treatment of chronic oral candidiasis with clotrimazole

troches: a controlled clinical trial. The New England Journal of Medicine. 299: 1201-1203.

KISH, L. (1965). Survey Sampling. New York: John Wiley.

KUZMA, J.W. (1998). Basic Statistic for Health Sciences. Third Edition, Palo Alto, Mayfield Publishing

Company.

LARSON, H.J. (1982). Introduction to Probability Theory and Statistical Inference. Third Edition, New

York, Wiley.

LEBART, L.; MORINEAU, A. e PIRON, M. (1995). Statistique Exploratoire Multidimensionelle. Paris,

Dunod.

MARDIA, K.V., KENT, J.T. e BIBBY, J.M. (1979). Multivariate Analysis. New York,, Academic Press.

McCULLAGH, P. (1980). Regression models for ordinal data. J. R. Statist. Soc. B. 42(2): 109-142.

MOOD, A.M.; GRAYBILL, F.A. e BOES, D.C. (1974). Introduction to the Theory of Statistics. Third Edition,

Singapore, McGraw-Hill International Editions.

MONTGOMERY, D.C. (1991). Design and Analysis of Experiments. Third Edition, New York, Wiley.

MOSES, L.E. et al. (1984). Analyzing data from ordered categories. The New England Journal of Medicine.

111: 442-448.

PEREIRA, B. de B. (1997). Estatística: A Tecnologia da Ciência. Boletim da Associação Brasileira de

Estatística, Ano XIII, Nº 37.

ROHATGI, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. New York,

Wiley.

SNEDECOR, D.W. & COCHRAN, W.G. (1967). Statistical Methods. 6th Edition. Ames: University Press.

TAVARES, E.C. (1995). Estudo ultra-sonográfico e clínico neurológico das hemorragias peri-

intraventricu-lares em recém-nascidos com peso de nascimento menor do que 2000 g. Belo Horizonte,

Faculdade de Medicina da UFMG (Dissertação de Mestrado).

SOARES, J.F.; FARIAS, A. A. e CESAR, C.C. (1991). Introdução à Estatística. Rio de Janeiro, Livros

Técnicos e Científicos Editora S.A.

SOARES, J.F. & SIQUEIRA, A.L. (1999). Introdução à Estatística Médica. Belo Horizonte, Departamento

de Estatística – UFMG.

VIEIRA, S. (1981). Introdução à Bioestatística. Segunda Edição, Rio de Janeiro, Editora Campus.

VIGO, A. (1994). Análise de Experimentos Industriais com Respostas Categóricas Ordenadas: Método de

Taguchi e Modelo de McCullagh. Dissertação de Mestrado, UNICAMP, Campinas, São Paulo.

ZAR, J.H. (1996). Biostatistical Analysis. Upper Saddle River, Prentice Hall.


elementos de bioestatÍstica: um curso introdutÓriogiacomo/livros/elementos de...

Documents