apostila de bioestatística

113

Upload: rodrigo-fioravanti-pereira

Post on 01-Jul-2015

1.750 views

Category:

Education


4 download

DESCRIPTION

Apostila destinada a cursos da saúde. Versão 2014-2

TRANSCRIPT

Page 1: Apostila de Bioestatística

ApostilaBioestatística - MTM 364

Clandio Marques e Rodrigo Fioravanti

Page 2: Apostila de Bioestatística

Conteúdo

I Princípios 4

1 Introdução 51.1 O Método Cientí�co . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 De�nição de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.2 Crítica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.3 Apuração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.4 Exposição ou Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 101.3.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

II Estatística Descritiva 12

2 Conceitos Básicos 132.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Variáveis Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Tabelas e Distribuições de Frequência 163.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.2 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4 Grá�cos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.5 Grá�co de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.6 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.8 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Medidas de Posição 304.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2 Média Aritmética (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.3 Moda (Mo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.4 Mediana (Md) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.5 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Separatrizes 375.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1

Page 3: Apostila de Bioestatística

CONTEÚDO CONTEÚDO

6 Medidas de Dispersão 396.1 Dispersão ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.2 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.4 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.5 Coe�ciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.6 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7 Assimetria e Curtose 447.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447.2 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

III Teoria da Amostragemcom Bioestat 47

8 Amostragem 488.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488.2 Amostragem Probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

8.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 508.2.2 Amostragem Aleatória Estrati�cada . . . . . . . . . . . . . . . . . . . . . . . 518.2.3 Amostragem Aleatória Sistemática . . . . . . . . . . . . . . . . . . . . . . . . 528.2.4 Amostragem Aleatória por Conglomerados . . . . . . . . . . . . . . . . . . . 53

8.3 Amostragem Não-Probabilística: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558.5 Tamanho Mínimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618.7 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618.8 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

IV Estatística Inferencialcom Bioestat 64

9 Probabilidade 669.1 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 679.2 A Interpretação da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 689.3 Probabilidade de Ocorrência de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 689.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699.6 Nível de Con�ança e de Signi�cância . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

10 Estimação de Parâmetros 7110.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7110.2 Intervalo de Con�ança para Média Populacional quando a Variância é Conhecida . . . 7110.3 Intervalo de Con�ança para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 7310.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

11 Testes de Hipóteses 7711.1 A Hipótese Nula e a Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 7711.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7811.3 Uso dos Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

11.3.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8011.3.2 Testes Paramétricos e Não-Paramétricos . . . . . . . . . . . . . . . . . . . . 82

2

Page 4: Apostila de Bioestatística

CONTEÚDO CONTEÚDO

12 Testes Paramétricos 8412.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8412.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8612.3 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8912.4 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

13 Teste Não-Paramétricos 9213.1 Vantagens e Desvantagens dos Testes Não-Paramétricos . . . . . . . . . . . . . . . . 9213.2 Teste Qui-Quadrado para Independência . . . . . . . . . . . . . . . . . . . . . . . . . 93

13.2.1 Aplicação do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 9313.2.2 Detalhes do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 94

13.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9413.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9513.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9613.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9713.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9813.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10113.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

14 Correlação Linear 10414.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10414.2 Coe�ciente de Correlação Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 10614.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10814.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

3

Page 5: Apostila de Bioestatística

Parte I

Princípios

4

Page 6: Apostila de Bioestatística

Capítulo 1

Introdução

Por Sidia C. Jaques

Na literatura cientí�ca, consultada por pro�ssionais das áreas biológica e da saúde, encontramosexpressões como "diferença estatisticamente signi�cativa", "teste qui-quadrado de associação"e "P <0,01", que re�etem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatísticode seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos cientí�cos?

Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostradoum instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar,esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. Ésabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulosidênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vistadisto, o pesquisador consciencioso deseja saber qual o grau de con�abilidade de seus resultados. Elese pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamentoproposto foi realmente mais e�ciente, se a associação observada entre as variáveis é real, se o métodode seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados svariáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística.

O papel da estatística na investigação cientí�ca vai além de indicar a sequência de cálculos a seremrealizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentaise na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indicatécnicas para resumir e apresentar as informações, bem como para comparar as situações experimen-tais. Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dosresultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões cientí�cas;no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões,com base no conhecimento da variabilidade observada nos resultados.

Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as-suntos de um governo ou estado1 , remontando época em que surgiram as primeiras cidades. Come-çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e parao cadastramento das propriedades. Os censos2 já eram realizados anualmente em Atenas e, a cadaquadriênio, em Roma, nas festas de puri�cação da comunidade, quando era necessário saber se todosestavam presentes ou representados.

Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano CésarAugusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi orealizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastrogeral das coisas inglesas com �ns de tributação, feito em 1085-1086, foi chamado pelos ingleses de

1O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde

surgiu a palavra em língua italiana statista, que signi�ca "homem de estado", ou político, e a palavra alemã Statistik,

designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por

Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário

na Enciclopédia Britânica em 1797, e adquiriu um signi�cado de coleta e classi�cação de dados, no início do século XIX.2Ela vem do Latim CENSUS, �lista de nomes e propriedades dos cidadãos romanos�

5

Page 7: Apostila de Bioestatística

1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO

"Domesday (ou Doomsday) Book", o livro do juízo �nal, nome que bem revela as expectativas dapopulação quanta carga tributária por vir.

Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência.As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693,foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo.Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente aEuropa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva demortalidade a partir dos dados publicados.

O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre deFermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graçasa esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papelmais nobre, o de auxiliar na tomada de decisões cientí�cas.

Estudiosos de diferentes campos do conhecimento �zeram a ligação entre os aspectos teóricos deprobabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomoe matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros eaplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. FrancisGalton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou,sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-sepela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Alémde ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entrevariáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemaspráticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de amplaaplicação em vários campos da ciência.

Uma das �guras modernas mais importantes da bioestatística (e da estatística em geral, já quedesenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentouas bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados deamostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análisesimultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreasdo conhecimento, particularmente na agronomia, na biologia e na genética.

Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962)

1.1 O Método Cientí�co

Adaptado de"Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do

Porto"(MedStatWeb)em http://stat2.med.up.pt/cursop/index.html

6

Page 8: Apostila de Bioestatística

1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO

O termo "Método"refere-se a um processo ordenado e padronizado de execução de uma determi-nada atividade e implica num conjunto de regras que especi�cam o modo como o conhecimento deveser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo.

Três ideias elementares constituem a base do Método Cientí�co:O ceticismo, isto é, a noção de que qualquer proposição ou a�rmação, mesmo quando proferida

por grandes autoridades, está sujeita à dúvida e à análise;O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares

e constantes e não dos caprichos ou desejos dos "demônios"ou "bruxas";O empirismo segundo o qual a investigação cientí�ca deve ser conduzida pela observação e veri-

�cação através da experiência.A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método

Cientí�co e será focada mais adiante.

Observação, descrição e medição:A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre

pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. Asobservações podem ser na forma de descrições nominais ou conjuntos de medições. As percepçõespessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten-didas e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimosséculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vezmais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não éindispensável à realização de observações cientí�cas. As características essenciais para uma obser-vação poder ser considerada cientí�ca são a precisão, validade e reprodutibilidade. As observações,quando adequadamente sintetizadas e con�rmadas por outros, constituem a base factual, empírica,do conhecimento cientí�co.

Generalização e Indução:A�rmações e medições representando observações são integradas em sistemas interpretativos de-

signados Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método cientí�co édesignada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe defenômenos com base na análise de um número limitado de observações de elementos selecionados.Por exemplo, tendo veri�cado que a penicilina é útil na cura da pneumonia num número limitado dedoentes, propõe-se a generalização - "A administração de penicilina cura a pneumonia (em todos osdoentes)".

Hipóteses:A proposição "A administração de penicilina cura a pneumonia"é uma hipótese. Hipóteses ci-

entí�cas são proposições que especi�cam a natureza da relação entre dois ou mais conjuntos deobservações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis-tração de penicilina, e o segundo, relaciona-se com as modi�cações das observações ou medições doestado clínico dos doentes no que se refere à pneumonia. Uma hipótese cientí�ca deve ser apresentadausando referências claras e observáveis, não podendo depender de interpretações subjetivas.

Teorias:Teorias cientí�cas são, essencialmente, conjecturas que representam o nosso atual estado de

conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos maisabrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tiposde observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacosdesignados antibióticos são e�cazes na cura de certas doenças infecciosas terá que integrar evidênciasde variadas fontes, tais como a microbiologia, a farmacologia, a �siologia celular e a medicina clínica.Deste modo, as teorias identi�cam as causas dos acontecimentos, e proporcionam meios conceituaisde predição e in�uência sobre esses mesmos acontecimentos.

7

Page 9: Apostila de Bioestatística

1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO

Dedução:As teorias cientí�cas devem levar à formulação de um conjunto de proposições empiricamente ve-

ri�cáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposiçõese/ou modelos matemáticos que especi�cam a relação causal postulada pela teoria. Por exemplo, seaceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipitalsão responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de quea ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare-cimento de certas sensações visuais. O teste das hipóteses através da observação deve ser levadaa cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modoa permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais sefez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provocasensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti-mulação cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, quedemonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não asvisuais.

Veri�cação:Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não

com as predições da hipótese. Se a hipótese é con�rmada pela evidência, então, a teoria de ondeproveio a hipótese é fortalecida ou veri�cada. Porém, quando os dados não con�rmam a hipótese, ateoria não é veri�cada. Se uma teoria não continua a conseguir predizer ou explicar as observaçõestorna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim,as teorias cientí�cas não devem ser entendidas como verdades absolutas e �nais, mas meras explicaçõesprovisórias da evidência existente até ao momento.

Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimentocientí�co a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É destaforma que o método cientí�co contribui para a concretização dos nossos objetivos, ajudando-nos a

descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos.

1.2 De�nição de Estatística

Fonte: http://www.usp.br/aun/exibir.php?id=5023

Para Magalhães3 estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên-cia da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam amodelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos.

�É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quemtrabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos comestatística o tempo todo�, a�rmou Magalhães. A compreensão se daria a partir do momento emque os professores �desmisti�cam� a matemática, fazendo isso, principalmente, com a �alfabetizaçãoestatística�, isto é, fazer os estudantes entender grá�cos e diagramas encontrados no cotidiano daspessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães).

A palavra estatística de do latim STATUS que signi�ca ESTADO. Em suma, a Estatística é aciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados,sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises paraque se tenha maior compreensão dos fatos que os mesmos representam.

É considerada um método cientí�co pois resulta de um conjunto de regras e princípios que pro-duzem resultados �controlados� ou �previsíveis� a partir de dados aleatórios levando a um objetivoalmejado.

Há três ramos da estatística: descritiva, probabilística e inferencial.

3Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade

de São Paulo (IME-USP)

8

Page 10: Apostila de Bioestatística

1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO

Estatística Descritiva:

O conjunto de dados recolhidos em um estudo cientí�co, pode variar desde poucas dezenas a váriosmilhares de valores. Esta informação bruta di�cilmente poderá ser compreendida ou interpretada semmétodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designadospor métodos de Estatística Descritiva.

Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjuntode dados, através da construção de grá�cos, tabelas, e com cálculo de medidas com base em umacoleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los.

Tabela: é um quadro que resume um conjunto de observações.Grá�cos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão

mais rápida dos dados ou fenômenos.Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades

de dados agrupados (médias, desvios,...).

Estatística Probabilística:

É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrênciade dados aleatórios.

Estatística Inferencial:

Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinadamensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor-mação para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água paraavaliar a temperatura desta na piscina.

1.3 Fases do Método Estatístico

Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números.Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto,

inicia-se determinando a diferença entre dados e informação.Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a

informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitandoo encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicasestatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com quesejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados.

Estes dados estatísticos são obtidos através de um processo que envolve a observação; e ositens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau devariabilidade quando se fazem mensurações sucessivas.

1.3.1 Coleta dos Dados

Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô-meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessáriosa sua descrição.

A coleta pode ser direta ou indireta.A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento,

casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuáriosdos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador atravésde inquéritos e questionamentos, como e o caso das notas de veri�cação e de exames, do censodemográ�co, etc..

A coleta direta de dados pode ser classi�cada relativamente ao fator tempo em:

9

Page 11: Apostila de Bioestatística

1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO

Contínua (registro) � quando feita continuamente, tal como a de nascimento e óbitos e a defrequência dos alunos nas aulas;

Periódica � quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos)e as avaliações mensais dos alunos;

Ocasional � quando feita extemporaneamente, a �m de atender a uma conjuntura ou a umaemergência, como no caso de epidemias.

A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe-cimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citara pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta.

Mas se levarmos em consideração a natureza dos dados estes podem ser:Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual-

quer valor num intervalo de valores, ou quando feita continuamente.Exemplo: altura, peso, comprimento, espessura, velocidade, etc.Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados

discretos surgem na contagem do número de itens com determinada característica.Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica

e outros.Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes,

geralmente compreendem variáveis que não relacionam-se a priori com números.Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc.Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois

se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho.São valores relativos atribuídos para denotar ordem.

Exemplo: primeiro, segundo, terceiro ...

1.3.2 Crítica dos Dados

Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im-perfeições, a �m de não incorrermos em erros grosseiros ou de certo vulto, que possam in�uir sensi-velmente nos resultados.

A crítica é externa quando visa as causas dos erros por parte do informante, por distração oumá interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementosoriginais dos dados da coleta.

1.3.3 Apuração dos Dados

Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critériosde classi�cação. Pode ser manual, eletromecânica ou eletrônica.

1.3.4 Exposição ou Apresentação dos Dados

Por mais diversa que seja a �nalidade que se tenha em vista, os dados devem ser apresentadossob forma adequada (tabela ou grá�co), tornando mais fácil o exame daquilo que está sendo objetode tratamento estatístico e ulterior obtenção de medidas típicas.

1.3.5 Análise dos Resultados

O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for-necidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (EstatísticaDescritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutivaou Inferencial e tiramos desses resultados as conclusões e previsões.

10

Page 12: Apostila de Bioestatística

1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO

1.4 Leitura Complementar

INFORMAÇÃO EM SAÚDE

Arlinda B. MorenoClaudia Medina Coeli

Sergio Munck

GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO

Para re�etir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente,desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre suaprópria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja,preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ourecepção de eventos relacionados ao cuidado em saúde.

Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologiano campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimentodos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde daspopulações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase queconcomitantemente, a estatística do �nal desse século XIX e início do século XX, inspiradora deestudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também, como umponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva.Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostaspelas Estatísticas Vitais, pelas Tábuas de Sobrevida, en�m, por instrumentos de predição e inferênciade estados de saúde a partir do status atual de um grupo de pessoas em determinado contextode saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação emSaúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar,não apenas a população em geral, mas também gestores da área saúde: sobre: per�l da população(de que adoece e morre, dados demográ�cos e socioeconômicos); serviços prestados; materiais emedicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da populaçãoatendida; uso potencial e real da rede instalada; investimentos necessários; a �m de planejar, controlare avaliar as ações e serviços de saúde (EPSJV, 2005).

Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha-mada `topogra�a política ou uma descrição das condições atuais do país', proposta por Leibniz, emcuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula-ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; asinformações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen,1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade eas estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a in�uênciade Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação paraas autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow,é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínioepidemiológico no controle desta doença, já no século XIX.

A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimentodas ciências da computação, no século XX, e, portanto, da informática como instrumental necessárioe multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se,também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área dasaúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) osurgimento e a propagação da informática médica; c) a concepção e a implementação do prontuárioeletrônico do paciente, entre outros.

11

Page 13: Apostila de Bioestatística

Parte II

Estatística Descritiva

12

Page 14: Apostila de Bioestatística

Capítulo 2

Conceitos Básicos

2.1 População e Amostra

População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazeruma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos de�nir quais são osalunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os quejá passaram pela escola? A solução do problema depende de cada caso em particular. Na maioriadas vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenasuma parte da população. A essa parte proveniente da população em estudo denominamos amostra.

Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horáriode trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso.

Tabela 2.1: Exemplos de População e AmostraVariável de Interesse População Amostra

1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital

2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico

3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue

4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado

5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro

6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria

2.2 Variáveis Estatísticas

Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família,etc.

� Variáveis Qualitativas: expressam qualidade. Representadas por palavras.

Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior),estado civil (solteiro, casado, ...).

13

Page 15: Apostila de Bioestatística

2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS

� Nominal: Os indivíduos são classi�cados em categorias segundo uma característica.

Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não).

Não existe ordem entre as categorias e suas representações, se numéricas, são destituídasde signi�cado numérico.

Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos.

Exemplo: Você tem diabetes? Sim. Não. Não sei.

Você é fumante? Sim. Não. Já fui.

Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei.

� Ordinal: Os indivíduos são classi�cados em categorias que possuem algum tipo inerente deordem. Neste caso, uma categoria pode ser "maior"ou "menor"do que outra.

Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo);nível de retinol sérico (alto, aceitável, baixo, de�ciente) onde alto: maior ou igual a 50,0�g/dl; aceitável: 20,0 a 49,9 �g/dl, baixo: 10,0 a 19,9 �g/dl e de�ciente: menor ouigual a 10,0 �g/dl. Estes critérios são do Commitee on Nutrition for National DefenseICNND/USA, 1963 (in Prado MS et al , 1995).

� Variáveis Quantitativas: expressam quantidade. Representadas por números.

� Discretas: o resultado numérico da mensuração é um valor inteiro.

Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên-cia de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes,6 vezes, 7 vezes), número de �lhos.

� Contínuas: podem assumir qualquer valor do intervalo.

Exemplo: estatura, salário, nível de retinol sérico (�g/dl), circunferência da cintura (cm).

Observação: É incorreto fazer a simpli�cação "se tem número é quantitativo", pois muitas vezes,os números podem ser meros rótulos, tal como o número na camisa de um jogador.

Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativanominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua)

Tipos de variáveis.População Variável Opção para a variável Classi�cação

Enfermeiros Salário bruto R$ 2003,52

do Brasil mensal

Odontólogos de Anos de 1,5/2/4

uma clínica trabalho

Professores do Produção 0, 1, 2, 3,...

curso de Farmácia cientí�ca

Funcionários Tipo A, B, AB, O

de um hospital sanguíneo

Enfermeiros Insalubridade Recebe, não recebe

de um hospital

Candidatos ao Sexo M, F

curso de Nutrição

Professores Número de 0, 1, 2, 3, ...

UNIFRA nutricionistas

Professores Nível de stress Alto, médio, baixo

de um curso

2.3 Exercícios

1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se

um questionário e obtiveram-se respostas de 110 alunos. Indique:

14

Page 16: Apostila de Bioestatística

2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS

(a) a variável em estudo;

(b) a população em estudo;

(c) a amostra escolhida.

2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com

câncer apresentando ou não hipercalcemia. Classi�que as variáveis envolvidas no estudo, o tamanho

amostral e as populações de interesse.

Prostaglandina e cálcio em pacientes com câncer.

IPGE Calcium status

500.00 13.30 hyper

301.00 13.40 hyper

254.00 10.10 nonhyper

150.00 8.60 nonhyper

100.00 9.70 nonhyper

3. Classi�que as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais

ou Ordinais).

(a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e .

(b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável

do tipo e .

(c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade.

(Ex: 23,4 g) Variável do tipo e .

(d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga

B e placebo. Variável do tipo e .

(e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e .

(f) O número de �lhos das pacientes participantes de certo estudo. Variável do tipo e

.

15

Page 17: Apostila de Bioestatística

Capítulo 3

Tabelas e Distribuições de Frequência

As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a �m de que tenhamosuma visão geral sobre a variável.

Tabela é um quadro que resume um conjunto de observações.As tabelas devem obedecer ao seguinte postulado:

"Obter um máximo de esclarecimentos com um mínimo de espaço e tempo."

Exemplos:

Taxa de Colesterol (mg/dl) em 30 pacientes.248 157 124 124 215 312 254 156 132 145214 256 258 298 189 178 186 231 301 265298 178 196 152 144 185 132 289 264 256

Distribuição de idade dos pacientes portadores de mieloma múltiplo.Idade (anos) Frequência Absoluta Frequência Relativa

10 - 19 57 18,5420 - 29 113 37,4230 - 39 57 18,8740 - 49 32 10,6250 - 59 19 6,2960 - 69 7 2,29> 70 2 0,67

Indeterminada 13 4,3Total 302 100

Pacientes portadores de mieloma múltiplo.Ano do Diagnóstico Sexo Total

Masculino Feminino1998 50 44 941999 54 46 1002000 59 49 108Total 163 139 302

Uma tabela e mesmo um grá�co podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé.

Partes de uma tabela.

16

Page 18: Apostila de Bioestatística

CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deveconter o su�ciente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato),ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo).

Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006.O quê? - (fato): Acidentes de trabalho.Onde? - (lugar): Hospital X.Quando? - (tempo): 2006.

Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro dasquais são colocados os dados apurados.

Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de MúltiplaEntrada.

Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venhama esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dosdados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para darmaior autenticidade à tabela.

CONSIDERAÇÕES

As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos cientí�cos pois sãoorganizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação.

por Sidia C. Jacques.

Abaixo seguem as principais regras para a construção de tabelas em artigos cientí�cos:

� A tabela deve ser precedida de um título, su�cientemente claro para que o leitor não necessitevoltar ao texto para entender o conteúdo da mesma.

� a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu �nal. ocabeçalho deve ser separado do restante do texto por uma linha horizontal.

� Não se usam linhas verticais separando as colunas; usam-se espaços em branco.

� As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela.

� Deve ser indicada a fonte dos dados.

17

Page 19: Apostila de Bioestatística

3.1. DADOS ABSOLUTOS E DADOS RELATIVOSCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapédevem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu númeroe o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deveestar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais:uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho eo corpo da tabela. A palavra total, quando existir, deve estar em negrito.

3.1 Dados Absolutos e Dados Relativos

Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con-tagem ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativae inexpressiva; embora esses dados traduzam um resultado exato e �el, não tem a virtude de ressaltarde imediato as suas conclusões numéricas.

Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entredados absolutos e tem por �nalidade realçar ou facilitar as comparações entre quantidades. Traduzem-se os dados relativos, em geral, por meio de percentagens.

Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi-tários da UFRGS (dados obtidos entre 1986 e 1992)

Quantidade de irmãos de alunos da UFRGS.No de irmãos Frequência

0 81 202 403 264 95 76 47 08 09 1

Total

Determine o percentual de estudantes que têm 3 irmãos.

3.2 Distribuição de Frequências

É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com asfrequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em doistipos:

Tabela de agrupamento simples

Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos,em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cadavalor ocorreu (frequência).

Exemplo:

18

Page 20: Apostila de Bioestatística

3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Número de médicos na população, países selecionados, 1984.País Habitantes por MédicoChile 1.230Brasil 1.080França 320EUA 470

Argentina 370

Exemplo: Número de cáries dos alunos do 1o ano do Colégio X; quantidade de livros de bioesta-tística na biblioteca da UNIFRA.

Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008).Número de Cáries (Xi) Número de Alunos (fi)

0 351 202 133 64 4

5 ou mais 2Total 80

Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes.

Tabela de agrupamento por intervalo de classe

As classes são cada um dos intervalos que se subdivide os dados brutos a �m de condensar ainformação, mesmo que este procedimento perca algumas informações.

Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral-mente esta variável provém de medições.

Exemplo: A seguir temos as notas �nais dos estudantes, as quais, se não forem agrupadas emclasses, geram tabelas com pouca utilidade prática.

Notas �nais de 50 estudantes da disciplina de bioestatística.22 46 9 40 57 22 22 13 50 4235 2 15 41 34 52 32 75 69 4426 42 60 56 30 3 17 79 45 370 12 62 50 45 41 59 11 66 3943 33 70 50 47 20 36 40 67 29

Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notasobservadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela:

Tabela 3.1: Notas �nais de estudantes da disciplina de bioestatística.Notas fi0 7!10 4107!20 5207!30 6307!40 8407!50 12507!60 7607!70 5707!80 3Total 50

Onde fi é a frequência absoluta das classes.

19

Page 21: Apostila de Bioestatística

3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Para explicar a colocação das notas dos alunos, segundo uma distribuição em classes, necessitamosde algumas de�nições:

1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50notas dos alunos.

2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente:

0 2 3 9 11 12 13 15 17 2022 22 22 26 29 30 32 33 34 3536 37 39 40 40 41 41 42 42 4344 45 45 46 47 50 50 50 52 5657 59 60 62 66 67 69 70 75 79

3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguaisou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o quefacilitará os cálculos posteriores. O tamanho do intervalo de classe é de�nido pelo pesquisador.

Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma:

0 � 10: compreende todos os valores entre 0 e 10, exclusive os extremos.

0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos.

0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0.

0 7!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10.

Como optamos por este último tipo (0 7! 10), podemos de�nir como intervalo de classe adiferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 � 0 = 10é o intervalo ou amplitude da classe.

4. Amplitude Total ou "Range": é a diferença entre o maior e o menor dado. Em nosso caso, anota maior é 79 é a menor é 0; logo, nossa amplitude total é 79� 0 = 79.

5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existemvários critérios que podem ser utilizados a �m de possuirmos uma idéia do melhor número declasses, porém tais critérios servirão apenas como indicação e nunca como regra �xa, pois caberásempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classee a facilidade para os posteriores cálculos numéricos.

6. Amplitude ou Intervalo de Classes (h):

h =amplitude total

número de classes

Teríamos no exemplo:79

7= 12

Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, veri�cará que seria maisconveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a8, para que facilite as operações posteriores. Assim sendo:

Exemplo de intervalos de classe.

Classe (i) Notas (ci) Freq. (fi)1 0 7! 10 42 10 7! 20 53 20 7! 30 64 30 7! 40 85 40 7! 50 126 50 7! 60 77 60 7! 70 58 70 7! 80 3

Total 50

20

Page 22: Apostila de Bioestatística

3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Observação: O número de classes e a amplitude são usados como base para a montagem deuma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitudedecimal. Use o bom senso.

7. Frequência Relativa da Classe

Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos.

No exemplo, a frequência relativa da 7a classe é: fr7 =5

50= 0; 1 = 10%

Resumindo, teríamos:

Tabela 3.2: Exemplo de intervalos de classe.Classe (i) Notas (ci) Freq. (fi) F.Rel.(f(r i))

1 0 7! 10 42 10 7! 20 53 20 7! 30 64 30 7! 40 85 40 7! 50 126 50 7! 60 77 60 7! 70 5 108 70 7! 80 3

Total 50

3.3 Exercícios no Excel

1. Os pesos dos 40 alunos de uma classe estão abaixo descritos:

Pesos de 40 alunos.69 57 72 54 93 68 72 58 64 62 65 76 60 49 7459 66 83 70 45 60 81 71 67 63 64 53 73 81 5067 68 53 75 65 58 80 60 63 53

Construir a distribuição de frequência simples desta tabela.

2. Organizar os dados em uma tabela de frequência simples e relativa.

Dados brutos.154 160 164 166 170 155 160 164 166 170 156160 164 166 171 157 161 164 167 172 158 161164 167 172 158 161 165 168 173 159 162 165168 173 159 162 165 168 174 159 162 165 169176 159 164 165 169 177

3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em umaamostra de 36 homens normais. Distribua os dados em classes e represente sua frequênciaabsoluta e relativa.

Nível de creatinina na urina (24h)

1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,081,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,471,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,521,37 1,86 2,02 1,75 1,83 1,66

21

Page 23: Apostila de Bioestatística

3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela defrequência.

Pesos de 80 mulheres.

5. Substituir por uma única tabela o trecho do relatório a seguir: �Assim sendo, podemos concluirque este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelasnossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte,75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas emVitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que emBelo Horizonte, apenas 3.�

6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 criançasnascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa demortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídosda publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dadoslevantados pelo IBGE.

Taxa de mortalidade infantil da microrregião.

32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,022,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,332,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,321,7 23,7 13,9 23,8 15,7 17,0 36,3

Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências).

3.4 Grá�cos de Colunas e Histogramas

Os grá�cos de colunas (bastões) são comumente utilizados para representarem distribuições defrequências de grupamento simples enquanto que os histogramas representam distribuições em classes.

Um histograma é composto por retângulos justapostos onde a base de cada um deles correspondeao intervalo de classe e a sua altura à respectiva frequência.

Exemplo: Construa o histograma da distribuição de frequência abaixo:

Pressão arterial sistólica de 96 recém-nacidos.PAS(mmHg) f

55 ` 59 359 ` 63 563 ` 67 4067 ` 71 2471 ` 75 1575 ` 79 879 ` 83 1

No Excel: Copie a tabela para o grid do Excel:

22

Page 24: Apostila de Bioestatística

3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Selecione toda a tabela e clique sobre inserir > colunas > colunas 2D (primeira opção)

Você vai obter o seguinte grá�co de colunas:

Agora basta transformar este grá�co de colunas num histograma, para isto, clique com o botãodireito sobre qualquer uma das colunas e selecione �Formatar Séries de Dados�. Na janela que seabre, de�na �Largura do Espaçamento� como 0% e clique sobre "fechar". Você obterá o histogramaabaixo.

23

Page 25: Apostila de Bioestatística

3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica-dor da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal,como pode indicar mistura de populações quando se apresentam bimodais.

3.5 Grá�co de Pizza

Um grá�co de setores (pizza) apresenta uma circunferência onde as "fatias"têm tamanhos pro-porcionais à s frequências da distribuição considerada.

Para o exemplo da pressão arterial visto acima, criamos um grá�co de pizza selecionando: inserir> pizza > pizza 2D (primeira opção), obtendo a �gura abaixo:

24

Page 26: Apostila de Bioestatística

3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

3.6 Box Plots

O boxplot (grá�co de caixa) é um grá�co utilizado para avaliar a distribuição do dados. O boxploté formado pelo primeiro e terceiro quartil e pela mediana.

As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentesdo grá�co. Os valores adjacentes são as observações mais extremas no conjunto de dados que nãoestão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dosdados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrãoe são chamadas de valores extremos.

Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doençascardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente nãoteve contato direto com o especialista.

25

Page 27: Apostila de Bioestatística

3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Duração Visitas(min) (milhares)0 390

1 a 5 2276 a 10 102311 a 15 339016 a 30 443131 a 60 968

mais de 61 185

No Bioestat:

Grá�cos > Box-Plot: mediana e quartis

Obs: O Bioestat não mostra os valores extremos para o grá�co Box-Plot: mediana e quartis.Para saber quais são os valores mostrados no grá�co é preciso fazer a estatística descritiva:

Estatísticas > Estatística Descritiva

26

Page 28: Apostila de Bioestatística

3.7. A DISTRIBUIÇÃO NORMALCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

3.7 A Distribuição Normal

Suponha que você faça um grá�co das probabilidades dos números de caras esperados em 15jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, paracujas alturas você faz um diagrama de frequência:

Distribuição de probabilidade.

Histograma

27

Page 29: Apostila de Bioestatística

3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

Esses dois grá�cos são semelhantes. Essa curva em forma de sino, chamada curva normal, é acurva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundoa curva normal:

� a altura, o peso, ou o QI de uma população;

� os resultados da medida de uma grandeza física, como o peso molecular de um compostoquímico;

� o total que aparece quando vários dados são jogados simultaneamente;

� o número de clientes semanais em muitos negócios.

A distribuição normal se aplica frequentemente em situações em que valores extremos são menosprováveis do que valores moderados.

3.8 Distribuição de Probabilidade

A frequência relativa de um valor estima a probabilidade de ocorrência deste valor.Exemplo: A tabela tem sua representação grá�ca dada pelo grá�co de colunas.

Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992.No de irmãos f fr Fr

0 8 0,07 0,071 20 0,17 0,242 40 0,35 0,593 26 0,23 0,824 9 0,08 0,905 7 0,06 0,966 4 0,03 0,997 0 0,00 0,998 0 0,00 0,999 1 0,01 1,00

Grá�co de colunas relativo à tabela.

28

Page 30: Apostila de Bioestatística

3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA

A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então,que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidadede que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No grá�co debastões, a probabilidade estimada para cada valor é a altura do bastão.

Exemplo: A tabela tem sua representação grá�ca dada pelo histograma.

Pesos (kg) de 256 alunas da UFRGS.Peso (kg) f fr40 7! 45 9 0,03545 7! 50 36 0,14150 7! 55 78 0,30455 7! 60 55 0,21560 7! 65 53 0,20765 7! 70 11 0,04370 7! 75 7 0,02775 7! 80 5 0,02080 7! 85 1 0,00485 7! 90 1 0,004∑

256 1,000

Histograma relativo à tabela.

No histograma, a área do retângulo referente ao intervalo 45 7! 50 corresponde a 14% da áreade todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica daprobabilidade estimada de se encontrar valores entre 45 e 50 na população.

29

Page 31: Apostila de Bioestatística

Capítulo 4

Medidas de Posição

4.1 Introdução

O estudo que �zemos sobre distribuições de frequência, até agora, permite-nos descrever, de modogeral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maiorconcentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no�nal, ou ainda, se há uma distribuição por igual.

Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con-fronto com outras, necessitamos introduzir conceitos que se expressem através de números, que nospermitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui-ção e são as:

a. medidas de posição;b. medidas de variabilidade ou dispersão;c. medidas de assimetria;d. medidas de curtose.Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que

representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixohorizontal (eixo das abscissas).

As medidas de posição mais importantes são as medidas de tendência central, que recebem taldenominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valorescentrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e amoda.

As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis eos percentis.

4.2 Média Aritmética (x)

Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda-remos apenas a média aritmética.

Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles:

x =

∑xin

onde, x é a média aritmética, xi são os valores da variável e n é a quantidade de valores.

Dados com agrupamento simples

Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritméticasimples.

30

Page 32: Apostila de Bioestatística

4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO

Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10,14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana:

x =10 + 14 + 13 + 15 + 16 + 18 + 12

7=

98

7= 14

Logo, a média da produção de leite foi de 14 litros por dia.Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa.

É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o númerorepresentativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que amédia não tem existência concreta.

Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles-centes que sofrem de asma, representados na tabela:

Volumes respiratórios por indivíduo.Indivíduo FEV(litros)

1 2,302 2,153 3,504 2,605 2,756 2,827 4,058 2,259 2,6810 3,00∑=

Resp.: 2,81 litros

Consideremos a distribuição relativa a 34 famílias de 4 �lhos, tomando para variável o número de�lhos do sexo masculino:

Número de �lhos por família.Número de meninos fi

0 21 62 103 124 4∑

= 34

Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável,elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada,dada pela fórmula:

x =

∑xi � fi∑fi

Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aosprodutos xi � fi . Assim, temos:

Número de �lhos por família.Número de meninos fi xi � fi

0 21 62 103 124 4

TOTAL 34

31

Page 33: Apostila de Bioestatística

4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO

Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior númerode famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridadenumérica em relação ao número de meninos.

Com Intervalos de Classes

Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classecoincidem com o seu ponto médio, e determinamos a sua média aritmética ponderada por meio da

fórmula que já conhecemos: x =

∑xi �fi∑fi, porém, agora, xi é o ponto médio de cada classe.

Exemplo:

Altura de 40 alunos da escola X - Santa Maria - 2007.i Estaturas (cm) fi1 150 ` 154 42 154 ` 158 93 158 ` 162 114 162 ` 166 85 166 ` 170 56 170 ` 174 3

TOTAL 40

Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos xi � fi .

Altura de 40 alunos da escola X - Santa Maria - 2007.i Estaturas (cm) fi xi xi � fi1 150 ` 154 42 154 ` 158 93 158 ` 162 114 162 ` 166 85 166 ` 170 56 170 ` 174 3

TOTAL 40 �

Resp.: 161cmExercício:Determine a média de níveis séricos de colesterol entre os homens indicados na tabela:

Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos.Nível de colesterol(mg=10ml) fi xi xi � fi

80 ` 120 13120 ` 160 150160 ` 200 442200 ` 240 299240 ` 280 115280 ` 320 34320 ` 360 9360 ` 400 5TOTAL 1067 �

Resp.: 199,34

Vantagens e desvantagens da média aritméticaPor ser muito in�uenciada por valores extremos da série, a média aritmética não representa bem

as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série

32

Page 34: Apostila de Bioestatística

4.3. MODA (MO) CAPÍTULO 4. MEDIDAS DE POSIÇÃO

cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8,resultado que foi muito in�uenciado pelo elemento 850).

1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição defrequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma médiado tamanho de família de 4,5 pessoas, que é um valor inexistente.

2) Pode ser calculada para distribuições com classes, mas os seus resultados não são consideradosreais.

3) Pode ser calculada diretamente usando qualquer calculadora eletrônica.4) Depende de todos os valores da distribuição.5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas

amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco(pouca variabilidade com amostras da mesma população).

4.3 Moda (Mo)

Denominamos moda o valor que ocorre com maior frequência em uma série de valores.

Dados com agrupamento simples

Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar ovalor que mais se repete.

Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10.Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum

valor apareça mais vezes que outros.É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal).Em outros casos, ao contrário, pode haver dois ou mais valores de concentração.Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7,

7, 8, 9 temos duas modas: 4 e 7 (bimodal).A moda é utilizada:quando desejamos obter uma medida rápida e aproximada de posição;quando a medida de posição deve ser o valor mais típico da distribuição.

33

Page 35: Apostila de Bioestatística

4.4. MEDIANA (MD) CAPÍTULO 4. MEDIDAS DE POSIÇÃO

4.4 Mediana (Md)

A mediana é outra medida de posição, de�nida como o número que se encontra no centro deuma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, amediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado detal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.

Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo éordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18.

Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direitae à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatroabaixo.

Temos, então: Md = 10

Se, porém, a série dada tiver um número par de termos, a mediana será, por de�nição, qualquerdos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o pontomédio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritméticaentre 10 e 12.

Md =10 + 12

2= 11

Veri�camos que, estando ordenados os valores de uma série e sendo n o número de elementos dasérie, o valor mediano será:

o termo de ordem n+12 , se n for ímpar;

a média aritmética dos termos de ordem n

2 e n

2 + 1 , se n for par.A mediana é utilizada:quando desejamos obter o ponto que divide a distribuição em partes iguais;quando há valores extremos que afetam de uma maneira acentuada a média.

Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passoque no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos,comparados aos demais valores da amostra, causam grandes variações na média, o que em geral nãoocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valoresatípicos.

4.5 Exercícios no Excel

1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo queinvestiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores.

Duração da terapia de transfusão para 10 pacientes com doenças falciformes.

Indivíduo Duração1 122 113 124 65 116 117 88 59 510 5

TOTAL

Resp.: 8,6 anos

34

Page 36: Apostila de Bioestatística

4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO

2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade.(Fonte: Vieira, S., 1980). Calcule a média aritmética.

50 62 70 86 66 55 60 77 82 64 58 74

Resp.: 67

3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico-logista como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente.Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos.

Resp.: 0,50; 0,53; 0,51

4. Calcule a média dos números de dentes perdidos ou dani�cados em uma amostra de 50 pessoastratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003).

Dentes perdidos ou dani�cados.

Número de dentes (x) Número de pessoas (fi) x � fi0 91 52 63 74 95 56 47 38 2

TOTAL 50

Resp.: 3,2 dentes

5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados natabela a seguir:

Resp.: Masc.: 0,88 e Fem.: 1,6

Número de dentes cariados das pessoas tratadas em uma clínica dentária � Santa Maria/RS.

Número de Sexodentes cariados Masculino Feminino

0 16 141 2 62 3 73 2 84 2 5

Total

Resp.: Média Masc.: 0,88; Média Fem.: 1,6

6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de umdiurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostradosna tabela:

Coleta de urina.Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,2 1,1 1,4 1,1 1,3 1,1 1,2 1,3Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3

35

Page 37: Apostila de Bioestatística

4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO

a) Determine as medidas de localização central da urina sem diurético.

Resp.: x = 1; 25; Md = 1; 2 e Mo = 1; 2.

b) Determine as medidas de tendência central da urina com diurético.

Resp.: x = 1; 41; Md = 1; 4 e Mo = 1; 3 e 1; 4.

7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidadesde um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007)

Quantidade de mortos devido à escarlatina.

Mortos(número) 0 1 2 3 4 5 6 7Cidades 7 11 10 7 1 2 1 1

a) Calcule as medidas de posição central. Resp.: x = 1; 98; Md = 2 e Mo = 1.

b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55%

c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70%

d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30%

8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculosepulmonar, numa determinada cidade.

Distribuição da tuberculose por sexo.

Idade(anos) Homem Mulher Total14 ` 19 2 2 419 ` 24 10 5 1524 ` 29 33 9 4229 ` 34 45 12 5734 ` 39 39 8 4739 ` 44 21 4 25Total

Pede-se:

Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculosepulmonar.

Resp.: F: 30,38 anos; M: 32,23 anos

36

Page 38: Apostila de Bioestatística

Capítulo 5

Separatrizes

Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesmaquantidade de elementos.

Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente,não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas �os quartis, os percentis e os decis � são, juntamente com a mediana, conhecidas pelo nome genéricode separatrizes.

5.1 Quartis

Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto,três quartis:

a) O primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dosdados é menor que ele e as três quartas partes restantes (75%) são maiores.

b) O segundo quartil (Q2): evidentemente, coincide com a mediana (Q2 = Md).c) O terceiro quartil (Q3) � valor situado de tal modo que as três quartas partes (75%) dos

termos são menores que ele e uma quarta parte (25%) é maior.

5.2 Decis e Percentis

Os decis Di são valores que dividem os dados em 10 partes iguais enquanto que os percen-tis são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos porP1; P2; P3; � � � ; P32; � � � ; P99.

P50 = Md , P25 = Q1 e P75 = Q3

5.3 Exercícios no Excel

1. Com o objetivo de estudar a e�cácia de um regime alimentar para tratamento de diabetesforam recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar.

37

Page 39: Apostila de Bioestatística

5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES

Obtiveram-se os resultados mostrados na tabela abaixo:

Glicose de amostras sanguíneas (mg/100ml)

187.45 187.57 187.37 187.49 187.58 187.37187.46 187.62 187.47 187.53 187.39 187.46

(a) Determine a média, moda e mediana. Resp.: x = 187:48 ; Mo = 187:37; Md = 187:465

(b) Determine os quartis Q1 e Q3. Resp.: Q1 = 187:42 ; Q3 = 187:55

2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir.Considerando dados brutos, pede-se:

Dentes cariados, perdidos ou obturados.

6 4 1 0 2 3 0 5 0 44 6 0 1 3 5 8 3 2 7

Primeiro e o terceiro quartil . Interprete os resultados.

Resp.: Q1 = 1 (25% do total tem 0 ou 1 cárie); Q3 = 3

3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados notrabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartise interprete estes valores.

Resp.: Q1 = 8, Q2 = 14 Q3 = 17; 5

38

Page 40: Apostila de Bioestatística

Capítulo 6

Medidas de Dispersão

6.1 Dispersão ou Variabilidade

As medidas de dispersão procuram veri�car o quanto os dados estão dispersos em torno de umamedida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estãoafastados, em média, do ponto central.

Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente umconjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidadesé a mesma, e igual a 24�C, ainda assim somos levados a pensar a respeito do clima dessas cidades.Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda,uma temperatura média de 24�C. A outra poderá ter uma variação pequena de temperatura e possuir,portanto, no que se refere à temperatura, um clima mais favorável.

Vemos, então, que a média � ainda que considerada como um número que tem a faculdade derepresentar uma série de valores � não pode, por si mesma, destacar o grau de homogeneidade ouheterogeneidade que existe entre os valores que compõem o conjunto.

Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z:X: 70, 70, 70, 70, 70.Y: 68, 69, 70, 71, 72.Z: 5, 15, 50, 120, 160.Calculando a média aritmética de cada um desses conjuntos, obtemos:

X =350

5= 70 , Y =

350

5= 70 e Z =

350

5= 70.

Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70.Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que

todos os valores são iguais à média.O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversi�cação

entre cada um de seus valores e a média representativa.Chamando de dispersão ou variabilidade a maior ou menor diversi�cação dos valores de uma variável

em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que oconjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ouvariabilidade menor que o conjunto Z.

Portanto, para quali�car os valores de uma dada variável, ressaltando a maior ou menor dispersãoou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas dedispersão ou de variabilidade.

Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coe�ciente devariação.

39

Page 41: Apostila de Bioestatística

6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO

6.2 Amplitude Total

É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersãodos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenasindicam que os dados são mais homogêneos.

Exemplo: Consideremos quatro grupos de alunos cujas notas são:Grupo A � 7, 5, 6, 9 e 8;Grupo B � 9, 10, 4, 1, 8 e 10;Grupo C � 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;Grupo D � 7, 7, 7 e 7.Com base na amplitude ou intervalo total, qual é o mais homogêneo?Resp.: Grupo B, Grupos A e C (empatados) e Grupo D.Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por

terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos levaa concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seuselementos estão mais próximos entre si que os elementos do grupo A.

O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quanti�carde modo e�ciente a dispersão de uma série, uma vez que no seu cálculo interferem apenas os elemen-tos extremos (máximo e mínimo) da série, não avaliando o comportamento dos demais elementos.Utilizamos, assim, o intervalo total apenas para ter uma primeira informação sobre a dispersão dasérie, visando quase que somente a identi�car o campo de variação dos seus elementos.

6.3 Variância e Desvio Padrão

Como vimos, a amplitude total é instável, por se deixar in�uenciar pelos valores extremos, quesão, na sua maioria, devidos ao acaso.

A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração atotalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveise, por isso mesmo, os mais geralmente empregados.

A variância baseia-se nos desvios em torno da média aritmética, porém determinando a médiaaritmética dos quadrados dos desvios. Assim, representando a variância por S2, temos:

S2 =

∑(xi � x)2∑

fi

Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidadequadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente.

Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretações práticas, deno-minada desvio padrão, de�nida como a raiz quadrada da variância e representada por s. Assim:

S =pS2

Observações: Tanto o desvio padrão como a variância são usados como medidas de dispersão ouvariabilidade. O uso de uma ou de outra dependerá da �nalidade que se tenha em vista.

A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extrema-mente importante na inferência estatística e em combinações de amostras.

6.4 Exercícios no Excel

1. Quatorze indivíduos que deram entrada no serviço de urgência de um Hospital apresentavam asseguintes pressões arteriais sistólicas:

Ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14

PAS 115 125 128 135 126 124 112 125 127 133 119 127 121 120

40

Page 42: Apostila de Bioestatística

6.5. COEFICIENTE DE VARIAÇÃO CAPÍTULO 6. MEDIDAS DE DISPERSÃO

(a) Determine as medidas de tendência central da PAS e comente os resultados.

Resp.: x = 124; 07, Me = 125, Mo = 125e127

(b) Determine o desvio padrão. Resp.: 6,08

(c) Determine os quartis. Resp.: Q1 = 120 Q2 = 125 Q3 = 127

2. Foram analisados os níveis de concentração de albumina em dez adultos tendo-se obtido osseguintes resultados (g/l):

Indivíduo 1 2 3 4 5 6 7 8 9 10Albumina 19,7 19,9 20,9 20,7 20,9 20,8 20,9 21 19,5 19,4

a) Determine as medidas de localização de tendência central que conhece.

Resp.: x = 20; 37 Me = 20; 75 Mo = 20; 9

b) Determine o desvio padrão. Resp.: 0,62

6.5 Coe�ciente de Variação

O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidadespode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se amédia for igual a 20, o mesmo não pode ser dito.

Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seuemprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersãoou variabilidade, quando expressas em unidades diferentes.

Para contornar essas di�culdades e limitações, podemos caracterizar a dispersão ou variabilidadedos dados em termos relativos a seu valor médio, medida essa denominada coe�ciente de variação(CV).

CV =S

x� 100

Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo deindivíduos:

x S

Estaturas 175 cm 5 cmPesos 68 kg 2 kg

CVE =5

175� 100 = 2; 85% CVP =

2

68� 100 = 2; 94%

Conclui-se que neste grupo de indivíduos, os pesos apresentam maior grau de dispersão que asestaturas.

Exemplo: Admitamos, por exemplo, ser do nosso interesse comparar entre si, tendo em vistaa homogeneidade, as séries relacionadas a seguir, juntamente com suas médias aritméticas e seusdesvios padrões:

Série Média Aritmética Desvio Padrão

A(t) 80,8 t 10,0 t cmB(cm) 450,0 cm 10,0 cmC(oC) 32,6 oC 4,2 oCD(oC) 30,0 oC 2,6 oCE(oC) 8200,0 t 700,0 t

Vamos calcular o coe�ciente de variação para cada uma das séries do exemplo acima:

41

Page 43: Apostila de Bioestatística

6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO

� série A: V = 100 X 10,0/80,8 = 12,4% � série D: V = 100 X 2,6/30,0 = 8,7%� série B : V = 100 X 10,0/450,0 = 2,2% � série E: V = 100 X 700,0/8 200,0 = 8,5� série C : V = 100 X 4,2/32,6 = 12,9%

Podemos, assim, por possuir o menor coe�ciente de variação, a�rmar que:� a série B é mais homogênea que a série A;� a série D é mais homogênea que a série C;� a série E é mais homogênea que a série A.Listando as séries em questão, em ordem crescente de homogeneidade ou decrescente de dispersão,

quanti�cada pela medida mais conveniente no caso, que é o coe�ciente de variação, temos: série C,série A, série D, série E e série B.

Conforme acabamos de ver, além de ter o seu uso recomendado para a análise da dispersão deséries heterogêneas (unidades de medidas diferentes: metros, toneladas, litros etc.), o coe�ciente devariação serve ainda para compararmos séries que apresentam ordens de grandeza diferenciadas dosseus elementos (unidades, dezenas etc.). Como desvantagens, podemos citar a impossibilidade deusarmos o coe�ciente de variação para séries com médias aritméticas nulas e sua inconveniência deuso (como toda percentagem que se preza) no caso de termos séries com médias aritméticas muito�pequenas� (ou próximas de zero) que, ao sofrerem uma reduzida alteração, normalmente provocamgrandes variações no coe�ciente de variação.

6.6 Exercícios no Excel

1. Em um exame �nal de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desviopadrão, 0,80. Em Estatística, entretanto, o grau médio �nal foi 7,3 e o desvio padrão, 0,76.Em que disciplina foi maior a dispersão? Resp.: Estatística

2. Medidas as estaturas de 1.017 indivíduos, obtivemos x = 162; 2 cm e S = 8,01 cm. O pesomédio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduosapresentam maior variabilidade em estatura ou em peso? Resp.: Estatura

3. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrãoigual a 6,01 cm. Qual é o coe�ciente de variação de cada um dos grupos? Qual o grupo maishomogêneo?

Resp.: 3,72 e 3,71, respectivamente; o segundo grupo

4. Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrãodas notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade? Justi�queadequadamente.

Turma A B CMédia 6,5 8,0 cm 8,0

Desvio Padrão 2,2 cm 1,7 2,0

Resp.: Turma B

5. [Excel] São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas:

166 158 202 162 135 82 150 86 121

Calcule, apresentando o desenvolvimento da fórmula:

a) o nível médio de triglicérides; Resp.: 140,22

b) o nível mediano de triglicérides; Resp.: 150

c) o desvio padrão do nível de triglicérides; Resp.: 36,66

d) o coe�ciente de variação do nível de triglicérides. Resp.: 26,14%

42

Page 44: Apostila de Bioestatística

6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO

6. Considere as seguintes medidas descritivas das notas �nais dos alunos de três turmas de Bioes-tatística. Com base nesses dados, considere as seguintes a�rmativas:

Turma N. alunos Média Desvio Padrão

A 15 6 1,31B 15 6 3,51C 14 6 2,61

1. Apesar de as médias serem iguais nas três turmas, as notas dos alunos da turma B foram asque se apresentaram mais heterogêneas.

2. As três turmas tiveram a mesma média, mas com variação diferente.

3. As notas da turma A se apresentaram mais dispersas em torno da média.

Assinale a alternativa correta:

a) Somente a a�rmativa 3 é verdadeira.

b) Somente a a�rmativa 2 é verdadeira.

c) Somente as a�rmativas 2 e 3 são verdadeiras.

d) Somente as a�rmativas 1 e 2 são verdadeiras.

e) Somente as a�rmativas 1 e 3 são verdadeiras.

Resp.: d

43

Page 45: Apostila de Bioestatística

Capítulo 7

Assimetria e Curtose

As medidas de assimetria e curtose complementam as medidas de posição e de dispersão e dãouma interpretação da forma da distribuição.

7.1 Assimetria

Mede a deformação da distribuição relativamente à sua simetria, ou seja, mede o quanto a distri-buição é assimétrica em relação a um eixo central.

Exemplo: Seja o seguinte conjunto de dados:

O grá�co de colunas relativo a estes dados é o seguinte:

Perceba que existe uma "cauda"para a direita destes dados, o que evidencia a sua assimetria:

44

Page 46: Apostila de Bioestatística

7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE

A assimetria pode ser calculada através do coe�ciente de assimetria de Pearson (CA):

CA =x �Mo

s

onde,x é a média aritmética.Mo é a moda.Existem outras fórmulas para o cálculo do coe�ciente, mas não nos servem agora.Intensidade da assimetria (interpretação do coe�ciente de Pearson):

7.2 Trabalho 02

Instruções:

� As questões deverão ser respondidas no Excel ;

� Cada planilha deve conter uma questão. O nome da planilha deve indicar o número da questão,por exemplo: Questão 1.

� As perguntas e os comentários das respostas devem estar em caixas de texto dentro da respectivaplanilha.

� O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica;

� O arquivo deve ser enviado para o e-mail [email protected]

� O assunto do email será Trabalho 02.

� Utilize o seu email da Unifra (acesse-o através do Alunonet).

1. Os dados abaixo representam as alturas de 60 indivíduos. Calcule a estatística descritiva (média,mediana, desvio padrão, Q1, Q3 e o coe�ciente de variação).

159 159 159 160 160 160 161 161 162 162 162 163 163 163 164164 164 165 165 165 166 166 166 167 167 167 168 168 169 169169 170 170 170 171 171 171 172 172 172 173 173 173 174 174174 175 175 176 176 176 177 177 177 178 178 178 179 179 179

Responda:

(a) Por que o CV deu um resultado tão baixo?

45

Page 47: Apostila de Bioestatística

7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE

(b) Explique o valor da mediana?

(c) Explique o valor do Q3?

(d) Construa um histograma para esta distribuição no Excel e responda se é uma distribuiçãonormal ou não.

2. As amostras de exames bioquímicos de sangue de 3 diferentes laboratórios apresentaram osníveis de creatinina mostrados no quadro:

Exame 1 2 3 4 5 6 7Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 -Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9

a) Calcule a média das creatininas de cada um dos laboratórios.

b) Qual dos 3 laboratórios teve a menor dispersão? Qual das medidas estatísticas explica a tuaresposta?

46

Page 48: Apostila de Bioestatística

Parte III

Teoria da Amostragem

com Bioestat

47

Page 49: Apostila de Bioestatística

Capítulo 8

Amostragem

De uma forma geral, as populações ou universos nos quais o pesquisador está interessado sãograndes demais para serem estudados na sua totalidade. O tempo necessário para estudar toda apopulação, as despesas e o número de pessoas envolvidas são de tal monta que tornam o estudoproibitivo. Por isso, o mais comum é se estudarem amostras retiradas da população de interesse.

Para que os resultados obtidos em uma amostra possam ser generalizados para a população, istoé, para que se possam realizar inferências válidas, a amostra deve ser representativa da população. Amelhor maneira de se obter uma amostra representativa é empregar um procedimento aleatório paraa seleção dos indivíduos.

Uma vantagem de se usarem amostras aleatórias é que, para este tipo de amostras, existeminúmeros métodos estatísticos que poderão auxiliar o pesquisador. Além disto, tal tipo de amostragemnão dá oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma amostra quefavoreça a hipótese que ele gostaria de ver con�rmada.

8.1 Amostragem vs Censo

Quando estudamos todos os elementos de uma população, estamos realizando o que denominamoscenso. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o censo relativo a inúmerascaracterísticas do Brasil; obtém dados a respeito da saúde, ensino, habitação, produção vegetal eanimal, prestação de serviços, etc., em todo o território nacional, pesquisando todos os elementos dapopulação.

O censo, porém, nem sempre pode ou deve ser utilizado, devido à impossibilidade de estudar apopulação, por apresentar pouca precisão e em razão de seu custo econômico.

Custo ReduzidoSendo os dados obtidos apenas de uma fração da população, as despesas são menores do que as

oriundas de um censo. Tratando-se de grandes populações, pode-se obter resultados su�cientementeprecisos, para serem úteis, de amostras que representam apenas uma pequena fração da população.Segundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos periódicos,realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou, aproximadamente umapessoa em cada 1800.

Maior RapidezOs dados podem ser apurados e sintetizados mais rapidamente em uma amostragem do que

em uma contagem completa. Este é um fator primordial, quando se necessita urgentemente dasinformações. O objetivo de uma investigação é o de conhecer a situação de um determinado fenômeno,no momento da coleta da informação, para que de acordo com a informação obtida, se possam tomaras medidas possíveis para resolver algum problema. Se o resultado dessa pesquisa for conhecidomuito tempo depois, é bem possível que a situação que se pretendia resolver, seja nesse momento,completamente diferente da que existia no momento da coleta dos dados.

48

Page 50: Apostila de Bioestatística

8.1. AMOSTRAGEM VS CENSO CAPÍTULO 8. AMOSTRAGEM

Maior Amplitude e FlexibilidadeEm certos tipos de investigação, tem-se que utilizar pessoal bem treinado e equipamento altamente

especializado, cuja disponibilidade é limitada para a obtenção de dados. O censo completo torna-seimpraticável e resta a escolha entre obter as informações por meio de uma amostra, ou não consegui-las de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem maior amplitudee �exibilidade.

Maior ExatidãoEm virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e por

se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do processamento de dados,dada a redução no volume de trabalho, portanto, uma amostragem pode, na realidade, proporcionarresultados mais exatos que o censo.

Não Destruição da PopulaçãoPode ser impraticável investigar toda a população em determinados procedimentos de controle de

qualidade. Por exemplo, se quisermos veri�car a qualidade de uma marca de fósforos, necessitaremosriscá-los a �m de veri�car o seu funcionamento. Se inspecionarmos toda a população de fósforos,riscando-os, acabaremos com a população, pois o processo de aferição da qualidade do fósforo odestrói. Novamente, o estudo da população torna-se impraticável.

Representatividade da AmostraPara que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas

de modo a serem representativas da população. Isso signi�ca que a amostra deve possuir as mesmascaracterísticas básicas da população, no que diz respeito a (s) variável (eis) que desejamos estudar.Um plano de amostragem deve ser formulado para garantir a representatividade.

Alguns procedimentos básicos para a obtenção de amostras aleatórias são apresentados a seguir:

49

Page 51: Apostila de Bioestatística

8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM

8.2 Amostragem Probabilística

Note-se bem que o termo probabilístico se aplica a amostra escolhida de forma aleatória. Porenvolver o sorteio, a seleção independe do pesquisador e elimina-se a possível tendenciosidade domesmo. As amostragens probabilísticas geram amostras probabilísticas e os resultados podem serprojetáveis para a população total

8.2.1 Amostragem Aleatória Simples

Uma amostra aleatória simples é aquela obtida de tal modo que todos os indivíduos da populaçãotêm igual probabilidade de serem selecionados.

Para se obter uma amostra aleatória simples, atribui-se, inicialmente, um número a cada elementoda população. A seguir, por meio de um dispositivo aleatório qualquer (sorteio), seleciona-se a quan-tidade desejada de indivíduos. Um procedimento aleatório a ser utilizado pode ser colocar em umaurna todos os números que serão submetidos ao sorteio, retirando depois alguns à s cegas. Pode-seainda usar os números de loteria sorteados nos últimos anos, ou uma tabela de números aleatórios,ou ainda programas de computador para selecionar aleatoriamente os componentes da amostra.

Um ponto importante a salientar é que, usando este procedimento, nenhum indivíduo, por teresta ou aquela característica, terá oportunidade maior de ser escolhido, pois a escolha independe davontade do selecionador da amostra.

Podemos realizar uma amostragem aleatória simples através do programa Bioestat, vejamos umexemplo:

Exemplo: Um hospital precisa selecionar uma amostra contendo 5 de seus enfermeiros. Os nomesde todos os enfermeiros do hospital são mostrados a seguir:

População: Lista dos enfermeiros do hospital.Aristóteles Anastácia Arnaldo Bartolomeu Bernardino Cardoso CarlitoCláudio Ermílio Ercílio Ernestino Endevaldo Francisco FelícioFabrício Geraldo Gabriel Getúlio Hiraldo João JoanaJoaquim José Jose�na Mauro Paula Paulo

Primeiro precisamos associar cada elemento da população a um número. Por simplicidade, con-sideraremos números inteiros sucessivos, com a mesma quantidade de algarismos, iniciando-se por 1(um).

Numeração dos elementos da população:

População: Lista dos enfermeiros do hospital.01.Aristóteles 02.Anastácia 03.Arnaldo 04.Bartolomeu 05.Bernardino 06.Cardoso

07.Carlito 08.Cláudio 09.Ermílio 10.Ercílio 11.Ernestino 12.Endevaldo

13.Francisco 14.Felício 15.Fabrício 16.Geraldo 17.Gabriel 18.Getúlio

19.Hiraldo 20.João 21.Joana 22.Joaquim 23.José 24.Jose�na

25.Mauro 26.Paula 27.Paulo

Para extrairmos uma amostra aleatória simples de tamanho n = 5, precisamos sortear 5 númerosdentre os N = 27 disponíveis.

No Bioestat: Estatísticas > Amostragem > Aleatória > Sem ReposiçãoCom isto obtemos a janela abaixo, onde inserimos os valores N = 27 e n = 5:

50

Page 52: Apostila de Bioestatística

8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM

Em seguida, clicamos em "Executar"e teremos uma janela semelhante a esta:

Os números sorteados pelo Bioestat foram: 1-2-10-11-24Estes números correspondem aos enfermeiros: Aristóteles - Anastácia - Ercílio - Ernestino - Jose-

�na, que são os 5 enfermeiros que irão compor a amostra.

8.2.2 Amostragem Aleatória Estrati�cada

Às vezes, a população é constituída de subpopulações ou estratos e pode ser razoável supor que avariável de interesse apresenta comportamento diferente em cada estrato. Neste caso, para que umaamostra seja representativa, ela deve apresentar a mesma estrati�cação do universo de origem. Paragarantir que o procedimento aleatório produza uma amostra estrati�cada adequada, devemos:

1. Veri�car quais os estratos presentes na população.

2. Calcular seus tamanhos relativos (proporções).

3. Determinar o tamanho dos estratos na amostra, observando estas mesmas proporções.

4. Obter aleatoriamente os elementos para cada estrato, ou sorteando dentro de cada estrato, ousorteando dentro da população e preenchendo os espaços reservados para cada estrato.

Exemplo: Deseja-se avaliar o número médio de cáries em escolares de 8 anos de certa escola.Como parece razoável supor que esta variável depende do nível socioeconômico da criança, o

procedimento de amostragem escolhido é o de amostragem por estratos. Para tanto:

1. Veri�camos, inicialmente, quais os níveis socioeconômicos existentes nessa escola (suponha quesejam três: A, B e C).

2. Avaliamos a participação relativa de cada um, por exemplo, o nível A abrange 3% da população,o nível B, 22% e o C, 75%.

3. Determinamos então que, para uma amostra de 120 crianças, quatro deverão ser do nível A(pois 3% de 120 é 3,6), 26 do nível B e 90 do C.

4. Sorteamos, aleatoriamente, quatro dentre as crianças do nível A, 26 do B e 90 do C. Ou entãorealizamos o sorteio diretamente do total de crianças da escola e preenchemos as subamostrasconforme os indivíduos vão sendo selecionados. Caso seja sorteado um número que correspondaa um aluno A e já tenham sido selecionadas quatro crianças para este estrato, o número édesprezado e o sorteio prossegue.

51

Page 53: Apostila de Bioestatística

8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM

Para podermos utilizar o Bioestat, precisamos do total de elementos da população, veja outroexemplo:

Exemplo: Uma equipe de nutricionistas atende a uma população de 460 pessoas distribuídas nasclasses A, B e C, sendo 40 pessoas na classe A, 120 na B e 300 na C. A equipe quer saber se existemdiferenças nutricionais entre as classes desta população, para isto, pretende selecionar uma amostracom 50 pessoas, como proceder?

No Bioestat: Estatísticas > Amostragem > Estrati�cada

Esta janela contém o número de estratos que dividem a população, o total de elementos daamostra e a quantidade de elementos da população em cada estrato. Ao clicar em "Executar"surgeuma janela semelhante a que segue:

Esta janela contém o tamanho da amostra proporcional a cada estrato e os elementos sorteadosem cada estrato.

Perceba que o número 17 está no estrato 1 e no estrato 2, isto indica que para os elementos doestrato 1 foram atribuídos números de 1 a 40, para o estrato 2 foram atribuídos números de 1 a 120e números de 1 a 300 para o estrato 3.

Note também que existe uma barra de rolagem à direita da janela. Não esqueça de descer estabarra para ver o restante dos elementos sorteados.

8.2.3 Amostragem Aleatória Sistemática

Se os elementos da população estão ordenados de alguma maneira (em listas, �las, prateleiras,linhas de produção), é possível realizar uma amostragem sistemática, a qual é feita do seguinte modo:

52

Page 54: Apostila de Bioestatística

8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM

1. Escolhe-se uma constante conveniente;

2. Sorteia-se o primeiro indivíduo;

3. Evitam-se tantos indivíduos quantos forem indicados pela constante e toma-se o indivíduo se-guinte;

4. Repete-se o processo a partir do segundo passo até obter o tamanho amostral desejado.

Exemplo: Em um hospital há 10 mil �chas de pacientes. Deseja-se uma amostra de 500 pacientes,isto é, 5% ou um a cada 20 indivíduos da população. O ponto de partida será uma �cha selecionadaaleatoriamente dentre as primeiras 20, por exemplo, a de número 9. A próxima a ser retirada será a29a, a seguinte a 49a, etc.

Vejamos um outro exemplo, agora aplicado ao Bioestat:Exemplo: Uma clínica deseja conhecer melhor o per�l de seus pacientes, para isto, precisa retirar

uma amostra de 15 pacientes dentre os 100 que vão à clínica diariamente. Como neste estudo, éimportante a ordem de chegada dos pacientes, a clínica resolveu fazer uma amostragem sistemática.Conduza esta amostragem com o auxílio do Bioestat.

No Bioestat: Estatísticas > Amostragem > Sistemática

Na imagem acima temos o tamanho da população e o da amostra, ao clicarmos em Executar,obtemos uma janela parecida com a seguinte:

Perceba que os 100 elementos da população foram separados em grupos de 7 elementos (intervalosistemático), no primeiro grupo foi sorteado o 5o elemento, no segundo grupo o 12o (5 + 7) e assimsucessivamente, até o último grupo onde foi sorteado o 98o elemento.

8.2.4 Amostragem Aleatória por Conglomerados

Se a população apresenta-se subdividida em pequenos grupos ou conglomerados, é muitas vezesconveniente a realização da amostragem diretamente nos conglomerados, do seguinte modo:

1. Identi�cam-se os conglomerados por meio de números de ordem.

53

Page 55: Apostila de Bioestatística

8.3. AMOSTRAGEM NÃO-PROBABILÍSTICA: CAPÍTULO 8. AMOSTRAGEM

2. Sorteiam-se os conglomerados.

3. Analisam-se todos os indivíduos pertencentes aos conglomerados sorteados.

Exemplo: Epidemiologistas desejam fazer uma pesquisa em uma vila. A vila possui 10 quarteirões.Em cada quarteirão, estima-se que existam 20 casas. Deseja-se sortear 40 casas de 4 quarteirões parao estudo. Use o Bioestat para realizar esta amostragem.

No Bioestat:

Estatísticas > Amostragem > Conglomerados

Como o sorteio se dará tanto nos quarteirões quanto nas casas, temos dois conglomerados (está-gios). O Bioestat permite que os conglomerados tenham nomes próprios. Em seguida, completamosa coluna "No de unidades do estágio"com a quantidade de elementos de cada estágio e na coluna"No de unidades para sorteio"entramos com a quantidade de elementos da amostra de cada um dosestágios.

Ao clicarmos em "Executar"obtemos uma janela semelhante a que segue:

O Bioestat numerou os elementos do segundo estágio (casas) de 1 a 20, e numerou os elementosdo primeiro estágio (quarteirões) de 1 a 10. Em seguida, sorteou 4 quarteirões (neste caso o 10 - 9 -7 - 3) e em seguida sorteou 10 casas dentro de cada um destes quarteirões, obtendo um total de 40casas amostradas.

8.3 Amostragem Não-Probabilística:

Nos métodos não-probabilísticos, não temos conhecimento da probabilidade de escolha de deter-minado elemento da amostra. Nesse caso, a seleção não utiliza o sorteio, o que acarreta na sua

54

Page 56: Apostila de Bioestatística

8.4. EXERCÍCIOS NO BIOESTAT CAPÍTULO 8. AMOSTRAGEM

subjetividade e a in�uência do pesquisador sobre que elementos da população farão parte da amostra.os resultados não podem ser generalizados.

� Inacessibilidade a toda a população: quando a amostra é retirada na parte da população quenos é acessível. Surge aqui uma distinção entre população objeto e população amostrada. Apopulação objeto é aquela que temos em mente ao realizar o trabalho estatístico. Apenas umaparte dessa população, porém, está acessível para que dele retiremos a amostra. Essa parte é apopulação amostrada.

Exemplo: Controle de qualidade numa linha de produção de cigarros. Só tem-se acesso aoscigarros que já estão prontos, embora os que ainda serão produzidos fazem parte da populaçãode cigarros produzidos por aquela linha produção.

� Amostragem a esmo ou sem norma: É a amostragem onde o amostrador, para simpli�caro processo, procura ser aleatório, sem realizar propriamente o sorteio, usando algum dispositivoaleatório.

Exemplo: Amostrar 80 frangos num galpão com 3000 frangos, amostrar peixes em um lago,pessoas em uma praia, etc.

� População formada por material contínuo: Nesse caso é impossível realizar amostragemprobabilística devido à impraticabilidade de um sorteio rigoroso.

Exemplo: Processo utilizado para se amostrar líquidos, gases ou sólidos. Homogeniza-se omaterial a ser amostrado e em seguida colhe-se a amostra.

� Amostragem intencional: é aquela em que o amostrador deliberadamente escolhe certos ele-mentos para pertencer à amostra, por julgar tais elementos bem representativos da população.

Exemplo: Pesquisa de mercado para lançar uma nova marca de leite longa vida tipo A. Opesquisador selecionará indivíduos com poder aquisitivo médio/alto, que são os principais con-sumidores deste produto (público alvo), embora toda a população independentemente do poderaquisitivo possa ser consumidora deste produto.

8.4 Exercícios no Bioestat

1. Se uma população se encontra dividida em quatro estratos, com tamanhos N1 = 90, N2 = 120,N3 = 60 e N4 = 480 e temos possibilidade de retirar 100 amostras, quantas amostras devemser retiradas de cada estrato?

2. Numa sala de aula temos 36 homens e 28 mulheres. Faça uma amostragem estrati�cadaproporcional de tamanho 16 considerando o sexo como variável estrati�cadora. Quantos decada sexo serão analisados?

3. De uma população de 2.500 funcionários de uma empresa composta por 1700 funcionários dosexo feminino e 800 do sexo masculino, deseja-se usar a técnica da amostragem proporcionalestrati�cada para se analisar uma amostra de 5% num estudo com o objetivo de se estimaro salário médio. Os estratos são em relação ao sexo dos funcionários. Calcule o tamanho daamostra para cada estrato.

4. Os alunos de uma escola foram selecionados por faixas etárias, em cinco grupos diferentes, comquantidades, respectivamente, de N1 = 70, N2 = 90, N3 = 80, N4 = 50, N5 = 10. Sabendo queao ser realizada uma amostragem estrati�cada proporcional, 12 elementos da amostra foramretirados do terceiro estrato, (considere três casas depois da vírgula nos arredondamentos paraproporções) determine:

a) o número total de elementos da amostra;

b) o número de elementos retirados de cada estrato.

55

Page 57: Apostila de Bioestatística

8.4. EXERCÍCIOS NO BIOESTAT CAPÍTULO 8. AMOSTRAGEM

5. Uma população é composta por 280 elementos que estão ordenados. Se devesse ser retiradauma amostra sistemática de 20 elementos desta população, como você procederia?

6. Os prontuários dos pacientes de uma clínica estão organizados em um arquivo, por ordemalfabética. Qual a maneira mais rápida de amostrar 1=5 do total de prontuários?

7. Analise as situações descritas abaixo e decida se a pesquisa deve ser feita por amostragem oupor censo, justi�cando sua resposta.

(a) Numa linha de produção de empacotamento de remédio em uma indústria farmacêutica,observar o peso especi�cado.

(b) Em uma sala de aula composta por 40 alunos, analisar suas idades.

(c) Observar se a água de uma lagoa está contaminada.

(d) Veri�car a carga horária diária de trabalho dos funcionários do PA de Santa Maria.

8. Identi�que o tipo de amostragem utilizado.

(a) Ao escalar um júri um tribunal de justiça decidiu selecionar aleatoriamente 4 pessoas bran-cas, 3 morenas, e 4 negras.

(b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartões separados, misturae extraí 10 nomes.

(c) Um administrador hospitalar faz uma pesquisa com as pessoas que estão na �la de esperapara serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas da �la.

(d) Um médico está interessado em obter informação sobre o número médio de vezes em que1500 especialistas prescreveram certa droga no ano anterior (N = 1500). Deseja-se obteruma amostra n = 100.

(e) Suponha que existem N = 100 �chas de pacientes das quais uma amostra aleatória den = 20 deve ser selecionada. Determine que �chas devem ser escolhidas na amostra detamanho n = 20. Diga que tipo de amostragem deve ser feita e como foram selecionadasas �chas.

Questionário:1. O que é amostra? Qual sua relação com população?Amostra representa uma parcela extraída da população, são os elementos extraídos desta, sem

modi�car as características essenciais da população, para representá-la em uma análise, daí a suarelação com população.

2. O que signi�ca teoria da amostragem?A teoria da amostragem é o estudo das relações existentes entre uma dada população e as amostras

extraídas dela.

3. Qual a diferença entre amostras com e sem reposição?Amostragem com reposição é aquela em que cada elemento de uma população pode ser escolhido

mais de uma vez, enquanto na amostragem sem reposição os elementos não podem ser escolhidosmais de uma vez.

4. Quanto e quais são os planos de amostragem probabilística existem?Existem quatro planos de amostragem probabilística: aleatório, sistemático, estrati�cado e por

conglomerado.

5. Qual a diferença entre amostragem probabilística e amostragem não probabilística?

56

Page 58: Apostila de Bioestatística

8.5. TAMANHO MÍNIMO DA AMOSTRA CAPÍTULO 8. AMOSTRAGEM

Amostragem probabilística é uma amostra no qual se conhece a probabilidade de todas as possíveiscombinações amostrais, esta é objetiva, enquanto na amostragem não probabilística a variabilidadeamostral não pode ser estabelecida com precisão.

6. O que representam amostras aleatórias?Representa uma maneira de se adquirir uma amostra representativa, na qual cada elemento da

população tem a mesma chance de ser incluído na amostra.

7. Dentro do plano de amostragem probabilística, o que signi�ca amostragem sistemática?A amostragem sistemática é uma amostra que necessita de uma lista dos elementos da população

e onde a seleção dos elementos ocorre de forma sistemática e seqüencial.

8. O que signi�ca amostra aleatória em relação à população discreta?Para a população discreta, a amostra aleatória é aquela em que cada elemento da população tenha

a mesma chance de ser selecionado para a amostra.

9. Numa grande comunidade, deseja-se fazer uma pesquisa da porcentagem de pessoas quecontraíram uma doença muito contagiosa. Nesta situação, é preferível a utilização de um censo ouamostragem?

Neste caso é preferível usar a amostragem, pois, tratando-se de uma grande população, analisar onúmero de pessoas contagiadas levaria muito tempo, seria custoso e uma comunidade ao longo de suaexistência tende a se modi�car, provocando a alteração da comunidade original, ou seja, nesse períodopoderiam surgir diversas variáveis, como o alcance de um novo estágio da doença, alastramento ediferentes atuações nas regiões que provocassem uma combinação de populações devido à propagaçãoda doença. Ou seja, as variáveis modi�cariam a população original, o que tornaria inválido o censo.

10. Diferencie o censo da amostragem e explique quais as vantagens e desvantagens da amostra-gem.

O censo é um processo de inferência em que se analisam todos os elementos de uma população. Aamostragem é a análise de uma parte (amostra) do todo que seria a população. Uma das vantagens daamostragem é que, dependendo do tipo de informação requerida, pode ser mais atualizada. Tambémpode ser usada para testes destrutivos e população in�nita. Como desvantagem, cita-se o perigo deerro da generalização. A depender das características dos elementos da população analisada, podeocorrer a perda ou modi�cação das informações, tornando a amostra não representativa do todo.

8.5 Tamanho Mínimo da Amostra

É muito comum ao pesquisador indagar sobre o número de elementos para uma amostra, quandopretende realizar uma pesquisa de campo, laboratório ou uma simples investigação.

Não existe número �xo para o tamanho da amostra a ser estudada. Há uma solução para cadacaso, dependendo:

1. Do tipo de problema que se quer resolver. Exemplos de problemas possíveis são: caracterizaruma variável ainda não investigada na população; comparar duas populações quanto a umavariável dada; veri�car se duas variáveis estão associadas.

2. Do tipo de variável. Estudos envolvendo variáveis qualitativas geralmente exigem amostrasmaiores. Dentre as variáveis quantitativas, as que apresentam maior variabilidade nos dadostambém exigem amostras maiores.

3. Da magnitude do erro estatístico aceito pelo pesquisador. Quanto menos o pesquisador quererrar em suas conclusões, maior deverá ser o tamanho da amostra.

4. Do tamanho da diferença considerada importante pelo pesquisador em uma comparação entregrupos. Diferenças menores exigem amostras maiores.

57

Page 59: Apostila de Bioestatística

8.5. TAMANHO MÍNIMO DA AMOSTRA CAPÍTULO 8. AMOSTRAGEM

5. Do poder desejado para o teste, isto é, da probabilidade de que a amostra identi�que umadiferença ou um efeito real.

6. Do tempo, verbas e pessoal disponíveis, bem como da di�culdade em se obterem os dados e dacomplexidade do experimento.

Tamanho Mínimo da Amostra para a Estimação da Média Populacional

Trabalhamos com dois casos, quando o tamanho da população for conhecido e quando não forconhecido.

Para realizar os cálculos, usaremos a planilha "Siqueira Campos"do Excel disponível em www.

siqueiracampos.com/downloads.Exemplos:

1. Deseja-se estimar a média da glicemia em pessoas normais, admitindo um erro máximo de 2mg/100ml para mais ou para menos e sabendo que o desvio padrão populacional deve estarem torno de 4 mg/100ml. Vamos admitir 99% de con�ança. Quantas pessoas devemos tomarcomo amostra?

Solução: Perceba que neste exemplos não temos o tamanho da população.

Assim, precisaremos tomar 27 pessoas como amostra para que tenhamos 99% de chances deque a média da glicemia varie entre -2 mg/100ml e +2 mg/100ml.

2. Com o objetivo de estudar a variação do peso de um determinado produto, é preciso coletaruma amostra a partir de uma população de 600 peças. Sabe-se que o produto possui um desviopadrão entre as peças de 10kg. Admitindo um nível de con�ança de 95% e um erro amostralde 1,5 kg, determine quantas amostras deverão ser analisadas.

Solução: Neste exemplo temos o tamanho da população.

58

Page 60: Apostila de Bioestatística

8.5. TAMANHO MÍNIMO DA AMOSTRA CAPÍTULO 8. AMOSTRAGEM

Assim, para termos 95% de chances que o peso do produto varie em 1,5 kg para mais ou paramenos, precisaremos medir 134 produtos na amostra.

Obs.: Veja que para estes exemplos sempre contamos com o desvio padrão da população. Quandonão tivermos esta informação podemos substituir o valor do desvio padrão populacional pelo desvio pa-drão obtido a partir de uma pré-amostra, tendo o cuidado de que esta estimativa seja apropriadamentecalculada.

Tamanho Mínimo da Amostra para a Estimação da Proporção Populacional

Exemplos:

1. Qual deve ser o tamanho da amostra para que possamos estimar a porcentagem de pessoasportadoras de problemas de visão em uma determinada cidade, de modo que o intervalo entreos valores estimados não exceda 2% para um nível de con�ança de 95%, sabendo que estaporcentagem deve estar em torno de 40%?

Solução:

59

Page 61: Apostila de Bioestatística

8.5. TAMANHO MÍNIMO DA AMOSTRA CAPÍTULO 8. AMOSTRAGEM

Assim, para que a pesquisa levante uma amostra com 95% de chance de conter uma variaçãona proporção de no máximo 2%, precisamos de 2305 elementos amostrados.

2. Um enfermeiro pretende estimar a proporção de retornos ao hospital após certo tempo de umgrupo de 500 pacientes. Para isto, selecionou, ao acaso 50 pacientes e veri�cou que 20 delesretornou ao hospital no tempo de estudo (pré-amostra). Determinar o tamanho da amostranecessário para se estimar a taxa de retorno sobre toda a população, com um nível de con�ançade 90% e erro máximo de 5%.

60

Page 62: Apostila de Bioestatística

8.6. EXERCÍCIOS CAPÍTULO 8. AMOSTRAGEM

Assim, será preciso amostrar 172 pessoas do universo de 500 pessoas para que se tenha umachance de 90% de se obter uma variação de 5% na proporção de retorno ao hospital.

8.6 Exercícios

Use a planilha Siqueira Campos.Não esqueça de escrever a frase de interpretação e colocá-la após o print dos cálculos.

1. Se quer a proporção de moradores de uma comunidade com idade superior a 40 anos que sofremde dores de coluna com precisão de �4%(erro = 4%). Quantos moradores se devem entrevistarpara obter essa precisão com 95% de con�ança. A comunidade tem 1500 pessoas com idademaior que 40 anos. Resp.: 430

2. Veri�car quantos dos 100 empregados de uma cantina cumprem corretamente as normas dehigiene e segurança do trabalho. Presume-se que esse no não seja superior a 30% do total;deseja-se um nível de con�ança de 95% e tolera-se um erro até 3%. Se a população fosse de10000 qual seria o tamanho da amostra? Resp.: 90 e 824

3. Determinado trabalho, realizado para investigar a prevalência de hanseníase em trabalhadoresrurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo projetosobre hanseníase, desejamos um nível de con�ança de 95% e erro de amostragem de 5%.Determine n, o tamanho da amostra necessária para uma população de tamanho N = 100.000.Resp.: 264

Cuidados com a escolha da amostraCom o que foi visto sobre amostragem até agora, destacamos alguns cuidados a serem tomados:

� Imparcialidade: todos os elementos devem ter a mesma probabilidade e oportunidades de seremescolhidos.

� Representatividade: deve conter em proporção todas as características que a população possui,qualitativa e quantitativamente, de modo a que não se torne tendenciosa.

� Tamanho: su�cientemente grande de modo a fornecer as principais características, por outrolado pequena para economizar tempo, dinheiro e pessoal.

8.7 Leitura Complementar

O tamanho da amostraUma pergunta muito frequente em estudos na área da saúde é �qual deve ser o tamanho da minha

amostra?�. Esta é uma questão delicada e muitas vezes polêmica. Considere o seguinte exemplo: senos fosse perguntado �quanto de dinheiro preciso levar para as minhas férias?� a resposta imediataseria �depende�. Depende do lugar que deseja ir, quanto tempo pretende �car, quantas pessoas, qualo meio de transporte e, é claro, entre outros detalhes, qual o dinheiro disponível. Da mesma forma,arbitrar um tamanho adequado de amostra envolve conhecimento da natureza das medidas realizadas,do plano de análise, do nível de erro aceitável para estimativas etc.

Há com frequência uma ênfase excessiva ao cálculo do tamanho de amostra em detrimento daconcepção cuidadosa de um plano amostral, que são as estratégias a serem adotadas para garantirque a amostra a ser estudada seja representativa do universo real do fenômeno a ser estudado.

Os vícios de seleção, de detecção, de exposição, de informação ou de memória não serão prevenidospor qualquer de�nição de tamanho de amostra, mas sim por um plano amostral cuidadoso. O tamanhoda amostra vai depender da viabilidade de coleta de dados, que envolve principalmente tempo, custos edisponibilidade de casos para serem estudados. Isto não signi�ca que o cálculo de tamanho de amostraseja dispensável. O que desejamos salientar aqui é que ele deve ser utilizado como planejamento, isto

61

Page 63: Apostila de Bioestatística

8.8. TRABALHO 03 CAPÍTULO 8. AMOSTRAGEM

é, como parte de um estudo bem delineado onde ele não substitua o compromisso do investigador deanalisar a representatividade dos casos estudados, seja qual for o número a ser observado.

Uma das vantagens de se calcular corretamente o tamanho da amostra é a possibilidade de eco-nomia. Por exemplo, um estudo bem planejado pode, a partir de uma amostra não muito grande,obter as mesmas conclusões de um estudo que envolveu uma amostra muito maior por não ter sidopreviamente planejado. Entretanto, o cálculo do tamanho da amostra não garante um resultadosigni�cante. É conveniente planejar o tamanho da amostra para que se possa ter amostras grandeso su�ciente para detectar diferenças importantes (amostras muito pequenas podem deixar que dife-renças importantes passem desapercebidas). Por outro lado, amostras exageradamente grande alémde elevar o custo do estudo, podem tornar diferenças clinicamente irrelevantes em estatisticamentesigni�cativas.

Para o planejamento do tamanho da amostra o investigador precisa estabelecer algumas de�ni-ções como: tipo de estudo que pretende realizar (ex. estudo de prevalência, ensaio clínico, coorte,caso-controle); o tipo de medida que deve utilizar (ex. medidas contínuas, categorizadas, prevalência,incidência); o tipo de análise (ex. diferenças entre médias, diferença entre proporções, cálculo derisco); a margem de erro que pode assumir para o estudo (ex. o nível de signi�cância e o poder doteste estatístico que pretende aplicar). Estes conceitos podem ser mais bem esclarecidos na home-page do Laboratório de Epidemiologia e Estatística (www.lee.dante.br) que apresenta um serviço quecalcula tamanhos de amostra para alguns dos desenhos de pesquisa médica/biológica mais frequentes,além de oferecer textos de apoio para compreensão de cada item envolvido no cálculo e referênciasbibliográ�cas para orientarem interessados num estudo autônomo.

8.8 Trabalho 03

Instruções:

� As questões deverão ser respondidas no Word ;

� O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica;

� O arquivo deve ser enviado para o e-mail [email protected]

� O assunto do email será Trabalho 03.

� Utilize o seu email da Unifra (acesse-o através do Alunonet).

1. Temos uma população de 250 pacientes. Explique como será feita a escolha da amostra utili-zando uma amostragem:

a) Aleatória de tamanho 50.

b) Sistemática de tamanho 50.

c) Estrati�cada de tamanho 50 sendo a variável estrati�cadora o sexo (temos 150 masculinos e100 femininos).

2. A hemoglobina, importante pigmento transportador de oxigênio e C02, é um tetrâmero compostode duas cadeias � e duas �. A �-talassemia é uma anemia hereditária causada pela diminuiçãoparcial ou total da síntese da cadeia � da hemoglobina. Suponha que certo pesquisador desejasaber qual a média para a contagem de eritrócitos (por mm3 de sangue) em crianças com �-talassemia. Quantas crianças ele deve estudar para obter tal estimativa, considerando que aliteratura traz um desvio padrão para a contagem de eritrócitos de 0,6 milhões/mm3 e que foiescolhido um nível de 95% de con�ança.

3. Um assistente social deseja saber o tamanho da amostra (n) necessário para determinar aproporção da população atendida por uma Unidade de Saúde, que pertence ao município de

62

Page 64: Apostila de Bioestatística

8.8. TRABALHO 03 CAPÍTULO 8. AMOSTRAGEM

Cariacica. Não foi feito um levantamento prévio da proporção amostral e, portanto, seu valor édesconhecido. Ela quer ter 90% de con�ança que o erro máximo de estimativa seja de �5% (ou0,05). Quantas pessoas necessitam ser entrevistadas? (Lembre-se que se não há uma proporçãojá estabelecida, usa-se uma aproximação de 50%

63

Page 65: Apostila de Bioestatística

Parte IV

Estatística Inferencial

com Bioestat

64

Page 66: Apostila de Bioestatística

Em termos estatísticos, inferir signi�ca tirar conclusões do todo apenas observando a parte. Fa-zemos isto no nosso dia-a-dia mesmo sem nos darmos conta, basta ver como se faz para veri�carmoso sal da comida que estamos preparando ou como decidimos comprar uma dúzia de laranjas depois deexperimentarmos um pedaço de uma delas, estas são decisões baseadas em amostras.

A inferência estatística é um ramo da estatística cujo objetivo é fazer a�rmações a partir de umconjunto de valores representativo (amostra) sobre um universo. �A inferência estatística é geralmentedistinta da estatística descritiva, pois descrição estatística pode ser vista como a simples apresentaçãodos fatos, nos quais o modelo de decisões feito pelo analista tem pouca in�uência� (Magalhães1)

1Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade

de São Paulo (IME-USP)

65

Page 67: Apostila de Bioestatística

Capítulo 9

Probabilidade

Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivasprobabilidades, temos uma distribuição de probabilidades.

A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um ex-perimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, nolançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6.

Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis ale-atórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquerdistribuição de probabilidades:

1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1.

2. A probabilidade de ocorrência de um evento deve ser maior do que zero e menor do que 1.

Exemplo: No lançamento de um dado, como todas as faces têm a mesma probabilidade deocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima.O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.

A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Estese assemelha ao histograma de freqüências apresentado na Parte I, entretanto a escala vertical repre-senta probabilidades, em lugar das freqüências relativas.

O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variânciae o desvio-padrão traduzem outras características.

Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor médio que espe-raríamos ter se pudéssemos repetir as provas inde�nitivamente. Não obtemos o valor que esperamosocorrer com maior frequência.

Já o desvio-padrão nos dá uma medida de quanto a distribuição de probabilidades se dispersa emtorna da média. Um grande desvio-padrão re�ete dispersão considerável, enquanto que um desvio-padrão menor traduz menor variabilidade, com valores relativamente mais próximos da média.

A média de uma variável aleatória discreta é o resultado médio teórico de um número in�nito deprovas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio queesperaríamos obter se as provas se prolongassem inde�nitivamente.

Exemplo: Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinadoevento.

Probabilidade de ocorrência de cada evento x.

66

Page 68: Apostila de Bioestatística

9.1. INTERPRETAÇÕES DA PROBABILIDADE CAPÍTULO 9. PROBABILIDADE

X P(x)0 0,2101 0,3672 0,2753 0,1154 0,0295 0,0046 07 0

Total 1,000

Abaixo vemos o histograma de probabilidades:

As distribuições de frequências construídas a partir de observações podem ser representadas atravésde formas matemáticas. Então, as formas matemáticas utilizadas para a idealização dos dados reaissão referidas como distribuições teóricas.

As distribuições teóricas representam os dados aproximadamente, embora em muitos casos aaproximação pode ser muito boa.

Uma distribuição teórica é um modelo matemático. A natureza especí�ca de uma distribuiçãoteórica é determinada por valores particulares através de uma entidade chamada parâmetros da dis-tribuição. As distribuições teóricas também são chamadas de distribuições paramétricas, porque seusatributos especí�cos dependem dos valores numéricos de seus parâmetros.

9.1 Interpretações da Probabilidade

Exatamente, o que é probabilidade? Eis uma questão difícil (e, por vezes, controvertida).Consideremos a a�rmação: se jogamos uma moeda, há uma probabilidade de 1/2 de aparecer cara.

Determinar exatamente o que essa a�rmação signi�ca é uma questão �losó�ca difícil. De acordo coma interpretação da probabilidade como frequência relativa, a a�rmação signi�ca que o número de carasestará próximo de 1/2 do total de jogadas, desde que joguemos a moeda um grande número de vezes.

Há alguns eventos para os quais a interpretação como frequência relativa é difícil. O meteorologistacostuma dizer: há 20% de chance de chover hoje. Entretanto, não podemos fazer o hoje repetir-se100 vezes para veri�car se chove em 20% das vezes.

67

Page 69: Apostila de Bioestatística

9.2. A INTERPRETAÇÃO DA PROBABILIDADE SEGUNDO O JOGADORCAPÍTULO 9. PROBABILIDADE

A interpretação subjetiva da probabilidade a�rma que a probabilidade é uma estimativa do queum indivíduo pensa que seja a viabilidade de ocorrência de um evento. Nesse caso, dois indivíduospodem estimar diferentemente uma probabilidade. A interpretação subjetiva possibilita falar signi�-cativamente sobre as probabilidades de uma classe mais ampla de eventos, mas as probabilidades setornam mais intangíveis porque não podemos especi�car objetivamente o que elas são.

9.2 A Interpretação da Probabilidade Segundo o Jogador

Outra perspectiva da probabilidade é a visão do jogador (recorde que a matemática probabilísticaprimitiva foi estabelecida por jogadores): a probabilidade de um evento pode ser de�nida como a chanceque deveríamos oferecer a alguém antes de ele apostar na ocorrência de um evento. Por exemplo,se uma pessoa está querendo apostar com chances iguais (ganhar ou perder a mesma quantia) quevai chover amanhã, ela deve acreditar, talvez inconscientemente, que há ao menos 50% de chance dechover amanhã. Se alguém quer apostar R$ 10 em uma partida de tênis, mas só se tiver chance deganhar R$ 30, então ela crê que tem 1 em 4 chances de ganhar e 3 em 4 chances de perder.

O modo como o jogador encara a probabilidade é intuitivo, mas a intuição da maioria das pessoasé inconsistente.

Na abordagem matemática, ou axiomática, da probabilidade, o termo probabilidade permanecesem de�nição. Formulam-se algumas hipóteses (axiomas) sobre o comportamento da probabilidade.Essas hipóteses seguem nossa ideia intuitiva do que a probabilidade signi�ca, e são então utilizadaspara demonstrar teoremas.

9.3 Probabilidade de Ocorrência de Um Evento

Na abordagem clássica da probabilidade, a de�nição formal da probabilidade de um evento A édada pela divisão da quantidade de resultados do evento A pela quantidade total de resultados.

P (A) =N(A)

n

onde N(A) é a quantidade de vezes que o evento A ocorre e n é o número total de resultadospossíveis.

9.4 Probabilidade Condicional

Como vimos, ao lidar com eventos aleatórios, estamos quase sempre no escuro quanto ao quepode acontecer. Não obstante, à s vezes podemos obter alguma informação sobre a ocorrência de umevento aleatório ser mais, ou menos, viável.

Suponha-se, por exemplo, que queiramos saber a probabilidade de obter o total 8 na jogada de doisdados. Essa probabilidade é 5/36. Entretanto, jogando um dos dados primeiro, teremos uma ideiamelhor da possibilidade de obter 8. Se, por exemplo, obtemos um 5 com o primeiro dado, precisamosde um 3 no segundo, e a probabilidade desse resultado é 1/6. Portanto, se o primeiro dado acusou5, nossa chance de obter o total 8 melhorou de 5/36 para 1/6.

Por outro lado, suponhamos que o primeiro dado tenha apresentado a face 1. Então, não há comoobtermos o total 8, qualquer que seja o resultado do segundo dado. Por conseguinte, a probabilidadede obtermos a soma 8, quando obtivemos 1 com o primeiro dado, é zero.

Suponhamos, ainda, que estejamos interessados na probabilidade de obter quatro caras em sequên-cia. A probabilidade desse evento é 1/16. Mas, se já tivermos jogado a moeda duas vezes, conseguindocara em ambas as jogadas, a probabilidade de sair cara mais duas vezes e 1/4. Por outro lado, sejogamos a moeda duas vezes e aparece cara primeiro e coroa em seguida, não há possibilidade deocorrer uma sequência de quatro caras.

Todas as situações acima são exemplos de probabilidade condicional. Uma probabilidade condi-cional nos diz a possibilidade de ocorrência de determinado evento, se já sabemos que outro evento

68

Page 70: Apostila de Bioestatística

9.5. EVENTOS INDEPENDENTES CAPÍTULO 9. PROBABILIDADE

especí�co ocorreu. Em particular, suponha que o evento B tenha ocorrido; queremos determinar aprobabilidade de ocorrência do evento A. A probabilidade condicional de ocorrência de A, dado que Bocorreu, se escreve:

P (AjB)A barra vertical signi�ca dado que.

9.5 Eventos Independentes

Como vimos, frequentemente o conhecimento da ocorrência de um evento auxilia na avaliação daviabilidade de outro evento. Há, entretanto, alguns casos em que o conhecimento da ocorrência deum evento nada nos diz sobre a possibilidade da ocorrência de outro. Suponhamos, por exemplo, queo leitor saiba que uma família acaba de ter uma �lha. Qual é a probabilidade de o próximo rebentoda mesma família ser também menina? Nesse caso, o conhecimento a respeito do último �lho nadanos diz quanto ao próximo.

Suponhamos que apareça um 3 na primeira jogada de um dado. Qual a probabilidade de aparecerum 5 na próxima jogada? O fato de sabermos que apareceu 3 na primeira jogada nada nos diz arespeito do resultado da próxima jogada. Nesse caso, chamando A o evento 3 na primeira jogada eB o evento 5 na segunda jogada, P (A) = 1=6, P (B) = 1=6 e P (AjB) = 1=6, pois o fato de B terocorrido não afeta a probabilidade de ocorrência de A.

Daremos um nome especial a essa situação: diremos que esses dois eventos são eventos inde-pendentes. É uma expressão coerente, pois dois eventos independentes não afetam um ao outro.

O fato de sabermos que um dos eventos ocorreu nada nos diz sobre se o outro ocorrerá ou não.A de�nição formal de independência é:

Os eventos A e B são independentes se P (AjB) = P (A).

Eis mais alguns exemplos de eventos independentes:

� A probabilidade de tirarmos dois pares em um jogo de cartas não é afetada pelo fato de termostirado dois pares em um jogo ontem.

� A probabilidade de tirar 4 na jogada de um dado não é afetada pelo fato de termos tirado cara,ou coroa, na jogada de uma moeda.

Parâmetros e Estatísticas

É comum a confusão entre parâmetros da distribuição e estatísticas da amostra. Os parâme-tros da distribuição são as características de uma distribuição teórica particular. Eles representamsucintamente as propriedades fundamentais de uma população.

Já as estatísticas são quantidades calculadas a partir de uma amostra de dados.

9.6 Nível de Con�ança e de Signi�cância

O nível de con�ança representa a probabilidade de acerto na estimativa, enquanto que o nível designi�cância apresenta a eventual probabilidade de erro.

69

Page 71: Apostila de Bioestatística

9.6. NÍVEL DE CONFIANÇA E DE SIGNIFICÂNCIA CAPÍTULO 9. PROBABILIDADE

Assim, se uma pesquisa na área da saúde detecta que 60% das pessoas analisadas estão infectadaspor uma determinada bactéria com uma margem de erro igual a 3% e um nível de con�ança iguala 95%, existem 95% de probabilidade das pessoas infectadas estarem entre 60% + 3%, ou 57% e60% - 3%, ou 63%. Se o nível de signi�cância da pesquisa é de 5%, existem 5% de chances de queo número construído esteja errado. Em outras palavras, existe uma probabilidade igual a 5% de apercentagem no universo ser menor que 57% ou maior que 63%.

Karl Pearson

70

Page 72: Apostila de Bioestatística

Capítulo 10

Estimação de Parâmetros

Um dos objetivos da Estatística é a realização de inferências acerca de uma população, baseadasnas informações amostrais. Como as populações são caracterizadas por medidas numéricas descritivas,denominadas parâmetros, a inferência estatística diz respeito à realização de inferências sobre essesparâmetros populacionais.

Os métodos de realizar inferências a respeito dos parâmetros pertencem a duas categorias. Pode-se tomar decisões relativas ao valor do parâmetro, através de um teste de hipótese ou pode-se estimarou prever o valor do mesmo.

A estimação é o processo que consiste em utilizar dados amostrais para estimar os valores deparâmetros populacionais desconhecidos. Qualquer característica de uma população pode ser estimadaa partir de uma amostra aleatória. Entre as mais comuns, estão a média e o desvio padrão de umapopulação e a proporção populacional.

Parâmetros: valores calculados com dados da população (média da população, desvio padrão).Estimativas: valores calculados com dados da amostra (média da amostra).

10.1 Estimativas pontuais e intervalares

Uma estimativa é chamada pontual quando se baseia em um único valor ou ponto. Por exemplo,se a média da taxa de glicose de indivíduos diabéticos for estimada em 200 mg/100ml, esta estimativaé pontual porque considera como possível um único valor para a média de todos os diabéticos. Emboraeste tipo de estimativa seja muito precisa (aliás, tem precisão máxima), suas chances de ser verdadeirasão provavelmente nulas. Dessa forma, a�rmativas desse tipo não são seguras.

O fato de as estimativas pontuais serem pouco con�áveis impõe a alternativa de de�nir um intervalode valores prováveis para a estimativa. Este tipo de procedimento acarreta no que se denominaintervalo de con�ança. O intervalo de con�ança é, na verdade, uma consequência lógica da ideia,esplanada anteriormente a respeito dos parâmetros populacionais serem desconhecidos. Se é assim,qualquer noção que se tenha deles, representada por um conjunto de valores possíveis, não é 100%segura, a não ser que se tome um intervalo in�nito. Um exemplo de estimativa por intervalo seriaestimar que a taxa média de açúcar em diabéticos está entre 180 e 220 mg/100 ml, em um nível decon�ança de 90%.

10.2 Intervalo de Con�ança para Média Populacional quando a Vari-

ância é Conhecida

Conhecendo a distribuição de x , podemos ser mais precisos sobre a validade da estimativa. Sabe-mos que o verdadeiro valor de � deve estar próximo do valor de x � mas, quão próximo? x estará 1unidade distante de �? Ou 50 unidades? É interessante conhecermos a probabilidade de a distância dex a � ser inferior a um valor especí�co c . Em outras palavras, desejamos determinar a probabilidadede � estar entre (x � c) e (x + c).

71

Page 73: Apostila de Bioestatística

10.2. INTERVALO DE CONFIANÇA PARA MÉDIA POPULACIONAL QUANDO A VARIÂNCIA ÉCONHECIDA CAPÍTULO 10. ESTIMAÇÃO DE PARÂMETROS

Obviamente, a probabilidade depende em grande parte do valor escolhido de c . Se escolhermosum valor muito grande de c , podemos ter quase certeza de que o verdadeiro valor de � estará nointervalo.

Fazendo, por exemplo, c in�nito, a probabilidade de � estar no intervalo é 100%, pois, obviamente,� deve estar entre (x�1) e (x+1). Mas um intervalo com essa amplitude não tem qualquer utilidade.Reduzindo o intervalo mediante a escolha de um valor menor para c , podemos ser mais precisos sobreo verdadeiro valor de �. Todavia, quando reduzimos o intervalo, também há maior chance de � nãoestar no intervalo.

O procedimento estatístico normal é o seguinte. Primeiro, escolhemos a probabilidade desejada� em outras palavras, �xamos antecipadamente a probabilidade de � estar no intervalo. É comum�xarmos em 95% essa probabilidade. Calculamos, então, qual deve ser a amplitude do intervalo paraque haja 95% de chance de ele conter o verdadeiro valor. Esse tipo de intervalo é chamado intervalode con�ança, e 95% é o nível de con�ança.

Desta forma, precisamos determinar o valor de c que satisfaça a equação:

P (x � c < � < x + c) = 0; 95

Conhecido o valor de c, sabemos qual deve ser a amplitude do intervalo de con�ança onde há 95%de chance de encontrarmos o verdadeiro valor de �.

Um intervalo de con�ança de 95% para um parâmetro populacional fornece um intervalo no qualestaríamos 95% con�antes de cobertura do verdadeiro valor do parâmetro.

Tecnicamente, 95% de todos os intervalos de con�ança que construímos conterão o verdadeirovalor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Ou ainda, se obtiver-mos um intervalo de con�ança para o parâmetro � teremos que para cada uma dentre 100 amostrasaleatórias da população, somente 5, em média, desses intervalos de con�ança não conterão �.

O bom senso justi�ca duas características desse resultado. Primeiro, o intervalo de con�ança émais amplo (isto é, mais incerto) se o desvio padrão (quadrado da variância) é maior. Se a variânciade cada observação individual é maior, então será mais difícil incluirmos o verdadeiro valor de �.Segundo, o intervalo de con�ança é menor se n é maior. Signi�ca que, se �zermos um número cadavez maior de observações, poderemos predizer com maior precisão o verdadeiro valor de �.

Se quisermos, poderemos ser ainda mais cautelosos. Suponha que queiramos ter 99% de certezade que nosso intervalo de con�ança contenha o verdadeiro valor de �. Então, teremos de �xar umintervalo mais amplo, menos preciso.

Exemplo: Uma pesquisadora do vício do fumo está interessada em estimar a idade média emque os usuários de cigarros começam a fumar. Tomando uma amostra aleatória de 25 fumantes, elacalcula uma média amostral de 16,8 anos e um desvio padrão amostral de 1,5 anos. Construa umintervalo de 95% de con�ança para estimar a idade média em que a população começa a fumar.

No Bioestat:

Estatísticas > Estimação de Parâmetros > Da Média

72

Page 74: Apostila de Bioestatística

10.3. INTERVALO DE CONFIANÇA PARA PROPORÇÃOCAPÍTULO 10. ESTIMAÇÃO DE PARÂMETROS

Assim, temos uma chance de 95% de a média de idade que os usuários de cigarros começam afumar estar entre 16,18 e 17,42 anos.

10.3 Intervalo de Con�ança para Proporção

Os procedimentos que envolvem a estimativa de proporções populacionais a partir de dados amos-trais são similares aos preocedimento empregados na estimação de médias populacionais.

A proporção amostral funciona como estimativa pontual da verdadeira proporção. Algebricamente,a estimativa pontual pode ser apresentada como:

� = p =x

n

Onde:� é a proporção populacional ou verdadeira;p é a proporção amostral;x é a quantidade de elementos com a característica desejada na amostra;n é a quantidade de elementos da amostra.

Exemplo: Uma indústria farmacêutica analisou uma amostra com 180 procedimentos onde 18apresentaram falhas de algum tipo. Empregando um nível de con�ança de 95%, pede-se calcular oerro inferencial e estimar o valor da porcentagem de procedimentos que mostravam falhas no universo.

No Bioestat:

Estatísticas > Estimação de Parâmetros > Da Proporção

73

Page 75: Apostila de Bioestatística

10.4. EXERCÍCIOS NO BIOESTAT CAPÍTULO 10. ESTIMAÇÃO DE PARÂMETROS

Assim, pode-se dizer que, em relação ao universo, uma porcentagem entre 5,6% e 14,4% dosprocedimentos deve apresentar falhas de algum tipo.

Note o seguinte:

O valor c = 0; 044 é o erro inferencial.

10.4 Exercícios no Bioestat

1. Uma pesquisa com 1000 entrevistados, indica que 55% deles são favoráveis ao programa fomezero. O prefeito e outros membros do governo desejam estar 95% certos que contam com oapoio da maioria antes de prosseguir com o projeto. O IC de 95% garante que eles têm maisde 50% de apoio? Resp: 51; 9% � � � 58; 1%

2. Uma pesquisa realizada junto aos 800 familiares dos pacientes internados em um hospital dereferência da região obteve-se uma proporção de 53% totalmente satisfeitos com o atendimentoem geral. O diretor quer saber qual o IC de satisfação da população atendida com 95%decon�ança.

Resp: 53% � 3,5%

3. A �m de determinar os pontos de vista dos estudantes de determinado campus sobre associaçõesestudantis, administrou-se uma escala de atitudes de 11 pontos a uma amostra aleatória de 40estudantes. Essa pesquisa deu uma media amostral de 6 (quanto mais alto o escore, maisfavorável à s associações) e um desvio padrão de 1,5.

74

Page 76: Apostila de Bioestatística

10.4. EXERCÍCIOS NO BIOESTAT CAPÍTULO 10. ESTIMAÇÃO DE PARÂMETROS

a) Estime o erro padrão da média(95%). Resp: erro = 0,48

b) Determine o intervalo de 95% de con�ança para a média populacional. Resp: 6 � 0,46

c) Determine o intervalo de 99% de con�ança para a média populacional. Resp: 6 � 0,6

4. Uma organização de pesquisa entrevistou, por telefone, 400 adultos selecionados aleatoriamente,na cidade de Nova York, sobre sua opinião a respeito de um teste do uso de drogas paramotoristas de táxi e constatou que 38% eram favoráveis a essa regulamentação.

a) Determine o intervalo de 95% de con�ança para a proporção populacional.

Resp: 38% � 4,8%

b) Determine o intervalo de 99% de con�ança para a proporção populacional.

Resp: 38% � 6,2%

5. Um distrito escolar local deseja monitorar as atitudes dos pais em relação à proposta de elimi-nação dos esportes após as aulas, como uma medida para reduzir custos. Em vez de enviar umquestionário por intermédio dos alunos, o comitê da escola decide fazer uma pesquisa telefônica.De 120 pais entrevistados, 74 apoiaram o plano de suprimir o programa de esportes.

a) Estime o erro padrão da proporção. Resp: 8,7%

b) Determine o intervalo de 95% de con�ança para a proporção populacional.

Resp: intervalo de 53% a 70,4%

6. Um estudante de Farmácia fez uma pesquisa para saber o percentual de alunos, de uma escolaque apresentavam excesso de peso (IMC>24,9). Para isso, avaliou 140 alunos encontrando 52com excesso de peso. A escola tem 500 alunos. Calcule o intervalo de con�ança com � = 0; 05.

Resp: 37; 1%� 6; 8% (com excesso de peso)

7. A �m de estimar a proporção de estudantes de determinado campus favoráveis a uma campanhageral contra o uso de álcool, um pesquisador entrevistou uma amostra aleatória de 50 estudantesdentre a população de uma faculdade, constatando que 36% da amostra era favorável à proibiçãodo álcool. De posse dessa informação, determine:

a) Erro padrão da proporção com índice de con�ança de 95%. Resp: 13,3%

b) Um intervalo de con�ança de 95% para a proporção populacional. Resp: 36%� 13; 3%

8. Num experimento, doentes contaminados com cercaria, que é uma das formas do verme daesquistossomose, recebem um certo medicamento e observa-se a proporção de cura. De 200pacientes medicados, 160 foram curados. Determine um intervalo de 95% de con�ança para aproporção populacional de pacientes curados pelo medicamento. Resp: 80%� 4; 65%

9. Entre milhares de casos de pneumonia não tratada com sulfa, a porcentagem que desenvolveucomplicações foi de 10%. Com o intuito de saber se o emprego da sulfa diminuiria essa por-centagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaramcomplicações. Construa um intervalo com 95% de con�ança para a porcentagem de complica-ções para doentes tratados com sulfa. Resp:5%� 3; 9%

10. Suponha que se deseja estimar o diâmetro pupilar médio de coelhos adultos normais, a partir deuma amostra de 12 animais, cuja média foi de 5,2 mm e considerando que o desvio padrão dodiâmetro pupilar é de 1,2 mm. Empregue um grau de con�ança de 95% para a estimativa.

Resp: Este resultado indica que se pode ter uma con�ança de 95% de que a média verdadeirados diâmetros pupilares em coelhos adultos esteja entre 4,52 e 5,88 mm.

75

Page 77: Apostila de Bioestatística

10.4. EXERCÍCIOS NO BIOESTAT CAPÍTULO 10. ESTIMAÇÃO DE PARÂMETROS

11. O Centro de Acompanhamento Pré-Natal, para dependentes de drogas químicas, da Escola deMedicina da Universidade de Northwestern � Chicago acompanhou a gravidez de 55 mulheresdependentes de cocaína. Destas, apesar de todo o esforço do centro, apenas 19 conseguiramparar de usar a droga durante o 1o trimestre. O quadro abaixo apresenta os resultados dospesos de recém-nascidos do grupo 1, �lhos de mães que usaram cocaína apenas no 1o trimestrede gravidez, e do grupo 2, �lhos de mães que usaram cocaína durante toda a gravidez.

Informação Grupo 1 Grupo 2

Tamanho da amostra 19 36Média(g) 3160 2829

Desvio-padrão(g) 453 708

Estime o efeito da cocaína no peso dos recém-nascidos e construa o intervalo de con�ança(95%). Comente os resultados.

Grupo 1: 3160� 204; Grupo 2: 2829� 323

12. A �m de acelerar o tempo que um analgésico leva para penetrar na corrente sanguínea, umquímico analista acrescentou certo componente à fórmula original, que acusava um tempo médiode 43 minutos. Em 36 observações com a nova fórmula, obteve-se um tempo médio de 42minutos, com desvio padrão de 6 minutos.

a) Estime o tempo médio que a nova fórmula leva para penetrar na corrente sanguínea por meiode um intervalo com 95% de con�ança. 42� 1; 96min

b) Caso você desejasse reduzir a margem de erro do intervalo apresentado no item anterior pelametade, em quantas vezes você deveria aumentar o tamanho da amostra? 144 observações

13. Alguns pesquisadores pensam que a vitamina C pode ser útil para reduzir os depósitos formadoresdo colesterol situados na parte inferior das paredes arteriais, e, por conseguinte, pensam que avitamina C concorre também para a redução da possibilidade de ataques cardíacos. O nível decolesterol de cada uma de 36 pessoas com nível de colesterol acima do normal foi anotado antese após um período de regime de 1 mês, regime este que obrigou cada pessoa a ingerir 500 mgde vitamina C por dia. Os dados obtidos mostraram 64,3 mg por 100 ml para a queda média donível de colesterol. Suponha conhecido o desvio padrão populacional, igual a 18,9 mg por 100ml.

a) Estime a queda média do nível de colesterol por pessoa, utilizando um intervalo de 95% decon�ança. Resp.: 64; 3� 6; 2

b) Qual o erro associado à estimativa? Resp.: 6,2 mg/100 ml

c) Qual o tamanho de amostra necessário para reduzirmos o erro para 3mg por 100ml?

Resp.: 153 pessoas

76

Page 78: Apostila de Bioestatística

Capítulo 11

Testes de Hipóteses

Considere uma moeda equilibrada � isto é, em qualquer jogada há uma chance de 50% deobter cara e de 50% de obter coroa. Como podemos ter certeza de que a moeda é realmenteequilibrada? É preciso saber responder a essa pergunta especialmente se estiver jogando uma moedacom um desconhecido de aparência suspeita em uma cidade estranha. Formalmente, se p representaa probabilidade de a moeda apresentar "cara", como sabemos que p = 1/2?

No caso da moeda deve-se, naturalmente, começar fazendo uma veri�cação óbvia. Se a moedatem duas caras, então p = 1; se tem duas coroas, p = 0. Feito isso, ainda assim e muito difícil a�rmarque a moeda é equilibrada (ou honesta) simplesmente olhando-a. Intuitivamente, não há qualquerrazão por que deva ser mais provável aparecer "cara"do que "coroa"(ou vice-versa); mas a moedapode não ser equilibrada, fazendo um resultado ter mais chance do que o outro. jogando a moedaapenas uma vez, nao temos como dizer se ela é ou nao equilibrada. Todavia, com um grande númerode jogadas, já dispomos de alguma base para julgar.

11.1 A Hipótese Nula e a Hipótese Alternativa

Problemas desse tipo são chamados de teste de hipótese. Primeiro, decidimos quanto à hipótesea ser testada. No caso em estudo, nossa hipótese é p = 1/2. A hipótese que vai ser testada éfrequentemente chamada hipótese nula (H0). A outra única possibilidade é que a hipótese nula sejafalsa. A hipótese que a�rma A hipótese nula é falsa é chamada hipótese alternativa (H1). Em nossocaso, a hipótese alternativa é que a moeda não seja equilibrada (p 6= 1=2). Sabemos que uma dashipóteses � a hipótese nula ou a hipótese alternativa � deve ser verdadeira, pois elas constituemas duas únicas possibilidades. A questão é: aceitamos a hipótese nula e dizemos que a moeda éequilibrada, ou rejeitamos a hipótese nula e a�rmamos que a moeda não é equilibrada?

É claro, intuitivamente, que devemos jogar a moeda muitas vezes; seja n o número de jogadas.Então, se o número de caras que aparecem está próximo de n=2, aceitamos a hipótese de que a moedaé honesta. Se o número de caras é muito diferente de n=2, rejeitamos a hipótese de que a moeda sejahonesta. A grande questão é: quão diferente de n=2 o resultado deve ser, para que possamos dizerque a moeda não é equilibrada?

Nosso processo de teste é o seguinte: escolhemos um número c . Se o número de caras (h) estáentre (n2 � c) e (n2 + c), aceitamos a hipótese nula e concluímos que a moeda é equilibrada; em casocontrário, dizemos que a moeda não é equilibrada. A região de (n2 � c) a (n2 + c) é chamada zona deaceitação. Se h não está na zona de aceitação, não aceitamos a hipótese. Portanto, a região para aqual a hipótese será rejeitada é chamada região de rejeição ou região crítica.

77

Page 79: Apostila de Bioestatística

11.2. ERRO TIPO 1 E TIPO 2 CAPÍTULO 11. TESTES DE HIPÓTESES

O problema agora é: quão distante de n=2 podemos admitir o número de caras antes de a�rmarmosque a moeda não é honesta � isto é, quão grande deve ser c?

11.2 Erro Tipo 1 e Tipo 2

É claro que gostaríamos de fazer o julgamento correto sobre nossa hipótese nula. Podemos estarcorretos de duas maneiras: aceitando a hipótese quando ela é verdadeira, ou rejeitando-a quando éfalsa. Mas isso signi�ca que há também duas possibilidades de estarmos errados: rejeitando a hipótesequando ela é verdadeira, ou aceitando-a quando é falsa. O primeiro tipo de erro é chamado erro tipo1 (concluir por uma diferença que não existe) e o segundo, erro tipo 2.

Se escolhemos um valor grande para c , temos uma ampla zona de aceitação, tendo maior chance deaceitar a hipótese do que com um valor pequeno de c . Isso signi�ca que há menos chance de cometerum erro tipo 1 � isto é, não é viável rejeitarmos a hipótese quando ela é, de fato, verdadeira.

Entretanto, se ampliamos a zona de aceitação, estamos aumentando o risco de aceitar a hipótesemesmo quando falsa, cometendo um erro tipo 2.

A outra estratégia consiste em estreitar a zona de aceitação. Assim procedendo, é menos provávelcometermos um erro tipo 2 (e improvável que aceitemos a hipótese se ela é falsa), mas corremos umrisco muito maior de cometer um erro tipo 1 (rejeitar a hipótese quando ela é verdadeira). Obviamente,há como que uma compensação inerente envolvida no teste de uma hipótese. Não se pode, por meiode um único processo de teste, minimizar as chances de cometer ambos os tipos de erro.

Em geral, preocupa-nos mais a possibilidade de rejeitar erroneamente a hipótese, de modo queteremos mais cuidado em evitar erros do tipo 1. Para dizermos ao desconhecido que sua moeda não éhonesta, devemos estar quase certos do fato. (De outra forma, poderíamos ofendê-lo.) Em trabalhoscientí�cos, se decidimos aceitar a hipótese, em geral prosseguimos na busca de mais evidências paraver se conseguimos um caso convincente. Se, por outro lado, decidimos rejeitar a hipótese, issosigni�ca que estamos realmente convencidos de que ela é falsa, e paramos por aí.

O que se costuma fazer em estatística é �xar um limite superior para a probabilidade de cometerum erro tipo 1. Em geral, esse limite é �xado em 10% ou 5%. No início, pode causar confusãolembrar a diferença entre erros tipo 1 e tipo 2. Basta ter em mente que nossa prioridade é evitar errostipo 1, certi�cando-nos de que só rejeitaremos a hipótese se estivermos plenamente seguros de queela é falsa.

Decidido isso, o proximo passo é �xar a amplitude de nossa zona de aceitação. Suponhamos que amoeda seja honesta. Se n é o número de jogadas e h é o número de caras, isso signi�ca que queremoster certeza de que há uma chance de apenas 10% de nosso processo de teste indicar que a moeda éviciada, quando ela, de fato, equilibrada.

Suponhamos n = 20. Podemos construir uma tabela das probabilidades para h = 0, h = 1, h = 2

etc. A Figura abaixo ilustra essas probabilidades.

78

Page 80: Apostila de Bioestatística

11.2. ERRO TIPO 1 E TIPO 2 CAPÍTULO 11. TESTES DE HIPÓTESES

Queremos escolher nossa zona de aceitação de modo que haja cerca de 90% de chance de h

estar nessa região e de somente 10% de h estar fora dela. Somando as probabilidades para h = 7,h = 8, h = 9, h = 10, h = 11, h = 12 e h = 13, constatamos que, se a moeda é honesta, há umaprobabilidade de 0,8847 de h tomar um desses sete valores. Então, planejaremos nosso teste assim:

Jogaremos a moeda 20 vezes e contaremos o número de caras (h). Se h estiver entre 7 e 13,aceitaremos a hipótese e a�rmaremos que a moeda é honesta. Se h é no máximo igual a 6, ou nomínimo igual a 14, diremos que a moeda não é honesta.

Resultados de 20 jogadas de uma moeda.

Podemos, então, assegurar que a probabilidade de rejeitar erroneamente a hipótese (erro tipo1) é de apenas 12%. Suponhamos, por exemplo, que aparecam 5 caras em 20 jogadas. Podemosdizer, com um grau razoável de certeza, que a moeda não é honesta. Não podemos a�rmar isso comcerteza absoluta, porque existe uma chance de 1,48% de apenas 5 caras aparecerem em 20 jogadasde uma moeda honesta. Assim, há ainda uma possibilidade de cometermos um erro tipo 1, a�rmandoque a hipótese é falsa quando ela é, na realidade, verdadeira. Todavia, asseguramo-nos de que aprobabilidade de isso ocorrer é inferior a 12%.

79

Page 81: Apostila de Bioestatística

11.3. USO DOS TESTES DE HIPÓTESES CAPÍTULO 11. TESTES DE HIPÓTESES

Naturalmente, se quisermos, poderemos ser ainda mais cautelosos. Suponha que estejamos preo-cupados com a possibilidade de rejeitar erroneamente a hipótese de moeda honesta e desejamos tercerteza de que a chance de isso ocorrer seja inferior a 4%. Nesse caso, podemos modi�car o processode teste, de forma a aceitar a hipótese de moeda honesta se h está entre 6 e 14. Com esse procedi-mento, teremos ainda maior certeza de que não consideraremos a moeda não-honesta quando ela é,de fato, honesta. Entretanto, ao ampliarmos a zona de aceitação, estamos aumentando as chancesde cometer um erro tipo 2 � isto é, a�rmar que a moeda é honesta quando ela, de fato, não é.Não há maneira de calcular a probabilidade de um erro tipo 2, pois desconhecemos as probabilidadesdos diferentes números de caras se a moeda não é honesta. Portanto, mesmo após termos decididoaceitar a hipótese, não estamos certos de que a moeda seja realmente honesta. Suponhamos, porexemplo, que a probabilidade de cara seja 0,51. Então, é muito provável que aceitemos a hipótesede moeda honesta, mesmo quando a moeda não o seja. A única maneira de melhorar essa situaçãoconsiste em aumentar o número de jogadas.

11.3 Uso dos Testes de Hipóteses

A utilização dos testes de hipóteses ou de signi�cância passa pela inferência estatística.A tomada de decisão quanto à recomendação ou não do emprego de uma droga pressupõe que, ao

experimentarmos determinado tratamento frente a um controle (placebo), a comparação seja realizadae que o valor encontrado para o teste empregado inclua o valor de p; e que considerando os critériospreviamente observados, possamos concluir pela aceitação ou rejeição da hipótese nula.

Há uma in�nidade de testes de hipóteses, tanto paramétricos como não-paramétricos, e a aplica-bilidade dos mesmos será ditada por sua melhor adequação aos objetivos do trabalho realizado, assimcomo dos dados que serão avaliados.

Concluindo:

11.3.1 Testes uni e bilateral

As hipóteses a serem testadas são denominadas hipótese nula (H0) e a hipótese contrária chamadahipótese alternativa (H1).

Considerando um parâmetro � (média populacional), desejamos testar a hipótese H0 onde � = �0,onde �0 pode corresponder a um valor especí�co.

80

Page 82: Apostila de Bioestatística

11.3. USO DOS TESTES DE HIPÓTESES CAPÍTULO 11. TESTES DE HIPÓTESES

Neste caso, há três formas diferentes para hipóteses alternativas:H1 : � > �0 (unilateral)H1 : � < �0 (unilateral)H1 : � 6= �0 (bilateral)Nos testes unilaterais formulamos normalmente a hipótese nula (H0), mas quanto à hipótese

alternativa, esta poderá ser formulada considerando que a média aritmética ou proporção possam aser maiores ou menores do que o valor de referência para comparação.

Exemplo: E�cácia do AZT - Um estudo para prolongar a vida dos pacientes com AIDS levantouos seguintes dados:

Grupo Vivo Morto TotalAZT 144 1 145

Placebo 121 16 137Total 265 17 282

Alguns cálculos podem ser feitos:144/145 = 99,3% dos pacientes vivos depois de 24 semanas (AZT);121/137 = 88,3% dos pacientes vivos depois de 24 semanas (Placebo);Parece que o AZT tem efeito de prolongar a vida. Mas antes de aceitar a conclusão é preciso

afastar a hipótese do acaso, ou seja, temos que testar as hipóteses:H0 ! Inexistência de diferença entre os 2 tratamentos.H1 ! inexistência de igualdade entre os 2 tratamentos.O próximo passo é construir um critério baseado no qual a hipótese nula será julgada. O critério

de decisão é baseado na estatística do teste. Esta estatística mede a discrepância entre o que foiobservado na amostra e o que seria esperado se a hipótese nula fosse verdadeira. Uma grande distânciamedida pela distribuição de probabilidade é indicação de H0 não é verdadeira, devendo, portanto serrejeitada.

Existem duas opções para expressar a conclusão �nal de um teste de hipótese:A primeira consiste em comparar o valor da estatística do teste com o valor obtido a partir da

distribuição teórica, especí�ca para o teste, para um valor pre�xado do nível de signi�cância (porexemplo 1% ou 5%).

Na segunda abordagem, atualmente a mais usada, o interesse é quanti�car a chance do que foiobservado ou resultados mais extremos, sob a igualdade dos grupos.

Este número é chamado de probabilidade de signi�cância ou valor-p e é frequentemente indicadoapenas por p. Quanto menor o valor-p maior é a evidência para se rejeitar H0. De um modo geral aárea médica considera que se p menor ou igual a 0,05 indica que há diferença signi�cativa entre osgrupos comparados.

Como Interpretar a Signi�cância Estatística

Dr. Augusto Pimazoni Netto - 20/03/2007Consultor para Assuntos de Educação e Controle do Diabetes

Quase todos os dias nos deparamos com o conceito de �signi�cância estatística� dos resultadosde um estudo clínico, geralmente avaliada através da expressão �p < 0,05� ou semelhantes. Mas, narealidade, o que signi�ca isso em termos de verdade cientí�ca?

O termo �nível de signi�cância� não costuma ser adequadamente entendido pelos médicos na prá-tica clínica. Na linguagem coloquial, o termo �signi�cante� quer dizer �algo importante� ao passo que,na linguagem estatística, esse termo tem o signi�cado de �provavelmente verdadeiro� e, portanto, nãoresultante de uma situação aleatória. Um achado cientí�co pode ser verdadeiro sem ser necessari-amente importante. Quando os estatísticos dizem que um resultado é �altamente signi�cante�, istosigni�ca que a hipótese que está sendo testada é muito provavelmente verdadeira. Da mesma forma,

81

Page 83: Apostila de Bioestatística

11.3. USO DOS TESTES DE HIPÓTESES CAPÍTULO 11. TESTES DE HIPÓTESES

em ciência, o fato de uma diferença entre tratamentos, por exemplo, ser estatisticamente signi�cante,isso não signi�ca necessariamente que esta diferença seja clinicamente importante ou interessante.

A de�nição do limite do valor de p deve ser feita antes do início do estudo. Em geral, o valorde p < 0,05 ou menor signi�ca que estamos assumindo uma probabilidade de apenas 5% de que adiferença encontrada no estudo clínico não seja verdadeira, apesar de, estatisticamente, ter sido assimdemonstrada. Quanto menor o valor de p, menor será a probabilidade disso acontecer. De umaforma geral, os resultados de um estudo clínico podem variar de �não signi�cante� até �extremamentesigni�cante�, como mostra a tabela a seguir:

Signi�cância Estatística conforme o valor de p.Valor de P Signi�cado

>0,05 Não signi�cante0,01 a 0,05 Signi�cante0,001 a 0,01 Muito signi�cante

<0,001 Extremamente signi�cante

11.3.2 Testes Paramétricos e Não-Paramétricos

Principais Testes

Testes Paramétricos

� Testes t

Teste para duas amostras independentes

Teste para duas amostras emparelhadas

Teste para uma só amostra

� Testes ANOVA

Os testes ANOVA diferencia-se dos testes t porque os testes t só podem ser usados para testardiferenças entre duas situações para uma variável. Os testes ANOVA podem ser usados paratestar diferenças entre diversas situações e para duas ou mais variáveis.

82

Page 84: Apostila de Bioestatística

11.3. USO DOS TESTES DE HIPÓTESES CAPÍTULO 11. TESTES DE HIPÓTESES

Testes Não-Paramétricos

� Testes para amostras emparelhadas

Teste do sinal, Teste de McNemar, Teste Q de Cochran, Teste de Wilcoxon, Teste de Friedman

� Testes para amostras independentes

Teste de Mann-Whitney, Teste de Kruskal-Wallis

� Outros testes

Teste binomial, Teste de ajustamento do qui-quadrado, Teste de independência do qui-quadrado,Teste exato de Fisher

83

Page 85: Apostila de Bioestatística

Capítulo 12

Testes Paramétricos

Exigem que amostra tenha uma distribuição normal especialmente se tiverem uma dimensão inferiora 30.

12.1 Teste t

Nas amostras de dimensão superior a 30, a distribuição aproxima-se da distribuição normal etambém se aplicam os testes t.

Há certas ocasiões em que o pesquisador deseja realizar a comparação de duas amostras queprovêm de populações diferentes. Neste caso, ao contrastar as médias destas amostras para veri�carse há diferença entre elas, estará indiretamente comparando as duas populações. E por analogia,poderíamos proceder a um experimento em que um grupo receberia uma droga, enquanto outro gruponada receberia.

O efeito do tratamento aplicado seria veri�cado pela comparação dos dois grupos.Nestes casos, o teste t seria o indicado para tal comparação, salientando que a variável em análise

teria que apresentar os dados em distribuição normal ou aproximadamente normal.

Teste t para dados pareados

Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais.Há uma preocupação em que haja um pareamento entre os indivíduos para que eles di�ram somenteno aspecto, tratado e não-tratado.

Há trabalhos realizados com utilização de pares de gêmeos ou alguns casos em que pro�ssionaisde odontologia comparam os dois lados das arcadas dos indivíduos, considerando que os dados sãopareados.

Exemplo: Consideremos o peso de dez pessoas, antes e depois de se submeterem a uma dieta.Veri�que se houve uma diferença signi�cativa entre os pesos dos dois grupos.

Antes Depois78 7475 7374 7479 7382 8084 8188 8159 5472 7073 68

Formulando as Hipóteses Nula e Alternativa:

84

Page 86: Apostila de Bioestatística

12.1. TESTE T CAPÍTULO 12. TESTES PARAMÉTRICOS

H0: A média de peso do grupo "Antes"é igual à média de peso do grupo "Depois".H1: A média de peso do grupo "Antes"é diferente à média de peso do grupo "Depois". Neste

caso usamos um teste bilateral (H1 : � 6= �0).Aplicando o Teste T para dados pareados:Como o peso "Antes"e "Depois"refere-se a mesma pessoa, temos que os dados são pareados:No Bioestat: Digite os dados no grid, tal como aparecem na tabela acima, e em seguida faça:

Estatísticas > Duas Amostras Relacionadas > Teste t > Dados Amostrais

Como resultado, o Bioestat retornará o seguinte:

A maneira mais simples de interpretar estes resultados é utilizando o valor de p bilateral p =

0:0005 < 0:05, logo rejeita-se a hipótese nula, ou seja, o uso da dieta parece contribuir para adiminuição do peso médio dos indivíduos. Lambramos novamente que uma análise estatística deve sertão abrangente quanto possível, levando-se em conta todos os fatores disponíveis.

Teste t para dados não-pareados

Esta aplicação do teste t de Student é realizada quando comparamos as médias aritméticas deduas amostras independentes, nas quais as variâncias apresentam valores aproximadamente iguais.

Exemplo: Para veri�car se duas dietas para emagrecer são igualmente e�cientes, um pesquisadorseparou, ao acaso, um grupo de indivíduos em dois subgrupos. Após certo tempo obteve a perda depeso, em kg, em cada indivíduo de cada grupo. Os dados coletados foram:

85

Page 87: Apostila de Bioestatística

12.2. EXERCÍCIOS CAPÍTULO 12. TESTES PARAMÉTRICOS

A B12 158 1915 1513 1210 1312 1614 15111213

H0: A média de perda de peso do grupo "A"é igual à média de perda de peso do grupo "B".H1: A média de perda de peso do grupo "A"é diferente da média de perda de peso do grupo "B".

Neste caso usamos um teste bilateral (H1 : � 6= �0).No Bioestat:

Estatísticas > Duas Amostras Independentes > Teste t: Dados Amostrais

Neste caso, o valor de p bilateral (p = 0:0109 < 0:05) permite que rejeitemos a hipótese nula,assim, a média de perda de peso do grupo A tem grande chance de ser diferente da média de perda depeso do grupo B e como a média de perda de peso do grupo B (� = 15kg) é maior do que a médiade perda de peso do grupo A (� = 12kg), te-se forte indício de que a dieta aplicada ao grupo B émais e�ciente.

12.2 Exercícios

1. Suponha que você esteja interessado em examinar os efeitos da transição da circulação fetal parao pós-natal em prematuros. Para cada um dos 14 recém-nascidos saudáveis, a taxa respiratóriaé medida em dois diferentes momentos � uma vez quando o bebê tem menos de 15 dias e outraquando tem mais de 25 dias.

86

Page 88: Apostila de Bioestatística

12.2. EXERCÍCIOS CAPÍTULO 12. TESTES PARAMÉTRICOS

Taxa Respiratória (respiração/minuto)

Indivíduo Momento 1 Momento 21 62 462 35 423 38 404 80 425 48 366 48 467 68 458 26 409 48 4810 27 4211 43 4612 67 3113 52 4414 88 48

Podemos a�rmar que a taxa respiratória média é diferente no primeiro e segundo momento?

2. Os seguintes dados foram obtidos de um estudo que compara adolescentes que têm bulimia eadolescentes saudáveis com composições corpóreas e níveis de atividades físicas similares. Osdados consistem de medidas de ingestão calórica diária de amostras aleatórias de 23 adolescentesbulímicos e 15 saudáveis.

Ingestão calórica diária (kcal/kg)

Bulímico Saudável15,9 18,9 25,1 20,7 30,616,0 19,6 25,2 22,4 33,216,5 21,5 25,6 23,1 33,717,0 21,6 28,0 23,8 36,617,6 22,9 28,7 24,5 37,118,1 23,6 29,2 25,3 37,418,4 24,1 30,9 25,7 40,818,9 24,5 30,6

a) Conduza um teste bicaudal assumindo � de 5%, para veri�car se a ingestão calorica diária éigual nos dois grupos.

b) Você acredita que os adolescentes com bulimia exigem uma ingestão calórica diária maisbaixa dos que os saudáveis?

3. Dezenove indivíduos com asma foram inscritos em um estudo que investiga os efeitos respirató-rios do dióxido de enxofre. Durante o estudo duas medidas foram obtidas para cada indivíduo.A primeira é o aumento da resistência aérea especí�ca (SAR, Speci�c Airway Resistence) � umamedida de broncoconstrição � do momento em que o indivíduo está em repouso até depois queele se exercitou por cinco minutos; o segundo é o aumento na SAR para o mesmo indivíduodepois que ele fez um teste de exercício similar, conduzido em uma atmosfera com 0,25 ppmde dióxido de enxofre. Os dados são apresentados na tabela abaixo:

Aumento da SAR

87

Page 89: Apostila de Bioestatística

12.2. EXERCÍCIOS CAPÍTULO 12. TESTES PARAMÉTRICOS

Indivíduo Ar SO2

1 0,82 0,722 0,86 1,053 1,86 1,44 1,64 2,35 12,57 13,496 1,56 0,627 1,28 2,418 1,08 2,329 4,29 8,1910 1,37 6,3311 14,68 19,8812 3,64 8,8713 3,89 9,2514 0,58 6,5915 9,5 2,1716 0,93 9,9317 0,49 13,4418 31,04 16,2519 1,66 19,89

a) Ao nível de signi�cância de 0,05, teste a hipótese nula de que não há diferença no aumentoda resistência aérea especí�ca para as duas ocasiões. O que você conclui?

b) Você acha que teria sido apropriado usar um teste t pareado para avaliar esses dados? Porquê?

4. Para testar o efeito de um novo analgésico nos casos de cefaléia, foi feito um ensaio clínicocasualizado com 17 pacientes. O ensaio, duplo-cego, utilizou placebo para comparação. Onovo analgésico foi designado para 8 pacientes, que constituíram o grupo experimental, e oplacebo foi designado para 9 pacientes, que constituíram o grupo controle. Uma hora depois deingerir o comprimido, os pacientes registraram a dor em uma escala analógica que variava de 0a 10, conforme a tabela abaixo. Pode-se a�rmar que o novo analgésico é e�caz?

Experimental Controle1 21,5 3,52 42 53,5 85,5 8,57 97,5 9,5

10

5. Um estudo cross over foi conduzido para investigar se o farelo de aveia auxilia a baixar os níveisséricos de colesterol em homens hipercolesterolêmicos. Catorze indivíduos foram aleatoriamentecolocados em uma dieta que incluía farelo de aveia ou �ocos de milho; depois de duas semanas,seus níveis de colesterol de lipoproteína de baixa densidade (LDL � low-density lipoprotein) foramregistrados:

LDL (mmol/l)

88

Page 90: Apostila de Bioestatística

12.3. ANÁLISE DE VARIÂNCIA - ANOVA CAPÍTULO 12. TESTES PARAMÉTRICOS

Indivíduo Flocos de milho Farelo de aveia1 4,61 3,842 6,42 5,573 5,4 5,854 4,54 4,85 3,98 3,686 3,82 2,967 5,01 4,418 4,34 3,729 3,8 3,4910 4,56 3,8411 5,35 5,2612 3,89 3,7313 2,25 1,8414 4,24 4,14

As duas amostras são de dados pareados ou independentes? Quais são as hipóteses apropriadaspara um teste bilateral? Conduza o teste ao nível de signi�cância de 5%. O que você conclui?

12.3 Análise de Variância - ANOVA

É comum comparar a média entre mais de dois grupos. Nestes casos, o teste t não pode nosauxiliar, pois foi concebido para comparar a média somente entre dois grupos em cada experimento(um erro comum é aplicar o teste t para grupos tomados dois a dois).

O método correto para a análise da média entre vários grupos é a Análise de Variância. Estemétodo compara todas as médias em um único teste e visa a identi�car a existência de ao menosuma diferença entre gurpos, se alguma existir. Caso o resultado seja estatisticamente signi�cativo,aplica-se posteriormente uma das várias técnicas existentes de comparações múltiplas entre as médias(estes procedimentos permitem identi�car quais as populações diferem entre si).

Na análise de variância, se está testando a seguinte hipótese:Ho : Não há diferença entre as médias das populações;Observação: Para que os resultados da ANOVA sejam válidos, é necessário que as variâncias

amostrais sejam semelhantes nas diferentes amostras (homocedasticidade). Além disso, a variável deinteresse deve ter distribuição normal em todas as populações.

A ANOVA, mostra somente que existe ao menos uma diferença entre os grupos estudados masnão é capaz de mostrar diferenças particulares quando os grupos são tomados dois a dois. Para estadeterminação é preciso um outro teste, usaremos o teste de Tukey.

89

Page 91: Apostila de Bioestatística

12.4. TESTE DE TUKEY CAPÍTULO 12. TESTES PARAMÉTRICOS

12.4 Teste de Tukey

O teste de Tukey complementa a ANOVA e visa identi�car quais as médias que, tomadas duas aduas, diferem signi�cativamente entre si.

Exemplo: Deseja-se comparar três drogas analgésicas para reduzir a dor pós-operatória em paci-entes submetidos à mesma intervenção cirúrgica. As drogas foram distribuídas entre os pacientes porum processo aleatório. Os índices de dor pós-operatória obtidos nesse experimento estão apresentadosna tabela:

Índice de dor pós-operatória (0 = nenhuma; 10 = máxima)em pacientes que receberam uma de três drogas analgésicas (A).

A1 A2 A3Grau 1 5 2de 3 7 0dor 8 3

No Bioestat: Digita-se os dados no grid tal como aparecem na tabela, em seguida, seleciona-se:

Estatísticas > Análise de Variância > ANOVA: um critério

Como o valor de p (0,0194115) < 0,05, temos que rejeita-se a hipótese nula de igualdade entreas médias, ou seja, existe pelo menos uma diferença signi�cativa entre as médias de pelo menos doisgrupos.

Neste caso, precisamos de um teste para identi�car quais os grupos apresentam esta diferença.Optamos pelo teste de Tukey:

90

Page 92: Apostila de Bioestatística

12.4. TESTE DE TUKEY CAPÍTULO 12. TESTES PARAMÉTRICOS

Pelo teste, existe diferença signi�cativa entre as médias dos grupos 1 e 2 (A1 vs A2) e entre osgrupos 2 e 3 (A2 vs A3) pois p < 0,05 em ambas as comparações. Entretanto, não se pode a�rmarque exista uma diferença signi�cativa entre as médias dos grupos 1 e 3 (A1 vs A3) pois p = ns.

Estes resultados podem ser visualizados clicando-se sobre "Grá�co", na janela mostrada acima:

91

Page 93: Apostila de Bioestatística

Capítulo 13

Teste Não-Paramétricos

As técnicas estatísticas clássicas usadas para estimar parâmetros e testar hipóteses possuem exi-gências claras: especi�cam, por exemplo, que os valores da variável estudada devem ter distribuiçãonormal ou aproximadamente normal. Na prática, porém, muitas variáveis não apresentam este tipode distribuição; às vezes, é difícil até mesmo determinar que tipo de distribuição apresentam, pois asamostras nem sempre são su�cientemente grandes para tal tipo de avaliação.

Outra pressuposição frequente nos testes clássicos é a da homogeneidade de variâncias (homoce-dasticidade) entre as populações que estão sendo comparadas. No entanto, muitas vezes as variânciassão heterogêneas e, mesmo transformando os dados, não se consegue homocedasticidade.

Os testes sugeridos para analisar dados que não satisfazem as exigências das técnicas clássicasdenominam-se testes de distribuição livre, por não dependerem do conhecimento da distribuição davariável na população, ou testes não-paramétricos.

13.1 Vantagens e Desvantagens dos Testes Não-Paramétricos

Os testes não-paramétricos apresentam as seguintes vantagens em relação às técnicas clássicas:

� São as mais apropriadas quando não se conhece a distribuição dos dados na população. Sãotambém úteis quando essa distribuição é assimétrica e não se deseja realizar uma transformaçãodos dados, quando existe heterogeneidade nas variâncias ou ainda quando, na comparação entretratamentos, a distribuição é gaussiana em alguns grupos e assimétrica em outros. São, porisso, testes de aplicação mais ampla do que os paramétricos.

� São os indicados quando a variável é medida em escala ordinal. também existem técnicas nãoparamétricas para variáveis cujas categorias não são ordenáveis.

� Quando as exigências das técnicas clássicas não podem ser satisfeitas, os métodos não paramé-tricos são mais e�cientes do que os testes paramétricos (nas situações em que tais exigênciassão satisfeitas, os paramétricos são mais e�cientes).

As desvantagens dos testes não-paramétricos são:

� Quando utilizados em dados que satisfazem as exigências dos testes clássicos, os métodosnão paramétricos apresentam uma e�ciência menor. Isto equivale a dizer que para se detectaruma diferença real entre duas populações por um teste não paramétrico, o tamanho amostraldeve ser um pouco maior do que seria necessário com um teste clássico. Por exemplo, emamostras de tamanho moderado, o teste de Wilcoxon-Mann-Whitney (WMW) tem um poderde aproximadamente 95% quando comparado com o teste t de Student. Assim, se o tamanho daamostra necessário para identi�car uma diferença usando o teste de WMW é de 100 indivíduos,usando-se o teste t são necessários 95 indivíduos.

92

Page 94: Apostila de Bioestatística

13.2. TESTE QUI-QUADRADO PARA INDEPENDÊNCIACAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

� Alguns autores a�rmam que os testes não-paramétricos extraem menos informação do experi-mento porque são técnicas empregadas em dados mensurados em escalas não-quantitativas (oudados quantitativos reduzidos para uma escala qualitativa ordenável). Realmente, em muitostestes não-paramétricos o valor real medido é substituído pelo posto ocupado na ordenação dosvalores obtidos; neste caso, há perda de informação relativa a variabilidade da característica(uma diferença numericamente grande pode representar apenas uma mudança para o postoseguinte).

13.2 Teste Qui-Quadrado para Independência

O teste não-paramétrico de �2 (qui-quadrado) foi desenvolvido por Pearson e por ele designadopela letra minúscula grega � seguida do expoente 2, sendo muito aplicado em pesquisas biológicas.

Este teste é adequado para variáveis qualitativas com duas ou mais categorias e com ele pode-se:

� Veri�car se uma distribuição observada de dados ajusta-se a uma distribuição esperada (teórica):o teste é chamado de teste �2 de aderência ou de ajustamento.

� Comparar duas ou mais populações com relação a uma variável categórica: o teste denomina-seteste �2 de comparação de proporções (ou de heterogeneidade entre populações).

� Veri�car se existe associação entre duas variáveis qualitativas: o teste é chamado de teste �2

de associação. (somente este teste será trabalhado aqui)

Tabela de Contingência

Suponha que queiramos testar se há alguma diferença entre quatro medicamentos antigripaisconcorrentes. Não se garante que qualquer um deles seja e�caz - apenas cada um promete reduziras chances de contrair uma gripe. Portanto, o número de pessoas que tomam cada medicamento econtraem gripe pode ser considerado como uma variável aleatória. A hipótese nula é: não há diferençaentre os medicamentos. Outra maneira de dizer: a condição de uma pessoa (se ela adoece ou não)é independente do medicamento que ela toma. Suponha que façamos um teste em 495 pessoas,perguntando-lhes que medicamento tomaram, e se contraíram, ou não, resfriado. Os resultadosforam:

Medicamento 1 Medicamento 2 Medicamento 3 Medicamento 4Quantos se resfriaram 15 26 9 14Quantos �caram imunes 111 107 96 117

Esse tipo de tabela é uma tabela de contingência � nesse caso, com duas linhas e quatro colunas.Cada localização é uma célula. A tabela tem oito células.

As tabelas de contingência mostram quantas observações (Frequências) estão em cada célula, emque as células representam todas as combinações possíveis de dois fatores.

13.2.1 Aplicação do Teste Qui-Quadrado

Podemos ver, pela tabela, que o medicamento 3 parece ser o mais e�caz; apenas 8,5% dos que otomaram contraíram gripe. Todavia, há muitos outros fatores a considerar. Possivelmente, as pessoasque tomaram este medicamento estiveram menos expostas aos vírus da gripe; nesse caso, o fato deestas terem contraído menos gripe é uma ocorrência aleatória que nada tem a ver com o fato deterem tomado o remédio 3.

Por conseguinte, nossa hipótese nula seria: não há diferença básica entre os quatro medicamentos.As diferenças observadas são devidas exclusivamente ao acaso.

No Bioestat: Preenchemos o grid tal como a tabela e fazemos:

93

Page 95: Apostila de Bioestatística

13.3. EXERCÍCIOS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Estatísticas > Qui-Quadrado > Tabelas de Contingência (L x C)

e assim obtemos:

Ao nível de con�ança de 95%, temos que p = 0; 0538 > 0; 05 o que sugere que não podemosrejeitar a hipótese nula, entretanto, como o valor de p é muito próximo de 0; 05, percebemos quedevemos aprofundar nossa investigação.

13.2.2 Detalhes do Teste Qui-Quadrado

� Recomenda-se aplicar o teste qui-quadrado de associação quando o tamanho da amostra forrazoavelmente grande, devendo ser aplicado com maior cuidado quando existirem frequênciasesperadas menores que 5. Nestas situações, recomenda-se o agrupamento de classes, evitando-se frequências esperadas menores que 5. Mas se a tabela for 2 x 2, não há como agruparos dados, neste caso usa-se a correção de Yates (o Bioestat apresenta a correção de Yatesautomaticamente).

� Se uma das variáveis contiver níveis que contemplem todas as categorias da população, comoa variável sexo - só existem as possibilidades masculino e feminino, diz-se que o teste é dehomogeneidade;

� O grau de associação entre duas variáveis analisadas pelo teste do qui-quadrado pode ser repre-sentado pelo coe�ciente de contingência que pode variar entre 0 e 1. Quanto maior o valordo coe�ciente, maior será a associação entre as variáveis, na prática, quanto maior for a tabelade contingência, maior será o valor do coe�ciente.

13.3 Exercícios

1. Em um estudo experimental, com 300 pacientes, para testar uma nova droga contra AIDS, 240receberam o medicamento A, ao passo que, 60 receberam um placebo. A taxa de mortalidade em2 anos foi de 88 e 12 pacientes, respectivamente. No presente estudo a redução da mortalidadeestá associada ao uso da droga?

Morte sim Morte nãoDroga A 88 152Placebo 12 48

94

Page 96: Apostila de Bioestatística

13.4. TRABALHO 04 CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

2. Perguntamos a 50 fumantes e a 50 não-fumantes se eles acreditam que o fumo pode conduzirao câncer do pulmão e outras doenças sérias. As respostas estão tabuladas da seguinte maneira:

Acreditam Não acreditamFumantes 11 39

Não-fumantes 28 22

Você diria que existe relação entre as variáveis?

3. Dois grupos de 100 pacientes foram acompanhados quanto a incidência de câncer do pulmãoassociado ao tabagismo. No grupo de fumantes a incidência de câncer foi igual a 28 pacientes,no grupo controle (não-fumantes) foi igual a 8 pacientes. No presente estudo a incidência decâncer de pulmão está associada ao tabagismo?

Câncer sim Câncer nãoTabagismo sim 28 72Tabagismo não 8 92

4. Em um estudo para veri�car a relação entre asma e incidência de gripe no outono, 150 criançasforam escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde de um bairro.Os dados referentes a uma semana são apresentados na tabela a seguir.

Gripe sim Gripe nãoAsma sim 27 34Asma não 42 47

Existem evidências de que a ocorrência de gripe é in�uenciada pela presença de asma nestapopulação?

5. Um estudo para determinar a taxa de fumantes entre pessoas de diferentes grupos etáriosoriginou os dados amostrais aleatórios. Com base nestes dados, a incidência de fumantes estáassociada à faixa etária?

Fumante Não fumante20-24 anos 18 3225-34 anos 15 3525-44 anos 17 3345-64 anos 15 35

13.4 Trabalho 04

Instruções:

� As questões deverão ser respondidas no Word ;

� O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica;

� O arquivo deve ser enviado para o e-mail [email protected]

� O assunto do email será Trabalho 04.

� Utilize o seu email da Unifra (acesse-o através do Alunonet).

95

Page 97: Apostila de Bioestatística

13.5. TESTE EXATO DE FISHER CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

1. Os seguintes dados vêm de um estudo que examina a e�cácia da cotinina na saliva como umindicador para a exposição à fumaça do tabaco. Em uma parte do estudo, a sete indivíduos -nenhum dos quais grandes fumante e todos eles se abstiveram de fumar pelo menos uma semanaantes do estudo - foi solicitado fumar um único cigarro. Foram tomadas amostras da saliva detodos os indivíduos 2, 12, 24 e 48 horas depois de terem fumado o cigarro. Os níveis de cotininaa 12 horas e a 24 horas são mostrados abaixo. O que se pode a�rmar sobre estes níveis?

Níveis de Cotinina (mmol/l)Indivíduo Depois de 12 horas Depois de 24 horas

1 73 242 58 273 67 494 93 595 33 06 18 117 147 43

2. Os dados da tabela a seguir foram extraídos de uma pesquisa realizada com crianças de até 12anos de idade em Florianópolis. Tal pesquisa tem por objetivo analisar se a severidade das cáriesdentárias observadas tem ou não relação com as condições familiares da criança.

Categorias Baixa AltaSeveridade Severidade

Tempo de residência (em anos) Até 2 anos 48 40Mais de 2 anos 22 30

Número médio 0.25 - 0.83 20 20de residentes por cômodo 0.84 - 1.25 30 20

1.26 ou mais 30 40

Responsável pelo domicílio Pai/Mãe 40 30Avós 20 20Outros 20 30

Responsável pelo Pai/Mãe 30 30sustento da família Pai 30 20

Mãe 15 20Outros 15 20

Com base na tabela, deseja-se fazer 4 testes de hipóteses, para veri�car se as variáveis tempode residência, número médio de residentes por cômodo, responsável pelo domicílio e responsávelpelo sustento da família estão associadas com a severidade das cáries. Construa a hipótese nulae alternatva e conclua sobre elas através do teste Qui-Quadrado.

13.5 Teste Exato de Fisher

O teste exato de Fisher é a alternativa para tabelas 2 x 2 quando não se pode usar o teste �2

(porque algum valor esperado é menor do que 5 ou o número total de indivíduos estudados é menordo que 25). O teste de Fisher permite calcular a probabilidade de associação das características queestão em análise, ou seja, de elas serem independentes.

O teste de Fisher é utilizado nas seguintes situações:a) n < 20b) n > 20 e < 40 e a menor frequência esperada for menor que 5.Exemplo: Um pesquisador classi�ca duas espécies de macacos quanto à capacidade de realizar

determinada tarefa:

96

Page 98: Apostila de Bioestatística

13.6. EXERCÍCIOS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Quantidade de animais das espécies I e II que realizam certa tarefa.Realizam a tarefa

Sim NãoEspécie I 1 8Espécie II 7 3

Realize o teste exato de Fisher e interprete os resultados.H0: A proporção de animais que realiza a tarefa é a mesma nas duas espécies.No Bioestat:

Estatísticas > Duas Amostras Independentes > Exato de Fisher

O p bilateral (0,0198) é menor do que 0,05, ou seja, rejeitamos a hipótese nula da igualdade dasproporções, ou seja, a proporção de indivíduos que realiza a tarefa difere nas duas espécies. A espécieII possui mais animais capazes de realizá-la (pois 7

10 >19).

13.6 Exercícios

1. De uma maneira geral os doentes psiquiátricos podem ser classi�cados em psicóticos e neu-róticos. Um psiquiatra realiza um estudo sobre os sintomas suicidas em duas amostras de 20doentes de cada grupo. os resultados tabelados são:

Psicótico NeuróticoSintoma presente 2 6Sintoma ausente 18 14

A nossa hipótese é de que a proporção de psicóticos com sintomas suicidas é igual a proporção deneuróticos com estes sintomas (em um teste de independência, a hipótese nula seria, a presençaou ausência de sintomas suicidas é independente do tipo de doente envolvido).

2. Testar se a alteração da cor é fator de aparecimento de bactérias.

Presença de BactériasNão Sim

Não alteração da cor 2 12Sim alteração da cor 1 5

97

Page 99: Apostila de Bioestatística

13.7. TESTE DE KRUSKAL-WALLIS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

3. Na tabela abaixo temos um grupo de bovinos vacinados contra aftosa e outro de não-vacinadose a presença ou não de aftosa.

Presença de aftosa Não presença de aftosaVacinados 2 12

Não vacinados 1 5

Houve associação entre a vacinação e a presença de aftosa?

4. Num estudo sobre fecundidade de duas raças bovinas foram feitos acasalamentos obtendo-se osseguintes resultados:

Fecundos Não fecundosRaça A 3 7Raça B 4 1

Veri�que se as duas raças diferem quanto à fecundidade.

5. Segundo o quadro abaixo, as respostas das pessoas são in�uenciadas pelo grupo a que pertence?

Resposta Sim Resposta NãoGrupo A 6 3Grupo B 16 0

13.7 Teste de Kruskal-Wallis

O teste de Kruskal-Wallis é a alternativa não-paramétrica para a ANOVA e é usado quando anormalidade e a homocedasticidade estiverem severamente comprometidas.

Kruskal-Wallis é aplicado quando estão em comparação três ou mais grupos independentes e avariável deve ser de mensuração ordinal. Ele serve para se compararem duas ou mais populaçõesquanto à tendência central dos dados.

O teste veri�ca se há diferença entre os grupos porém não compara os grupos 2 a 2, para isto épreciso usar o teste de Dunn (semelhante ao teste de Tukey para ANOVA).

Exemplo: Três métodos de prevenção de cáries são testados em um grupo de 30 crianças. Ascrianças foram divididas em três grupos igualmente, de maneira aleatória. Em cada grupo foi aplicadoum método de prevenção de cáries. No �nal do tratamento as crianças foram examinadas e observou-se o número de dentes com cáries que os métodos não conseguiram evitar. Veri�car através do testede Kruskal-Wallis se há diferenças signi�cativas, a 5%, para os métodos.

Método A 1 0 2 1 2 1 2 1 1 0Método B 1 1 0 1 2 1 1 0 1 1Método C 2 1 2 2 3 2 2 2 1 1

No Bioestat: Digite os dados no grid tal como mostrado abaixo:

98

Page 100: Apostila de Bioestatística

13.7. TESTE DE KRUSKAL-WALLIS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Em seguida selecione:

Estatísticas > Análise de Variância > Kruskal-Wallis

Irá obter:

Neste ponto já vemos que o valor de p (0,0162), obtido pelo teste de Kruskal-Wallis, é menor doque 0,05, signi�cando que existe diferença signi�cativa entre os Métodos.

Agora selecione o teste de Dunn para a comparação entre os métodos:

99

Page 101: Apostila de Bioestatística

13.7. TESTE DE KRUSKAL-WALLIS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Selecione "Grá�co"para visualizar o teste:

Uma conclusão possível é a seguinte: O método C produziu uma quantidade maior de dentescariados (pois tem o maior posto médio) enquanto que o método B produziu o menor número.

100

Page 102: Apostila de Bioestatística

13.8. EXERCÍCIOS CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Não há diferenças signi�cativas entre os métodos A e B e entre A e C (p = ns), porém existediferença entre os métodos B e C, enfatizando que o método C produz mais cáries do que os outrose não se pode dizer que o método A produz mais cáries do que o B ou vice-versa.

13.8 Exercícios

1. Foram selecionadas amostras aleatórias de três diferentes tipos de lâmpadas utilizadas nos equi-pamentos odontológicos e testadas para veri�car quanto tempo as lâmpadas funcionavam, comos seguintes resultados

Lâmpada A 73 64 67 62 70Lâmpada B 84 80 81 77Lâmpada C 82 79 71 75

Teste ao nível de 5%, a hipótese de igualdade das três médias.

2. Um pesquisador deseja comparar o índice de IMC entre homens casados (grupo 1), solteiros(grupo 2) e viúvos ou separados (grupo 3). Os resultados estão no quadro abaixo.

Grupo 1 26,5 22,5 25 26,4 27,6 28,1Grupo 2 32,7 31,6 19,3 22,7 25,1 30,1Grupo 3 20,4 30,2 31,7 36,5 36,9 33,2 28,7

O IMC são iguais para os três grupos?

3. Suponha-se que um pesquisador resolva investigar o comprimento (mm) de ratos de laboratório,importantes para estudos de reparação óssea. Foram utilizados 3 raças de ratos de laboratório(A, B e C). As medidas estão apresentadas abaixo. Veri�car se há diferença entre os grupos.

Ratos A Ratos B Ratos C96 82 115128 124 14983 132 16661 135 147101 109 -

4. Uma determinada experiência consiste em veri�car os efeitos de 3 dosagens (A, B e C) deum antibiótico (azitromicina) no organismo. No quadro abaixo são mostradas as idades dosparticipantes de cada um desses 3 grupos de indivíduos que foram submetidos à experiência.Suponha que um pesquisador alegue que os supostos resultados diferentes das dosagens doantibiótico possam estar associados ao fato de que os grupos (populações) são heterogêneosquanto à s idades. Seria correto dar crédito à essa observação?

A B C12 6 1015 7 1323 8 1725 11 2431 18 2736 20 2850 21 3252 30 35

101

Page 103: Apostila de Bioestatística

13.9. TRABALHO 05 CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

13.9 Trabalho 05

Instruções:

� As questões deverão ser respondidas no Word ;

� O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica;

� O arquivo deve ser enviado para o e-mail [email protected]

� O assunto do email será Trabalho 05.

� Utilize o seu email da Unifra (acesse-o através do Alunonet).

1. Uma técnica suspeita que as amostras de matérias-primas da variedade de aveia UPF16 forneci-das diferem signi�cantemente no conteúdo de � -glucanas. Há um grande número de amostrascorrente em seu armazém. Três dessas são escolhidas aleatoriamente para um estudo. Foramfeitas seis determinações em cada amostra e obtiveram-se os seguintes dados:

Amostra 1 4,88 4,89 4,63 4,91 5,32 5,31Amostra 2 4,18 4,30 3,61 3,29 3,40 3,35Amostra 3 1,77 1,81 1,72 1,74 2,02 2,02

Há variação signi�cante no conteúdo de �-glucanas de amostra a amostra? Use � = 0; 05.Formule as hipóteses.

2. Um fabricante suspeita que os lotes de matérias-primas fornecidas por seu fornecedor diferesigni�cantemente no conteúdo de cálcio. Há um grande número de lotes corrente em seudepósito. Cinco desses são escolhidos aleatoriamente para um estudo. Um químico faz cincodeterminações em cada lote e obtém os seguintes dados:

Lote 1 Lote 2 Lote 3 Lote 4 Lote 523,46 23,59 23,51 23,28 23,2923,48 23,46 23,64 23,40 23,4623,56 23,42 23,46 23,37 23,3723,39 23,49 23,52 23,46 23,3223,40 23,50 23,49 23,39 23,38

3. Utilize um teste para testar ao nível de 5%, a hipótese da igualdade das médias para os trêsgrupos de alunos que foram submetidos a esquemas diferenciados de aulas. Foram registradasas notas obtidas para uma mesma prova.

Aulas Expositivas Aulas com recursos audiovisuais Aulas através de ensino programado65 60 6162 71 6968 66 6770 63 7260 64 74

59

4. É bem conhecido que daltonismo é hereditário. Devido ao fato do gene responsável ser ligado aosexo, o daltonismo ocorre mais frequentemente nos homens do que nas mulheres. Numa grandepopulação humana, 1000 indivíduos foram selecionados ao acaso e a distribuição de daltonismoda cor vermelha-verde segundo sexo foi:

102

Page 104: Apostila de Bioestatística

13.9. TRABALHO 05 CAPÍTULO 13. TESTE NÃO-PARAMÉTRICOS

Masculino FemininoPresente 42.00 7.00Ausente 485.00 466.00

Os eventos ser daltônico e sexo são independentes?

103

Page 105: Apostila de Bioestatística

Capítulo 14

Correlação Linear

Neste capítulo iremos avaliar se existe associação entre duas variáveis quantitativas, tais comopressão arterial e idade do indivíduo. Quando se pode demonstrar que existe associação entre duasvariáveis quantitativas, isto é quando se constata que elas variam junts, dizemos que as variáveis estãocorrelacionadas.

Neste sentido, Correlação é uma relação estatística para determinar se há algum relacionamentosigni�cativo entre duas variáveis.

Existem muitos meios de se determinar a existência ou não da correlação entre duas variáveis.Iremos utilizar dois métodos, o grá�co (diagrama de dispersão) e o algébrico (coe�cientes).

14.1 Diagrama de Dispersão

Normalmente, num estudo estatístico, temos os dados das duas variáveis dispostos numa tabela.Podemos representar estes dados através de um grá�co de pontos.

Exomplo: Seja a tabela abaixo composta pela massa (Kg) e altura em (cm) de crianças com 10meses de idade.

Altura (cm) Massa (Kg)75 9,070 9,273 8,978 8,580 9,569 9,671 9,172 10,074 8,777 9,4

Construímos o grá�co de dispersão colocando a variável Altura no eixo x e a Massa no eixo y. Emseguida marcamos os pontos correspondentes a cada indivíduo.

Bioestat: Digite os valores da tabela, tal como apararecem, no grid do Bioestat.Em seguida, clique em:

Estatísticas > Regressão > Linear Simples

O resultado será a janela abaixo:

104

Page 106: Apostila de Bioestatística

14.1. DIAGRAMA DE DISPERSÃO CAPÍTULO 14. CORRELAÇÃO LINEAR

Agora, clique primeiro sobre a coluna que deseja que �que no eixo y (Massa) e em seguida nacoluna que �cará no eixo x (Altura) e por último em "Executar Estatística". O resultado será oseguinte:

Clique sobre "Grá�co"para ver o diagrama de dispersão:

105

Page 107: Apostila de Bioestatística

14.2. COEFICIENTE DE CORRELAÇÃO LINEAR - R CAPÍTULO 14. CORRELAÇÃO LINEAR

Note que existe um grande espalhamento de pontos ao redor da reta, isto indica que a correlaçãoentre as variáveis não é boa, de acordo com os dados disponíveis.

Além disso, veja que a reta está inclinada para a esquerda, signi�cando uma correlação decrescente,ou seja, de acordo com os dados disponíveis, na medida em que a Altura (eixo x) aumenta, a Massa(eixo y) diminui.

Exemplo: As taxas sanguineas de insulina e glicose apresentam correlação negativa, já a taxa dohormônio glucagônio tem correlação positiva com a glicemia.

14.2 Coe�ciente de Correlação Linear - r

A análise grá�ca feita acima é o primeiro passo para a determinação da correlação mas ela ésomente um indício desta correlação, precisamos de uma análise numérica para reforçar nossa decisão.

O coe�ciente de correlação mede o grau de relação linear 1 entre os valores emparelhados x e yem uma amostra. Também conhecido como coe�ciente de correlação de Pearson, o valor de r deveestar entre �1 e +1, inclusive.

Se o valor de r está próximo de 0, concluímos que não há correlação linear signi�cativa entre xe y, mas se r está próximo de �1 ou +1, concluímos pela existência de correlação linear signi�cativaentre x e y.

1Signi�ca o espalhamento dos pontos do diagrama de dispesão ao redor de uma reta chamada de ajuste linear.

106

Page 108: Apostila de Bioestatística

14.2. COEFICIENTE DE CORRELAÇÃO LINEAR - R CAPÍTULO 14. CORRELAÇÃO LINEAR

O valor máximo de r (-1 ou +1) é atingido quando os pontos do diagrama estão sobre uma reta(�guras "a"e "b") e representam uma correlação linear perfeita entre as variáveis.

Quando não existe correlação, os pontos distrtibuem-se em forma de nuvens circulares, tal comonas �guras "c"e "f".

As correlações lineares intermediárias formam nuvens inclinadas relativamente próximas da reta deajuste (�guras "d"e "e").

Existem também outros tipos de correlações que, embora boas, não estão em torno de uma reta,mas formam outras formas, como mostram as �guras "g"e "h". Estas correlações não são bemcalculadas pelo coe�ciente de correlação pois este foi criado para correlações lineares.

Voltando ao nosso exemplo, como podemos determinar o coe�ciente de correlação?Simplesmente olhando a �gura abaixo:

107

Page 109: Apostila de Bioestatística

14.3. REGRESSÃO LINEAR SIMPLES CAPÍTULO 14. CORRELAÇÃO LINEAR

O coe�ciente de correlação que procuramos é r = 0; 2482, que indica uma baixa correlação entreas variáveis "Altura"e "Massa", pelo menos para este conjunto de dados.

Antes de continuarmos, é preciso entender bem a seguinte observação:

14.3 Regressão Linear Simples

Após analisarmos um diagrama de dispersão é possível que veri�quemos um comportamento linearentre as variáveis, vejamos um exemplo:

Exemplo: Os dados abaixo referem-se ao peso (gramas) e a idade (semanas), de codornas:

Idade (X) 1 2 3 4 5 6 7 8 9 10Peso (Y ) 60 100 120 150 200 210 310 320 330 360

Qual é o peso estimado de uma codorna com nove semanas e meia de vida?Iniciamos analisando o diagrama de dispersão:

108

Page 110: Apostila de Bioestatística

14.3. REGRESSÃO LINEAR SIMPLES CAPÍTULO 14. CORRELAÇÃO LINEAR

A reta "ajusta"os pontos do diagrama, ou seja, ela é capaz de resumir (ao menos teoricamente)tais pontos, já que os pontos se encontro pouco dispersos ao redor da reta. Isto signi�ca que podemostrocar este conjunto de pontos pela expressão matemática da reta pontilhada, este processo é chamadode Regressão Linear.

Um problema de regressão 2 consiste em determinar a função que descreve a relação entre duasvariáveis. Estudaremos somente o caso em que esta relação é descrita por uma função linear (reta).

A reta é a regressão linear entre as grandezas y e x conforme as medições indicados pelos pontos.Portanto, a relação é a equação de uma reta:

Y = a + b �XDeterminar a regressão linear signi�ca achar os valores dos coe�cientes a e b (calculados pelo

Bioestat).No Bioestat:

Estatísticas > Regressão > Linear Simples

2A palavra Regressão é atribuída a sir Francis Galton, que, em 1886, procurou explicar por que pais mais altos tinham

�lhos com estatura em média mais baixa que a deles, este fenômeno foi chamado de regressão à média.

109

Page 111: Apostila de Bioestatística

14.4. EXERCÍCIOS CAPÍTULO 14. CORRELAÇÃO LINEAR

Pela imagem, o valor de a é 22,6667 e o de b é 35,1515, o que nos permite montar a equação dareta:

Y ` = 22; 6667 + 35; 1515 �XAgora que podemos contar com a equação da reta, temos a ferramenta matemática necessária

para estimar o peso de uma codorna com 9 semanas e meia de vida:No Bioestat:

Estatísticas > Regressão > Linear Simples; clique sobre "Estimar Y"

Perceba que o Bioestat substituiu o valor desejado (9,5) pelo X da equação de ajuste, obtendo356,6060 de valor estimado para Y, com isto, temos que se estima um peso de 356,6060 gramas parauma codorna com 9 semanas e meia de vida.

14.4 Exercícios

1. Em um estudo conduzido na Itália, 10 pacientes com hipertrigliceridemia foram colocados sobdieta de baixas gorduras e altos carboidratos. Antes de inicia-la, as medidas de colesterol e detriglicerídeos foram registradas para cada indivíduo:

110

Page 112: Apostila de Bioestatística

14.4. EXERCÍCIOS CAPÍTULO 14. CORRELAÇÃO LINEAR

Paciente Nível de colesterol (mmol/l) Nível de triglicerídeos (mmol/l)1 5,12 2,32 6,18 2,543 6,77 2,954 6,65 3,775 6,36 4,186 5,9 5,317 5,48 5,538 6,02 8,839 10,34 9,4810 8,51 14,2

Existe alguma correlação entre os níveis de colesterol e de triglicerídeos antes da dieta? Ela ésigni�cativa?

2. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essarelação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observouem cada uma delas a idade (x) e a massa muscular (y).

Massa muscular (Y) Idade (X)82.0 71.091.0 64.0100.0 43.068.0 67.087.0 56.073.0 73.078.0 68.080.0 56.065.0 76.084.0 65.0116.0 45.076.0 58.097.0 45.0100.0 53.0105.0 49.077.0 78.073.0 73.078.0 68.0

a) Calcule o coe�ciente de correlação linear entre X e Y;

b) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular (dependente)e X: idade (independente);

c) Considerando a reta estimada dada no item (b), estime a massa muscular média de mulherescom 50 anos.

3. Um pesquisador deseja veri�car se um instrumento para medir a concentração de determinadasubstância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de concentraçõesconhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo:

x 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1

a) Calcule o coe�ciente de correlação entre as variáveis x e y;

b) Obtenha a reta de regressão da variável y em função de x.

111

Page 113: Apostila de Bioestatística

14.4. EXERCÍCIOS CAPÍTULO 14. CORRELAÇÃO LINEAR

4. As medidas da concentração de uma substância no soro sanguíneo de 10 pessoas com idadesdiferentes foram indicadas abaixo. Calcular o coe�ciente de correlação entre a concentraçãodessa substância e a idade e ajustar a equação da concentração em função da idade.

Idade(x) 16 25 25 39 39 40 50 64 65 72Concentração(y) 1,6 1,6 1,5 4 2,7 2,5 4 5 5 6,3

112