apostila bioestatistica

111
Sum´ ario 1 Defini¸c˜ oes e Conceitos em Bioestat´ ıstica Aplicada 1 1.1 Introdu¸c˜ ao ............................................... 1 1.2 Estat´ ıstica M´ edica .......................................... 1 1.3 Dados Biom´ etricos .......................................... 2 1.4 Os Conceitos da Bioestat´ ıstica ................................... 3 1.4.1 Popula¸ ao ........................................... 5 1.4.2 Censo ............................................. 5 1.4.3 Amostra ............................................ 5 1.4.4 Parˆ ametros .......................................... 5 1.4.5 Estimativas dos Parˆ ametros ou Estat´ ıstica ......................... 5 1.4.6 Unidade de Amostragem ................................... 5 1.4.7 Vari´ aveis ........................................... 5 1.4.8 Vari´ aveis Aleat´orias (v.a.) .................................. 6 2 Experimenta¸c˜ ao Biom´ etrica 7 2.1 Introdu¸c˜ ao ............................................... 7 2.2 O Racioc´ ınio Indutivo da Biometria ................................ 7 2.3 Delineamentos Experimentais .................................... 7 2.3.1 Etapa de um levantamento estat´ ıstico ........................... 8 2.4 Aspectos Estat´ ısticos dos Estudos Etiol´ogicos ........................... 10 2.4.1 Estudo de Caso-Controle .................................. 11 2.4.2 Estudo de Coorte ....................................... 13 2.4.3 Ensaios Cl´ ınicos Aleatorizados ............................... 16 2.4.4 Estudos Descritivos ..................................... 17 2.4.5 Seccionais ou Transversais .................................. 18 3 Estat´ ıstica Descritiva 20 3.1 Organiza¸c˜ ao de Dados Estat´ ısticos ................................. 20 3.1.1 Normas para a Apresenta¸ ao Tabular de Dados ...................... 20 3.2 Distribui¸c˜ ao de Freq¨ encias ..................................... 21 3.3 Gr´aficos ................................................ 23 3.3.1 Diagramas ........................................... 24 3.3.2 Histograma .......................................... 26 3.4 Medidas Descritivas ......................................... 27 3.4.1 Medidas de Tendˆ encia Central ou de Posi¸c˜ ao ....................... 27 3.4.2 Medida de Variabilidade ou de dispers˜ao .......................... 30 3.5 Medidas Separatrizes ......................................... 32 3.5.1 Quartis, Decis e Percentis .................................. 32 3.5.2 Medidas de Simetria ..................................... 34 3.5.3 Medidas de Curtose ..................................... 36 1

Upload: renata-dos-santos-amaral

Post on 13-May-2015

793 views

Category:

Documents


46 download

TRANSCRIPT

Page 1: Apostila bioestatistica

Sumario

1 Definicoes e Conceitos em Bioestatıstica Aplicada 11.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Estatıstica Medica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Dados Biometricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 Os Conceitos da Bioestatıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4.1 Populacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.2 Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.3 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.4 Parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.5 Estimativas dos Parametros ou Estatıstica . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.6 Unidade de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.7 Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.8 Variaveis Aleatorias (v.a.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Experimentacao Biometrica 72.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 O Raciocınio Indutivo da Biometria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Delineamentos Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3.1 Etapa de um levantamento estatıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Aspectos Estatısticos dos Estudos Etiologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4.1 Estudo de Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4.2 Estudo de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.3 Ensaios Clınicos Aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4.4 Estudos Descritivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4.5 Seccionais ou Transversais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Estatıstica Descritiva 203.1 Organizacao de Dados Estatısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.1 Normas para a Apresentacao Tabular de Dados . . . . . . . . . . . . . . . . . . . . . . 203.2 Distribuicao de Frequencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Diagramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4.1 Medidas de Tendencia Central ou de Posicao . . . . . . . . . . . . . . . . . . . . . . . 273.4.2 Medida de Variabilidade ou de dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.5 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.5.1 Quartis, Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.5.2 Medidas de Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.5.3 Medidas de Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1

Page 2: Apostila bioestatistica

4 Inferencia Estatıstica 384.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2 Problemas de Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3 Distribuicao Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.4 Distribuicoes de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.4.1 Distribuicao Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.4.2 Distribuicao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.4.3 Distribuicao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.5 Verificacao da Adequacao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.6 Faixas de Referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.7 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.8 Tamanho da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.8.1 Metodo simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.8.2 Metodo inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.9 Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.9.1 Construcao de um Teste de Hipotese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.9.2 O p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Analise em Tabelas 2x2 e LxC 515.1 Tabelas de Contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2 Teste de Independencia e de Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Comparacoes Entre Grupos 616.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.2 Resposta Dicotomica: Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.2.1 Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.2.2 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.2.3 Teste z para Comparacao de Proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.3 Resposta Dicotomica: Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.3.1 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.4 Resposta Contınua - Teste de Medias para Amostras Independentes . . . . . . . . . . . . . . 676.4.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676.4.2 Teste z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6.5 Resposta Contınua - Teste de Medias para Amostras Pareadas . . . . . . . . . . . . . . . . . 696.5.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.6 Testes Nao-Parametricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.6.1 Teste U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.6.2 Teste H de Kruskal-Wallis para k amostras . . . . . . . . . . . . . . . . . . . . . . . . 746.6.3 Teste de Wilcoxon (Amostras Pareadas ou dependentes) . . . . . . . . . . . . . . . . . 756.6.4 Teste de Friedman para k tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.7 Outros Testes Nao-Parametricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.7.1 Teste de Concordancia ou de Replicabilidade (Coeficiente de Kappa) . . . . . . . . . . 796.7.2 Teste de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7 Analise de Variancia 837.1 Analise de Variancia para Experimentos ao Acaso . . . . . . . . . . . . . . . . . . . . . . . . . 837.2 Teste Parametrico para Comparacoes Multiplas . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7.2.1 Teste Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.2.2 Teste Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7.3 Teste Nao-Parametrico para Comparacoes Multiplas . . . . . . . . . . . . . . . . . . . . . . . 897.3.1 Teste Dunn-Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7.4 Analise de Variancia com Numero Diferente de Repeticoes . . . . . . . . . . . . . . . . . . . . 917.4.1 Teste Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 937.4.2 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947.4.3 Teste Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

2

Page 3: Apostila bioestatistica

8 Testes Clınicos 958.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958.2 Testes Diagnosticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

8.2.1 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968.2.2 Valor das Predicoes: VPP e VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978.2.3 Decisoes Incorretas: PFP e PFN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988.2.4 Combinacao de Testes Diagnosticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988.2.5 Escolha entre Testes Diagnosticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1018.2.6 Relacao entre Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 1048.2.7 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Referencias Bibliograficas 107

3

Page 4: Apostila bioestatistica

Capıtulo 1

Definicoes e Conceitos emBioestatıstica Aplicada

1.1 Introducao

O objetivo deste capıtulo e ilustrar o papel que conceitos e tecnicas estatısticas tem na formacao doestatıstico especializado na area biometrica, na sua pratica profissional e de modo especial no avanco doconhecimento nesta area especıfica.

Este objetivo sera alcancado principalmente atraves da apresentacao e discussao dos resultados de es-tudos relevantes. Atraves destes exemplos, argumenta-se que conceitos estatısticos tem importante papel adesempenhar, tanto no estudo da saude de populacoes, como nos tratamentos individuais.

1.2 Estatıstica Medica

A ma utilizacao de dados medicos ou de outras ciencias, com interpretacoes erroneas ou mal intencionadas,tem produzido um grande ceticismo em relacao a estatıstica. Podemos encontrar muitos professores, clınicosou mesmo profissionais de ciencias basicas, que acham que “bom senso” e suficiente para tratar desses dados,que qualquer coisa que exija prova estatıstica nao pode ter valor pratico ou que procurarao um matematicose tiverem algum problema estatıstico em seu trabalho.

E importante compreender, no entanto, que cada vez que se toma a media de duas leituras de pipeta,por exemplo, ou o numero medio de dias de internacao no hospital de pacientes com determinada doenca,se esta usando um metodo estatıstico. Do mesmo modo, usamos metodos estatısticos para concluir que apressao arterial do paciente esta normal ou que um tratamento cirurgico e melhor que outro. Deste modo,a Estatıstica Medica se constitui realmente nos princıpios da Medicina Quantitativa. Muito da medicinadepende, direta ou indiretamente, de contagem ou mensuracao. Isto e obvio em pesquisa e verdadeirotambem no diagnostico. Quando um medico, examinando um nodulo no seio de uma paciente, leva emconsideracao sua idade e historia familiar, logo esta usando dados quantitativos, ou seja, a incidencia detumores por idade e por famılia.

Convencionou-ser chamar de Bioestatıstica o conjunto de conceitos e metodos cientıficos usados no trata-mento da variabilidade nas ciencias medicas e biologicas. A Bioestatıstica fornece metodos para se tomardecisoes otimas na presenca de incerteza, estabelecendo faixas de confianca para a eficacia dos tratamen-tos e verificando a influencia de fatores de risco no aparecimento de doencas. Dentro da area biologica,compreende-se por Biometria a ciencia que estuda as medidas de seres vivos.

A enfase crescente do papel dos metodos quantitativos na pratica da medicina torna imperativo que oestudante de medicina assim como o medico tenham algum conhecimento de estatıstica.

O estudante aprende na escola o melhor metodo de diagnose e terapeutica; depois de formado dependeranecessariamente de trabalhos apresentados em reunioes, jornais e revistas medicas, para aprender novosmetodos de terapia, assim como os progressos em diagnose e tecnica cirurgica. Portanto, devera estar aptoa avaliar por si proprio os resultados de outros pesquisadores, devera decidir quando uma nova tecnicaou metodo pode substituir os antigos. Devera estar apto a responder a pergunta da mae que o consulta

1

Page 5: Apostila bioestatistica

1.3 Dados Biometricos ROSSI, Robson M. 2

sobre a vacina mais recente e, com a mesma seguranca, aconselha-la em relacao a vacina antipolio ou anti-sarampo. Devera estar apto a dar a famılia do paciente seguranca quanto ao diagnostico, o que pode dependerde sua capacidade de avaliar adequadamente os resultados de exames laboratoriais, como tambem de seuconhecimento sobre a relacao da idade, sexo e outras condicoes do paciente a uma determinada doenca. Osnovos conhecimentos virao atraves do trabalho de pesquisa realizado por ele proprio ou por outros. Deve,portanto, ser capaz de selecionar, da massa de informacoes, aquelas que forem validas e que resistirem atestes cientıficos rıgidos. Deve desenvolver um ceticismo sadio em relacao a tudo que le.

Uma nocao basica em planejamentos experimentais referentes a pesquisa medica, e o reconhecimento deque os indivıduos diferem nao apenas uns dos outros, mas tambem em relacao a si proprios, de dia paradia ou mesmo de hora para hora. Uma certa quantidade de variacao e normal, mas a questao que desafia omedico e determinar quando uma variacao especıfica se torna patologica (referente a doenca). Para isso, oestudante deve aprender como medir a variacao em indivıduos normais e definir qual e o limite de variacaonormal. Deve aprender que ha algum erro aleatorio presente em cada medida ou contagem feita. E altamenteimprovavel que duas contagens sucessivas de globulos, feitas na mesma amostra de sangue, sejam identicas.

Quando, porem, uma diferenca se torna maior que o erro de mensuracao? Para tratar seu pacientedo melhor modo possıvel, o medico deve saber responder a questoes como essa. Para cada medida oudeterminacao fornecida pelo laboratorio, o medico deve conhecer a variacao que e parte do proprio metodo,para saber quando uma dada variacao representa uma mudanca real no paciente.

Sempre que novos metodos de terapia sao introduzidos, e necessario saber se sao realmente superiores,isto e, mais eficientes aos velhos metodos. Sera nacessario fazer-se a avaliacao crıtica do estudo experimental,verificando principalmente se as medidas foram realizadas de modo a produzir resultados fidedignos, se o fatorem prova foi o unico fator de diferenca entre o grupo experimental e o grupo controle, se a diferenca entre osresultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuıda ao acaso. Apenas depoisda avaliacao, atraves de tecnicas estatısticas adequadas, da fidedignidade dos resultados, comparabilidadedos grupos experiencia e controle e, significancia da diferenca encontrada e que podemos tirar as conclusoesrelativas ao novo metodo.

O numero de falhas encontradas em publicacoes medicas enfatiza a necessidade de uma avaliacao crıticada literatura. Para ajudar o estudante a desenvolver tal atitude sao necessarios certos conceitos estatısticosbasicos e uma certa familiaridade com a terminologia mais usada.

Metodos estatısticos sao essenciais no estudo de situacoes em que as variaveis de interesse estao sujeitas,inerentemente, a flutuacoes aleatorias. Este e o caso da area da saude principalmente na Medicina. Mesmotomando-se um grupo de pacientes homogeneos, observa-se grande variabilidade, por exemplo, no tempo desobrevida apos um tratamento adequado. Dosagens de caracterısticas hematologicas flutuam nao so entreindivıduos, como tambem no mesmo indivıduo em ocasioes diferentes. Na realidade, ha variacoes entrediferentes pacientes para qualquer variavel de interesse clınico. Portanto, para se estudar problemas clınicos,e necessaria uma metodologia capaz de tratar a variabilidade de forma adequada.

Deve-se notar, entretanto, que ao tratar um paciente, o medico se vale da experiencia de eventos ante-riores, vivenciada pessoalmente ou transmitida por outros atraves de livros e artigos. Assim, a Estatısticapode ser vista como ferramenta de organizacao e validacao do conhecimento medico.

1.3 Dados Biometricos

Nas areas medica e biologica coletam-se dados de pessoas, de animais experimentais e de fenomenosfısicos e quımicos. Interessam aos pesquisadores dessas areas dados sobre mortalidade infantil, eficiencia demedicamentos, incidencia de doencas, causas de morte etc. Os dados referem-se a variaveis, classificadascomo qualitativas, ordinais e quantitativas.

O dado qualitativo esta fortemente presente nas ciencias da saude. Caracterısticas de pessoas, raca,doencas, etc, sao frequentemente medidas como variaveis categoricas. No entanto, merce de sua tradicaoescolastica, as ciencias da saude ainda mostram preferencia pelas medidas contınuas de alta precisao: medirem miligramas, milımetros etc. Engajado no conhecimento do biologo, o cientista da saude tende a isentar-sede reflexao sobre a importancia das estrategias de mensuracao e analise providas por outras ciencias, comoa estatıstica.

Exemplo 1.1. Com o objetivo de levantar conhecimento sobre algumas caracterısticas de homens comdoencas cardıacas da clınica especializada de Honolulu, no Havaı, decidiu-se pesquisar os pacientes comidade entre 45 e 67 anos. As caracterısticas de interesse eram:

Page 6: Apostila bioestatistica

1.4 Os Conceitos da Bioestatıstica ROSSI, Robson M. 3

1 – Nıvel de instrucao2 – Peso3 – Altura4 - Idade5 – Fumante6 – Atividade fısica7 – Taxa de glicose8 – Taxa de colesterol serico9 – Pressao sanguınea sistolica.

1.4 Os Conceitos da Bioestatıstica

A estatıstica pode ser utilizada simplesmente para descrever conjuntos de dados, mostrando sua dis-tribuicao, media, dispersoes, etc. Mas, pode ir alem, pode estar presente nas diversas etapas de umapesquisa, desde o seu planejamento, ate na interpretacao de seus resultados, podendo ainda, influenciar naconducao do processo da pesquisa.

Definicao: Estatıstica e um conjunto de conceitos e metodos cientıficos para a coleta, a organizacao, adescricao, a analise e a interpretacao de dados experimentais, que permitem conclusoes validas e tomadasde decisoes razoaveis.

Classificacao: Usualmente, a estatıstica e dividida em tres grandes areas que atuam em conjunto:Planejamentos de Experimentos e Amostragem, Estatıstica Descritiva e, Estatıstica Inferencial.

Amostragem e Planejamento de Experimentos: E a parte que tem por objetivo planejar a pesquisa e sepreocupa com o mecanismo da coleta de dados.

Estatıstica Descritiva: E a parte que tem por objetivo organizar, apresentar e sintetizar dados observadosde determinada populacao, sem pretencoes de tirar conclusoes de carater extensivo.

Estatıstica Inferencial ou Indutiva: E a parte que, baseando-se em estudos realizados sobre os dados deuma amostra, procura inferir, induzir ou verificar leis de comportamento da populacao da qual a amostra foiretirada. A estatıstica inferencial tem sua estrutura fundamentada na teoria matematica das probabilidades.E, tambem definida como um conjunto de metodos para a tomada de decisoes.

Page 7: Apostila bioestatistica

1.4 Os Conceitos da Bioestatıstica ROSSI, Robson M. 4

A Estatıstica esta presente em diversas areas e em diversas abordagens. Podemos citar alguns exemplosde suas aplicacoes:

1. Eleicoes: Anuncio previo, em termos percentuais, de que o candidato A e o provavel vencedor. (Aprevisao pode ser feita apos a contagem de 2% dos votos);

2. Industria: Teste de lampadas “flash” para maquinas fotograficas. O fabricante deve saber com an-tecedencia se o lote fabricado pode ser colocado no mercado ou nao (Ele pode estar sujeito a riscos !O Recall e um exemplo, onde ocorre a retirada ou troca de produtos devido a uma falha em algumestagio de fabricacao nao detectado pelo controle de qualidade);

3. Meteorologia: Informa que a “chance” de chuva para hoje e de 30% (utilizacao de metodos estatısticosde previsao);

4. Mercado de Valores: Decisao na compra ou venda de acoes – “Risco”;

5. Instituicoes Bancarias/Credito: Analise de credito; Seguro de Vida e/ou de automoveis;

6. IBGE/ındices: Censo; Taxa de desemprego; Inflacao; Custo de vida; Valor do salario mınimo, cestabasica, ındices de precos-INPC; Taxa de mortalidade/Natalidade; Indices de analfabetismo, etc.

7. Farmacia/Medicina: Analisar a entrada de um novo medicamento, verificando a sua eficacia. “Deve-setomar muito cuidado” com a tomada de decisao;

8. Pesquisas: Estudo sobre habitos migratorios de certo animal; Estimacao do tamanho populacional decertas especies;

9. Experimentacao Agrıcola: Estudos de uma nova variedade de semente (modificacao genetica) ou defertilizantes;

10. Telecomunicacoes: A utilizacao da Internet gera informacoes preciosas de clientes ; Controle de trafegotelefonico, chamadas e consumo, forcam a utilizacao de modelos estatısticos complexos;

11. Experimentacao Zootecnica: Estudo do desenvolvimento de um animal e analise de fatores que in-fluenciam neste desenvolvimento tais como, alimentacao, cativeiro e outros; Melhoramento genetico;Pesquisas com vacinas animais entre outros.

A amostragem e naturalmente usada na vida diaria. Por exemplo, para verificar o tempero de umalimento em preparacao, pode-se provar (observar) uma pequena porcao deste alimento. Desta forma, estase fazendo uma amostragem, ou seja, extraindo do todo (populacao) uma parte (amostra), com o propositode avaliar (inferir) sobre a qualidade de tempero de todo o alimento.

Nas pesquisas cientıficas em que se quer conhecer algumas caracterısticas de uma populacao, tambem emuito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra,obter valores aproximados, ou estimativas, para as caracterısticas populacionais de interesse. Este tipo depesquisa e usualmente chamado de levantamento por amostragem.

Num levantamento por amostragem, a selecao dos elementos que serao observados, deve ser feita sobuma metodologia adequada, de tal forma que os resultados da amostra sejam informativos para avaliarcaracterısticas de toda a populacao.

A populacao pode ser formada por pessoas da famılia, indivıduos de uma certa especie, estabelecimentosindustriais, ou qualquer outro tipo de elementos, cujas variaveis que se pretende estudar sejam passıveis deserem mensuradas.

Os elementos de uma populacao diferem entre si com respeito a fatores tais como: sexo, idade, medidasfısicas, cor, susceptibilidade a doenca, agressividade, etc. Desta forma o padrao de comportamento no qualo pesquisador esta interessado pode ser muito complicado pela grande variabilidade existente. Por estasrazoes, muitos trabalhos nas ciencias em geral tendem a ser de natureza comparativa, procurando lidar comas variacoes inerentes.

Page 8: Apostila bioestatistica

1.4 Os Conceitos da Bioestatıstica ROSSI, Robson M. 5

1.4.1 Populacao

E qualquer conjunto de elementos, tendo pelo menos uma variavel em comum (Pode ser finita ou infinita).

1.4.2 Censo

Pesquisas utilizando todos os elementos da populacao.Obs. Desvantagem quando a populacao e muito grande Ex.: A populacao brasileira estimada em novem-

bro/2004: 182.405.960 (Fonte: IBGE - http://www.ibge.gov.br/).

1.4.3 Amostra

E qualquer subconjunto da populacao. Pesquisas utilizando amostras da populacao denominam-sepesquisas por amostragem.

1.4.4 Parametros

Sao certas caracterısticas populacionais especıficas que se deseja descrever.

1.4.5 Estimativas dos Parametros ou Estatıstica

Sao os valores calculados a partir dos dados da amostra, com o objetivo de avaliar parametros descon-hecidos, por exemplo, media amostral.

1.4.6 Unidade de Amostragem

E a unidade a ser selecionada para se chegar aos elementos da populacao. Pode ser os proprios elementosda populacao, ou, outras unidades faceis de serem selecionadas e que, de alguma forma, estejam associadasaos elementos da populacao.

1.4.7 Variaveis

Sao as caracterısticas medidas. As variaveis apresentam variabilidade dentro da populacao. Podem serqualitativas ou quantitativas.

Variaveis Qualitativas

Quando seus valores forem expressos por atributos (nao-numericos).

• Nominal quando tem nome (ex.: Cor dos olhos, sexo, raca, consumo de alcool (sim, nao), gostar deestudar ... etc).

• Ordinal quando tem ordem (ex.: classe social, grau de instrucao, consumo de alcool (pouco, medio,muito) ... etc).

Variaveis Quantitativas

Quando seus valores podem ser descritos numericamente.

• Discreta quando seus valores resultam de contagem (ex.: numero de filhos, numero de reprovacoes,numero de copos de alcool consumidos... etc).

• Contınua quando seus valores resultam de medicoes e podem assumir qualquer valor em um intervaloda reta (ex.: estatura, nota na prova, imc, quantidade de alcool consumido ... etc).

Page 9: Apostila bioestatistica

1.4 Os Conceitos da Bioestatıstica ROSSI, Robson M. 6

1.4.8 Variaveis Aleatorias (v.a.)

Sao provenientes de Experimentos Aleatorios (todos as possibilidades sao equiprovaveis, isto e, tema mesma chance de ocorrencia). As v.as. geralmente sao representadas por letras maiusculas A, X, Y ou W,que podem assumir qualquer um dos conjuntos de valores que lhe sao atribuıdos.

Exemplo 1.2. Em um experimento de lancar uma moeda e observar a sua face, existem duas possibil-idades:“Cara ou Coroa“. Considerando uma v.a. discreta X: “numero de caras em dois lancamentos“,temos:

possibilidades {cc,ck,kc,kk}:{

Cara: cCoroa: k → X : {0, 1, 2}.

Page 10: Apostila bioestatistica

Capıtulo 2

Experimentacao Biometrica

2.1 Introducao

Na medicina como em outros campos da ciencia aplicada, o efeito geral da estatıstica e tornar umobservador mais crıtico e mais consciente quando, por falta de informacao segura, ele tem de agir com baseem impressoes ou opiniao. Esta e a atitude cientıfica, e o melhor modo de comecar a adquirı-la e procurarevidencias, e “provar”. Alguns princıpios dessa procura de evidencias serao estudadas neste capıtulo.

2.2 O Raciocınio Indutivo da Biometria

Quando realizamos um experimento, a observacao resultante e vista nao como um resultado a esmo eirreprodutıvel, mas como um resultado que poderia vir a ser obtido outras vezes, sempre que o experimentofosse repetido nas mesmas condicoes. De fato, a generalizacao e feita sob a hipotese de que o resultadoobtido e tıpico de uma classe de experimentos similares e, se conseguıssemos repetir, exatemente, um experi-mento, uma unica observacao constitui-se-ia em base suficiente para fazermos afirmacoes gerais. Na pratica,obviamente, nunca podemos garantir que dois experimentos sejam exatamente iguais em cada minucia desuas circunstancias, de tal sorte que nunca podemos garantir resultados identicamente reprodutıveis. Asobservacoes vao, de fato, variar em maior ou menor grau - aquilo que chamamos de erro experimental estarapresente - e, em lugar de um unico resultado que se repete exatamente, teremos numerosos resultados quevariam entre si, de acordo com o tamanho do erro experimental. As nossas generalizacoes nao podem serabsolutamente precisas: devem levar em consideracao o erro experimental e conter, em si, um elementode incerteza. Essa incerteza e caracterıstica do raciocınio indutivo, e o grande problema no raciocınio doparticular ao geral e levar em devida conta essa incerteza.

Em Biologia, o problema da incerteza e muito serio, pois organismos vivos e suas partes sao coisasaltamente variaveis. Eles estao influenciados por uma riqueza de fatores - geneticos, ambientais e de de-senvolvimento - de tal modo que nenhuma situacao do sitema pode ser reproduzida exatamente; em geralelas nao podem ser reproduzidas nem com muita aproximacao. Poucas (se e que algumas) circunstanciasde um experimento podem ser supostas triviais em seus efeitos sobre os resultados e raramente conseguimosidentificar um ou dois fatores cujos controles reduziriam o erro experimental a proporcoes desprezıveis. Efe-tivamente, com muita frequencia o nosso problema e tentar distinguir um efeito que seja pouco maior doque o de outros fatores que provocam a variacao do sistema; devemos entao enfrentar o problema: Qualdeve ser a fidedignidade da mensuracao? Ou mesmo: Sera o efeito observado atribuıvel ao fator em queestamos interessados, ou sera consequencia de alguma outra causa de variacao que nao pudemos reconhecere certamente nao pudemos controlar?

2.3 Delineamentos Experimentais

Muitos trabalhos em pesquisas medicas sao acometidos de varios erros devido ao procedimento na coletae no tratamento de dados. Um dos fenomenos mais comuns e a ocorrencia de diferencas entre homens emulheres, entre criancas e adultos, entre as estaturas, pesos, cor dos olhos e comportamento de pessoas

7

Page 11: Apostila bioestatistica

2.3 Delineamentos Experimentais ROSSI, Robson M. 8

da mesma raca, sexo e idade, entre diferentes amostras da mesma substancia quımica “pura”. Todas essadiferencas sao coletivamente chamadas variacao e a estatıstica pode ser descrita como ciencia de tratar avariacao.

Os seres humanos sao tao infinitamente variaveis interna quanto o sao externamente, mas algumasmaterias basicas do curso medico, como a Anatomia, parecem nao reconhecer tal fato, deixando de destacaresse profundo sentido da variacao humana. A pseudoprecisao anatomica, criando um conceito artificial docorpo humano no inıcio da carreira do estudante, parece que largamente partilham essa responsabilidade; emesmo se todos os professores enfatizassem a importancia da variacao, nao iria ajudar muito, a nao ser queo estudante adquirisse pratica em enfrentar problemas que surgem da variacao - especialmente, pratica naprocura de evidencias e uma atitude crıtica em face dos assuntos que le, ouve ou discute.

2.3.1 Etapa de um levantamento estatıstico

A. Planejamento experimental. Consiste no planejamento da pesquisa que sera realizada:

Mainland, D. (1952) em Elementary medical statistics - The principles of quantitative medicine, sugerenove questoes que constituem um roteiro valioso para desenvolvimento dessa atitude:

1. Quem?...(relativa ao pesquisador)

2. Para que?...(relativa ao objetivo da pesquisa)

3. O que?...(refere-se a pessoas, coisas ou fatos estudados)

4. Onde?...(refere-se ao local e ambiente)

5. Quando?...(refere-se ao tempo)

6. Como?...(relativa aos metodos)

7. Quanto?...(relativa as medidas)

8. Quantos?...(relativa a enumeracao)

9. Por que?...(referente a interpretacao causal)

Tomadas as devidas precaucoes, alguns aspectos estatısticos deverao ser analisados e o tipo de estudoadequado devera ser abordado.

Exemplo 2.1. Considere a seguinte hipotese: ”Associacao entre incidencia de luz solar e cancer demama”. Comparacoes regionais, na antiga Uniao sovietica, mostraram correlacao negativa entre incidenciade luz solar e de cancer do seio: em locais de baixa luminosidade solar, foi encontrada alta incidencia destetipo de neoplasia, e vice-versa. Em muitos paıses, semelhante associacao tambem foi detectada. A evidenciasugere, segundo os autores, que a vitamina D possa ter papel de relevo na reducao do risco de cancer demama, e estudos adicionais devem ser feitos para esclarecer a materia. (GOHAM et al, 1990).

Os principais delineamentos experimentais para a realizacao destas pesquisas serao:

1. Quem? GOHAM et al.

2. Para que? Verificar a associacao entre a taxa de incidencia de luz solar sobre indivıduos em diferenteslugares com luminosidades desiguais e a incidencia de cancer de mama.

3. O que? Numero de mulheres com cancer de mama e incidencia de luminosidade no local destas ondehabitam estas mulheres. Pelo fato de quanto maior a luminosidade maior a sıntese de vitamina D pelapele, ha evidencias que a vitamina D possa ter elevo na reducao do risco de cancer de mama.

4. Onde? Regioes diferentes que apresentam tambem diferentes incidencias de luminosidade na antigaUniao Sovietica.

5. Quando? 1990.

Page 12: Apostila bioestatistica

2.3 Delineamentos Experimentais ROSSI, Robson M. 9

6. Como? (Metodologia): considerando que o cancer de mama e o que mais mata nas mulheres, poremem relacao a populacao de mulheres e uma doenca pouco prevalente, como, por exemplo, TranstornoPre-Menstrual. Assim, um estudo de caso-controle em mulheres com cancer de mama ja diagnosticadoexposto a luminosidade solar por um perıodo de tempo predeterminado devendo ser razoavelmentegrande, mas nao saberia dizer quanto sem revisao bibliografica. Na entrevista retrospectiva perguntariaas mulheres ha quanto tempo residiam naquela regiao, e se tivessem dentro do tempo predeterminadoentrariam no estudo. Faria tambem um grupo controle de mulheres daquela regiao para comparacao dosdados. Repetindo este mesmo estudo em mulheres de diferentes regioes com diferentes luminosidades, ecomparando-se as taxas de fatores de riscos, poder-se-ia chegar a conclusao de associacao e em seguidacalcular o Odds Ratio, isto e, a razao de chances.

7. Quanto? As medidas seriam o numero de mulheres diagnosticadas com cancer de mama comparadasa um numero semelhantes de mulheres sem o cancer (controles) separadas apos serem examinadas pormedicos. Ja a luminosidade colheria as informacoes com as centrais de meteriologicas locais ou algumcentro de referencia deste assunto para o estudo.

8. Quantos? A amostra tentaria ser a maior possıvel para melhorar a confiabilidade dos resultados, ja quea doenca e pouco prevalente. Procuraria os centros de saudes locais (hospitais, clınicas especializadas,etc) das respectivas regioes a serem estudadas. Se o numero de centros for muito grande e for muitodifıcil aborda-los, sortearia os centros para amostragem.

9. Por que? Alguns cuidados tem que serem relevados como o vıcio da selecao, de informacao e con-fundimento. Por exemplo, a ingestao de alimentos ricos em precursores e da propria vitamina D bemcomo uso de suplementos alimentares com vitamina D (pılulas), poderia influenciar os resultados dosestudos.

Observacao: Outros tipos de estudos e delineamentos podem ser utilizados nesta pesquisa.Avaliacao de informacoes existentes. Inicialmente, deve-se realizar um levantamento bibliografico sobre

o assunto para obter subsıdios que podem representar valiosa colaboracao para o estudo e, tambem, seremaproveitados nas discussoes posteriores.

B. Formulacao de hipoteses. Com excecao das pesquisas meramente descritivas, todas as pesquisasestatısticas comportam a formulacao de hipoteses. Com base nos dados observados, a hipotese serarejeitada ou nao.

C. Verificacao das hipoteses. A verificacao das hipoteses sera realizada no decorrer da pesquisa.

D. Delineamento da pesquisa. Compreende o estudo (planejamento) detalhado da coleta de dados, darealizacao do trabalho e da analise dos dados.

Os dados podem ser retirados diretamente da fonte ou aproveitados de bancos de dados retirados poroutros indivıduos.

Para o caso de dados retirados diretamente da fonte, existem 3 procedimentos: a observacao direta, oquestionario ou interrogatorio e a entrevista.

Observacao: e a observacao direta dos fenomenos em laboratorios ou na natureza.Questionario: e uma sequencia de perguntas previamente preparadas. O questionario e aplicado por

meio de entrevista ou remetido pelo correio. Os valores observados podem ser complementados por ob-servacao.

Execucao da pesquisa. Coleta dos dados e realizacao da analise estatıstica.Analise e apresentacao dos resultados. Os dados coletados devem ser apresentados na forma de:

graficos e/ou de tabelas. A analise dos dados deve ser realizada pelo pesquisador, com a ajuda de umestatıstico, aplicando os recursos estatısticos necessarios para refutar ou nao as hipoteses previamente for-muladas.

Exemplo 2.2. Objetivo geral: conhecer o perfil dos homens portadores de doencas cardıacas em Honolulu,Havaı. Para dar sequencia a esta pesquisa, e preciso especificar melhor o que se quer conhecer da populacaode portadores de doencas cardıacas, ou seja, os objetivos especıficos. Exemplos de alguns desses objetivos.

(a) conhecer a distribuicao do grau de instrucao dos portadores de doencas cardıacas.

Page 13: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 10

(b) Conhecer a idade e o peso medio dos portadores de doencas cardıacas.

(c) Conhecer os habitos dos portadores de doencas cardıacas.

(d) Avaliar a condicao de saude dos portadores de doencas cardıacas.

Exemplo 2.3. Delineamento da pesquisa: um levantamento de dados a partir do levantamento das in-formacoes contidas em uma amostra dos prontuarios dos pacientes. Dados observados: resultados de diversosatributos e medidas relativas aos pacientes selecionados para participarem da amostra. Esquematicamente:

População: Todos osportadores dedoenças cardíacas deHonolulu.

Levantamentode dados.

Plano deamostragem.

Amostra:Parte dosportadoresde doençascardíacas deHonolulu.

Dadosobservados.

Figura 2.1: Esquema 1.

Exemplo 2.4. Objetivo geral: Comparar a eficiencia de dois metodos para detectar o bacilo causador detuberculose. Em outras palavras, quer-se avaliar se os meios utilizados sao equivalentes ou se um e maiseficiente que o outro. Delineamento da pesquisa: sao formados dois grupos de pacientes com tuberculose eamostras de saliva destes pacientes foram colocadas em duas culturas (A e B). Dados observados: a deteccaoou nao do bacilo foi registrada para cada amostra, resultando em dois conjuntos, relativos a cada metodo.Esquematicamente:

Meio A. Meio B.

Amostra 1 derespostasSim ou Não.

Grupo 1 depacientes.

Grupo 1 depacientes.

Amostra 2 derespostasSim ou Não.

Figura 2.2: Esquema 2.

Este e um delineamento de pesquisa experimental, onde o pesquisador exerce controle sobre o metodoutilizado.

2.4 Aspectos Estatısticos dos Estudos Etiologicos

O objetivo central da pesquisa etiologica (parte da medicina que trata das causas das doencas) e deter-minar se o fato de uma pessoa contrair uma dada doenca esta associado com um dado fator, o qual pode ser,por exemplo uma caracterıstica pessoal, alguma especificidade do ambiente onde viveu ou uma experiencia

Page 14: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 11

pela qual passou. Discutiremos maneiras de se organizar um estudo etiologico, metodos estatısticos para sedeterminar quais fatores estao associados com o contrair da doenca e meios de se quantificar esta associacao.

A pesquisa etiologica e baseada em dados coletados em pacientes convenientemente escolhidos. Opesquisador nao controla quem sera exposto ou nao ao fator em questao, mas tem liberdade de deter-minar quem entrara ou nao no estudo. Para que os resultados tenham validade, a pesquisa tem de serplanejada segundo modelos bem definidos. Os principais tipos de planejamento para estudos etiologicosreceberam os nomes de estudos tipo Caso-Controle, estudos tipo Coorte, Ensaios Clınicos Aleatorizados,Estudos Descritivos e Seccionais ou Tranversais.

2.4.1 Estudo de Caso-Controle

Um estudo tipo caso-controle pode ser definido como um estudo no qual a determinacao da associacao dadoenca com um fator e baseada na observacao de frequencias muito altas ou muito pequenas do fator entreas pessoas doentes. Para isto um grupo de indivıduos afetados pela doenca em questao e comparado comum grupo controle de indivıduos nao afetados. Como as informacoes sao obtidas de maneira retrospectiva,frequentemente, este tipo de planejamento recebe o nome de Estudo Retrospectivo.

Um estudo retrospectivo comeca com um grupo de indivıduos, a serem chamados de ”casos”, que tenhamcontraıdos a doenca em questao. O pesquisador escolhe como padrao de comparacao, um grupo ”controle”constituıdo de pacientes que nao estao sofrendo da doenca. A seguir obtem a historia clınica de todos ospacientes selecionados a fim de averiguar a presenca ou ausencia do fator de risco que esta sendo estudado. Aquestao e saber se o fator de risco esta presente mais frequentemente ou em nıvel mais elevados entre os casosdo que entre os controles. Se a evidencia for suficiente o pesquisador concluira que existe uma associacaoentre o fator de risco e a doenca.

Idealmente, os casos devem ser todos os que ocorreram durante um perıodo de tempo em uma populacaofinita. Os controles devem ser pessoas comparaveis aos casos, mas sem a doenca, ou seja, pessoas que, sedesenvolvessem a doenca, seriam escolhidas como casos.

Os grupos de casos e de controles podem ser formados de forma emparelhada ou de forma independente.No primeiro esquema, para cada caso ou mais controles semelhantes sao escolhidos. Ja na formacao de gruposde forma independente, os controles nao escolhidos de forma associada a um caso especıfico. Preocupa-seapenas em garantir que o grupo de casos seja, na sua totalidade, parecido com o grupo de controles.

O caso particular do emparelhamento em que ha apenas um controle para cada caso e denominadopareamento.

Os estudos de caso-controle sao uma forma de pesquisa simples e eficiente, por isso muito utilizada.Atraves dela, ja se verificaram ou se confirmaram associacoes entre fatores de risco e varios tipos de cancer.Nao ha dificuldades eticas para sua implementacao e, portanto, os dados usados sao os de seres humanos. Istolivra o pesquisador de difıceis generalizacoes inerentes aos estudos desenvolvidos em animais. O tempo gastoe os custos associados sao relativamente pequenos, ja que, normalmente, sao utilizados dados preexistentes.Sao particularmente adequados ao estudo de doencas raras, porque o pesquisador comeca com um grupo depessoas que comprovadamente tem a doenca.

Sua grande limitacao e a suscetibilidade aos vıcios de informacao e de selecao. Outra e que obtemosapenas informacao sobre associacao entre fatores e doenca e nao sobre causas da doenca. O resultado detais estudos deve ser considerado um elo a mais em uma cadeia de evidencias que levara ao veredito decausalidade.

Descreveremos abaixo alguns tipos de tendenciosidade aos quais os estudos caso-controle estao sujeitos. Oleitor deve, antes de se envolver no planejamento de um tal estudo, conhecer mais profundamente a literaturamedica da area. Esta experiencia e fundamental pois lhe dara conhecimento das formas especıficas pelasquais estas tendenciosidades aparecem.

Embora nao existindo associacao entre o fator e a doenca em questao, existem varias maneiras pelas quaisuma associacao pode aparecer em um estudo caso-controle. Uma delas e chamada Vıcio da Selecao. Ocorrequando os casos ou os controles sao incluidos no estudo por causa de alguma caracterıstica que possuam eque esta relacionada com o fator de risco sendo considerado. Chamamos de Vıcio de Informacao aqueleintroduzido pelos pesquisadores que, ja desconfiando da associacao a ser constatada, sao mais cuidadosos aolevantar a historia clınica dos casos que dos controles. Dizemos que houve Vıcio de Confundimento se aassociacao observada e produto nao do fator considerado mas de outros fatores nao controlados no estudo.

O grupo controle e usualmente constituıdo de pacientes de hospitais, onde estao sendo tratados os pa-cientes do grupo de casos. Deve-se escolher para o grupo controle pacientes de uma grande variedade de

Page 15: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 12

doencas. Isto protege os resultados de uma forma de vıcio da selecao; o estudo nao detecta uma associacaoporque a doenca dos pacientes-controle e a doenca sendo estudada estao ambas associadas com o fator derisco. Quando existe facilidade na coleta de dados o numero de pacientes do grupo controle pode ser ate 4vezes maior que o numero de pacientes do grupo de casos. O metodo de selecao dos indivıduos do grupocontrole e quase que inteiramente dependente das circunstancias especıficas do estudo. Aqui tambem e fun-damental o conhecimento da literatura medica da area, ja que e usual apresentar-se uma descricao detalhadados controles utilizados.

Exemplo 2.5. Fatores de risco em cancer de mama.

Gomes (1992), em tese de doutorado na Faculdade de Medicina da UFMG, realizou estudo caso-controlecom o objetivo de avaliar a influencia de fatores de risco no cancer de mama, utilizando dados de nosso meio.Como “casos” foram escolhidas pacientes portadoras de cancer de mama registradas no Hospital das Clınicasda UFMG, que satisfizeram os seguintes criterios de inclusao: idade na epoca do diagnostico entre 25 e 75anos, diagnostico feito entre 1978-1987 e confirmado por exame anatomo-patologico, tumor originario dotecido epitelial e ter sido submetida a algum tipo de cirurgia na mama.

Como “controles” foram escolhidas pacientes com idade igual a do “caso” (mais ou menos dois anos),data de admissao ao hospital igual a data de confirmacao do diagnostico do caso (mais ou menos seismeses) e exame clınico da mama sem indicacao de patologias mamarias. De acordo com esses criterios,foram selecionados, atraves de emparelhamento, dois controles para cada caso. O primeiro foi selecionadono ambulatorio de ginecologia e o segundo no registro geral do hospital. A analise estatıstica, entre variasoutras conclusoes, mostrou que a presenca na paciente de historia familiar (retrospectivamente) de cancerde mama aumenta o risco desta patologia em 8,84 vezes.

AMOSTRA DECASOS

DOENTES(GRUPOS

DECASOS)

NÃO-DOENTES(GRUPO

DE CONTROLES)

EXPOSTOS

NÃO-EXPOSTOS

EXPOSTOS

NÃO-EXPOSTOS

a

b

c

d

FORMAÇÃO DOS GRUPOSPOR OBSERVAÇÃO

DA EXPOSIÇÃO

ANÁLISEDE

DADOS

a, b, c, d : os quatro possíveis resultados(note o caráter retrospectivo)

POPULAÇÃODE CASOS

E DECONTROLES

MENSURAÇÃODA EXPOSIÇÃO

AMOSTRA DECONTROLES

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

�������������������

Figura 2.3: Esquema de Estudo Caso-Controle.

Page 16: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 13

Vantagens do Estudo de Caso-Controle

• Baixo custo relativo;

• Alto potencial analıtico;

• Adequado para estudar doencas raras.

Desvantagens do Estudo de Caso-Controle

• Incapaz de estimar risco (reduzido poder descritivo);

• Vulneravel a inumeros biases (selecao, etc.)

• Complexidade analıtica.

2.4.2 Estudo de Coorte

Em contraste com um estudo retrospectivo, um estudo prospectivo avanca no tempo e coloca enfase nofator de risco. O Estudo de Coorte e uma forma de pesquisa que visa verificar se indivıduos, selecionadosporque foram expostos ao fator de risco, desenvolvem a doenca em questao, em maior ou menor proporcaodo que um grupo de indivıduos, comparaveis, mas nao expostos ao fator de risco.

Identificam-se um grupo exposto ao fator e o grupo controle, constituıdo de pessoas que nao foramexpostas a ele. Os dois grupos sao acompanhados por um perıodo de tempo e as taxas de incidencia dadoenca calculadas. Se essas taxas sao significativamente diferentes nos dois grupos, o pesquisador concluique ha associacao significativa entre a doenca e o fator.

Os epidemiologistas preferem o termo “Estudo Tipo Coorte” para este tipo de estudo, entretanto “EstudoProspectivo” e a nomenclatura mais utilizada.

Os Estudos de Coorte possuem varias vantagens. O pesquisador tem a possibilidade de usar criteriosuniformes, tanto na identificacao da presenca ou nao do fator de risco ao inıcio do estudo, quanto naverificacao da ocorrencia da doenca nos varios exames de acompamento. Nos dois grupos a comparabilidadepode ser verificada no inıcio do estudo e identificadas as variaveis para as quais sao necessarios ajustamentosna analise dos dados.

Em um estudo prospectivo, o pesquisador tem muito mais liberdade sobre o que medir e como medir, jaque nao se restringira ao uso de dados ja coletados. Uma outra vantagem, que so podera ser completamenteapreciada ao se estudar a metodologia de analise de dados, e que os estudos de coorte nos permitem obterdiretamente uma estimativa da magnitude do risco relativo. Isto significa que e possıvel quantificar o riscode desenvolver a doenca comparando-se o grupo de expostos ao fator de risco com o grupo de nao expostos.

Estudos de Coorte sao grandes, longos e normalmente caros. Quanto mais rara a doenca em questao,maior o numero de pacientes que precisam ser examinados, portanto nao indicado para doencas raras.Embora, do ponto de vista teorico, os Estudos de Coorte sejam melhores que os Estudos Caso-Controle,estes ultimos sao mais comuns.

Page 17: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 14

Selecao das Coortes

Grupos de pessoas sao selecionadas para o Estudo de Coorte por uma variedade de razoes. Apresentamosa seguir dois exemplos:

Exemplo 2.6. Fumo e cancer de pulmao.

O classico estudo de Doll & Hill (1964) sobre associacao entre cancer no pulmao e fumo ilustra a escolhada coorte pelo fato de o grupo possuir caracterısticas que facilitam a obtencao dos dados sobre a exposicaoao fator e o seguimento dos pacientes. Foram acompanhados medicos da Inglaterra desde o fim dos anos20, um grupo facil de contactar e no qual todas as mortes sao rotineiramente bem documentadas. Estaspesquisas iniciaram-se devido ao grande aumento da mortalidade causada por este cancer.

No primeiro estudo, publicado em 1950, compararam-se dois grupos de pacientes. O primeiro, constituıdode todos os casos de cancer de pulmao de um conjunto de hospitais londrinos. Assistentes sociais, especial-mente treinadas para o estudo, entrevistaram todos os pacientes internados com diagnostico de cancer depulmao, levantando sua historia clınica e seus habitos tabagistas. O segundo grupo, chamado de controle,foi constituıdo por pacientes dos mesmos hospitais, sem diagnostico de cancer, na mesma faixa etaria, domesmo sexo e da mesma regiao de residencia que os casos anteriores. A Tabela 2.1 mostra os resultadosobtidos. A associacao e clara e forte.

Tabela 2.1: Numero de fumantes e nao fumantes entre pacientes do sexo masculino com diagnostico decancer pulmonar e controles.

Grupo Fumantes Nao-Fumantes TotalCancer pulmonar 647 2 650Controle 622 27 649Total 1269 29 1299

A forma de organizacao deste estudo e chamada de Estudo Caso-Controle. A epoca, esta metodologiaera muito criticada, pois, com facilidade, podia produzir associacoes espurias. Por isso, a evidencia, emboraclara e forte, nao foi convincente o suficiente.

Assim, os mesmos autores iniciaram um segundo estudo, cuja caracterıstica basica e o fato de que oacompanhamento dos pacientes foi prospectivo. Este tipo de planejamento e chamado de Estudo de Coorte.

Em outubro de 1951, os pesquisadores enviaram um questionario simples a todos os medicos da Inglaterra,aproximadamente 60.000 indivıduos. O questionario perguntava se o respondente ja havia fumado ou nao.Em caso afirmativo, pedia informacoes sobre o que e quanto. Mais de dois tercos dos medicos responderamcom detalhe suficiente para que seus dados pudessem ser incluıdos no estudo.

As respostas possibilitaram aos pesquisadores classificar cada respondente como fumante ou nao fumante.A definicao de nao-fumante usada foi: um nao fumante e uma pessoa que fumou ate no maximo um cigarrodiario, em media, por um perıodo inferior a um ano.

Atraves de complexo sistema de acompanhamento, observaram-se nos primeiros 10 anos, 136 mortesassociadas ao cancer pulmonar entre os medicos incluıdos no estudo. Destas, apenas 3 eram de nao-fumantes.Para equalizar os perıodos de acompanhamento nos varios grupos, trabalhou-se com a taxa de incidenciapor 1.000 pessoas-ano de exposicao. Os valores desta taxa estao na Tabela 2.2. O risco de morte por cancerpulmonar das pessoas que fumam mais de 25 cigarros diarios e quase 32 vezes maior do que o mesmo riscopara quem nao fuma.

Tabela 2.2: Taxa de mortalidade por 1.000 pessoas-ano devida a cancer pulmonar (numero de mortes entreparenteses) para nao fumantes e fumantes.

Nao-Fumantes Cigarros diarios (Fumantes)

0,07(3) 1-14 5-24 25+0,57(22) 1,39(54) 2,27(57)

Estes dois planejamentos, estudo Caso-Controle e Estudo de Coorte, sao as formas usuais de organizacaoda pesquisa etiologica. Muitos outros estudos como os descritos anteriormente foram feitos em populacoesvariadas para se verificar o possıvel papel do fumo. Em todos, a evidencia foi clara. Hoje, o papel de agente

Page 18: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 15

causador do cancer de pulmao e amplamente reconhecido e justifica a militancia cada vez mais organizadacontra o fumo.

Em muitos Estudos de Coorte os grupos de comparacao sao obtidos apos o inıcio do estudo, de acordocom o nıvel de exposicao ao fator. As coortes do estudo de Framingham sobre doencas coranarias (Kannelet al., 1972), foram construıdas dividindo-se o grupo acompanhado de acordo com habitos de fumo, nıveisde colesterol, etc. Nestes casos nao ha necessidade de um grupo externo de comparacao.

Exemplo 2.7. Personalidade e desenvolvimento de doenca coronariana.

Um Estudo de Coorte com o objetivo de avaliar o possıvel efeito da personalidade no risco de desenvolvi-mento de doenca coronariana foi conduzido entre 3.154 trabalhadores do sexo masculino com idade de 30 a59 anos (Brand et al., 1976). Os indivıduos entraram no estudo entre 1960-61 e foram acompanhados porum perıodo medio de 8 anos e meio. Atraves de entrevista no inıcio do estudo, foram classificados em doistipos de personalidade, A e B, sendo os primeiros mais agressivos, competitivos e ansiosos.

Os resultados da Tabela 2.3 indicam que nas duas faixas etarias consideradas os percentuais de indivıduosdo tipo A que desenvolveram doenca coronariana sao aproximadamente o dobro dos encontrados no outrogrupo.

Em outras situacoes, particularmente quando um grupo submetido a uma exposicao pouco comum eestudado, e importante comparar o resultado observado com aquele esperado, caso os indivıduos nao tivessemsido submetidos ao fator de risco. Usa-se a experiencia da populacao em geral, ao tempo em que a coorte eformada, como padrao de comparacao.

Tabela 2.3: Percentual de indivıduos que desenvolveram doenca coronariana segundo faixa etaria e tipo depersonalidade.

Faixa etaria PersonalidadeA B

39-49 8,9 4,250-59 15,9 7,6

Finalmente, usa-se tambem como base de comparacoes outra coorte formada por pessoas nao expostas,parecidas nas caracterısticas demograficas com o grupo exposto. Por exemplo, considerando uma coortede radiologistas, Seltser e Sartwell (1965) usaram como padrao de comparacao dados de oftalmologistas eotorrinolaringologistas.

AMOSTRA PARAESTUDO

�����������������������������

�����������������������������

�����������������������������

�����������������������������

�����������������������������

�����������������������������

�����������������������������

EXPOSTOS

NÃO-EXPOSTOS

ougrupo-experimental

ougrupo-controle

DOENTES

NÃO-DOENTES

DOENTES

NÃO-DOENTES

a

b

c

d

FORMAÇÃO DOS GRUPOSPOR OBSERVAÇÃO

DA EXPOSIÇÃO

ANÁLISEDE

DADOS

a, b, c, d : os quatro possíveis resultados

POPULAÇÃO

MEDIÇÃODOS EFEITOS

Figura 2.4: Esquema de Estudo Coorte.

Page 19: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 16

Vantagens do Estudo de Coorte

• Produz medidas diretas de risco;

• Alto poder analıtico;

• Facilidade de analise.

Desvantagens do Estudo de Coorte

• Estudos de Coorte sao grandes, longos e normalmente caros. Quanto mais rara a doenca em questao,maior o numero de pacientes que precisam ser examinados. Portanto este estudo e inadequado paradoencas de baixa frequencia;

• Vulneravel a perdas (biases).

2.4.3 Ensaios Clınicos Aleatorizados

O Ensaio Clınico Aleatorizado e um experimento medico, realizado com o objetivo de verificar, entre doisou mais tratamentos, qual e o mais efetivo.

Sao usados quando e incerto o valor de uma nova terapia ou os meritos da terapia existente estao emdisputa. E a metodologia apropriada para a comparacao de tratamentos.

Apos um criterio de admissao ter sido definido, os pacientes sao, a medida que entram no experimento,alocados de maneira aleatoria ao grupo controle, que recebe a terapeutica padrao, ou ao grupo tratamento,que recebe a terapeutica sendo testada. Todo esforco deve ser feito para oferecer os mesmos cuidados aosdois grupos. Terminado o experimento, tecnicas estatısticas sao usadas para se decidir se ha ou nao diferencana eficacia das terapias envolvidas.

Esta e uma forma experimental de pesquisa, isto e, o pesquisador interfere deliberadamente no cursonatural dos acontecimentos, em contraposicao aos estudos observacionais, em que o pesquisador se restringea coleta de dados, sem alterar a dinamica do processo em consideracao. Por isto esta sujeita a costrangimentoseticos, disciplinados pela convencao de Helsinque.

O conhecimento pelo paciente ou pelo medico do tratamento a ser administrado pode influir na evolucaoda doenca, nao atraves de fatores estrınsecos, mas diretamente pelo processo de auto-sugestao. E o efeitoplacebo, que traz vıcios ao estudo clınico.

A unica maneira de eliminar o efeito placebo nos grupos comparados e realizar, sempre que possıvel,experimentos cegos, nos quais o paciente ou o medico nao conhece o tratamento, ou duplo-cego, no qualambas as parte desconhecem o tratamento. Este ideal, entretanto, nem sempre e factıvel.

Exemplo 2.8. Tamoxifeno e cancer de mama.

Muitos avancos no tratamento do cancer de mama tem sido estabelecidos atraves de estudos realizadospelo National Surgical Adjuvant Breast and Bowel Project (NSABP). Em 1985, discutia-se a necessidade dese submeter a quimioterapia ou hormonioterapia, pacientes de bom prognostico, logo apos a cirurgia. Emparticular, havia evidencias de varias origens de que o tamoxifeno poderia melhorar ainda mais o prognosticodessas pacientes. Naquela epoca, o tamoxifeno ja era usado largamente no tratamento de pacientes comcancer de mama. Diante disto, o NSABP iniciou o protocolo B-14 para determinar a eficacia do tamoxifenoem pacientes consideradas de bom prognostico, isto e, aquelas com tumores com receptor de estrogenopositivo (>10 fmol), idade inferior a 70 anos, com cancer de mama operavel e linfonodos axilares negativosao exame histologico. Foram criados dois grupos de pacientes atraves de aleatorizacao feita dentro de estratosdefinidos por idade e tamanho do tumor na analise clınica, tipo de cirurgia e concentracao de receptor deestrogeno. Um grupo recebeu tamoxifeno (10 mg por dia, via oral, duas vezes ao dia) e o outro, placebo,indistinguıvel do tamoxifeno na aparencia e gosto. Alem disto, o ensaio foi organizado na forma duplo-cego.

Apos acompanhamento das pacientes por um perıodo de ate 4 anos, constatou-se uma diferenca signi-ficativa em termos de tempo livre de doenca em favor das pacientes que receberam o tamoxifeno. No grupotratamento, 83% estavam livres da doenca aos quatro anos apos a cirurgia, enquanto que no grupo placeboesta porcentagem era de 73%. Este estudo, publicado por Fisher et al. (1989), contribuiu decisivamente paraa adocao do tamoxifeno como quimioterapia adjuvante logo apos a cirurgia em pacientes de bom prognostico.

Page 20: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 17

AMOSTRA PARAESTUDO

�������������������������������

�������������������������������

�������������������������������

�������������������������������

�������������������������������

�������������������������������

EXPOSTOSÀ INTERVENÇÃO

NÃO-EXPOSTOSÀ INTERVENÇÃO

ougrupo-experimental

ougrupo-controle

EFEITO: PRESENTE

EFEITO: AUSENTE

EFEITO: PRESENTE

EFEITO: AUSENTE

a

b

c

d

FORMAÇÃO DOS GRUPOSPOR ALEATORIZAÇÃO E

APLICAÇÃO DOS TRATAMENTOS

ANÁLISEDE

DADOS

a, b, c, d : os quatro possíveis resultados

POPULAÇÃO

MEDIÇÃODOS EFEITOS

Figura 2.5: Esquema de um Ensaio Clınico Aleatorizado.

2.4.4 Estudos Descritivos

As investigacoes de cunho descritivo, tem o objetivo de informar sobre a distribuicao de um evento, napopulacao, em termos quantitativos.

Elas podem ser de incidencia ou de prevalencia. Nelas, nao ha formacao de grupo-controle para acomparacao dos resultados, ao menos na forma como e feita nos estudos analıticos - daı serem consideradosestudos nao-controlados.

Exemplos de temas de estudos descritivos

• A incidencia de infeccao chagasica em habitantes rurais;

• A prevalencia da hepatite B entre os voluntarios a doacao de sangue;

• As caracterısticas demograficas e socioeconomicas dos pacientes que sofrem de artrite reumatoide oudas pessoas que fumam;

• As principais causas de obito da populacao residente em um dado municıpio;

• O estado imunitario de pre-escolares, de um municıpio, frente a poliomielite;

• Os padroes de crescimento e desenvolvimento de criancas normais ou daquelas acometidas por umadeterminada doenca;

• A variacao regional na utilizacao de servicos de saude.

• A tendencia do coeficiente de mortalidade por tuberculose, de uma cidade, nos ultimos anos.

Estudo de Caso

Trata-se de observar um ou poucos indivıduos com uma mesma doenca ou evento e, a partir de descricaodos respectivos casos, tracar um perfil das suas principais caracterısticas.

Muitas revistas cientıficas apresentam uma secao de ”relato” ou ”apresentacao de casos”, para difundiros resultados destes estudos.

O estudo de casos e empregado para enfocar grupos especıficos da populacao ou um particular aspectode interesse, nao devidamente investigados em pesquisas quantitativas ou que simplesmente necessitem desuplementacao de informacoes, com maior riqueza de detalhes.

Vantagens do Estudo de Casos

• Em geral, o estudo de caso e relativamente facil de ser realizado e de baixo custo.

Page 21: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 18

• O relato pode restringir-se a uma simples descricao ou ir mais alem, de modo a sugerir explicacoessobre elementos pouco conhecidos, tais como os fatores implicados na etiologia ou no curso de umadoenca, sob vigencia ou nao de terapeutica.

• Em clınica, e possıvel acompanhar pacientes durante anos, e mesmo decadas, chegando-se a um quadrorepleto de detalhes sobre aspectos evolutivos de uma dada condicao.

• O estudo de casos constitui-se em um verdadeiro inventario do que acontece genericamente, a luz daobservacao de poucos indivıduos.

• E um enfoque qualitativo e exploratorio, embora muitas facetas possam ser quantificadas. Um aspectopositivo, convem realcar, e a possibilidade de observacao intensiva de cada caso.

Desvantagens do Estudo de Casos

• Os indivıduos observados costumam ser altamente selecionados. As vezes, a observacao restringe-se asituacoes incomuns de enfermos graves, outras vezes, aos casos de evolucao atıpica, de reacao inusitadaou de resultado terapeutico inesperado; muito raramente, abrange pacientes em todas as faces demanifestacao da doenca.

• A falta de indivıduos-controle, para comparar resultados, pode fazer com que simples coincidenciassejam difıceis de interpretar: por exemplo, em investigacao de um surto de diarreia, se os casos beberamagua de um certo poco a evidencia e ainda fragil para incriminar a agua do poco na etiologia da doenca.Seria conveniente saber se os sadios tambem beberam ou nao agua do mesmo poco.

Em sıntese, apesar das vantagens referentes a facilidade de realizacao e baixo custo, duas limitacoesprincipais estao presentes no estudo de casos:

• a falta de controle - eles serviriam para contornar problemas de afericao e comparacao acima men-cionados;

• o numero pequeno de indivıduos incluıdos para observacao - o que aponta para a prudencia na in-terpretacao dos resultados de estudos de casos, especialmente, na generalizacao, como ele tem sidoatualmente empregado na area clınica, e util para levantar problemas, muitos dos quais sao comple-mentarmente investigados com o auxılio de outros metodos.

2.4.5 Seccionais ou Transversais

Investigacoes que produzem ”instantaneos” da situacao de saude de uma populacao ou comunidade,com base na avaliacao individual do estado de saude de cada um dos membros do grupo, e daı produzindoindicadores globais de saude para o grupo investigado, sao chamadas de estudos seccionais ou de corte-transversal-seccional.

O Estudo Seccional tambem e conhecido como Estudo Transversal ou da Prevalencia.

Vantagens do Estudo Seccional

• Simplicidade e baixo custo;

• Rapidez;

• Nao ha necessidade de seguimento das pessoas;

• Alto potencial descritivo (subsıdio ao planejamento);

• Boa opcao para descrever as caracterısticas dos eventos na populacao, para identificar casos na comu-nidade e para detectar grupos de alto risco, aos quais pode ser oferecida atencao especial.

Desvantagens do Estudo Seccional

• Vulnerabilidade a biases ou vıcios (especialmente de selecao);

Page 22: Apostila bioestatistica

2.4 Aspectos Estatısticos dos Estudos Etiologicos ROSSI, Robson M. 19

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

AMOSTRA PARAESTUDO

POPULAÇÃO

FORMAÇÃO DOS GRUPOS POROBSERVAÇÃO SIMULTÂNEA DE

EXPOSIÇÃO E DOENÇA

EXPOSTOSE

DOENTES

EXPOSTOSE

NÃO-DOENTES

NÃO-EXPOSTOSE

DOENTES

NÃO-EXPOSTOSE

NÃO-DOENTES

ANÁLISE DOS DADOS

a b c d

Figura 2.6: Esquema de um Estudo Seccional.

• Baixo poder analıtico (inadequado para testar hipoteses causais);

• Condicoes de baixa prevalencia exigem amostra de grande

tamanho, logo tem dificuldades operacionais;

• Nao determina risco absoluto (ou seja, a incidencia);

• A associacao entre exposicao e doenca, se detectada, refere-se a epoca de realizacao do estudo e podenao ser a mesma da epoca de aparecimento da doenca.

Exercıcio 2.1. Indique qual forma de pesquisa foi utilizada nos seguintes problemas:

1. (a) ”Viagra para os diabeticos” (Revista isto e, no 1535 de 03/03/1999) - A famosa pılula azul podetambem ser eficaz para diabeticos que tem a funcao eretil comprometida. Estudos preliminareshaviam descartados a eficiencia do Viagra nesses casos. Mas uma pesquisa realizada com 268homens pela Universidade de Creighton, nos Estados Unidos, mostrou que 56 % dos pacientesque tomaram Viagra tiveram melhoras contra 10 % dos que ingeriram placebo.

(b) Um estudo foi conduzido em um grupo de gemeos monozigotos e dizigotos do mesmo sexo, sendoque um gemeo do par tinha cancer no colon e o outro nao. Todos foram de universidades dosudoeste dos Estados Unidos durante um perıodo de 5 anos. Informacoes sobre o teor de fibrasda dieta foram coletadas para cada um dos indivıduos afim de estimar seu efeito na ocorrencia docancer no colon.

(c) Durante o ano de 1982, identificou-se cada crianca nascida na cidade de Pelotas e procedeu-sea revisao dos registros de nascimento com o objetivo de conhecer, entre outras variaveis, o pesoao nascimento. As criancas eram classificadas em dois grupos (peso normal 2.300g e baixo peso<2.300g) sendo seguidas por um ano. Ao final deste perıodo comparou-se a mortalidade infantilnos dois grupos.

(d) Com o objetivo de avaliar uma possıvel associacao entre uso de reserpina e cancer de mama, formaidentificadas 100 pacientes internadas por cancer de mama (casos novos) em um hospital geraldurante um perıodo de dois anos. Estas pacientes foram entrevistadas sendo colhida a informacaoquanto ao uso previo de reserpina. Para cada caso eram entrevistados quatro controles, seleciona-dos aleatoriamente dentro do grupo de mulheres internadas por outros diagnosticos durante omesmo perıodo do caso.

(e) 300 pacientes portadores de diabetes mellitus foram alocados aleatoriamente em dois grupos, cadaum com 150. O primeiro grupo recebeu uma droga hipoglicemiante nova, enquanto os demaispermaneceram em uso de clorpropamida. Os pacientes foram acompanhados por seis meses e ograu de controle metabolico dos pacientes nos dois grupos foi comparado atraves das determinacoesde glicemia capilar (diarias) e da hemoglobina glicosilada (aferida a cada dois meses).

Page 23: Apostila bioestatistica

Capıtulo 3

Estatıstica Descritiva

3.1 Organizacao de Dados Estatısticos

3.1.1 Normas para a Apresentacao Tabular de Dados

A representacao tabular e uma apresentacao numerica dos dados. Consiste em dispor os dados em linhase colunas, distribuıdas de modo ordenado, segundo algumas regras praticas adotadas pelos diversos sistemasestatısticos. As regras que prevalecem no Brasil foram fixadas pelo Conselho Nacional de Estatıstica.

Uma tabela estatıstica compoe-se de elementos essenciais e elementos complementares.

1. Elementos essenciais

a. Tıtulo:E a indicacao da natureza do fato estatıstico observado, fazendo referencia ao local e ao tempoem que foi observado.

b. Cabecalho:Sao as indicacoes que especificam o conteudo das colunas.

c. Coluna indicadora:Sao as indicacoes que especificam o conteudo das linhas.

2. Elementos complementares

a. FonteE a entidade responsavel pelos dados contidos na tabela.

b. NotaSao informacoes que esclarecem criterios usados na confeccao da tabela.

c. ChamadaE a informacao de natureza especıfica, que serve para complementar determinado dado usado naconfeccao da tabela.

20

Page 24: Apostila bioestatistica

3.2 Distribuicao de Frequencias ROSSI, Robson M. 21

Tabela 3.1: Populacao brasileira por faixa etaria.Idades (Anos) 1980 (%) 1991 (%)

0 a 9 27.9 23.610 a 19 20.6 18.320 a 59 45.0 50.9≥ 60 6.5 7.2

Fonte: IBGE

3.2 Distribuicao de Frequencias

Geralmente apos a coleta de dados, estes sao apresentados de forma desorganizada e de difıcil manip-ulacao, logo faz-se necessario organiza-los. Para organizar os dados provenientes de uma variavel qualitativa,e usual fazer uma Tabela de frequencias.

Tabela 3.2: Total de alunos matriculados na UEM em 2002.Sexo Frequencia

Feminino 7545Masculino 5905

Total 13450Fonte: UEM/2002.

Quando a variavel em estudo e do tipo contınua e assume muitos valores distintos, o agrupamento dosdados em classes sera sempre necessario na construcao das tabelas de frequencias.

Em publicacoes mais antigas sobre construcao de tabelas de frequencias, ha formulas para determinacaodo numero de classes de acordo com o numero de dados. Essas formulas eram uteis, pois a construcaodos graficos era muito custosa sem o auxılio do computador. Esse procedimento e aconselhavel como umaprimeira visualizacao da distribuicao de frequencias de uma variavel. A seguir e apresentado um roteiro paraconstrucao de distribuicoes de frequencia.

Exemplo 3.1. Considere uma amostra de 25 crianca, das quais foram obtidas medidas de intoxicacaoalimentar por uma substancia desconhecida (g).

Dados brutos0,77 0,75 0,80 0,78 0,75 0,65 1,05 1,10 0,75 0,750,85 0,61 0,78 0,58 0,52 0,78 1,02 0,99 0,65 0,550,85 0,90 0,96 0,79 0,55

Fonte: Dados hipoteticos

Os dados, como apresentados acima, sao chamados brutos, pois nao foram ainda submetidos a nenhumtipo de tratamento. Inicialmente, os dados devem ser colocados em ordem crescente:

Dados em ordem crescente0,52 0,55 0,55 0,58 0,61 0,65 0,65 0,75 0,75 0,750,75 0,77 0,78 0,78 0,78 0,79 0,80 0,85 0,85 0,900,96 0,99 1,02 1,05 1,10

Fonte: Dados hipoteticos

Pode-se observar, agora, que das 25 observacoes o menor valor e xmın = 0, 55 e o maior e xmax = 1, 10.

Amplitude (AT): e a diferenca entre o maior e o menor valor do conjunto de dados observados.

AT = xmax − xmın

Page 25: Apostila bioestatistica

3.2 Distribuicao de Frequencias ROSSI, Robson M. 22

Para os dados acima: AT = 1, 10− 0, 52 = 0, 58Observe que esse exemplo contem um numero pequeno de observacoes (n = 25), quando ha um grande

numero de dados observados o processo de ordenacao e trabalhoso e a listagem final pouco representara.Nesses casos, pode-se simplificar o processo agrupando os dados em certo numero de classes, cujos limitesserao denominados limite inferior e limite superior. A quantidade de classes e a amplitude destas devemser obtidas observando as seguintes normas:

i) as classes devem cobrir a amplitude total;

ii) o extremo superior de uma classe e o extremo inferior da classe seguinte;

iii) cada valor observado deve enquadrar-se em apenas uma classe;

iv) o numero total de classes nao deve ser inferior a 5 e nem superior a 25;

O numero de classes (k), pode ser obtido de uma das formulas seguintes:

i) k =√

n ;

ii) k = 1 + 3, 22 log n , (formula de Sturges).

Para o exemplo 2.1: k =√

25 = 5 ou k = 1 + 3, 22log(25) ' 5, 50. Dividindo a amplitude total (AT ) pork = 5 chega-se ao tamanho ou amplitude de cada uma das classes:

h =AT

k=

0, 585

∼= 0, 12

Obs.: quando os valores observados sao numeros inteiros, os limites das classes tambem devem ser

numeros inteiros. Para isso, aconselha-se escolher o numero mais proximo de AT que resulte h =AT

kem

um numero inteiro.Agora, utilizando esse valor pode-se obter os limites inferiores e superiores das classes:

i) o limite inferior da primeira classe pode ser o menor valor da serie, neste caso : 0,52.

ii) os demais limites serao obtidos somando aos limites inferiores o valor de h. Isto e,

0, 52 ` (0, 52 + h = 0, 52 + 0, 12) = 0, 640, 64 ` (0, 64 + h) = 0, 760, 76 ` (0, 76 + h) = 0, 880, 88 ` (0, 88 + h) = 1, 001, 00 ` (1, 00 + h) = 1, 12.

Lembrando que a notacao (`) significa que se esta incluindo os valores iguais ao limite inferior e excluindoos valores iguais ou superiores ao limite superior. A partir da listagem ordenada das classes, pode-se construiros chamados quadros (ou tabelas) de frequencia ou distribuicoes de frequencia, que permitem uma melhorvisualizacao dos dados.

Frequencia: e o numero de valores que aparecem no domınio de uma classe.

Um quadro de frequencias completo deve conter as seguintes informacoes:

i) xi e o ponto medio da i-esima classe; representa a media dos pontos limites da classe;

xi =li + Li

2; li : limite inferior e Li : limite superior da classe i.

ii) n e o tamanho da amostra;

iv) Fi e a frequencia absoluta da i-esima classe;

Page 26: Apostila bioestatistica

3.3 Graficos ROSSI, Robson M. 23

v) fi e a frequencia relativa da i-esima classe, fi =Fi

n;

vi) Facie a frequencia acumulada da i-esima classe;

vii) facie a frequencia relativa acumulada da i-esima classe, faci

=Faci

n.

Assim, no caso da amostra de 25 crianca intoxicadas, a distribuicao de frequencia pode ser da seguinteforma:

Tabela 3.3: Distribuicao do nıvel de intoxicacao.Classes xi Fi fi Fac fac

0,52 ` 0,64 0,58 5 0,20 5 0,200,64 ` 0,76 0,70 6 0,24 11 0,440,76 ` 0,88 0,82 8 0,32 19 0,760,88 ` 1,00 0,94 3 0,12 22 0,881,00 ` 1,12 1,06 3 0,12 25 1,00

Total - 25 1 - -Fonte: Dados hipoteticos

Outras informacoes:Nenhuma cela ( casa ) deve ficar em branco .Hıfen ( - ) , indica que o valor numerico e nulo.Reticencia ( ... ) , indica que nao se dispoe do dado.Interrogacao ( ? ) , indica duvida quanto a exatidao do valor numerico.Zeros ( 0 ; 0,0 ; 0,00 ), indica valor muito pequeno em relacao a unidade utilizada.

3.3 Graficos

Os graficos sao representacoes pictoricas, de grande valia na compreensao e visualizacao dos dados.Os principais graficos utilizados na representacao estatıstica sao:

1. Diagramas;

(a) Por Pontos;

(b) Por Linhas;

i. Poligonais;ii. Curvas;

(c) Por Superfıcies;

i. em Colunas;ii. em Barras;iii. em Histogramas;iv. em Setores;

2. Cartogramas;

3. Estereogramas.

Page 27: Apostila bioestatistica

3.3 Graficos ROSSI, Robson M. 24

3.3.1 Diagramas

Sao representacoes graficas de series estatısticas por intermedio de linhas e superfıcies. As linhas utilizadassao as poligonais e as curvas, e as superfıcies sao retangulos, cırculos e quadrados. Para suas contrucoespode-se utilizar a proporcionalidade entre serie de numeros ou do sistema retilınio ortogonal. Este sistemaestabelece uma correspondencia biunıvoca entre os pares de numeros reais e os pontos de um plano. Assim,de modo geral, num sistema retilıneo ortogonal, um ponto P do plano esta determinado pelos numeros reaisX e Y, tomados sobre dois eixos divididos em segmentos unitarios.

Diagramas por Pontos (Diagramas de Dispersao):

E a representacao grafica dos dados de forma bruta e geral, o que pode fornecer uma ideia da variabilidadedos dados, pontos extremos tec.

0 2 4 6 8

02

46

810

x

y

Figura 3.1: Diagrama de Dispersao de Pontos.

Diagramas por Linha Poligonal:

E a representacao grafica de uma serie estatıstica por meio de uma linha poligonal. E um dos mais impor-tantes graficos; representa observacoes feitas ao longo do tempo, em intervalos iguais ou nao. Tais conjuntosde dados constituem as chamadas series historicas ou series temporais. Traduzem o comportamento de umfenomeno em certo intervalo de tempo.

3.5

4.0

4.5

5.0

5.5

6.0

x

y

Jan

Feb

Mar Apr

May Jun

Jul

Aug

Sep

Oct

Nov

Dec

Figura 3.2: Grafico para Series Temporais.

Page 28: Apostila bioestatistica

3.3 Graficos ROSSI, Robson M. 25

O polıgono de frequencia e um grafico que se obtem unindo por uma poligonal os pontos correspondentesas frequencias das diversas classes, centradas nos respectivos pontos medios. Para obter as intersecoes dopolıgono com o eixo, cria-se em cada extremo do histograma uma classe com frequencia nula.

Obs.: Suavizando a linha poligonal que define o polıgono obtem-se uma curva que visualiza a tendenciade variacao dos dados.

Amostra

Prob

abilid

ade

−4 −3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

Figura 3.3: Suavizacao do polıgono de frequencia.

Ogiva

A Ogiva ou Polıgono de Frequencia Acumulada, consiste de uma linha poligonal das Fac ou das fac.

Diagramas por Linha Curva:

E a representacao de uma serie estatıstica por meio de uma linha curva. Pode ser utilizada para repre-sentar uma tendencia do tipo linear.

−2 0 2 4 6

020

4060

80

x

y

Figura 3.4: Diagrama por Linha Curva.

Diagrama por Superfıcie em Colunas:

E a representacao de uma serie estatıstica por intermedio de retangulos em posicoes verticais. Este tipode grafico proporciona comparar grandezas.

Page 29: Apostila bioestatistica

3.3 Graficos ROSSI, Robson M. 26

Os valores da variavel dependente, dados pela serie estatıstica ou suas diferencas, devem ser proporcionaisas areas dos retangulos a serem tracados. Para tanto pode-se utilizar o sitema retilınio ortogonal marcando-se os pontos de forma ja indicada, e a partir do eixo dos x, construir retengulos de bases iguais e que tenhamrespectivamente, por meio de cada base, os valores da variavel independente e os pontos marcados.

0 1 2 3 4 5 6

05

1015

2025

Figura 3.5: Grafico em Barras Verticais.

3.3.2 Histograma

Diagrama por Superfıcie em Histogramas:

O Histograma e um conjunto de retangulos com bases sobre um eixo dividido de acordo com os tamanhosde classe, centrados nos pontos medios das classes e areas proporcionais as frequencias.

amostra

Freq

üênc

ia

−3 −2 −1 0 1 2

05

1015

20

Figura 3.6: Histograma.

Diagrama por Superfıcie em Setores (Pizza):

E a representacao grafica de uma serie estatıstica por intermedio de superfıcies setoriais.E utilizado quando se pretende comparar os valores de uma serie com a sua soma total. A representacao e

feita tomando como figura basica um cırculo que e dividido em setores. O quociente entre a soma dos valoresda serie e a area do cırculo deve ser o mesmo que entre cada valor da variavel dependente e a respectiva areado setor representativo. Porem em virtude da proporcionalidade das areas dos setores de um cırculo comseus angulos centrais, podem-se dividir os valores considerados na serie proporcionalmente a estes angulos.

Page 30: Apostila bioestatistica

3.4 Medidas Descritivas ROSSI, Robson M. 27

AB

C

D

Figura 3.7: Diagrama por Superfıcie em Setores (Pizza).

3.4 Medidas Descritivas

3.4.1 Medidas de Tendencia Central ou de Posicao

Sao medidas que objetivam representar o ponto central de equilıbrio de uma distribuicao de dados. Essasmedidas representam quantitativamente os dados, sendo as mais utilizadas em analise:

Media

Representa o ponto de equilıbrio de um conjunto de dados. Seja (x1, . . . , xn) um conjunto de dados. Amedia sera dada por:

µ =

N∑i=1

xi

N( dados populacionais ), para dados nao-agrupados em tabelas de frequencias.

x =

n∑i=1

xi

n( dados amostrais ), para dados nao-agrupados em tabelas de frequencias.

x =

k∑i=1

xiFi

n( dados amostrais ), quando os dados agrupados em tabelas de frequencias, com k classes.

Quando os dados sao agrupados em intervalos de classes, xi corresponde ao ponto medio do intervalo.

Exemplo 3.2. Considere do Exemplo anterior, o conjunto de dados da amostra retirada da variavel nıvelde intoxacao, dado no inıcio desta parte. A media sera dada por:

xA =

25∑i=1

xi

n=

19, 5325

= 0, 7812, para os dados brutos, ou

xB =

5∑i=1

xiFi

n=

19, 6625

= 0, 7864, para os dados agrupados (Tabela 3.3).

Observe que xA ' xB .

Page 31: Apostila bioestatistica

3.4 Medidas Descritivas ROSSI, Robson M. 28

Propriedades da Media:

1 - A soma algebrica dos desvios tomados em relacao a media e nula. Isto e,

∑ki=1 di =

∑ki=1(xi − x) = 0 , i = 1, 2, . . . , n

X = {2, 3, 7} → x = 4,

pela propriedade:∑k

i=1 di = (2− 4) + (3− 4) + (7− 4) = 0.

2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variavel, a media do conjuntofica aumentada ou diminuıda dessa constante.

yi = xi ± k ⇒ y = x± k

Para k = +2, tem-se: Y = {4, 5, 9} → y = 6,pela propriedade: y = x + 2 = 4 + 2 = 6.

3 - Multiplicando-se ou dividindo-se todos os valores de uma variavel por uma constante k, a media doconjunto fica multiplicada ou dividida por essa constante.

yi = k · xi ⇒ y = k · x e yi =xi

k⇒ y =

x

k; .k 6= 0.

Para k = +5, tem-se Y = {10, 15, 35} → y = 20,pela propriedade: y = 5.x = 5.4 = 20.

Vantagens e desvantagens da Media:

1 - E uma medida que, por uniformizar os dados, nao representa bem os conjuntos que revelam tendenciasextremas, uma vez que a mesma sera grandemente influenciada pelos valores discrepantes.

Suponha por exemplo, que durante um ano letivo, um aluno tenha as seguintes notas em uma disciplina:30, 35, 25, 30, 25 35, 35, 95, 90, 100.

Um calculo rapido nos mostra que sua media final foi x =50010

= 50. Como a media deve traduzir oaproveitamento do aluno durante o ano e a media 50 so foi conseguida a custa das tres ultimas notas,concluımos que 50 e um valor falho para medir o aproveitamento do aluno.

2 - A media nem sempre tem existencia real, isto e, ela nem sempre faz parte do conjunto de dados(x /∈ X).

3 - E a medida de posicao mais conhecida e de maior emprego.

4 - E facilmente calculada.

5 - Serve para compararmos conjuntos semelhantes.

6 - Depende de todos os valores do conjunto de dados.

7 - em geral nao ocupa a posicao central do conjunto (ocupa a posicao do centro de equilıbrio).

Moda

A Moda (Mo) e o valor que ocorre com maior frequencia em uma serie de dados. Existem series de dadosem que nenhum valor aparece mais vezes que outros. Neste caso nao apresenta moda. Sao series amodais.Em outros casos, pode aparecer dois ou mais valores de concentracao. Diz-se entao, que a serie tem duas oumais modas (bimodal, trimodal ou multimodal).

X : {2, 2, 2, 2, 5, 5, 5, 6, 6, 7, 8} → Mo = 2 (unimodal).

Page 32: Apostila bioestatistica

3.4 Medidas Descritivas ROSSI, Robson M. 29

Quando os dados se apresentam agrupados em tabelas de frequencias e necessario utilizar a expressao de“Czuber” (a mais precisa), dada a seguir, para calcular o valor que representa a moda: ( onde i e a ordemda classe de maior frequencia).

“Czuber”: Mo = li +h(Fi − Fi−1)

(Fi − Fi−1) + (Fi − Fi+1).

Outras modas:“Pearson”: Mo = 3.Md − 2.x

e

“King”: Mo = li +h.Fi+1

Fi−1 + Fi+1.

Exemplo 3.3. Calcular a moda de Czuber, para os dados agrupados da amostra dada na Tabela 3.3.

i = 3 (Classe de maior frequencia)h = 0, 12l3 = 0, 76Fi = F3 = 8Fi−1 = F2 = 6Fi+1 = F4 = 3

Mo = 0, 76 +0, 12(8− 6)

(8− 6) + (8− 3)' 0, 794

Isto significa que o nıvel de toxicidade mais frequente e de 0,794 g.

Mediana

A mediana (Md) de um conjunto de valores ordenados segundo uma ordem de grandeza, e o valor situadode tal forma no conjunto que o separa em dois subconjuntos de mesmo numero de elementos (e o valorque esta no meio !).

Quando o conjunto de observacoes tem um numero ımpar de valores, nao-agrupados em classes, entao

a mediana e dada pela expressao: Md = xp , onde p =n + 1

2.

x1 x2 x3 x4 x5

3 5 5 6 7 → Md = 5.

Quando o conjunto de observacoes tem um numero par de valores, nao-agrupados em classes, entao a

mediana sera, a media aritmetica dos dois numeros que ocuparem o meio da serie: Md =xp + xp+1

2, onde

p =n

2.

x1 x2 x3 x4 x5 x6

3 5 5 6 7 7 → Md =5 + 6

2= 5, 5.

Quando o conjunto de observacoes se apresenta agrupados em classes em uma tabela de frequencias,entao a mediana e dada pela expressao abaixo, onde onde i representa a classe mediana, isto e, a classe ondeestara presente o valor de p =

n

2.

Md = li +h(p− Fac−1)

Fi

Exemplo 3.4. Calcular a mediana para os dados agrupados da amostra da Tabela 3.3.

Page 33: Apostila bioestatistica

3.4 Medidas Descritivas ROSSI, Robson M. 30

n = 25i = 3

(p =

n

2= 12, 5 esta na terceira linha −→ olhar em Fac

)

h = 0, 12Fi = 8Fac−1 = 11 (frequencia acumulada da classe anterior)l3 = 0, 76

Md = 0, 76 +0, 12(12, 5− 11)

8' 0, 783

Isto significa que o 50% das criancas apresenta nıvel de toxicidade acima de 0,783 g.

3.4.2 Medida de Variabilidade ou de dispersao

Sao medidas estatısticas que indicam o grau de dispersao, ou variabilidade do conjunto de observacoespesquisados, em relacao a uma medida de tendencia central, por exemplo, x.

Uma unica medida nao e suficiente para descrever de modo satisfatorio um conjunto de observacoes. Porexemplo, dois conjuntos de dados podem ter a mesma media aritmetica e, no entanto, a dispersao de umpode ser muito maior que a dispersao do outro.

As principais medidas de dispersao sao: amplitude total (AT), variancia (σ2 ou s2), desvio-padrao (σou s) e coeficiente de variacao (CV).

Amplitude total

Amplitude total (AT): E a diferenca entre o maior e o menor valor observado

AT = xmax − xmın

Desvio absoluto medio

Desvio absoluto medio (Dm): E a media aritmetica dos valores absolutos dos desvios tomados emrelacao a uma das seguintes medidas de tendencia central: media ou mediana.

Desvio medio em relacao a media para dados nao tabulados:

Dm =

n∑i=1

|xi − x|n

Desvio medio em relacao a media para dados tabulados:

Dm =

n∑i=1

|xi − x|Fi

n

Variancia

Variancia [Var(X)]. E a medida que fornece o grau de dispersao, ou variabilidade dos valores doconjunto de observacoes em torno da media. Ela e calculada somando os quadrados dos desvios em relacaoa media:

Amostral Populacional

D. Brutos s2 =

n∑i=1

(xi − x)2

n− 1σ2 =

N∑i=1

(xi−µ)2

N

D. Agrupados s2 =

k∑i=1

(xi − x)2 Fi

n− 1ou s2 =

(1

n− 1

)

k∑i=1

x2i Fi −

(k∑

i=1

xiFi

)2

n

σ2 =

k∑i=1

(xi−µ)2Fi

N

Page 34: Apostila bioestatistica

3.4 Medidas Descritivas ROSSI, Robson M. 31

Desvio-padrao

Desvio-padrao [DP(X)]. Como a variancia calculada a partir do quadrados dos desvios, sua unidadee quadrada em relacao a variavel estudada, o que, sob o ponto de vista pratico e um inconveniente. Por issomesmo, imaginou-se uma nova medida que tem utilidade e interpretacao pratica, denominada desvio padrao,definida como a raiz quadrada da variancia e representada por:

Amostral Populacionals =

√s2 σ =

√σ2

Propriedades da Variancia e do Desvio-Padrao

1 - V ar(X) ≥ 0 =⇒ DP (X) ≥ 0.

2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variavel, a variancia e odesvio-padrao do novo conjunto permanecem inalterados:

Y = X ± k ⇒ V ar(Y ) = V ar(X) + 0

Y = X ± k ⇒ DP (Y ) = DP (X) + 0

X: Variavel Aleatoria e k: constante real.

3 - Multiplicando-se ou dividindo-se todos os valores de uma variavel por uma constante, k, a variancia eo desvio-padrao do novo conjunto sao alterados da seguinte forma:

Y = k ·X ⇒ V ar(Y ) = k2 · V ar(X)

Y = k ·X ⇒ DP (Y ) = |k| ·DP (X)

e para k 6= 0,

Y =X

k⇒ V ar(Y ) =

V ar(X)k2

Y =X

k⇒ DP (Y ) =

DP (X)|k|

4 - Sejam X e W variaveis aleatorias independentes, a e b constantes reais, tal que Y = aX ± bW, tem-se:

Y = aX ± bW ⇒ V ar(Y ) = V ar(aX ± bW ) = a2V ar(X) + b2V ar(W ).

Variancia Relativa

A variancia relativa de uma serie X e indicada por VR(X) e definida por:

V R(X) =s2

(x)2(amostral)

Note que o coeficiente de variacao, como e uma divisao de elementos de mesma unidade, e um numero puro.Portanto, pode ser expresso em percentual.

Coeficiente de variacao

Coeficiente de variacao (CV). E uma medida relativa da dispersao ou variabilidade dos dados:

CV(x) =s

x(amostral) ou CV(x) =

σ

µ(populacional).

Criterios para interpretacao: Quanto menor for o coeficiente de variacao (CV ≤ 25%), mais representa-tiva dos dados sera a media.

Page 35: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 32

Exemplo 3.5. Calcular a variancia, o desvio-padrao e o coeficiente de variacao para o conjunto de dadosda amostra X: {2, 3, 5, 7}.

Sabemos que x = 4, 25 ' 4, 3, entao:

s2 =

n∑i=1

(xi − x)2

n− 1=

(2− 4, 3)2 + (3− 4, 3)2 + (5− 4, 3)2 + (7− 4, 3)2

3' 4, 92

s =√

4, 92 ' 2, 12, assim:

CV =2, 124, 25

' 0, 522 (sendo CV=52,2% > 25%, ha indicativo de que a media nao e representativa).

Exemplo 3.6. Calcular a variancia, o desvio-padrao e o coeficiente de variacao para o conjunto de dadosamostrais apresentados na tabela abaixo.

Tabela 3.4: Exemplo de Tabela de Frequencia.xi Fi

1 23 45 2

Total 8

sendo x =

3∑i=1

xiFi

n=

1.2 + 3.4 + 5.28

= 3, temos

s2 =

k∑i=1

(xi − x)2 Fi

n− 1=

(1− 3)2 .2 + (3− 3)2 .4 + (5− 3)2 .27

' 2, 29, ou

s2 =(

1n− 1

)

k∑i=1

x2i Fi −

(k∑

i=1

xiFi

)2

n

= s2

=(

18− 1

) [88− (24)2

8

]=

167' 2, 29

logo, s =√

2, 29 ' 1, 51, assim:

cv =1, 51

3' 0, 50 (ha indicativo de que a media nao e representativa).

3.5 Medidas Separatrizes

3.5.1 Quartis, Decis e Percentis

As medidas de posicao denominadas “Separatrizes” para valores agrupados sao calculadas atraves daexpressao:

Sk = li +h(p− Fac−1)

Fi

ondeSK : e a medida de posicao separatriz desejada (Md : Mediana, Qk : Quartil, Dk : Decil ou Pk :

Percentil de ordem k);k : e a ordem da medida;w : e o divisor;

Page 36: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 33

Sk k wMd 1 2Q 1, 2, 3 4D 1, 2, ...,9 10P 1, 2, ...,99 100

p : e a posicao da observacao, dado por:

p =n.k

w

Exemplo 3.7. Calcule o Q1, Q2, Q3, D7, P10 e P90 para os dados da Tabela 3.3.

Tabela 3.5: Distribuicao do nıvel de intoxicacao (g) em 25 criancas.Classes xi Fi fi Fac fac

0,52 ` 0,64 0,58 5 0,20 5 0,200,64 ` 0,76 0,70 6 0,24 11 0,440,76 ` 0,88 0,82 8 0,32 19 0,760,88 ` 1,00 0,94 3 0,12 22 0,881,00 ` 1,12 1,06 3 0,12 25 1,00

Total - 25 1 - -Fonte: Dados hipoteticos

Solucao:Calculo de Q1 : {k = 1; w = 4; }p =

25.14

= 6, 25 (i = 2 : olhar em Fac)h = 0, 12Fi = F2 = 6li = 0, 64Fac−1 = 5

Q1 = 0, 64 +0, 12(6, 25− 5)

6= 0, 64 + 0, 025 = 0, 665

Obs.: O valor Q1 = 0, 665 representa o nıvel de intoxicacao que deixa 25% dos demais valores abaixo dele.Calculo de Q2 : {k = 2; w = 4; }p =

25.24

= 12, 5 (i = 3)h = 0, 12Fi = 8li = 0, 76Fac−1 = 11

Q2 = 0, 76 +0, 12(12, 5− 11)

8' 0, 783 = Md

Obs.: O valor Q2 ' 0, 783 representa o o nıvel de intoxicacao que deixa 50% dos demais valores abaixo dele,isto e, e o valor mediano.

Calculo de Q3 : {k = 3; w = 4; }p =

25.34

= 18, 75 (i = 3)h = 0, 12Fi = 8li = 0, 76Fac−1 = 11

Q3 = 0, 76 +0, 12(18, 75− 11)

8' 0, 876

Page 37: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 34

Obs.: O valor Q3 ' 0, 876 representa o nıvel de intoxicacao que deixa 75% dos demais valores abaixo dele.Calculo de D7 : {k = 7; w = 10; }p =

25.710

= 17, 5 (i = 3)h = 0, 12Fi = 8li = 0, 76Fac−1 = 11

D7 = 0, 76 +0, 12(17, 5− 11)

8' 0, 858

Obs.: O valor D7 ' 0, 858 representa o o nıvel de intoxicacao que deixa 70% dos demais valores abaixo dele.Calculo de P10 : {k = 10; w = 100; }p =

25.10100

= 2, 5 (i = 1)h = 0, 12Fi = 5li = 0, 52Fac−1 = 0

P10 = 0, 52 +0, 12(2, 5− 0)

5= 0, 58

Obs.: O valor P10 = 0, 58 representa o o nıvel de intoxicacao que deixa 10% dos demais valores abaixo dele.Calculo de P90 : {k = 90; w = 100; }p =

25.90100

= 22, 5 (i = 1)h = 0, 12Fi = 3li = 1, 00Fac−1 = 22

P90 = 1 +0, 12(22, 5− 22)

3= 1, 02

Obs.: O valor P90 = 1, 02 representa o o nıvel de intoxicacao que deixa 90% dos demais valores abaixo deleou 10% acima dele.

3.5.2 Medidas de Simetria

Tem por objetivo basico medir o quanto a distribuicao de frequencias do conjunto de valores observadosse afasta da condicao de simetria.

(A) Distribuicao Assimetrica negativa. Quando a media e menor que a mediana que e menor que amoda.

(B) Distribuicao Simetrica. Quando a media, moda e mediana sao iguais, ou muito proximas.

(C) Distribuicao Assimetrica positiva. Quando a media e maior que a mediana que e maior que amoda.

Page 38: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 35

Grafico das distribuicoes quanto a assimetria

Figura 3.8: (A) Assimetrica Negativa (x < Md < Mo)

Figura 3.9: (B) Simetrica (x = Md = Mo)

Figura 3.10: (C) Assimetrica Positiva (Mo < Md < x)

Uma das medidas para quantificar a assimetria de uma distribuicao pode ser dada pelo primeiro coe-ficiente de assimetria de Pearson (Ap) :

Ap =x−Mo

sou Ap =

3 (x−Md)s

Outra e atraves do coeficiente quartilıtico de Bowley (Ab) :

Ab =Q3 + Q1 − 2Md

Q3 −Q1

Em ambos temos:Se A < 0 a distribuicao e assimetrica negativa.Se A = 0 a distribuicao e distribuicao simetrica.Se A > 0 a distribuicao e assimetrica positiva.

Exemplo 3.8. Considerando o conjunto de dados da Tabela 3.3, obter Ap.

sabemos que: x = 0, 7864; s = 0, 153 e Mo ' 0, 794, assim:

Ap =x−Mo

s=

0, 786− 0, 7940, 153

' −0, 04967 (Ap < 0 : assimetrica negativa ).

Page 39: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 36

3.5.3 Medidas de Curtose

A curtose ou achatamento mede a concentracao ou dispersao dos valores de um conjunto de valoresem relacao as medidas de tendencia central em uma distribuicao de frequencias conhecida (a distribuicaoNormal).

(A) Distribuicao Leptocurtica. Quando a distribuicao apresenta uma curva de frequencia mais “fechada”que a da distribuicao Normal.

(B) Distribuicao Mesocurtica. Quando a distribuicao apresenta uma curva de frequencia “identica” ada distribuicao Normal.

(C) Distribuicao Platicurtica. Quando a distribuicao apresenta uma curva de frequencia mais “aberta”que a da distribuicao Normal.

Grafico das distribuicoes quanto a curtose

Figura 3.11: Leptocurtica

Figura 3.12: Mesocurtica

Figura 3.13: Platicurtica

As medidas de curtose podem ser calculadas atraves da expressao:

k =(Q3 −Q1)

2(P90 − P10)

Obs1: k : coeficiente de curtose

Page 40: Apostila bioestatistica

3.5 Medidas Separatrizes ROSSI, Robson M. 37

Obs2: Q3 −Q1 e denominado Desvio Interquartilıtico.Relativamente a curva da distribuicao Normal, temos:Se k < 0, 263 ( leptocurtica )Se k = 0, 263 ( mesocurtica )Se k > 0, 263 ( platicurtica )Podemos utilizar tambem, o coeficiente de curtose baseado nos momentos centrados (k4), para dados

tabelados:

k4 =

∑(xi − x)4Fi∑

Fi

σ4− 3

Lembrando que

σ4 =(σ2

)2=

(∑(xi − x)2Fi

N

)2

(populacional).

e

s4 =(s2

)2=

(∑(xi − x)2Fi

n− 1

)2

(amostral).

Analogamente, temos:Se k4 > 0 a distribuicao e leptocurticaSe k4 = 0 a distribuicao e mesocurticaSe k4 < 0 a distribuicao e platicurtica

Exemplo 3.9. Considerando o conjunto de dados da Tabela 3.3, obter k, o coeficiente de curtose interquar-tilıtico.

Sabemos que Q1 = 0, 665, Q3 = 0, 876, P10 = 0, 58 e P90 = 1, 02 , entao:

k =(Q3 −Q1)

2(P90 − P10)=

(0, 876− 0, 665)2(1, 02− 0, 58)

= 0, 2398 (k < 0, 263 : leptocurtica).

Page 41: Apostila bioestatistica

Capıtulo 4

Inferencia Estatıstica

4.1 Introducao

Inferencia Estatıstica ou Estatıstica indutiva e a parte da estatıstica que utiliza metodos cientıficos parafazer afirmacoes e tirar conclusoes sobre caracterısticas ou parametros de uma populacao, baseando-se emresultados de uma amostra. O proprio termo “indutiva” decorre da existencia de um processo de inducao, istoe, um processo de raciocınio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusoessobre a realidade no todo. O uso de informacoes da amostra para concluir sobre o todo faz parte da atividadediaria da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela esta preparandotem ou nao a quantidade adequada de sal. Ou ainda, quando uma dona de casa, apos experimentar umpedaco de uma laranja numa banca de feira, decide se as compra ou nao. Essas sao decisoes baseadas emprocedimentos amostrais.

O objetivo e procurar a conceituacao formal desses princıpios intuitivos do dia-a-dia para que possam serutilizados cientificamente em situacoes mais complexas.

E facil perceber que um processo de inferencia ou inducao ( em estatıstica) nao pode ser exato. AInferencia Estatıstica, entretanto, ira dizer ate que ponto pode-se estar errando nas inferencias, e com queprobabilidade. Esse fato e fundamental para que uma inferencia possa ser considerada estatıstica, e faz partedos objetivos da Inferencia Estatıstica.

Em suma, a Inferencia Estatıstica busca obter resultados sobre as populacoes a partir das amostras,dizendo tambem, qual a precisao desses resultados e com que probabilidade se pode confiar nas conclusoesobtidas. Evidentemente, a forma como as inferencias serao realizadas ira depender de cada tipo de problema,conforme sera estudado posteriormente.

Segue-se que a teoria da Inferencia Estatıstica recorre intensamente a conceitos e resultados do Calculode Probabilidades.

4.2 Problemas de Inferencia

O objetivo da Inferencia Estatıstica e obter afirmacoes sobre uma dada caracterıstica da populacao, naqual se tem interesse, a partir de informacoes colhidas de uma amostra.

Essa caracterıstica de interesse pode ser representada por uma variavel aleatoria. Se informacoes completasobre a distribuicao de probabilidade da variavel em estudo, fosse conhecida nao haveria necessidade decolher uma amostra. Toda afirmacao desejada seria obtida atraves da distribuicao da variavel, usando-se aspropriedades estudadas anteriormente. Mas isso raramente acontece. A informacao que se tem a respeitoda variavel e parcial ou nada se conhece. Por exemplo, a altura dos brasileiros adultos, apresenta umadistribuicao normal, mas os parametros que a caracterizam (media e variancia) sao desconhecidos. Emoutros casos, pode-se ter uma ideia da media e variancia, mas se desconhece a forma da curva. Ou ainda,nao ha informacoes nem sobre os parametros, nem sobre a forma da curva. Entao, o uso de uma amostrapermite ter uma ideia sobre o comportamento da variavel na populacao.

38

Page 42: Apostila bioestatistica

4.3 Distribuicao Amostral ROSSI, Robson M. 39

4.3 Distribuicao Amostral

Ja foi visto, que o problema da Inferencia Estatıstica e fazer uma afirmacao sobre parametros da populacaoatraves da amostra. Suponha que uma afirmacao deva ser feita sobre um parametro populacional (media,variancia ou qualquer outra medida). Sera utilizado uma amostra aleatoria simples, com reposicao, de nelementos sorteados dessa populacao. A decisao sera baseada em uma estatıstica calculada em funcao daamostra, (X1 ,X2 ,.., Xn).

A validade da resposta seria melhor compreendida se fosse conhecido o que acontece com a estatıstica,quando todas as amostras de uma populacao conhecida sao retiradas, segundo o plano amostral adotado.Isto e, qual a distribuicao da estatıstica quando (X1 ,X2 ,.., Xn) assume todos os valores possıveis. Estadistribuicao e chamada de distribuicao amostral da estatıstica e desempenha papel fundamental na teoriade Inferencia Estatıstica. Didaticamente, tem-se o seguinte esquema:

1. Uma populacao X, com um certo parametro de interesse.

2. Todas as amostras retiradas da populacao, de acordo com um certo procedimento.

3. Para cada amostra, calcula-se o valor da estatıstica.

4. Os valores da estatıstica formam uma nova populacao, cuja distribuicao recebe o nome de distribuicaoamostral da estatıstica.

4.4 Distribuicoes de Probabilidade

O objetivo da Inferencia Estatıstica e obter afirmacoes sobre uma dada caracterıstica da populacao, naqual se tem interesse, a partir de informacoes colhidas de uma amostra.

Essa caracterıstica de interesse pode ser representada por uma variavel aleatoria.Se informacoes completa sobre a distribuicao de probabilidade da variavel em estudo, fosse conhecida

nao haveria necessidade de colher uma amostra. Entao, toda afirmacao desejada seria obtida atraves destadistribuicao.

Mas isso raramente acontece. A informacao que se tem a respeito da variavel e parcial ou nada se conhece.Exemplos:

• a altura dos brasileiros adultos, apresenta uma distribuicao Normal?

• a prevalencia (proporcao) de uma determinada doenca infecciosa segue uma distribuicao Binomial?

• o numero de filhos de um casal humano segue uma distribuicao de Poisson ?

• o tempo de vida de pacientes soropositivos segue uma distribuicao Exponencial?

Se nao ha informacoes nem sobre os parametros, nem sobre a forma da curva, entao, o uso de umaamostra nos da uma ideia sobre o comportamento da variavel na populacao. Atraves de suas carac-terısticas e atraves de testes de aderencia, podemos verificar qual o modelo probabilıstico (conhecido)sera mais adequado aos dados.

Muitas vezes isto nao acontece. Nestes casos um novo modelo devera ser produzido, ou a distribuicaoe produzida atraves de simulacao computacional.

4.4.1 Distribuicao Binomial

Considere n ensaios independentes e todos com a mesma probabilidade de sucesso p.A variavel aleatoria discreta que conta o numero total de sucessos e denominada Binomial com parametros

n e p, isto eX ∼ Bin(n; p)

onde sua funcao de probabilidade e dada por:

P (X = x) =(

n

x

)pxqn−x , q = 1− p; x = 0, 1, 2, ..., n.

Page 43: Apostila bioestatistica

4.4 Distribuicoes de Probabilidade ROSSI, Robson M. 40

Exemplo 4.1. Uma certa doenca pode ser curada atraves de procedimentos cirurgicos em 80% dos casos.Dentre os que tem essa doenca, sorteamos 15 pacientes que serao submetidos a cirurgia.

Fazendo alguma suposicao adicional que julgar necessaria. Qual a probabilidade de todos serem curados?

X ∼ Bin(15; 0, 8)

P (X = 15) =(

1515

)0, 8150, 215−15

' 0, 0352 ou 3, 52%.

Obs.: Se X tem uma distribuicao Binomial entao

media : E(X) = np

variancia : V ar(X) = npq

4.4.2 Distribuicao de Poisson

Uma variavel X tem distribuicao de Poisson com parametro λ > 0 se sua funcao de probabilidades e dadapor

P (X = x) =e−λλ

x!, x = 0, 1, 2, ...

com parametro λ sendo usualmente referido como a taxa de ocorrencia. A notacao utilizada sera

X ∼ Po(λ).

O modelo Poisson e um modelo discreto muito utilizado em experimentos biologicos e, nesses casos, λ ea frequencia media ou esperada de ocorrencias num determinado intervalo de tempo.

Exemplo 4.2. Chegada de pacientes em um pronto socorro.

Suponha que o numero de pacientes que chegam a um pronto socorro de uma pequena cidade durante amadrugada tenha distribuicao de Poisson com media 3 (λ = 3).

Calcular as probabilidades de chegadas desses pacientes:

Tabela 4.1: Distribuicao de Poisson com parametro λ = 3.

x P(X = x) x P(X = x)0 0,050 7 0,0221 0,149 8 0,0082 0,224 9 0,0033 0,224 10 0,0014 0,168 11 0,0005 0,101 12 0,0006 0,050 ≥ 13 ≈ 0

4.4.3 Distribuicao Normal

A maioria dos fenomenos da natureza, em especial os biologicos, apresenta variacoes dentro de umintervalo definido.

Se coletassemos os dados quanto ao peso de mil indivıduos, encontrarıamos diversos valores, dos quaishaveria pequena quantidade de baixos e altos, e grande quantidade em torno dos valores centrais.

Numa representacao grafica dos dados obtidos, encontrarıamos uma distribuicao normal, conforme figuraabaixo.

A Distribuicao de Probabilidade Normal, ou Distribuicao Gaussiana (curva de Gauss), se caracteriza porreunir um grande numero de valores em torno da media, que diminuem gradualmente de frequencia a medidaque se afastam dela.

Page 44: Apostila bioestatistica

4.4 Distribuicoes de Probabilidade ROSSI, Robson M. 41

Amostra

Prob

abilid

ade

−4 −3 −2 −1 0 1 2 30.

00.

10.

20.

3

Figura 4.1: Distribuicao Normal.

A distribuicao de probabilidade e dada por:

P (X = x) =1

σ√

2πe−

12

(x− µ

σ

)2

, −∞ < x < +∞

X ∼ N(µ, σ)

Le-se: O conjunto de dados X, tem distribuicao Normal com media : µ e desvio-padrao : σ.Devido a complexidade da funcao de probabilidade, fazemos uso da Tabela Normal-Padrao ou Normal-

Reduzida, construıda atraves da transformacao na variavel X:

Z =X − µ

σ∼ N(0, 1)

Caracterısticas:

1. e contınua;

2. a curva em forma de sino, que engloba o total de frequencias ou 100%;

3. e simetrica: a media (µ) = a moda (Mo) = a mediana (Md);

4. e unimodal;

5. o desvio-padrao e σ;

6. a curva de inflexao ocorre nos pontos x = µ± σ;

Como ja dissemos, a area subordinada a curva normal representa 100% das frequencias. Em torno damedia determinamos intervalos com utilizacao do desvio-padrao, conforme abaixo:

µ± σ = 68, 26%µ± 2σ = 95, 45%µ± 3σ = 99, 73%

Exemplo 4.3. Pressao sistolica em jovens saudaveis.

Suponha que a pressao arterial sistolica em pessoas jovens gozando de boa saude tenha distribuicaoN(120, 10) mmHg.

Qual e a probabilidade de se encontrar uma pessoa com pressao sistolica acima de 140 mmHg ?

Z =X − µ

σ=

140− 12010

= 2

P (X ≥ 140) = P (Z ≥ 2) = P (Z ≤ −2) = 0, 0228 ou 2, 28%.

Isto e, 2, 28% das pessoas jovens e sadias tem pressao sistolica acima de 140 mmHg.

Page 45: Apostila bioestatistica

4.5 Verificacao da Adequacao do Modelo ROSSI, Robson M. 42

4.5 Verificacao da Adequacao do Modelo

Na pratica nao podemos fazer suposicoes arbitrarias a respeito da distribuicao de probabilidade dosdados, logo usamos de tecnicas para fazer uma verificacao da adequacao do modelo suposto.

A verificacao pode ser baseada nas caracterısticas do modelo, em graficos especiais e em testes deaderencia.

Para a distribuicao Normal, em especial, sabemos que:

µ± σ = 68, 26%µ± 2σ = 95, 45%µ± 3σ = 99, 73%

Grandes discrepancias entre as frequencias relativas observadas e as probabilidades teoricas acima sitadas,indicam uma possıvel falta de adequacao ao modelo gaussiano.

Outros criterios:

• Tecnicas Graficas: Normal-plot, Q-Q-plot e P-P-plot;

• Testes de aderencia: Kolmogorov-Smirnov (K-S) [µ e σ conhecidos], Shapiro Wilks (W) e/ou Lilliefors(L) [µ e σ desconhecidos e estimados pelos dados atraves de x e s, respectivamente].

A hipotese de normalidade nos dados deve ser da seguinte forma:

H0 : Os dados sao normalmente distribuıdosHa : Os dados nao sao normalmente distribuıdos

Por exemplo, para um nıvel de significancia de 5%, se p-valor < 5% entao rejeitamos H0, consequente-mente os dados nao sao normalmente distribuıdos.

Na pratica, se for verificado que pelo menos o p-valor de um teste e significante (p < α%), a hipotese denormalidade da distribuicao deve ser rejeitada; e caso contrario se houver concordancia dos testes W e L,isto e, os dados sao normalmente distribuıdos.

4.6 Faixas de Referencia

Toda medida laboratorial e analisada confrontando-se seu valor com uma faixa padrao.Isto e tao comum que, na propria apresentacao do resultado, muitos laboratorios ja indicam os limites

inferiores e superiores para o valor da medida que devem servir de base ao raciocınio clınico.

• Devemos fixar, inicialmente, o nıvel de confianca (1− α)% ou cobertura;

• Calculamos atraves da amostra de pessoas supostamente saudaveis: x e s.

Tabela 4.2: Faixas de Referencia.Cobertura (1− α)% Faixa

90% x± 1, 64.s95% x± 1, 96.s99% x± 2, 58.s

......

(1− α)% x± Zα2.s

Page 46: Apostila bioestatistica

4.6 Faixas de Referencia ROSSI, Robson M. 43

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

alfa/2 alfa/2

-Zalfa/2 alfa/2+Z

1-alfa

Figura 4.2: Faixa de Referencia

Exemplo 4.4. Faixa de referencia para identificar o Pseudomonas sp.

Um pesquisador deseja criar um padrao para identificar presenca de infeccao bacteriana (Pseudomonassp) no trato respiratorio atraves de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamentesadias e determinou-se o numero de colonias encontradas em cada cultura. Foram encontrados os seguintesresultados, em duas etapas amostrais distintas.

Amostra 1:

20 21 23 24 25 25 25 25 25 2526 26 27 28 29 29 29 29 29 3030 30 30 30 30 31 31 31 32 3232 32 32 33 33 33 34 34 34 3535 35 36 36 37 37 38 38 41 42

Amostra 2:

17 22 23 23 23 23 24 24 2424 24 23 25 25 25 25 25 2525 26 28 28 29 30 30 31 3135 35 35 36 40 41 41 41 4251 54 56 56 56 58 60 68 79

Observe atraves da Figura 4.3 o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados adistribuicao Normal.

Para a Amostra 1, foram realizados os testes de normalidade e indicaram ajuste dos dados ja que p-Lilliefors >.20 e p-W = 0,8892. (Software Statistica versao 6.0).

Observe atraves da Figura 4.4 uma assimetria do Histograma comparado a Normal assim como a naoaderencia ou desajuste dos dados (pontos) sob a reta, indicando que os dados nao seguem uma distribuicaoNormal.

Os testes confirmam isto: Para a Amostra 2 obtemos p-Lilliefors <0,01 e p-W < 0,000013.Neste caso duas metodologias distintas deverao ser utilizadas para construir faixas de referencia:

• Metodo de Gauss para a Amostra 1:

[x± 1, 96.s] : [30, 7± 1, 96.4, 9][21; 40] colonias. ”Adequado”

Observe que devido a normalidade temos praticamente a mesma faixa, utilizando o metodo dos per-centis:

[21; 41] colonias. ”Adequado”

Page 47: Apostila bioestatistica

4.7 Teorema do Limite Central ROSSI, Robson M. 44

0.0

0.02

0.04

0.06

0.08

0.10

Freq

üênc

ias

amos

tra

2025

3035

40

20 25 30 35 40 -2 -1 0 +1 +2

Q-QPlot

Figura 4.3: Histograma e Q-Q Plot da Amostra 1

0.00

0.01

0.02

0.03

0.04

0.05

Freq

üênc

ias

2030

4050

6070

amos

tra2

20 40 60 80

Q-=Q Plot

-2 -1 0 1 2

Figura 4.4: Histograma e Q-Q Plot da Amostra 2

• e Metodo dos Percentis para a Amostra 2, isto e, obter uma faixa de inclua, por exemplo, 95% doselementos, excluindo os 2,5% valores menores e os 2,5 % maiores valores

[22; 68] colonias. ”Adequado”

Observe que agora, se optassemos pelo metodo de gauss terıamos:

[7; 63] colonias. ”Inadequado”

Um teste estatıstico a ser usado depende do tipo de variavel e do tipo de planejamento. A seguir seraoapresentados os testes mais comuns para quatro situacoes: variavel dicotomica (amostras independentes epareadas) e variavel contınua (amostras independentes e pareadas).

4.7 Teorema do Limite Central

Teorema. Para amostras aleatorias simples (X1 ,X2 ,.., Xn), retiradas de uma populacao com mediaµ e variancia σ2, a distribuicao amostral da media aproxima-se de uma distribuicao normal com media µ e

varianciaσ2

n, quando n→∞, isto e

X ∼ N

(µ;

σ2

n

).

Page 48: Apostila bioestatistica

4.8 Tamanho da Amostra ROSSI, Robson M. 45

Utilizando-se deste teorema, podemos construir um Intervalo de Confianca de (1−α)% para µ, para umnıvel de significancia, α, fixo:

IC(µ) : X ± Zα2.

σ√n

.

Se a populacao original e proxima da normal, sua convergencia e rapida; ja, se a distribuicao da populacaotem outra distribuicao, essa convergencia e mais demorada. Como regra pratica, aceita-se que para amostrascom mais de 30 elementos a aproximacao ja pode ser considerada muito boa.

No caso de amostras pequenas, usa-se uma aproximacao atraves da distribuicao t− student :

IC(µ) : X ± t(n−1; α2 ).

s√n

,

onde s e o desvio-padrao amostral, utilizado quando nao se conhece σ, o desvio-padrao populacional.Seja uma populacao em que a proporcao de elementos portadores de uma certa caracterıstica e p. Assim,

a populacao pode ser considerada como a variavel aleatoria X, tal que:

X :{

1, se o indivıduo possui a caracterıstica;0, se o indivıduo nao possui a caracterıstica p.

assim, para n suficientemente grande, pode-se considerar a distribuicao amostral de p do seguinte modo:

p ∼ N

(p;

p.(1− p)n

)

onde a proporcao de indivıduos portadores da caracterıstica na amostra e dada por:

p =Y

n

sendo que Y e o total de indivıduos portadores da caracterıstica na amostra.Analogamente ao processo de obtencao do IC para a media, podemos obter um IC com uma confianca

de (1− α)%, para a proporcao populacional, considerando um nıvel de significancia, α, fixo:

IC(p) : p± Zα2.

√p.(1− p)

n.

4.8 Tamanho da Amostra

O assunto pertence a Teoria da Amostragem. Pode-se, entretanto, calcular, para algumas situacoesespeciais, o tamanho da amostra necessario para se fazer inferencias.

4.8.1 Metodo simples

Tamanho de uma amostra aleatoria simples. Sera abordado calculo do tamanho da amostra paraamostragem aleatoria simples.

A diferenca entre a estatıstica descritiva dos elementos da amostra e o verdadeiro valor do parametroque se deseja estimar como o erro amostral. Para determinar o tamanho da amostra o pesquisador deveespecificar o erro amostral toleravel, ou seja, quanto ele admite errar na avaliacao dos parametros deinteresse.

A especificacao do erro amostral toleravel deve ser feita sob um enfoque probabilıstico, pois por maiorque seja a amostra, existe sempre o risco do sorteio gerar uma amostra com caracterısticas bem diferentesda populacao de onde ela foi extraıda.

O calcular do tamanho mınimo de uma amostra aleatoria simples e dado por:Sejam:N: tamanho (numero de elementos) da populacao;n: tamanho (numero de elementos) da amostra;n0 : uma primeira aproximacao do tamanho da amostra, eE0: erro amostral toleravel.

Page 49: Apostila bioestatistica

4.8 Tamanho da Amostra ROSSI, Robson M. 46

onden0 =

1E0

.

Conhecendo N o tamanho da populacao, pode-se corrigir o calculo:

n =N.n0

N + n0.

Exemplo 4.5. Com objetivo de conhecer algumas caracterısticas dos pacientes de uma clınica com 35pacientes. Suponha que seja de interesse realizar um levantamento por amostragem para avaliar diversascaracterısticas da populacao de pacientes. Qual deve ser o tamanho mınimo da amostra aleatoria simples,tal que se possa admitir, com alta confianca, que os erros amostrais nao ultrapassem 4% (E0 = 0,04)?

Solucao: Uma primeira aproximacao e dada por:

n0 =1

0, 042= 625 pacientes.

Corrigindo, em funcao do tamanho N da populacao, tem-se:

n =35.625

35 + 625' 34.

Exemplo 4.6. Suponha que na clinica do Exemplo anterior a populacao fosse de N = 200 pacientes. Qualdeve ser o tamanho mınimo da amostra aleatoria simples, tal que se possa admitir, com alta confianca, queos erros amostrais nao ultrapassem 4% (E0 = 0,04)?

Solucao: O valor de n0 continua sendo o mesmo do exemplo anterior, pois nao depende de N. Fazendo acorrecao em termos do novo valor de N, tem-se:

n =200.625

200 + 625' 152.

Exemplo 4.7. Suponha agora que a populacao fosse de N = 200.000 pacientes.

Solucao: Da mesma forma, o valor de n0 continua sendo o mesmo dos exemplos anteriores. E a correcaoem termos do novo valor de N, e:

n =200.000.625

200.000 + 625' 623 pacientes.

Observe que: Para manter o mesmo erro amostral, no Exemplo ?? foi necessaria uma amostra abrangendoquase 100% da populacao; enquanto no Exemplo 4.6 a amostra abrange 76%; e no Exemplo 4.7 abrange0,3% da populacao. E, portanto, erronea a ideia de que para uma amostra ser representativadeva abranger uma percentagem fixa da populacao.

Tamanho da amostra em subgrupos da populacaoE muito comum termos interesse em estudar separadamente certos subgrupos da populacao. Nesta

situacao, e preciso calcular o tamanho da amostra para cada uma destas partes. O tamanho total daamostra vai corresponder a soma dos tamanhos das amostras de cada parte.

O tamanho total da amostra cresce bastante quando se desejam estimativas isoladas para os diversossubgrupos da populacao, por isso, e comum o pesquisador nao ser muito exigente na precisao das estimativasnos subgrupos, tolerando erros amostrais maiores.

4.8.2 Metodo inferencial

Tamanho da amostra sem conhecimento de N : Tamanho da Populacao.

Se o objetivo e estimar a media, ou uma proporcao, pode-se usar os intervalos de confianca anteriormenteestabelecidos para obter n, o tamanho da amostra. Para isto, e preciso fixar o maior erro aceitavel e o nıvelde confianca com que se quer trabalhar.

Page 50: Apostila bioestatistica

4.8 Tamanho da Amostra ROSSI, Robson M. 47

Sendo o tamanho maximo do erro aceitavel : e (fixo), com probabilidade (1 − α) (fixo), o intervalo deconfianca de nıvel 100(1 − α)% serao, respectivamente, para a media e para a proporcao, considerando apopulacao infinita, tem-se:

n =[Zα

2.so

e

]2

onde e = Zα2

so√n

n =[Zα

2.

e

]2

.p0.(1− p0) ou n ≤[Zα

2.

2e

]2

onde p0 e so sao estimativas da proporcao e da dispersao, respectivamente, obtidos atraves de uma amostrapiloto.

Exemplo 4.8. Numa amostra de classificacao de veteranos de um colegio com. x = 2, 6 e so = 0, 3, qualdeve ser o tamanho da amostra para que tenhamos 95% de confianca em que erro da estimativa de µ naosupere 0,05?

Sol.:

n =[Zα

2.so

e

]2

=[1, 96.0, 3

0, 05

]2

' 139.

Exemplo 4.9. Suponha que, em uma amostra de 500 famılias que possuem aparelho de televisao em certacidade, haja 340 com televisor em cores. Se o objetivo e estimar o numero de famılias que possuem televisorem cores, qual o tamanho da amostra necessario para que tenhamos 95% de confianca em que o erro daestimativa nao seja superior a 0,02 ?

Sol.: Trate as 500 famılias como uma mostra preliminar que fornece a estimativa p0 = 0, 68. Entao:

n =[Zα

2.

e

]2

.p0.(1− p0)

=[1, 960, 02

]2

.0, 68.(0, 32)

= 2.090

Tamanho da amostra com o conhecimento de N : Tamanho da Populacao.

Para o caso em que a populacao e finita e pequena, onde a amostragem e sem reposicao, temos as formulaspara o calculo do tamanho amostral, respectivamente, para a media e para a proporcao:

n =N.

(Zα

2.so

)2

(N − 1).e2 +(Zα

2.so

)2 ; e

n =N.p0.q0.

(Zα

2

)2

p0.q0.(Zα

2

)2 + (N − 1).e2ou n ≤ N.

(Zα

2

)2

(Zα

2

)2 + 4(N − 1).e2

Alternativamente, temos tanto para o caso em que estudamos variaveis quantitativas discretas, quantocontınuas, utilizamos as formula descritas anteriormente, e tomamos n = n0, e conhecendo N , o caculo den, tamanho amostral podera ser obtido atraves de:

n =n0

1 +n0

N

.

Exemplo 4.10. Determinado trabalho, realizado para investigar a prevalencia de hansenıase em trabal-hadores rurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo projetosobre hansenıase, desejamos um nıvel de confianca de 95% e erro de amostragem de 5%. Determine n, otamanho da amostra nescessaria para uma populacao de tamanho N = 100.000.

Page 51: Apostila bioestatistica

4.9 Testes de Hipoteses ROSSI, Robson M. 48

Sol.:

n0 =[Zα

2.

e

]2

.p0.(1− p0)

n0 =[1, 960, 05

]2

.0, 22.(0, 78)

n0 ' 264

logo, o tamanho da amostra correspondera a:

n =n0

1 +n0

N

n =264

1 +264

100.000n = 263.

4.9 Testes de Hipoteses

Frequentemente e necessario tomar decisoes sobre parametros ou distribuicoes populacionais com baseem informacoes amostrais, as quais sao denominadas decisoes estatısticas. Na tomada de decisoes, saoformuladas hipoteses que serao rejeitadas ou nao rejeitadas. Tais hipoteses, que podem ser verdadeiras ounao, chamam-se hipoteses estatısticas e, em geral, consistem de afirmacoes sobre os parametros populacionaisou sobre as distribuicoes de probabilidade das populacoes, como por exemplo:

1. a media populacional da altura dos brasileiros e 1,65m;

2. a proporcao de brasileiros com a doenca X e 40% (p = 0, 40);

3. a distribuicao dos pesos dos pacientes adultos do hospital X e normal.

Os processos que nos permitem decidir por rejeitar ou nao rejeitar uma hipotese, ou determinar seamostras observadas diferem significativamente dos resultados esperados sao chamados Testes de Hipoteses.O objetivo e fornecer ferramentas que nos permitam validar ou refutar uma hipotese, atraves de resultadosda amostra. Os Testes de Hipoteses podem ser de dois tipos:

(a) Nao Parametricos: quando formulamos hipoteses com respeito a natureza da distribuicao da populacao.Estes testes nao dependem dos parametros populacionais, nem de suas respectivas estimativas. Veja oitem (3.) acima.

(b) Parametricos: quando formulamos hipoteses com respeito ao valor de um parametro populacional.Veja itens (1.) e (2.) acima.

4.9.1 Construcao de um Teste de Hipotese

Inicialmente, para a construcao de um teste, deve-se formular duas hipoteses a cerca da afirmacao:

(a) Hipotese Nula (H0): e uma afirmacao que diz que o parametro populacional e tal como especificado.

(b) Hipotese alternativa (Ha): e uma afirmacao que oferece uma alegacao alternativa (isto e, o parametroe diferente do valor alegado).

As hipoteses estatısticas para um parametro q, podem ser formuladas como segue:

1. Teste Bilateral: quando utilizamos ambas as “caudas” da distribuicao. Teste Unilateral a Direita:quando utilizamos a “cauda” direita da distribuicao.

H0 : θ = θ0

Ha : θ 6= θ0

Page 52: Apostila bioestatistica

4.9 Testes de Hipoteses ROSSI, Robson M. 49

2. Teste Unilateral a Direita: quando utilizamos a “cauda” direita da distribuicao.

H0 : θ = θ0

Ha : θ > θ0

3. Teste Unilateral a Esquerda: quando utilizamos a “cauda” esquerda da distribuicao.

H0 : θ = θ0

Ha : θ < θ0

Ao se testar uma hipotese, o que se deseja verificar e, atraves de uma estatıstica obtida de uma amostra,se a hipotese pode ou nao rejeitada com o nıvel de significancia pre-fixado, α. Esta conclusao e tomada combase na Regiao Crıtica (RC: cuja area corresponde a α) que e construıda de modo que:

P (θ ∈ RC|H0ee verdadeira) = α.

RA e denominada Regiao de nao rejeicao cuja area corresponde a 1− α.O procedimento que sera utilizado para a construcao de um teste de hipotese e o que consiste em

apresentar o nıvel descritivo ou p-valor (p-value).

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�����������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

�������������

alfa/2 alfa/2

-Zalfa/2 alfa/2+Z

1-alfa

Figura 4.5: Teste de Hipotese Bilateral.

A sequencia abaixo pode ser usada sistematicamente para qualquer teste de hipotese:

1. Passo 1: Definir as hipoteses H0 e Ha;

2. Passo 2: Use a teoria estatıstica e as informacoes para decidir qual a distribuicao da estatıstica(estimador) que sera utilizada no julgamento de H0;

3. Passo 3: Escolher o nıvel de significancia a e utilizando as informacoes fornecidas pela amostra paraencontrar o valor do estimador do parametro (estatıstica) que esta sendo testado;

4. Passo 4: Com o valor da estatıstica observada na amostra encontrar a probabilidade (probabilidadede significancia p-valor) de ocorrer amostras com valores mais extremos do que o valor obtido.

5. Passo 5: Conclusao. Compare a probabilidade obtida, p-valor, com o valor de a. A hipotese nula serarejeitada para aqueles nıveis de significancia cujos valores sejam maiores que a probabilidade calculada.

Page 53: Apostila bioestatistica

4.9 Testes de Hipoteses ROSSI, Robson M. 50

4.9.2 O p-valor

O procedimento de teste de hipotese descrito acima fornece informacao sobre a forca da evidencia contraH0 obtida a partir dos dados. Isto e, e informado se o valor observado para a estatıstica de teste que levou arejeicao de H0 esta proxima da fronteira da RC regiao crıtica (baixa evidencia contra H0) ou se esta muitoafastada da fronteira (alta evidencia contra H0).

O p-valor e a probabilidade de ocorrencia do valor particular observado para a estatıstica de teste ou devalores mais extremos, na direcao da regiao crıtica, quando a hipotese nula H0 e verdadeira. Quanto maiorfor a forca da evidencia contra H0, menor sera o p-valor.

Page 54: Apostila bioestatistica

Capıtulo 5

Analise em Tabelas 2x2 e LxC

Neste topico estudaremos a relacao entre duas variaveis categoricas (ou qualitativas), onde as observacoespodem ser classificadas em uma das varias categorias (nıveis ou celulas) mutuamente exclusivas.

O problema de mensuracao do grau de associacao entre dois conjuntos de escores e de carater bemdiferente do teste da simples existencia de uma associacao em determinada populacao. Naturalmente, hainteresse em avaliar o grau de associacao entre dois conjuntos de escores referentes a um grupo de indivıduos.Mas e talvez de muito maior interesse podermos afirmar que determinada associacao observada em umaamostra de escores indica, ou nao, probabilidade de associacao entre as variaveis na populacao da qual seextraiu a amostra (Siegel, 1956).

5.1 Tabelas de Contingencia

Segundo o dicionario Webster o termo “contingency” significa the quality or state of having a closeconnection or relationship. O termo “contingency table” se refere ao fato de que as tabelas construıdas saousadas para testar a existencia de relacoes entre duas variaveis. Observamos que infelizmente este termoem portugues nao tem o mesmo significado. Segundo o Aurelio, “contingencia” significa qualidade do que econtingente, incerteza se uma coisa vai acontecer ou nao e “contingente” significa que pode ou nao suceder,eventual, incerto. Logo, em estatıstica, quando nos referimos a palavra “contingencia” estamos tomando omesmo significado da lıngua inglesa.

O teste chi-quadrado (χ2) pode ser usado para avaliar a relacao entre duas variaveis qualitativas. Esteteste e um teste nao-parametrico, que e muito util, pois nao precisa da suposicao de normalidade das variaveispara analisar o grau de associacao entre as duas variaveis, porem este teste e menos poderoso que o testeparametrico.

Dentro deste teste devemos distinguir dois tipos de testes: o de independencia e o de homogeneidade.Vejamos quando estamos tratando de um teste de independencia e quando estamos tratando com um testede homogeneidade, atraves de exemplos.

5.2 Teste de Independencia e de Homogeneidade

Suponha que uma educadora quer analisar se existe relacao entre a participacao ativa dos pais dosalunos nos deveres extra-escolares e o desempenho dos alunos em Matematica. Suponha que ela categorizao desempenho dos alunos em tres grupos: baixo, medio, alto e, do mesmo modo, categoriza a participacaodos pais em dois grupos: participacao ativa, participacao fraca. Suponha que ela deseja trabalhar com 300criancas.

Neste caso a educadora pode delinear sua pesquisa de duas formas:

51

Page 55: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 52

Caso 1. Selecionar uma amostra de criancas aleatoriamente e examinar em que celula cada uma estaalocada, logo o unico valor fixo sera o total geral que sera de 300. Mas os totais de colunas e de linhasserao frutos da pesquisa, portanto, aleatorios, neste caso estamos frente a um teste de independenciade variaveis.

Logo a tabela de contingencia sera:

Tabela 5.1: Exemplo de tabela de contingencia.Participacao Desempenho do aluno em Matematica Total

dos pais Baixo Medio AltoAtiva AleatorioFraca AleatorioTotal Aleatorio Aleatorio Aleatorio 300

=⇒ Teste deIndependencia

Porem ela pode fixar o numero de alunos de acordo com seu desempenho.

Caso 2. Pegar uma amostra aleatoria de tamanho 100 de cada grupo de alunos, logo os totais dascolunas serao fixos, mas os totais das linhas serao aleatorios e assim estaremos frente a um teste dehomogeneidade:

Logo a tabela de contingencia sera:

Tabela 5.2: Exemplo de tabela de contingencia.Participacao Desempenho do aluno em Matematica Total

dos pais Baixo Medio AltoAtiva AleatorioFraca AleatorioTotal 100 (fixo) 100 (fixo) 100 (fixo) 300

=⇒ Teste deHomogeneidade

Os valores totais, das colunas e das linhas, sao chamados de “totais marginais”. Quando os totaismarginais variam livremente, o teste de associacao e chamado de independencia, e quandoum dos conjuntos, linha ou coluna e fixado pelo pesquisador entao e chamado de teste dehomogeneidade. Isso vai depender do pesquisador. No exemplo da educadora, observemos que para ela emuito mais facil fixar o numero de alunos segundo seu desempenho, do que fixar pela participacao dos pais,que, apriori sera quase impossıvel.

Teste de Independencia

Apresentaremos a logica do teste com um exemplo bastante simples.

Exemplo 5.1. Suponha que 125 criancas foram expostas a tres tipos de comerciais de TV, sobre cereaispara cafe da manha. Apos a exposicao foi solicitado a cada crianca para indicar qual dos comerciais elagostou mais. O que se deseja saber e se a escolha do comercial esta relacionado ao genero da crianca: poissuspeita-se de que o genero pode estar influenciando na escolha do comercial. Os dados podem ser apreciadosna Tabela 5.3.

Tabela 5.3: Numero de criancas segundo tipo de comercial escolhido e genero.Tipo de comercial

Genero A B C TotalMeninos 30 29 16 75Meninas 12 33 5 50

Total 42 62 21 125

Analisando atentamente a Tabela 5.3, composta por valores absolutos, percebemos:

Page 56: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 53

• a amostra esta composta por mais meninos do que meninas,

• nos comerciais A e C o numero de meninos e maior do que meninas, e

• no comercial B essa relacao se inverte.

Contudo, essa analise fica prejudicada pela composicao da amostra, que tem mais meninos do que meni-nas. Portanto, a primeira coisa a fazer e analisar as estruturas percentuais, mostradas na Tabela 4.3, ou sejaretirar a influencia da amostragem.

Tabela 5.4: Porcentagem para os valores absolutos de criancas por tipo de comercial escolhido e generoapresentados na tabela anterior.

Tipo de comercialGenero A B C TotalMeninos 71% 47% 76% 60%Meninas 29% 53% 24% 40%

Total 100% 100% 100% -

Observe cuidadosamente a Tabela 5.4, onde 60% da amostra e composta por meninos. Se a preferencia dascriancas pelos comerciais independe do genero, esperarıamos que a estrutura percentual para cada comercialficasse em torno de 60% para os meninos e 40% para as meninas, desvios grandes destes percentuais estariammostrando evidencias de que existe alguma relacao entre essas variaveis. Essa inspecao intuitiva, tambem,pode ser feita analisando a estrutura dentro de cada genero como mostra a Tabela 5.5.

Tabela 5.5: Porcentagem de criancas por genero e tipo de comercial escolhido.Tipo de comercial

Genero A B C TotalMeninos 40% 39% 21% 100%Meninas 24% 66% 10% 100%

Total 33% 50% 17% -

Analisando a Tabela 5.5 observamos que as meninas tem uma forte preferencia pelo comercial B, enquantoque os meninos se dividem entre o comercial A e B.

Assim, intuitivamente percebemos que existe interferencia do genero na preferencia, agora precisamossaber ate que ponto essas diferencas se devem ao acaso, ou a existencia de associacao entre as duas variaveis:

X: preferencia pelo comercial ( A, B e C) → qualitativa;

Y: genero (meninos, meninas) → qualitativa.

Hipotese nula (H0): A preferencia pelo comercial independe do genero da crianca;Hipotese alternativa (Ha): A preferencia pelo comercial depende do genero da crianca (ou, o genero

interfere na preferencia pelo comercial);Analogamente, temos:

Ho : independencia de variaveisH1 : dependencia de variaveis

Como deveriam ser os valores a serem observados se as variaveis fossem independentes?, ou dito de outraforma, sob a hipotese de nulidade, de independencia de variaveis, como deveriam ser os valores a seremobservados? A logica nos diz que esses valores devem estar muito proximos da estrutura percentual global.Esses valores sao chamados de valores esperados.

Cada valor esperado sera calculado supondo que a estrutura percentual global se mantenha em cadacoluna:

Calculando os valores esperados, sobre a suposicao de independencia:

Page 57: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 54

Tabela 5.6:Valores percentuais

Tipo de comercialGenero A B C TotalMeninos 60% 60% 60% 60%Meninas 40% 40% 40% 40%

Total 42 62 21 125

e

Valores absolutosValores esperados

Genero A B C TotalMeninos 25 37 13 75Meninas 17 25 8 50

Total 42 62 21 125

Valor esperado menino, comercial A: 60% de 42 = 25,2Valor esperado menino, comercial B: 60% de 62 = 37,2...

O mesmo teria acontecido se fixarmos primeiro o comercial:

Valor esperado comercial A, menino: 33,7% de 75 = 25,2Valor esperado comercial A, menina: 33,7% de 50 = 16,8...Tanto faz fixar a linha ou a coluna pois:

Ei =Tl × Tc

T= Tl × Tc

T= Tc × Tl

T

Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna:

Ei =75× 42

125= 75× 42

125= 42× 75

125= 25, 2

Assim calculando os valores esperados para todas as celulas temos:

Tabela 5.7:Tipo de comercial

Genero A B C Total

MeninosOi = 30 Ei = 25,2

di = +4,829 37,2

-8,216 12,6

+3,4 75

Meninas12 16,8

-4,833 24,8

+8,25 8,4

-3,4 50

Total 42 62 21 125

Dentro de cada celula, no canto superior esquerdo colocamos o valor observado, no canto superior direitoo valor esperado (sob a hipotese de independencia) e, na parte inferior, a distancia entre o observado e oesperado. Logo, se as variaveis fossem independentes, as distancias entre os valores observados e esperadosdeveriam ser muito pequenas, caso contrario havera indıcios de dependencia. A pergunta agora e: quando adistancia e pequena ou grande? Para isto devemos calcular o valor (χ2) qui-quadrado da amostra:

χ2amostra =

k∑i=1

(observado− esperado)2

esperado=

k∑i=1

(Oi − Ei)2

Ei

que tera uma distribuicao chi-quadrado com graus de liberdade igual ao produto do numero de linhas menosum vezes o numero de colunas menos um, isto e:

χ2amostra ∼ χ2

ν ⇒ν : graus de liberdadeν : (no colunas - 1)×(no linhas - 1)

Para testar as hipoteses, temos a estatıstica teste qui-quadrado com correcao de continuidade de Yates:

χ2cY =

k∑i=1

(|Oi − Ei| − 12

)2

Ei∼ χ2

[L−1×C−1;(1−α)%] (Tabelas L× C)

Page 58: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 55

No nosso exemplo sem a correcao de Yates, temos:

χ2amostra =

(+4, 8)2

25, 2+

(−8, 2)2

37, 2+

(+3, 4)2

12, 6+

(−4, 8)2

16, 8+

(+8, 2)2

24, 8+

(−3, 4)2

8, 4= 0, 914 + 1, 808 + 0, 917 + 1, 371 + 2, 711 + 1, 376= 9, 09818 (p-valor : 0,0106)

onde v = (2− 1)× (3− 1) = 1× 2 = 2

Para aceitar ou rejeitar a hipotese devemos conhecero valor de χ2calculado na tabela qui-quadrado, com

dois graus de liberdade. Para α = 5%, o valor crıtico e 5, 991, como o valor da amostra e maior que o valorcrıtico, logo rejeitamos a hipotese nula, concluindo que o genero interfere na preferencia pelos comerciais.

No caso de dispormos de um pacote estatıstico, este, via de regra, calcula o p-valor, nesse caso e socomparar esse valor com o nıvel de significancia desejado. No nosso caso o p − valor = 0, 01058, ou seja,rejeitamos ao nıvel de 5% mas nao ao nıvel de 1%.

Obs.: Quando as variaveis sao independentes (H0), as frequencias observadas tendem a ficar perto dasesperadas. Neste caso, o valor de χ2 deve ser pequeno.

Limitacoes do teste χ2 :

1. Infelizmente, o teste qui-quadrado nao permite concluir como se da a relacao, uma vez que ele testaapenas a hipotese geral de que as duas variaveis sao independentes. Examinando a distancia entrevalor observado e esperado, por exemplo, observamos que as meninas tem uma maior preferencia pelocomercial B, porem nao podemos concluir nada.

2. Uma outra limitacao do teste qui-quadrado e que o valor esperado das celulas nao deve ser menor ouigual a 5 e devido a isso torna vulneravel a estatıstica. Nesse caso usamos outra estrategia: o testeexato de Fisher.

Teste de Homogeneidade

Quando testamos independencia de variaveis, o pesquisador so controla o tamanho total da amostra, masos totais para cada coluna e linha sao aleatorios.

Exemplo 5.2. No caso do exemplo anterior, os pesquisadores selecionaram aleatoriamente 125 criancas,das quais 75 eram meninos e 50 meninas. Ele nao fixou o numero de meninos e o numero de meninas.

Vejamos um exemplo de teste de homogeneidade. Retomemos o exemplo inicial e suponhamos que aprofessora fixou o tamanho dentro de cada grupo de alunos e os resultados foram os seguintes:

Tabela 5.8: Numero de alunos segundo seu desempenho em Matematica e participacao dos pais nas atividadesextra-escolares.

Desempenho em Matem.Participacao

dos pais Baixo Medio Alto Total

Ativa 5 25 70 100Fraca 95 75 30 200Total 100 100 100 300

H0 : p11 = p12 = p13 → igualdade de proporcoesH1 : p1i 6= p1j ; para algum i 6= j → existe pelo menos uma proporcao diferente

A hipotese nula esta testando que a proporcao de alunos com baixo desempenho e igual a proporcao dealunos medio e igual a proporcao de alunos com desempenho alto quando seus pais participam ativamentedas atividades extra-escolares, contra a hipotese alternativa que indica que existe pelo menos uma proporcaodiferente.

O teste e identico ao teste de independencia.

Page 59: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 56

O Coeficiente de Contingencia.

O coeficiente de contingencia e uma medida do alcance da associacao ou relacao entre dois conjuntos deatributos. Ele e calculado em funcao do valor calculado na tabela de contingencia e independe de ordenacaodas categorias das variaveis:

C =

√χ2

χ2 + n, onde n e o tamanho da amostra.

Exemplo 5.3. No exemplo dos comerciais de TV, o coeficiente de contingencia sera:

C =√

9, 098189, 09818 + 125

= 0, 26047.

Para testar a significancia deste coeficiente terıamos que recorrer a tabela propria.

H0 : C = 0H1 : C 6= 0

Se o p-valor associado for menor que alfa rejeitamos H0 e concluımos de que existe associacao entre asvariaveis, caso contrario nao.

Para facilitar a interpretacao, usaremos uma modificacao deste coeficiente. Chamaremos de k o menorentre l (no de linhas da tabela) e c (no de colunas da tabela), isto e:

k = min{l; c}.O chamado coeficiente de contingencia modificado (C∗) e dado por:

C∗ =

√k.χ2

(k − 1)(χ2 + n).

O valor C∗ sempre estara no intervalo de 0 a 1. Sera 0, somente quando houver completa independencia esera 1 quando houver associacao perfeita. Valores de C∗ proximos de 1 descrevem associacao forte, enquantoque valores de C∗ proximos de 0 indicam associacao fraca. Os valores de C∗ em torno de 50% podem serinterpretados como associacao moderada.

Exemplo 5.4. Calculo do coeficiente de contingencia para os dados do exemplo anterior.

k = min{2; 3} = 2

C∗ =

√k.χ2

(k − 1)(χ2 + n)

=

√2.(9, 09818)

(2− 1)(9, 09818 + 125)

= 0, 3684 ou 36, 84%.

Este resultado indica uma fraca associacao entre X: preferencia pelo comercial e Y: genero.

Exercıcio 5.1. A frequencia da inversao F do cromossomo IIL foi estudada em populacoes urbanas deDrosophila willistoni. Os exemplares foram coletados em zonas considerada de alta, media e baixa urban-izacao, na cidade de Porto Alegre (Valente et al, 1993). Os dados foram comparados entre si e com umgrupo-controle nao-urbano. Verifique ao nıvel de 1% de significancia se existem evidencias de associacaoentre a inversao F e a Urbanizacao.

Exercıcio 5.2. Criancas hospitalizadas e alimentadas por nutricao endovenosa as vezes apresentam colestase,umbloqueio do fluxo da bile que pode produzir calculos biliares e outros problemas. Suponha que foi realizado umestudo do tipo caso-controle para avaliar o efeito (α = 5%) de uma infeccao grave sobre o risco de colestaseem criancas com nutricao parenteral. A Tabela abaixo mostra o resultado de um estudo feito em 113 criancashospitalizadas. Como o desfecho, isto e, a colestase, e uma caracterıstica rara na populacao, o risco relativofoi estimado atraves do Odds Ratio (Fonte: Carvalho, 1993).

Page 60: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 57

Tabela 5.9: Associacao entre Inversao F e Urbanizacao quando comparadas a um controle.Urbanizacao

Inversao F Alta Intermediaria Baixa Controles TotalSim 63 421 641 223 1349Nao 475 1201 1542 658 3875Total 538 1622 2183 881 5224

% Inversao F 12% 26% 29% 25% 26%

Tabela 5.10: Presenca de colestase em criancas com nutricao endovenosa, som e sem infeccao grave.Colestase

Infeccao grave Sim NaoSim 19 61Nao 1 32

Exercıcio 5.3. Com o objetivo de avaliar fatores de risco para o cancer intra-epitelial da cervice uterina,Soares (1998) estudou 43 casos com essa doenca e 63 mulheres controles da populacao de Porto Alegre. ATabela 2 apresenta dados relativos a presenca do alelo DQB1*03, do sistema HLA. Teste a associacao entrea doenca e o fator ao nıvel de 5%. Em caso afirmativo determine o risco de desenvolver a neoplasia e seurespectivo IC.

Tabela 5.11: Associacao entre cancer intra-epitelialda cervice uterina e presenca do alelo DQB1*03.Presenca do alelo

Cancer DQB1*03 OutroCasos 33 10

Controles 24 39

Page 61: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 58

Exercıcio 5.4. Verificar se a frequencia dos dois tipos de cromossomos Y esta relacionado com o grau demistura racial aparente e com a idade do touro ao nıvel de 5%.

Tabela 5.12: Associacao entre tipo de cromossomo e contaminacao de raca aparente.Tipo do cromossomo

Contaminacao racial aparente Acrocentrico SubmetacentricoSim 38 16Nao 13 8

Tabela 5.13: Associacao entre tipo de cromossomo e idade do touro.Tipo do cromossomo

Idade do touro Acrocentrico Submetacentrico1 a 2 anos 21 17

3 anos ou + 30 7

Exercıcio 5.5. Em um estudo genetico realizado em macacos amazonicos da subespecie ”Saimiri sciureusustus”, Silva et al. (1993) encontraram variacao nas frequencias de dois tipos de enzimas glioxalase (GLO)em animais que vivem nas margens do rio Jamari, em Rondonia. Na Tabela 4, estao os numeros observadosde animais com diferentes tipos de enzimaticos, coletados nas margens esquerda e direita desse rio. Verifiquese existem evidencias de associacao entre as variaveis ao nıvel de 1%.

Tabela 5.14: Associacao entre tipos enzimaticos e margem do rio Jamari-Rondonia.Margem do rio

Enzima Esquerda DireitaGLO 2 72 74

GLO 2-3 22 3

Page 62: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 59

Exercıcio 5.6. Vieira e Prolla (1979) estudaram uma amostra de 384 pacientes com problemas pulmonares,classificando-os segundo a presenca ou nao de eosinofilos no escarro e o tipo de pneumopatia diagnosticada.Existem evidencias de associacao entre as variaveis ao nıvel de 5%? e a 1%? G1: asmas; G2: broncoespasmo;G3: enfisema; G4: outras doencas.

Tabela 5.15: Presenca de eosinofilos no escarro e tipo de doenca pulmonar em 384 pacientes porto-alegrenses.Grupo quanto a pneumopatia

Eosinofilos no escarro G1 G2 G3 G4Sim 142 26 32 28Nao 55 19 41 41

Exercıcio 5.7. O coleoptero chauliognathus flavipes pode apresentar 10 diferentes padroes para as manchaspretas que ocorrem sobre os elitros (asas), que sao amarelos. Machado e Araujo (1994) coletaram insetosdessa especie em varias localidades do Rio Grande do Sul, nos anos de 1989 e 1990, como mostra a Tabela6. Teste a hipotese de igualdade de proporcoes entre as localidades ao nıvel de 5% e a 1%.

Tabela 5.16: Numero de indivıduos da especie Chauliognathus com diferentes padroes de manchas nos elitros,coletados em tres localidades do Rio Grande do Sul.

Padrao do elitrosLocalidade Claro Intermediario Escuro

Porto Alegre 67 20 4Sao Leopoldo 68 29 19Caxias do Sul 26 3 6

Exercıcio 5.8. Verifique se as localidades a seguir diferem quanto a frequencia dos diferentes grupossanguıneos do sistema ABO, ao nıvel de 5%.

Tabela 5.17: Numero de indivıduos da especie Chauliognathus com diferentes padroes de manchas nos elitros,coletados em tres localidades do Rio Grande do Sul.

Tipo sanguıneoLocalidade A B AB OCidade I 43 9 1 47Cidade II 29 17 9 45

Page 63: Apostila bioestatistica

5.2 Teste de Independencia e de Homogeneidade ROSSI, Robson M. 60

Exercıcio 5.9. Um estudo foi conduzido para investigar se existe uma associacao entre doenca cardıaca eapneia (ronco). Teste esta hipotese ao nıvel de 5%.

Tabela 5.18: Associacao entre doenca cardıaca e apneia.Apneia

Doenca cardıaca nao ocasionalmente quase toda noite todas as noitesSim 24 35 21 30Nao 1355 603 192 224

Exercıcio 5.10. Reestruture os dados para uma tabela 2x2 considerando apenas sim ou nao para a apneia,em seguida teste a mesma hipotese ao nıvel de 5%, determine o OR e seu respectivo IC.

Page 64: Apostila bioestatistica

Capıtulo 6

Comparacoes Entre Grupos

6.1 Introducao

As vezes, e preciso comparar duas populacoes. Por exemplo, imagine que um pesquisador obteve, paraum grande numero de criancas, a idade em que cada uma delas comecou a falar. Para verificar se meninose meninas aprendem a falar na mesma idade, o pesquisador tera que comparar os dados dos dois sexos.

Outras vezes, e preciso comparar condicoes experimentais. Por exemplo, para saber se um tratamentotem efeito positivo, organizam-se dois grupos de unidades: um grupo recebe o tratamento em teste (e ogrupo tratado), enquanto o outro nao recebe o tratamento (e o grupo controle).

O efeito do tratamento e dado pela comparacao dos dois grupos.Frequentemente, para comparacao de dois tratamentos observam-se caracterısticas ou mede-se o valor da

variavel resposta de interesse que as caracterısticas importantes dos indivıduos que integram o mesmo parsejam tao semelhantes quanto possıvel. O tratamento e administrado a um dos elementos do par e o outro emantido como controle. A vantagem do procedimento e clara. Os indivıduos no par sao semelhantes, excetono que se refere ao tratamento recebido. Em algumas situacoes o par e constituıdo do mesmo indivıduo emduas ocasioes diferentes (amostras dependentes).

6.2 Resposta Dicotomica: Amostras Independentes

Comparar dois grupos atraves do resultado observado em uma variavel dicotomica e um problema comumna pesquisa medica, aparecendo com frequencia em todos os tipos de estudos clınicos.

A variavel de interesse e a ocorrencia de um evento, como o desenvolvimento de uma doenca de certoatributo, por exemplo, albinismo. O problema de comparacoes das probabilidades de ocorrencia do eventoou do atributo nos dois grupos (p1 e p2) e formulado atraves das hipoteses:

{H0 : p1 = p2

Ha : p1 6= p2

“nao ha diferenca significativa entre os grupos”“ha diferenca significativa entre os grupos”

6.2.1 Teste Qui-Quadrado

A Tabela 6.1 apresenta dados genericos de uma situacao envolvendo a comparacao de dois grupos e quea resposta de interesse e dicotominca: a ocorrencia ou nao de um evento.

Tabela 6.1: Distribuicao quanto a ocorrencia de um evento.Grupo Ocorrencia do Evento Total

Sim NaoI a b n1 = a + bII c d n2 = c + d

Total m1 = a + c m2 = b + d n = n1 + n2

61

Page 65: Apostila bioestatistica

6.2 Resposta Dicotomica: Amostras Independentes ROSSI, Robson M. 62

A estatıstica teste sera:

χ2c =

k∑

i=1

(Oi − Ei)2

Ei∼ χ2

1;(1−α)%

ou, para Tabelas 2×2:

χ2c =

n (ad− bc)2

n1n2m1m2∼ χ2

1;(1−α)% (Tabelas 2× 2)

Ha restricoes para aplicacao do χ2 em tabelas contingencia, logo a correcao de Yates (1934) e necessaria.Esta correcao deve ser feita quando:

• n < 40;

• 20 < n < 40 e Ei ≤ 5 para algum i;

• n > 40 e Ei ≤ 5 para algum i;

Para testar as hipoteses acima citadas temos a estatıstica teste qui-quadrado com correcao de continuidadede Yates, temos

χ2cY =

n(|ad− bc| − n

2

)2

n1n2m1m2∼ χ2

1;(1−α)% (Tabelas 2× 2)

Exemplo 6.1. Estudo sobre a associacao entre o uso corrente de contraceptivos e o infarto de miocardio.

Shapiro et al. (1979) observaram os resultados entre pacientes com idade entre 30 e 34 anos e estes saomostrados na Tabela 6.2.

Tabela 6.2: Distribuicao de uso de contraceptivo oral segundo grupo que sofreu ou nao infarto do miocardio.Grupo Uso recente Total

Sim NaoCasos 9 12 21Controles 33 390 423Total 42 402 444

Entre os casos, ou seja, entre as pacientes que tiveram um infarto do miocardio, a proporcao de uso recente

de contraceptivos e921

= 0, 43 e entre os controles,33423

= 0, 08. A diferenca entre estas duas proporcoes

(0,35) parece indicar que o uso de contraceptivos orais e mais frequente entre os casos (infartos). Mas seraque este resultado nao ocorreu por mero acaso?

A expressao χ2c = 24, 76 > 3, 84 = χ2

1;95%, nos indica, com alto grau de confianca (95%) afirmar que existeassociacao entre o uso de contraceptivos orais e infarto do miocardio para pacientes entre 30 e 34 anos.

Page 66: Apostila bioestatistica

6.2 Resposta Dicotomica: Amostras Independentes ROSSI, Robson M. 63

6.2.2 Teste Exato de Fisher

Nos casos em que formamos uma tabela de contingencia com formato 2 × 2, com pequeno numero deobservacoes (n < 20 ou proximo) e, consequentemente, com frequencias observadas em cada casela muitobaixas, a literatura apresenta a utilizacao do teste exato de Fisher, no qual estimamos, a partir da menorfrequencia contida na tabela, a probabilidade de ocorrencia deste valor e de uma frequencia menor ainda,

fazendo-se p =n∑

i=0

pi, em que n e a menor frequencia verificada na tabela.

Numa tabela de contingencia 2 × 2, com os totais marginais fixos, apresentada como a Tabela 5.1, asfrequencias observadas tem distribuicao hipergeometrica e a probabilidade de ocorrencia i sera dada por:

pi =n1!n2!m1!m2!

a!b!c!d!n!

Exemplo 6.2. Um estudo foi realizado para verificar a existencia de associacao entre o tipo de tratamentoe mortalidade por AIDS. A Tabela 6.3 apresenta os dados.

Tabela 6.3: Associacao entre o tipo de tratamento e mortalidade por AIDS.Tratamento Mortalidade Total

Sim NaoA 7 5 12B 1 9 10

Total 8 14 22

Sendo p =1∑

i=0

pi, temos

p1 =12!10!8!14!7!5!1!9!22!

= 0, 024.

e

Tabela 6.4: Associacao entre o tipo de tratamento e mortalidade por AIDS.Tratamento Mortalidade Total

Sim NaoA 8 4 12B 0 10 10

Total 8 14 22

assimp0 =

12!10!8!14!8!4!0!10!22!

= 0, 0015.

O valor de p sera 0, 024 + 0, 0015 = 0, 0255 (p-valor : 0,0263).Como este p e menor que o nıvel de significancia, para α = 0, 05 a decisao correta sera rejeitar H0, isto

e, pode-se concluir que ha diferenca quanto a mortalidade em relacao ao tipo de tratamento, sendo B maiseficaz.

Exemplo 6.3. Suponha um grupo de dezesseis ratos, divididos em dois grupos, experimental e normal. Ogrupo experimental e formado por 9 animais geneticamente modificados, por apresentarem uma disfuncaopancreatica com diminuicao da capacidade de producao de insulina. Imagine que, apos um ano e meio emambiente controlado, o numero de ratos vivos do grupo experimental e do normal seja o seguinte (Tabela6.5):

Pode-se notar que aproximadamente 71% dos ratos normais ainda permaneciam vivos, enquanto a so-brevida para o grupo experimental e de apenas 11%.

O teste exato de Fisher consiste em elaborar, com base nos totais marginais do fator discriminante databela original, duas outras tabelas, que serao denominadas tabelas ou matrizes extremas, X1 e X2. A matriz

Page 67: Apostila bioestatistica

6.2 Resposta Dicotomica: Amostras Independentes ROSSI, Robson M. 64

Tabela 6.5: Estudo em ratos sobre disfuncao pancreatica.Grupo Sobrevida + 1,5 ano Total

Vivos MortosNormal 5 2 7Experimental 1 8 9Total 6 10 16

extrema 1 e a matriz em que todos os animais mortos pertencem ao grupo normal (sao 10 mortos, mas ogrupo normal tem 7 ratos, logo, os outros 3 que morreram pertencem ao grupo experimental) e todos quesobraram do grupo experimental estao vivos (todos os vivos, pois sobraram 9-3 = 6 ratos). Desta forma,resulta na Matriz X1 (Tabela 6.6):

Tabela 6.6: Matriz X 1.

Grupo Sobrevida + 1,5 ano TotalVivos Mortos

Normal 0 7 7Experimental 6 3 9Total 6 10 16

A matriz extrema 2, X2, corresponde a uma tabela com os mesmos totais marginais, mas com todos osanimais vivos no grupo normal. Entao, pela matriz X2 (Tabela 6.7):

Tabela 6.7: Matriz X 2.

Grupo Sobrevida + 1,5 ano TotalVivos Mortos

Normal 6 1 7Experimental 0 9 9Total 6 10 16

Observe que existe um obito no grupo normal, pois o numero de ratos do grupo normal e maior que o deratos que sobreviveram. Obviamente, os 9 mortos que restaram pertencem ao grupo experimental. Nenhumrato do grupo experimental sobreviveu.

Finalmente, o valor de significancia para o teste e calculado segundo a formula apresentada anteriormente:Para a matriz original:

F0 :7!.9!.10!.6!

2!.5!.8!.1!.16!= 0, 02360

Para a matriz X 1 :

FX1 :7!.9!.10!.6!

0!.7!.6!.3!.16!= 0, 0105

Para a matriz X 2 :

FX2 :7!.9!.10!.6!

6!.1!.0!.9!.16!= 0, 0009

Finalmente,

p = F0 + FX1 + FX2 = 0, 0236 + 0, 01505 + 0, 0009 = 0, 035 ou 3, 5%.

Ou seja, a afirmacao de que a sobrevida dos ratos geneticamente alterados e menor que a dos ratosnormais envolve uma probabilidade de erro de 3,5%. Portanto, ao nıvel de 5% de significancia, rejeita-se ahipotese de nulidade (ou seja, de que as vidas dos ratos normais e dos transgenicos sao iguais).

Page 68: Apostila bioestatistica

6.3 Resposta Dicotomica: Amostras Pareadas ROSSI, Robson M. 65

6.2.3 Teste z para Comparacao de Proporcoes

Denotamos os dois resultados possıveis da variavel dicotomica por sucesso e fracasso. Sejam p1 e p2 asproporcoes de sucesso referentes aos tratamentos a serem comparados, que sao estimadas por p1 e p2, asproporcoes amostrais baseadas em amostras de tamanhos n1 e n2, respectivamente. Queremos testar ashipoteses:

H0 : p1 = p2

Ha : p1 6= p2

isto e, estamos investigando a equivalencia entre os dois tratamentos.Apresentaremos uma alternativa para o teste qui-quadrado para a comparacao de proporcoes. Trata-se

de um teste aproximado que requer amostras grandes para sua aplicacao. Um criterio e exigir que n1p1 en2p2 excedam o valor 5.

O teste e baseado emZc =

p1 − p2√p1(1−p1)

n1+ p2(1−p2)

n2

∼ N(0, 1).

Exemplo 6.4. Comparacao de drogas contra nausea.

Com o objetivo de comparar a eficacia de dois preventivos contra nausea, dividiu-se aleatoriamente umaamostra de 400 marinheiros em dois grupos de 200. Um grupo recebeu a pılula A e o outro a pılula B,sendo que no primeiro grupo 152 nao enjoaram durante uma tempestade e no outro grupo apenas 132. Haindicacoes de que a eficacia da pılula A e B e a mesma?

Sol.: Sejam pA e pB as proporcoes de marinheiros que nao enjoam, respectivamente para as pılulas A eB. Temos que nA = 200, nB = 200, pA = 152

200 = 0, 76, pB = 132200 = 0, 66, logo tem-se:

Z =0, 76− 0, 66√

0,76(1−0,76)200 + 0,66(1−0,66)

200

= 2, 22 (p-valor : 0,0281).

Fixando-se o nıvel de significancia em 5%, rejeita-se H0. Portanto, pode-se concluir que as duas pılulasnao sao igualmente efetivas. Ha indicacao de que a pılula A oferece maior protecao contra nausea comparadaa pılula B.

6.3 Resposta Dicotomica: Amostras Pareadas

Podemos distinguir tres tipos de pareamento: auto-pareamento, pareamento natural e pareamento artifi-cial.

O auto-pareamento ocorre quando o indivıduo serve como seu proprio controle, como na situacao emque um indivıduo recebe duas drogas administradas em ocasioes diferentes. Outra situacao e a que umtratamento e administrado e as variaveis de interesse sao observadas antes e depois do programa. Finalmente,a comparacao de dois orgaos no mesmo indivıduo, como bracos, pernas, olhos, narinas, segundo algumacaracterıstica estudada tambem constitui um auto-pareamento.

O pareamento natural consiste em formar pares tao homogeneos quanto possıvel, controlando os fatoresque possam interferir na resposta, sendo que o pareamento aparece de forma natural. Por exemplo, em ex-perimentos de laboratorio pode-se formar pares de cobaias selecionadas da mesma ninhada; em investigacoesclınicas, gemeos univitelinos sao muitos usados.

No pareamento artificial escolhe-se indivıduos com caracterısticas semelhantes, tais como, idade, sexo,nıvel socio-economico, estado de saude ou, em geral, fatores que podem influenciar de maneira relevante avariavel resposta.

Page 69: Apostila bioestatistica

6.3 Resposta Dicotomica: Amostras Pareadas ROSSI, Robson M. 66

6.3.1 Teste de McNemar

O exemplo a seguir ilustra a necessidade de desenvolvimento de um teste especıfico para a situacao dedados pareados em que a resposta e dicotomica.

Exemplo 6.5. Suponhamos que dois patologistas examinaram, separadamente, o material de 100 tumorese os classificaram como benignos ou malignos. A questao de interesse e saber se os patologistas diferem nosseus criterios de decisao.

Neste caso, a forma adequada de apresentacao dos dados e mostrada na Tabela 6.8.

Tabela 6.8: Classificacao de dois patologistas (A e B) quanto a malignidade de tumores.Diagnostico de B Diagnostico de A Total

Malignos BenignosMalignos 9 1 10Benignos 9 81 90Total 18 82 100

E importante observar que a unidade de analise aqui e o tumor, avaliado por dois patologistas. Emboratenham sido feitas 200 analises, o total de tumores e, na realidade, apenas 100.

Alem disto, alguns tumores serao claramente mais malignos do que outros e, portanto, a hipotese funda-mental na construcao do teste de probabilidade constante de malignidade nao e razoavel aqui. Isto explicaa necessidade de desenvolvimento de teste especıfico, isto e, para dados pareados.

Os dados a serem analisados no processo de comparacao podem ser resumidos no formato da Tabela 6.9.

Tabela 6.9: Apresentacao de dados obtidos em uma classificacao de dados pareados.Controle Tratamento Total

Sucesso FracassoSucesso a b n1

Fracasso c d n2

Total m1 m2 n

Se p1 e p2 sao as probabilidades de sucesso nos grupos controle e tratamento, respectivamente, a hipotesede interesse e:

H0 : p1 = p2

Ha : p1 6= p2

A Estatıstica Teste: (B/C)

χ2McN =

(|b− c| − 1)2

b + c∼ χ2

1.

A hipotese nula devera ser rejeitada quando χ2McN > χ2

1.

Page 70: Apostila bioestatistica

6.4 Resposta Contınua - Teste de Medias para Amostras Independentes ROSSI, Robson M. 67

Exemplo 6.6. Amigdalectomia e doenca de Hodgkin.

Johnson & Johnson (1972), ao analisarem retrospectivamente a historia clınica de pacientes de doenca deHodgkin, um tipo de cancer no tecido linfoide, nao encontraram evidencias que sustentassem a hipotese deque a amigdalectomia aumenta a suscetibilidade a doenca, pela remocao da ”barreira linfatica” representadapela amıgdala. Neste estudo, usaram um planejamento do tipo caso-controle pareado. A conclusao relatadano artigo foi feita, entretanto, com uma analise apropriada para dados provenientes de grupos independentes.Logo apos a publicacao, varios autores observaram a impropriedade da analise e, utilizando as informacoesdo artigo, fizeram a analise correta, que e baseada nos dados da Tabela 6.10.

Tabela 6.10: Distribuicao de pacientes com e sem doenca de Hodgkin em um estudo caso-controle pareadosegundo a amigdalectomia.

Doenca de Controle TotalHodgkin Operados Nao operadosOperados 26 15 41Nao operados 7 37 44Total 33 52 85

O valor da estatıstica do teste de McNemar e:

χ2McN =

(|15− 7| − 1)2

15 + 7= 2, 23 (p-valor : 0,1356).

Este valor dever ser comparado com 3,84 para um nıvel de significancia de 5%. Ou seja, com umaconfianca de 95% acreditamos que nao ha associacao entre a doenca de Hodgkin e a amigdalectomia. Estaconclusao nao esta de acordo com trabalhos anteriores, como o de Vianna et al. (1971).

6.4 Resposta Contınua - Teste de Medias para Amostras Indepen-dentes

As vezes, e preciso comparar duas populacoes. Por exemplo, imagine que um pesquisador obteve, paraum grande numero de criancas, a idade em que cada uma delas comecou a falar. Para verificar se meninose meninas aprendem a falar na mesma idade, o pesquisador tera que comparar os dados dos dois sexos.

Nesta secao apresentamos a metodologia para comparar dois grupos de pacientes (por exemplo, doentesversus nao doentes) em relacao a uma resposta contınua, por exemplo, pressao sistolica. Testa-se, neste caso,a igualdade das medias das respostas de dois tratamentos.

Sejam µ1 e µ2 as medias da variavel estudada para os dois grupos, respectivamente. As hipoteses a seremtestadas sao:

H0 : µ1 = µ2

Ha : µ1 6= µ2

6.4.1 Teste t

Se a variavel em analise tem distribuicao normal ou aproximadamente normal, aplica-se o teste t paracomparar duas medias. Mas primeiro e preciso estabelecer o nıvel de significancia, α. Depois, dados os doisgrupos, 1 e 2, calculam-se:

a) as medias de cada grupo:

x1 : media do grupo 1x2 : media do grupo 2

b) as variancias ou os desvios-padroes de cada grupo:

s1 : desvio-padrao do grupo 1s2 : desvio-padrao do grupo 2

Page 71: Apostila bioestatistica

6.4 Resposta Contınua - Teste de Medias para Amostras Independentes ROSSI, Robson M. 68

c) a variancia ponderada:

s2p =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2

d) o valor da estatıstica teste, tc, definida por:

tc =x1 − x2√

s2p

(1n1

+1n2

) ∼ tn1+n2−2;α%

O intervalo de confianca para (µ1 − µ2) sera:

(x1 − x2)± tn1+n2−2;α%.s2p.

√(1n1

+1n2

)

Exemplo 6.7. Comparacao entre tratamentos para dieta.

Para verificar se duas dietas para emagrecer sao igualmente eficientes, um medico separou, ao acaso, umconjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para seu grupo. Decorridocerto tempo, o medico obteve a perda (ou ganho) de peso, em quilogramas, de cada paciente de cada grupo.Os dados estao apresentados na Tabela 6.11:

Tabela 6.11: Perdas de peso, em quilogramas, segundo a dieta.1 15 19 15 12 13 16 15 - - -2 12 8 15 13 10 12 14 11 12 13

Apos alguns calculos preliminares, temos: x1 = 12; x2 = 15; s21 = 4; s2

2 = 5; s2p = 4, 4, desta forma, para

α = 5%, temos t15;5% = ±2, 13, assim:

tc =12− 15√

4, 4(

110

+17

) = −2, 902 ∈ Regiao de rejeicao de H0, logo podemos

p− valor : 0, 010947

concluir que, em media, as perdas de peso de pacientes submetidos aos dois tipos de dieta sao diferentes.Em termos praticos, a perda de peso e maior quando os pacientes sao submetidos a dieta 2.

6.4.2 Teste z

Um pressuposto importante para aplicar o teste t visto anteriormente e que os dois grupos comparadostenham a mesma variabilidade, o que nem sempre acontece na pratica. No caso de amostras grandes (n1 en2 ≥ 30) dispomos de um teste em que nao e necessario qualquer suposicao adicional sobre σ2

1 e σ22, ou seja,

as varancias podem ser iguais ou diferentes.A estatıstica teste usada sera:

Zc =x1 − x2√s21

n1+

s22

n2

∼ N(0, 1).

Exemplo 6.8. Efeito do halotano em cirurgias cardıacas.

O halotano e uma droga bastante utilizada para induzir a anestesia geral. Trata-se de um poderosoanestesico de inalacao, nao inflamavel e nao explosivo, com um odor relativamente agradavel. Pode seradministrado ao paciente com o mesmo equipamento usado para sua oxigenacao.

Apos a inalacao, a substancia chega aos pulmoes tornando possıvel a passagem para o estado anestesicomais rapidamente do que seria possıvel com drogas administradas de forma intravenosa.

Page 72: Apostila bioestatistica

6.5 Resposta Contınua - Teste de Medias para Amostras Pareadas ROSSI, Robson M. 69

Entretanto, os efeitos colaterais incluem a depressao do sistema respiratorio e cardiovascular, sensibi-lizacao a arritmias produzidas por adrenalina e eventualmente o desenvolvimento de lesao hepatica. Algunsanestesistas acreditam que esses efeitos podem causar complicacoes em pacientes com problemas cardıacose sugerem o uso da morfina como um agente anestesico nesses pacientes devido ao seu pequeno efeito naatividade cardıaca.

Conahan et al. (1973) compararam esses dois agentes anestesicos em um grande numero de pacientessubmetidos a uma cirurgia de rotina para reparo ou substituicao da valvula cardıaca. Para obter duasamostras comparaveis, os pacientes foram alocados aleatoriamente a cada tipo de anestesia. Com o objetivode estudar o efeito desses dois tipos de anestesia, foram registradas variaveis hemodinamicas, como pressaosanguınea antes da inducao anestesica, apos a anestesia mas antes da incisao, e em outros perıodos impor-tantes durante a operacao. A questao que surge e se o efeito do halotano e da morfina na pressao sanguıneae o mesmo. Para comparar os dois grupos, necessitamos dos resultados apresentados na Tabela 6.12 a seguir:

Tabela 6.12: Media e desvio-padrao da pressao sanguınea (mmHg) segundo o tipo de anestesia.Informacoes Anestesiasobre a amostra Halotano MorfinaMedia 66,9 73,2Desvio-Padrao 12,2 14,4n 61 61

Nas condicoes do problema, as hipoteses sao:{

H0 : µ1 = µ2

Ha : µ1 6= µ2;

isto e, devemos testar a diferenca entre as pressoes sanguıneas medias de indivıduos anestesiados com halotanoou morfina.

Como as amostras sao grandes, podemos usar o teste Z, cujo valor da estatıstica do teste e:

Zc =66, 9− 73, 2√12, 22

61+

14, 42

61

= − 6, 30√5, 84

= −2, 61 (p-valor : 0,0103).

Adotando um nıvel de siginificancia de 5%, o resultado e estatisticamente significativo, ja que |−2, 61| >1, 96, indicando que os dois anestesicos nao sao equivalentes.

6.5 Resposta Contınua - Teste de Medias para Amostras Pareadas

6.5.1 Teste t

Para estudar o efeito de um tratamento, muitas vezes comparam-se pares de indivıduos. Por exemplo, emalguns estudos de psicologia comparam-se pares de gemeos: um dos gemeos recebe o tratamento, enquantoo outro permanece sem o tratamento (controle).

Outras vezes, comparam-se os dois lados dos mesmos indivıduos. Por exemplo, par estudar o efeito de umtratamento para prevencao de caries, o dentista pode aplicar o tratamento em um lado da arcada dentariade cada paciente, e deixar o outro lado sem tratamento (controle).

Tambem sao feitos experimentos em que se observam os mesmos indivıduos duas vezes, isto e, uma vezantes, outra vez, depois de administrar o tratamento. Por exemplo, para verificar o efeito de um tratamentosobre pressao arterial, o medico pode obter a pressao arterial de seus pacientes, antes e depois de administraro tratamento.

Todos esses exemplos sao de observacoes pareadas (pares de gemeos, dois lados de um indivıduo, ob-servacoes no mesmo indivıduo). Para testar o efeito de um tratamento, quando as observacoes sao pareadas,aplica-se o teste t.

Page 73: Apostila bioestatistica

6.5 Resposta Contınua - Teste de Medias para Amostras Pareadas ROSSI, Robson M. 70

Estatıstica teste:

tc =d√s2

n

∼ tn−1;α%

onde:d : media das diferencas, di = x2 − x1 : a diferenca entre as unidades de cada um dos n pares

d =

n∑i=1

di

n

s2 : variancia das diferencas, di.Toda vez que o valor absoluto de tc for igual ou maior do que o valor tabelado tn−1;α%, conclui-se que o

tratamento tem efeito ao nıvel α% estabelecido.O intervalo de confianca para d, sera dado por:

d± tn−1;α%.S√n

Exemplo 6.9. Sao dados os pesos de 9 pessoas, antes e depois da dieta para emagrecimento.

Tabela 6.13: Pesos em Kg de 9 pessoas antes e depois da dieta para emagrecimento.Dieta

Antes Depois di

77 80 362 58 -461 61 080 76 -490 79 1172 69 -386 90 459 51 -888 81 -7

Total -30

Para fazer o teste, e preciso primeiro estabelecer o nıvel de significancia. Seja α = 1%,

d = −309

= −3, 33

s2 = 25

logo

tc =−3, 33√

259

= −2, 0 (p-valor : 0,080516).

Ao nıvel de siginificancia de 1% com g.l. = 8, o valor de t tabelado para t8;1%.e de 3,36. Como o valorabsoluto de tc (2,0) e menor do que o valor da tabela, concui-se que o tratamento nao tem efeito significativo.Em termos praticos, o experimento nao provou que a dieta emagrece.

Page 74: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 71

Exercıcio 6.1. Avaliacao morfoquantitativa dos neuronios mioentericos nadh-diaforase reativos do estomagode ratos com diabetes induzido por estreptozootocina e suplementados com acido ascorbico (Mestrado emMorfologia-UEM).

Este trabalho teve entre varios objetivos, verificar se existe diferenca de tamanho entre as regioes glandulare aglandular, entre as sub-regioes aglandular (A e B) e glandular (A e B) e entre o estomago como um todo;e verificar se o diabetes afeta mais a regiao glandular do que a regiao aglandular, ou vice e versa. Parte dosdados estao disponıveis na Tabela (6.14) a seguir.

Tabela 6.14: Avaliacao morfoquantitativa dos neuronios mioentericos nadh-diaforase reativos do estomagode ratos com diabetes induzido por estreptozootocina e suplementados com acido ascorbico.

aglanB aglanA aglanTotal glanB glanA glanTotal Grupos101,1 92,37 193,47 123,6 123,2 246,8 c97,24 121,9 219,14 92,83 100,6 193,43 c146,9 197,2 344,1 138,6 133,5 272,1 c94,44 96,5 190,94 149,5 114,3 263,8 c139,5 110,4 249,9 184,4 143,6 328 c203,3 191,1 394,4 438,1 367,2 805,3 d232,4 216,1 448,5 290,7 311 520,7 d237,3 240,3 477,6 271,4 193,4 464,8 d139,5 158,2 297,7 269,5 159,6 429,1 d222,9 262,4 485,3 334,6 246,8 581,4 d234,1 191,9 426 253 231,5 484,5 ds201,9 207,3 409,2 237,7 186,6 424,3 ds164,1 213,3 377,4 269,3 214,7 484 ds

- - - 251,1 217,1 468,2 ds

6.6 Testes Nao-Parametricos

Os testes nao-parametricos sao boas opcoes para situacoes em que ocorrem violacoes dos pressupostosbasicos necessarios para a aplicacao de um teste parametrico. Por exemplo, para testar a diferenca de doisou mais grupos quando a distribuicao subjacente e assimetrica ou dos dados foram coletados em uma escalaordinal.

6.6.1 Teste U de Mann-Whitney

Este teste corresponde a mais uma alternativa para a comparacao de duas amostras independentes,utilizando, como os demais testes nao-parametricos, os numeros naturais para classificacao conjunta dosvalores observados. Portanto, o posto de um valor de um conjunto de n valores corres-ponde a um numeronatural que indicara a sua posicao no conjunto anteriormente ordenado (posto, score ou rank), isto e, todasas N observacoes recebem uma pontuacao atraves dos numeros naturais 1, 2, 3, 4, ..., n. Assim, ao menor valorse dara o numero 1, e assim sucessivamente ate o valor maior, que recebera a maior pontuacao. Quandoocorre a presenca de valores iguais no conjunto, considera-se um ponto medio, nao afetando o posto seguinte.Portanto, num conjunto de seis valores ja ordenados {7-12-18-18-19-23} os postos serao {1-2-3,5-3,5-5-6},respectivamente.

Quanto ao procedimento mais adequado para a aplicacao do teste, baseamo-nos no calculo de U1 e U2,sendo:

U1 = n1n2 +n1(n1 + 1)

2− T1

e

U2 = n1n2 +n1(n1 + 1)

2− T2

onde n1 e n2 sao os tamanhos das duas amostras de T1 e T2, que correspondem as somas dos pontos (postos)atribuıdos aos valores das duas amostras.

Page 75: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 72

Para amostras pequenas (n ≤ 20)

Uc = mın{U1;U2}Obtemos uma estatıstica tabelada : UT = Uα,n1,n2 e concluımos para a rejeicao de Ho se Uc ≤ UT .

Para amostras grandes (n > 20)

Neste caso o teste pode ser aplicado por aproximacao normal, sendo

µ(u) =n1n2

2e σ(u) =

√n1n2(n1 + n2 + 1)

12.

Neste caso, a expressao do teste sera:

Z =u1 − µ(u)

σ(u)∼ N(0, 1).

Exemplo 6.10. Verificar se os dados das duas amostras apresentam diferenca significativa.

Tabela 6.15: Dados hipoteticos.Amostra A Amostra B2,6 (9,5) 2,3 (5)2,9 (13) 2,8 (12)2,5 (8) 2,0 (2)2,7 (11) 1,8 (1)3,2 (14) 2,4 (7)2,6 (9,5) 2,3 (5)2,3 (5) 2,2 (3)3,3 (15) -

T1 = 85, 0 T2 = 35, 0

Procede-se a ordenacao dos valores para obtencao dos seus postos e posteriormente seu somatorio.Temos entao n1 = 8, n2 = 7, T1 = 85 e T2 = 35.O valor de U1 e de U2, respectivamente serao:

U1 = 8.7 +8(8 + 1)

2− 85 = 7

U2 = 8.7 +7(7 + 1)

2− 35 = 49.

AssimUc = mın{7;49} = 7

O valor da estatıstica tabelada sera de:

UT = Uα,n1,n2 = U5%,8,7 ' 12

Como Uc ≤ UT rejeitamos Ho. Portanto as amostras diferem entre si ao nıvel de 5% de significancia.Suponho n ≥ 20 O teste pode ser aplicado tanto para U1 ou U2, pois ambos sao simetricos em relacao a

media 28.

µ(u) =n1n2

2=

8.72

= 28 e σ(u) =

√8.7(8 + 7 + 1)

12= 8, 63.

Sendo assim:Z =

7− 288, 63

= −2, 43 (p-valor : 0,013986).

Como o valor de |Z| e maior do que Zα, quando α = 5%, ou seja, o valor 1,96, rejeitamos H0. Considera-seque as amostras diferem entre si ao nıvel de 5% de significancia.

Page 76: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 73

Exercıcio 6.2. Diagnostico e tratamento da Osteoporose.

Osteoporose e uma doenca esqueletica sistemica caracterizada por baixa massa ossea e alteracao damicro-arquitetura, levando a um aumento da fragilidade ossea e, consequentemente, do risco de fratura.

A massa ossea aumenta durante a infancia e principalmente adolescencia, atingindo seu pico em tornodos 25 anos na mulher e 30 a 35 anos no homem.

Apos a parada do crescimento osseo, a formacao e a reabsorcao ocorrem na mesma proporcao, em umprocesso denominado de remodelacao ossea.

Com o avanco da idade cronologica, a formacao ossea torna-se menor que a reabsorcao, levando a umaperda de massa ossea em torno de 1% ao ano. A quantidade de osso presente no adulto e proporcional aopico de massa ossea atingido.

Na osteoporose pos-menopausa (desencadeada pelo hipoestrogenismo), a reabsorcao ossea se manifestamais precocemente nas regioes ricas em osso trabecular, levando a fratura na regiao distal do radio e colapsocentral das vertebras dorsais e lombares.

A osteoporose e uma doenca assintomatica ate o paciente apresentar alguma fratura. Os locais maiscomuns sao vertebras, regiao distal do radio e colo do femur. As principais complicacoes das fraturas saodor cronica e deformidade ossea. Assim, com objetivo de detectar pacientes com osteoporose coletou-se umaamostra de 30 pacientes aleatoriamente em um Hospital Universitario. De cada paciente realizou-se umcadastro onde tinha as seguintes variaveis: idade, peso, altura, atividade fısica, historia de fratura materna,ingestao adequada de calcio, raca e outras como, tabagismo, algumas doencas (hipogonadismo, sındromesdisabsortivas) e drogas (corticoide) sao fatores de risco que aceleram a perda ossea.

Exercıcio 6.3. Utilize o banco de dados em anexo de nome: osteporose ex.stw e verifique se existe diferencaentre os grupos: Tabagismo e Ingestao, com relacao entre as variaveis: Altura, Peso e IMC, onde

IMC =Peso

Altura2;

* Considere α = 5%.

Page 77: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 74

6.6.2 Teste H de Kruskal-Wallis para k amostras

O teste de Kruska-Wallis foi criado como um substituto ao teste F na analise parametrica.Ele e utilizado para que se verifique o contraste entre k amostras independentes.Requisitos:

• Comparacao entre 3 ou mais grupos independentes;

• Dados ordinais (que possam ser ordenados);

• ni ≥ 6.

Os valores obtidos nas diversas amostras diferem entre si e portanto, sera uma maneira de verificar seestas diferencas sao devidas ao acaso ou se as amostras provem de populacoes diferentes.

Da mesma forma que nos outros testes, serao consideradas as hipoteses nula (H0) e alternativa (Ha), istoe:

H0 : “nao ha diferenca significativa entre os tratamentos”.Ha : “ha diferenca significativa entre os tratamentos”.

Quanto a metodologia usada no teste de Kruskal-Wallis, a expressao e definida por:

HK−W =12

N(N + 1).

k∑i=1

T 2i

ni− 3(N + 1) tal que H ∼ χ2

(k−1)

em que:Ti : e a soma das ordens atribuıdas ao tratamento i;k : corresponde ao numero de tratamentos ou amostras a comparar;ni : o numero de observacoes em cada tratamento k e,N : o total de observacoes em todos os tratamentos k.

Exemplo 6.11. Analisar o tempo de sobrevida, em meses, de pacientes atendidos na clınica de abdomendo hospital X, na cidade de Cabrobo.

Tabela 6.16: Tempo de sobrevida.Radioterapia (n1 = 7) Quimioterapia (n2 = 8) Cirurgia (n3 = 8)

17 (11) 20 (12) 32 (17)14 (9) 5 (3) 35 (20)4 (2) 9 (6) 26 (15)8 (5) 13 (8) 34 (18,5)

29 (16) 34 (18,5) 21 (13)6 (4) 2 (1) 45 (21)

15 (10) 11 (7) 50 (23)- 22 (14) 47 (22)

T1 = 57, 0 T2 = 69, 5 T3 = 149, 5

Questoes: Ha diferenca sifnificativa entre os tempos de sobrevivencia? Qual o tratamento recomendadobaseado no tempo de sobrevida?

Independentemente do numero de observacoes em cada grupo e utilizando os numeros naturais, procede-mos a ordenacao dos valores. Assim os valores acima receberiam a seguinte numeracao, conforme os valoresja entre parenteses.

Page 78: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 75

Entao:

HK−W =12

N(N + 1).

k∑i=1

T 2i

ni− 3(N + 1)

=12

23(23 + 1).

3∑i=1

T 2i

ni− 3(23 + 1)

=146

.

[572

7+

69, 52

8+

149, 52

8

]− 72

=146

. (3861, 7)− 72

= 11, 95 (p-valor : 0,0025).

Como HK−W ∼ χ2(k−1), entao H ∼ χ2

(3−1) ⇒ χ22;5% = 5, 99 e χ2

2;1% = 9, 21, portanto, considerando queo valor encontrado de HK−W = 11, 95 e maior do que os valores da tabela, tanto para α = 5% como paraα = 1%, concluımos pela rejeicao de H0 e consequentemente, pela indicacao de que o tratamento cirurgicose destaca dos demais, pois apresenta maiores valores aos tempos de sobrevida.

Exercıcio 6.4. Utilize o banco de dados citado no exercıcio anterior: osteoporose ex.stw para verificar seexiste diferenca entre as Racas, considerando as variaveis: Altura, Peso e IMC, ao nıvel de 5%.

6.6.3 Teste de Wilcoxon (Amostras Pareadas ou dependentes)

Trata-se de um teste nao-parametrico para comparar dois tratamentos quando os dados sao obtidosatraves do esquema de pareamento. A prova de Wilcoxon avalia a grandeza das diferencas quandocomparados postos de observacoes. Dada a grandeza das diferencas observadas, atribui-se maior valor paraa maior diferenca encontrada, diminuindo este valor de acordo com as menores diferencas existentes.

Procedimento

1. Calcular di : diferenca entre as obsevacoes

di = x(2)i − x

(1)i

2. Ignorar os sinais e atribuir postos

3. Calcular a soma dos postos (T+ e T−).

4. Obter o valor da estatıstica calculada

Tc = mın{|T−|; |T+|}

5. Obter o valor da estatıstica Tabelada (Anexo)

Tα;n

6. Concluir pela rejeicao de H0 se Tc ≤ Tα;n.

Pequenas Amostras (n ≤ 25)

No confronto de dois grupos quando desejamos identificar se existe diferenca significativa entre os mesmosquanto as medidas encontradas, empregamos o teste de Wilcoxon quando a variacao dos valores apresenta-sede forma acentuada.

A aplicacao deste teste pressupoe que as duas amostras sejam casualizadas e independentes, e que asvariaveis em confronto sejam contınuas.

A metodologia do teste consiste em se proceder a ordenacao dos valores das amostras e, posteriormente,atribuir aos mesmos seus “ranks”. Em seguinda, obtem-se os totais do ranks da amostra de menor tamanho,consultando-se a tabela (anexo) do referido teste.

Page 79: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 76

Exemplo 6.12. Foi realizado um ensaio clınico em que foram utilizadas duas drogas A e B. Com a drogaA foram tratados oito pacientes e com a droga B, cinco pacientes. Os nıveis de anticorpos corresponderama:

Tabela 6.17: Nıveis de anticorpos.Tratamento

A B7,4 (6) 9,1 (7)12,3 (9) 0,7 (1)11,8 (8) 19,2 (12)16,4 (10) 2,4 (3)1,9 (2) 17,5 (11)3,0 (4) -6,8 (5) -20,4 (13) -T1 = 57 T2 = 34

Logo, paraTc = mın{57; 34} = 34

consultando-se a Tabela de Wilcoxon, verifica-se que Tα;n = T5%;5 = 0 > 34 (no Statistica o p-valor : 0,8927).Assim, podemos afirmar que nao rejeitamos H0, ou seja, que os valores comparados, referentes as drogas A

e B, nao apresentam-se com diferenca siginificativa. Conclui-se, entao, que os valores de nıveis de anticorposem relacao aos dois tipos de drogas se comportam de forma semelhante.

Grandes Amostras (n > 25)

Nos casos de grandes amostras, estas apresentam valores com distribuicao normal e, portanto, a com-paracao das medidas sera realizada atraves de determinacao de um valor W ∗.

Sao enunciadas naturalmente as hipoteses. H0 sera rejeitada se o valor de W ∗ for maior ou igual a Zα

para um nıvel de significancia, α, pre-determinado.Assim, para a comparacao de conjuntos de medidas, provenientes de duas amostras, sera necessario

utilizar a expressao de W ∗ :

W ∗ =Tc − n(n + 1)

4√n(n + 1)(2n + 1)

24

∼ N(0, 1)

em que:n : numero de elementos da menor amostra;

Page 80: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 77

Exemplo 6.13. Evolucao do tratamento com tianeptina: Escores dos pacientes do grupo tianeptina noprimeiro e no ultimo dia:

Tabela 6.18: Tratamento com tianeptina.Tianeptina

Primeiro dia (m = 8) Ultimo dia (n = 8) d Postos24 6 -18 (-) 11,546 33 -13 (-) 726 21 -5 (-) 4,544 26 -18 (-) 11,527 10 -17 (-) 9,534 29 -5 (-) 4,533 33 0 (+) 125 29 +4 (+) 335 37 +2 (+) 230 15 -15 (-) 838 2 -36 (-) 1438 21 -17 (-) 9,531 7 -24 (-) 1327 * * *34 * * *32 26 -6 (-) 6

Sendo assim temos: |T−| = 99 e |T+| = 6, entao

Tc = mın{99; 6} = 6

De acordo com a Tabela de Wilcoxon,

Tα;n = T5%;14 = 21

Como 6 < 21, rejeitamos H0.Supondo n grande teremos:

W ∗ =6− 14(14 + 1)

4√14(14 + 1)(2.14 + 1)

24

= −2, 92 (p-valor : 0,003).

Considerando que o valor de W ∗ = −2, 92 esta na area de rejeicao de H0, para o valor de Z5% = ±1, 96,rejeitamos H0, ou seja, os valores dos dois conjuntos apresentam diferencas significativas.

Page 81: Apostila bioestatistica

6.6 Testes Nao-Parametricos ROSSI, Robson M. 78

6.6.4 Teste de Friedman para k tratamentos

O teste de Friedman e recomendado como um substituto do teste F, quando procede-se acomparacao de k amostras relacionadas ou dependentes cujas observacoes apresentam valorescom acentuadas variacoes e em cada tratamento sao constituıdos blocos. Na verdade, procura-sefazer a comparacao de tratamentos em que sao formados blocos com a intencao de que isto resulte em umpareamento consideravel entre os diversos tratamentos.

A forma de realizacao do teste e analogo aos demais. Dentro de cada um do n blocos formados procede-sea classificacao das i-esimas observacoes em k tratamentos, utilizando-se numeros naturais.

Assim, tem-se a estatıstica teste:

HFr =12

nk(k + 1).

k∑i=1

T 2i − 3n(k + 1) tal que HFr ∼ χ2

(k−1)

Exemplo 6.14. Sao prescritos quatro procedimentos tecnicos para determinacao de certa variavel. Foramformados cinco blocos e obtidos os seguintes valores:

Tabela 6.19: Dados de quatro procedimentos tecnicos.Tratamentos

A B C D12 (2) 13 (3) 16 (4) 7 (1)8 (2) 9 (3) 12 (4) 5 (1)14 (2) 20 (3) 22 (4) 6 (1)17 (3) 16 (2) 21 (4) 11 (1)12 (2) 15 (3) 16 (4) 10 (1)

T1 = 11 T2 = 14 T3 = 20 T4 = 5

Substituindo-se os valores na expressao no teste, tem-se:

HFr =12

5.4(4 + 1).

4∑i=1

T 2i − 3.5(4 + 1)

=12100

. [121 + 196 + 400]− 75

= 14, 04 (p-valor : 0,00285).

Como HFr ∼ χ2(k−1), entao HFr ∼ χ2

(4−1) ⇒ χ23;5% = 7, 82 e χ2

3;1% = 11, 34, portanto, considerando queo valor encontrado de HFr = 14, 04 e maior do que os valores da tabela, tanto para α = 5% como paraα = 1%, concluımos pela rejeicao de H0, logo verifica-se que ha diferenca significativa entre as medidas dostratamentos. O tratamento C apresentou melhores resultados em relacao aos demais grupos.

Page 82: Apostila bioestatistica

6.7 Outros Testes Nao-Parametricos ROSSI, Robson M. 79

6.7 Outros Testes Nao-Parametricos

6.7.1 Teste de Concordancia ou de Replicabilidade (Coeficiente de Kappa)

O coeficiente de Kappa e utilizado para verificar a concordancia entre os diagnosticos de dois especialistas.Observe a Tabela (6.20) abaixo:

Tabela 6.20: Concordancia entre o diagnostico de dois especialistas.Diagnostico Diagnostico Especialista 1 TotalEspecialista 2 Presente (+) Ausente (-)Presente (+) a (++) b (+-) n1 = a + bAusente (-) c (-+) d (–) n2 = c + dTotal m1 = a + c m2 = b + d n

Calculos auxiliares:

• Proporcao de concordancia observada:

po =a + d

n

• Proporcao de concordancia casual:

pc =n1.m1 + n2.m2

n2

• Coefficiente:Kappa =

po − pc

1− pc.

Classificacao:Kappa Concordanciak = 0 nenhuma

k < 0, 4 leve0, 4 ≤ k < 0, 8 moderada0, 8 ≤ k < 1 forte

k = 1 perfeita

Exemplo 6.15. Em uma determinada experiencia, foi avaliado o grau de lesao do tecido hepatico, em 20cobaias as quais foi administrada uma certa substancia toxica. Os resultados dos exames efetuados por doispatologistas foram o seguinte:

Tabela 6.21: Teste Kappa para a concordancia entre patologistas quanto ao grau de lesao do tecido hepatico.Cobaia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Patologista 1 + + + + + + - + + + + + + - - + - + + -Patologista 2 + + - + + + - - + + - + + - - - - - + -

+ : presenca de lesao hepatica- : ausencia de lesao hepatica.

Com base nesses resultados, e possıvel construir a tabela abaixo:

Page 83: Apostila bioestatistica

6.7 Outros Testes Nao-Parametricos ROSSI, Robson M. 80

Tabela 6.22: Concordancia entre o diagnostico de dois especialistas.Diagnostico Diagnostico Patologista 1 TotalPatologista 2 Presente (+) Ausente (-)Presente (+) 10 5 15Ausente (-) 0 5 5Total 10 10 20

Entao temos:po =

a + d

n=

10 + 520

= 0, 75

pc =n1.m1 + n2.m2

n2=

15.10 + 5.10202

=200400

= 0, 5

Kappa =po − pc

1− pc=

0, 75− 0, 51− 0, 5

= 0, 5.

Conclui-se que existe uma concordancia apenas moderada entre os diagnosticos dos patologistas.

6.7.2 Teste de Cochran

O teste de Cochran e utilizado quando as respostas do tratamento sao do tipo ”Sucesso” ou ”Insucesso”,”Alterado” ou ”Nao alterado” e, alem disso, cada unidade experimental e avaliada em relacao a mais de doistratamentos distintos, o que caracteriza a dependencia ou o pareamento das unidades amostrais.

E uma extensao da prova de McNemar para a significancia de mudancas. Particularmente e aplicavelaos planejamentos do tipo “antes e depois”, em que cada indivıduo e utilizado como seu proprio controle ea mensuracao se faz ao nıvel de uma escala nominal ou ordinal.

A prova de Cochran para k amostras relacionadas proporciona um metodo para comprovar se tres oumais conjuntos correspondentes de frequencias ou proporcoes diferem entre si significativamente:

Os mesmos indivıduos sao observados sob condicoes diferentes;Para escores ordinais dicotomizados, atribui o escore 1 a cada “sucesso” e o escore 0 a cada “falha”;Posiciona os dados numa tabela CxI com C colunas, que correspondem ao numero k de tratamentos I

linhas, que coincidem com o numero de casos em cada um dos k tratamentos;Utiliza o somatorio dos resultados correspondentes a cada grupo e os somatorios dos escores de cada

bloco;

Grupo Blocok∑

j=1

Gj = G1 + G2 + ... + Gk

n∑i=1

Lj = L1 + L2 + ... + Ln

n∑i=1

L2j = L2

1 + L22 + ... + L2

n

Estatıstica teste:

Q =

(k − 1)k

k∑

j=1

G2j −

(k∑

j=1

Gj

)2

kn∑

i=1

Lj −n∑

i=1

L2j

∼ χ2k−1;

Quando Q > χ2k−1 a decisao a ser tomada e de rejeicao de H0.

Nao se conhece exatamente o poder da prova de Cochran.A nocao de poder-eficiencia nao tem sentido quando se aplica a prova de Cochran a dados nominais ou

naturalmente dicotomicos, pois as provas parametricas nao se aplicam a tais dados.Quando se utiliza a prova de Cochran em dados que nao sejam nominais ou naturalmente dicotomicos,

ha perda de informacoes.

Page 84: Apostila bioestatistica

6.7 Outros Testes Nao-Parametricos ROSSI, Robson M. 81

Exemplo 6.16. Suponha que estejamos interessados em estudar a influencia da atitude de um entrevistadorsobre as respostas das donas de casa a determinada pesquisa de opiniao.

Poderemos treinar um entrevistador para efetuar suas entrevistas de tres maneiras diferentes: entrevistatipo 1 – demonstrando interesse, cordialidade, entusiasmo; entrevista tipo 2 – demonstrando formalismo,reserva e cortesia; entrevista tipo 3 – demonstrando desinteresse, modo abrupto, formalismo aspero.

Tabela 6.23: Influencia do pesquisador em pesquisas de opiniao.

Conjunto Respostaa entrevista 1

Respostaa entrevista 2

Respostaa entrevista 3 Li L2

i

1 0 0 0 0 02 1 1 0 2 43 0 1 0 1 14 0 0 0 0 05 1 0 0 1 16 1 1 0 2 47 1 1 0 2 48 0 1 0 1 19 1 0 0 1 110 0 0 0 0 011 1 1 1 3 912 1 1 1 3 913 1 1 0 2 414 1 1 0 2 415 1 1 0 2 416 1 1 1 3 917 1 1 0 2 418 1 1 0 2 4

O entrevistador visitaria tres grupos de 18 casas, aplicando aleatoriamente o tipo 1 de entrevista a umgrupo, o tipo 2 a outro grupo, o tipo 3 ao terceiro grupo.

Terıamos entao 3 amostras relacionadas (correspondentes) com 18 elementos cada uma (n = 18). Dese-jamos comprovar se as diferencas fundamentais nos tipos de entrevista influenciariam o numero de respostasafirmativas (“sim”) dadas a determinada pergunta.

Etapa 1:H0: A probabilidade de um “sim” e a mesma para os tres tipos de entrevista.H1: As probabilidades de um “sim” diferem conforme o tipo de entrevista.Etapa 2: Estabelecendo o nıvel de significancia: α = 0, 01.Etapa 3: Estabelecendo a estatıstica de teste: Q de Cochran porque os dados se referem a mais de dois

grupos relacionados (k = 3) e se apresentam dicotomizados sob forma “sim” ou “nao”.Etapa 4: Estabelecendo os valores crıticospara gl = k − 1 = 3− 1 = 2 e nıvel de significancia = 0, 01 um valor de 9, 21.Etapa 5: Calculo da Estatıstica teste:Calculando os somatorios dos resultados correspondentes a cada grupo e o somatorio dos escores de cada

bloco (Li) temos:G1 = 13 - no total de respostas sim para entrevista 1G2 = 13 - no total de respostas sim para entrevista 2G3 = 3 - no total de respostas sim para entrevista 3apos calculos Q = 16, 7.Etapa 6: Como Q > χ2crıtico (16, 7 > 9, 21), entao rejeita-se H0, ou seja, o numero de respostas “sim”

difere significativamente em relacao aos tipos 1, 2 e 3 de entrevista.

Page 85: Apostila bioestatistica

6.7 Outros Testes Nao-Parametricos ROSSI, Robson M. 82

Figura 6.1: Grafico para o teste de Cochran.

Exercıcio 6.5. Comparar quatro tecnicas de treinamento aplicadas a seis blocos de funcionarios do setor demarcacao de luz de uma empresa cinematografica. Cada bloco foi formado de modo que os quatro funcionariosque o constituıam eram equivalentes em seu desempenho atual no cargo. Os resultados obtidos na escala deavaliacao de desempenho, aplicada apos o treinamento, foram os que constam no quadro abaixo.

Tabela 6.24: Teste em funcionarios do setor de marcacao de luz de uma empresa cinematografica.Tratamentos

Blocos X1 Escore X2 Escore X3 Escore X4 EscoreA 7 1 9 1 10 1 6 0B 8 1 12 1 11 1 5 0C 6 0 7 1 8 1 4 0D 3 0 5 0 6 0 6 0E 9 1 10 1 8 1 2 0F 4 0 7 1 5 0 9 1

Total - 3 - 5 - 4 - 1

Exercıcio 6.6. Reacao em cadeia da polimerase (PCR) em sangue de camundongos infectados com clonesde trypanosoma cruzi pertencentes a diferentes genotipos.

(Banco de dados: Analises Clinicas ex.stw) O objetivo principal do trabalho foi o de investigar se existediferenca entre os tratamentos: PCR, ELISA, HEMO e ESF de modo global (para toda a amostra), porGenotipo: 39, 32, 20 e 19 e por Fase: Aguda ou Cronica.

Exercıcio 6.7. Utilize o bancos de dados: Pediat ex.stw e Psi1 ex.stw, leia as informacoes e faca o que sepede.

Page 86: Apostila bioestatistica

Capıtulo 7

Analise de Variancia

As vezes e preciso comparar medias de mais de duas populacoes. Por exemplo, para verificar se pessoascom diferentes nıveis de renda, isto e, alto, medio e baixo tem, em media, o mesmo peso corporal, e precisocomparar medias de tres populacoes.

Outras vezes, e preciso comparar varias situacoes experimentais. Por exemplo, se um pesquisador separa,ao acaso, um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo, tera quecomparar medias de quatro ”populacoes”.

Para comparar medias de mais de duas populacoes normais ou aproximadamente normais, aplica-se oteste F. Neste caso convem verificar antecipadamente a normalidade dos dados.

Por exemplo, imagine que 4 amostras casuais simples, todas com cinco elementos mas cada uma prove-niente de uma populacao, conduziram aos dados apresentados na Tabela 7.1.

Tabela 7.1: Dados de 4 amostras e respectivas medias.Amostras

A B C D11 8 5 48 5 7 45 2 3 28 5 3 08 5 7 0

x1 = 8 x2 = 5 x3 = 5 x4 = 2

Sera que as diferencas das medias das amostras sao suficientemente grandes para que se possa afirmarque as medias das populacoes sao diferentes? Para responder a esta pergunta, e preciso um teste estatıstico.

7.1 Analise de Variancia para Experimentos ao Acaso

Primeiro, e preciso estudar as causas de variacao. Por que os dados variam? Uma explicacao e o fato deas amostras provirem de populacoes diferentes. Outra explicacao e o caso, porque mesmo dados provenientesda mesma populacao variam.

O teste F e feito atraves de uma analise de variancia, que separa a variabilidade devido aos “trata-mentos” (no exemplo, devido as amostras terem provindo de populacoes diferentes) da variabilidaderesidual, isto e, devido ao acaso. Para aplicar o teste F e preciso fazer uma serie de calculos, que exigemconhecimento de notacao.

A Tabela 7.2, apresenta os dados de k tratamentos, cada um com r repeticoes (no exemplo, denominam-serepeticoes os elementos da mesma amostra). A soma das r repeticoes de um mesmo tratamento constitui ototal desse tratamento. O total geral e dado pela soma dos k totais de tratamentos.

83

Page 87: Apostila bioestatistica

7.1 Analise de Variancia para Experimentos ao Acaso ROSSI, Robson M. 84

Tabela 7.2: Notacao para a analise de variancia.Tratamentos1 2 3 ... k Totalx11 x21 x31 ... xk1

x12 x22 x32 ... xk2

. .

. .

. .x1r x2r x3r xkr

Total T1 T2 T3 ... Tk

∑T =

∑x

No de repeticoes r r r ... r n = krMedia x1 x2 x3 xk

Para fazer a analise de variancia e preciso calcular as seguintes quantidades:

1. os graus de liberdade:

(a) de tratamento: k − 1

(b) de total: n− 1

(c) de resıduo: (n− 1)− (k − 1) = n− k

2. o valor C, dado pelo total geral elevado ao quadrado e dividido pelo numero de dados. O valor C echamado correcao.

C =(∑

x)2

n

3. a soma de quadrados total:SQT =

∑x2 − C

3. a soma de quadrados de tratamentos:

SQTr =∑

T 2

r− C

4. a soma de quadrados de resıduos:SQR = SQT − SQTr

5. o quadrado medio de tratamentos:

QMTr =SQTr

k − 1

6. o quadrado medio de resıduo:

QMR =SQR

n− k

7. o valor de FF =

QMTr

QMR

Em seguida, e preciso comparar o valor calculado de F com o valor tado em tabela, ao nıvel de significanciaestabelecido e com (k − 1) graus de liverdade no numerador e (n− k) graus de liberdade no denominador.

Toda vez que o valor calculado de F for maior ou igual do que o da tabela conclui-se, ao nıvel designificancia estabelecido, que as medias de tratamentos sao iguais.

Page 88: Apostila bioestatistica

7.1 Analise de Variancia para Experimentos ao Acaso ROSSI, Robson M. 85

Exemplo 7.1. Para os dados apresentados na Tabela 7.1, proceder uma analise de variancia para verificarse existe diferenca significativa entre os tratamentos.

1. os graus de liberdade:

(a) de tratamento: k − 1 = 4− 1 = 3

(b) de total: n− 1 = 20− 1 = 19

(c) de resıduo: (n− 1)− (k − 1) = n− k = 20− 4 = 16

2. o valor C:

C =(∑

x)2

n=

(11 + 8 + ... + 0)2

20= 500

3. a soma de quadrados total:

SQT =∑

x2 − C = 112 + 82 + ... + 02 − 500 = 658− 500 = 158

3. a soma de quadrados de tratamentos:

SQTr =∑

T 2

r− C =

402 + 252 + 252 + 102

5− 500 = 590− 500 = 90

4. a soma de quadrados de resıduos:

SQR = SQT − SQTr = 158− 90 = 68

5. o quadrado medio de tratamentos:

QMTr =SQTr

k − 1=

903

= 30

6. o quadrado medio de resıduo:

QMR =SQR

n− k=

6816

= 4, 25

7. o valor de FF =

QMTr

QMR= 7, 06

As quantidades calculadas sao apresentadas numa tabela de analise de variancia. Veja a Tabela 7.3:

Tabela 7.3: Analise de variancia dos dados da Tabela 6.1.Causas da variacao GL SQ QM F pTratamentos 3 90 30 7,06 0,003086Resıduo 16 68 4,25Total 19 158

Ao nıvel de significancia de 5%, o valor de F tabelado, com 3 e 16 graus de liberdade (numerador edenominador, respectivamente), e de 3,24. Como o valor obtido e maior do que 3,24, conclui-se que asmedias nao sao iguais, ao nıvel de significancia de 5%.

Page 89: Apostila bioestatistica

7.2 Teste Parametrico para Comparacoes Multiplas ROSSI, Robson M. 86

7.2 Teste Parametrico para Comparacoes Multiplas

7.2.1 Teste Tukey

Uma analise de variancia permite estabelecer se as medias das populacoes em estudo sao, ou nao sao, esta-tisticamente iguais. No entanto, esse tipo de analise nao permite detectar quais sao as medias estatısticamentediferentes das demais. Por exemplo, a analise de variancia apresentada na Tabela 6.3 mostrou que as mediasdas populacoes nao sao iguais, mas nao permite concluir que e, ou quais sao, as medias diferentes das demais.

O teste de Tukey permite estabelecer a diferenca mınima significante (d.m.s), ou seja, a menor diferencade medias de amostras que deve ser tomada como estatisticamente significante, em determinado nıvel. Essadiferenca (d.m.s) e dada por:

d.m.s = q.

√QMR

r

onde q e um valor dado em tabela, QMR e o quadrado medio do resıduo da analise de variancia e r e onumero de repeticoes de cada tratamento.

Considere agora os dados da Tabela 7.1. A analise de variancia apresentada na Tabela 7.3 mostra umvalor F significante ao nıvel de 5%. Entao as medias de A, B, C e D nao sao estatısticamente iguais. Masqual e, ou quais sao, as medias diferentes entre si?

A pergunta pode ser respondida com a aplicacao do teste de Tukey. Ao nıvel de significancia de 5%,o valor de q para comparar 4 tratamentos (A,B, C e D), com 16 graus de liberdade no resıduo, e de 4,05.Como QMR = 4,25 e r = 5, segue-se que:

d.m.s = 4, 05.

√4, 25

5= 3, 73.

De acordo com o teste de Tukey, duas medias sao estatisticamente diferentes toda vez que o valor absolutoda diferenca entre elas for igual ou superior ao valor da d.m.s. No caso do Exemplo, o valor da d.m.s. e 3.73e os valores absolutos das diferencas entre as medias estao apresentados a seguir. E facil ver que a diferencaentre as medias A e D e maior do que a d.m.s. Entao, ao nıvel de 5%, a media de A e significativamentemair do que a media de D.

Tabela 7.4: Comparacoes entre as medias via Tukey.Pares de medias Valor absoluto da diferenca

A e B |8− 5| = 3A e C |8− 5| = 3A e D |8− 2| = 6B e C |5− 5| = 0B e D |5− 2| = 3C e E |5− 2| = 3

Page 90: Apostila bioestatistica

7.2 Teste Parametrico para Comparacoes Multiplas ROSSI, Robson M. 87

Exemplo 7.2. Com base nos dados apresentados na Tabela 7.5 abaixo, verifique se existe diferenca estatısticaentre os grupos. Note que sao tres grupos em comparacao. No grupo operado foi feita a remocao das glandulassalivares maiores, e no grupo pseudo-operado foram executados todos os tempos cirurgicos, mas nenhumaglandula foi removida (Banco de dados: Tukey1 ex.stw).

Tabela 7.5: Taxa de glicose, em miligramas por 100 ml de sangue, em ratos Wistar machos de 60 dias,segundo o grupo.

GrupoOperado Pseudo-operado Normal

96 90 8695 93 85100 89 105108 88 105120 87 90

110,5 92,5 10097 87,5 95

92,5 85 95

Sol.: A tabela de analise de variancia resume os calculos:

Tabela 7.6: ANOVA para a taxa de glicose.Causas da variacao GL SQ QM F pGrupos 2 717,25 358,625 6,73 0,005509Resıduo 21 1118,75 53,274Total 23 1836,00

Para aplicar o teste de Tukey ao nıvel de significancia de 5%, tem-se:

q3;21 ' 3, 57

e

d.m.s. = 3, 57

√53, 247

8= 9, 21.

Os valores absolutos das diferencas de medias estao apresentados na Tabela (7.7).

Tabela 7.7: Comparacoes para as taxas medias de glicose.Pares de medias Valor absoluto da diferenca p

Operado vs pseudo |102, 375− 89, 0| = 13, 375 0,0004Operado vs normal |102, 375− 95, 125| = 7, 25 0,1403Pseudo vs normal |89, 000− 92, 125| = 6, 125 0,2368

A taxa de glicose e, em media, maior nos operados do que nos pseudo-operados, ao nıvel de significanciade 5.

Page 91: Apostila bioestatistica

7.2 Teste Parametrico para Comparacoes Multiplas ROSSI, Robson M. 88

7.2.2 Teste Dunnett

Em muitos experimentos, e comum a necessidade de se realizar multiplas comparacoes, todas em relacaoa um unico grupo denominado “Controle”. Neste caso, o test Dunnett (1964) e apropriado.

Teremos (k − 1) comparacoes a serem realizadas em relacao ao controle e queremos testas as seguinteshipoteses:

H0 : µi = µc i = 1, 2, ..., k − 1Ha : µi 6= µc c: controle

O procedimento de Dunnett e analogo ao teste t, mas modificado.

d.m.s = d.

√2.QMR

r

onde r e o numero de repeticoes.Considerando um nıvel de confianca α, rejeitamos H0 se:

|xi − xc| > dα,(k−1),f .

√QMR.

(1ni

+1nc

)

onde:dα,(k−1),f esta tabelado (Tabela Dunnett) para k−1 comaracoes e f : no de observacoes dos tratamentos

(exceto o controle);QMR : proveniente da ANOVA (Quadrado Medio dos Resıduos);ni : no de observacoes do tratamento i;nc : no de observacoes do controle;xi e xc : medias, do tratamento e controle, respectivamente.

Exemplo 7.3. Deseja-se comparar o efeito de cinco drogas na diminuicao da pressao arterial. Para istoutilizou-se cinco grupos distintos e foram comparadas suas medias em relacao a media de um grupo controle,que recebeu placebo. Ao todo, 30 indivıduos participaram no experimento. A Tabela abaixo apresenta osvalores referentes a diferenca entre a pressao arterial no inıcio e no fim do experimento (mmHg).

Tabela 7.8: Diminuicao da pressao arterial, em milımetros de mercurio, segundo o tratamento.Tratamento

A B C D E Controle25 10 18 23 11 817 -2 8 29 23 -627 12 4 25 5 621 4 14 35 17 015 16 6 33 9 2

Apos a analise de variancia, tem-se:

Tabela 7.9: ANOVA para os dados de pressao arterial, em milımetros de mercurio, segundo o tratamento.Causas da variacao GL SQ QM F pGrupos 5 2354,17 470,83 13,08 0,000003Resıduo 24 864 36Total 29 3218,17

Como o valor de F apresentado e de 13,08 (p-valor = 0,000003) e significante ao nıvel de 5%, e razoavelprocurar um teste para comparar as medias dos tratamentos. A d.m.s. estabelecida pelo teste Dunnett(especıfico para este caso) sera:

d.m.s = d.

√2.QMR

r= 2, 70

√2.365

= 10, 25

Page 92: Apostila bioestatistica

7.3 Teste Nao-Parametrico para Comparacoes Multiplas ROSSI, Robson M. 89

Obs. O valor d = 2, 70 e proveniente da Tabela Dunnett com 24 graus de liberdade.Desta forma teremos:

Tabela 7.10: Comparacoes entre as medias dos dados de Pressao arterial.Pares de medias Valor absoluto da diferenca pA vs Controle |21− 2| = 19 > 10, 25 0,000182B vs Controle |8− 2| = 6 < 10, 25 0,392329C vs Controle |10− 2| = 8 < 10, 25 0,162730D vs Controle |29− 2| = 27 > 10, 25 0,000007E vs Controle |13− 2| = 11 > 10, 25 0,032024

E facil observar que os tratamentos A, D e E apresentam, em media, resultados melhores que os docontrole, ao nıvel de 5%.

7.3 Teste Nao-Parametrico para Comparacoes Multiplas

7.3.1 Teste Dunn-Bonferroni

Analogamente ao processo do Teste de Tukey para comparar tratamentos atraves de parametros popu-lacionais como a media, por exemplo, o Metodo de Dunn-Bonferroni pode ser utilizado para o caso Nao-Parametrico.

Hipoteses a serem testadas:

H0 : Mi = Mj (medias)Ha : Mi 6= Mj , para algum i 6= j.

A diferenca mınima significativa (d.m.s.) para os contrastes (em pares):

d.m.s. = Z1− α2Q

√N(N + 1)

12

(1ni

+1nj

)

onde

Q =k(k − 1)

2.

Intervalo de Confianca via Dunn-Bonferroni para os contrastes:

IC(1− α)% = (Mi −Mj)± d.m.s.

Decisao: Se o numero 0 nao pertencer ao IC, Rejeitamos H0.

Exemplo 7.4. Deseja-se comparar 3 Grupos, de 15 ratos (5 cada) em tres tipos de incentivos distintos:comida, agua e sexo. Os resultados mostrados na Tabela 7.11, representam tempos em segundos que cadarato precisou para sair de um labirinto de pesquisa.

Tabela 7.11: Tempo de percurso de um rato ate sair do labirinto.Grupo I (comida) 30, 33, 29, 35, 34Grupo II (agua) 28, 25, 31 27, 26Grupo III (sexo) 23, 21, 18, 15, 20

Desejamos saber se existe evidencia suficiente para afirmar, a um nıvel de significancia de 1%, que existediferenca entre os grupos, e se houver, desejamos saber entre quais.

Page 93: Apostila bioestatistica

7.3 Teste Nao-Parametrico para Comparacoes Multiplas ROSSI, Robson M. 90

Hipoteses:

H0 : nao ha diferenca significativa entre os tratamentos.Ha : ha diferenca significativa entre os tratamentos.

Sol.: Utilizando o teste de Kruskal-Wallis para k provas, temos a Tabela 7.12 com os postos das ob-servacoes.

Tabela 7.12: Postos do tempo de percurso de um rato ate sair do labirinto.Tratamento xi Ti =

∑xi ni xi

Grupo I (comida) 12 13 11 15 14 65 5 13Grupo II (agua) 9 6 10 8 7 40 5 8Grupo III (sexo) 5 4 2 1 3 15 5 3

A estatıstica teste:

HK−W =12

N(N + 1).

k∑i=1

T 2i

ni− 3(N + 1)

=12

15(15 + 1).

3∑i=1

T 2i

5− 3(15 + 1)

= (0, 05).(

652 + 402 + 152

5

)− 48

= 12, 5

como H ∼ χ2(k−1) ⇒ χ2

(1%;2) = 7, 98, e sendo HK−W = 12, 5 > 7, 98, Rejeita-se H0.

O passo seguinte, sera o de determinar qual(is) pares de tratamentos (contrastes) ocasionaram estarejeicao.

Calculo do d.m.s.:

Q =k(k − 1)

2=

3(3− 1)2

= 3

assim,

d.m.s. = Z1− 0,012.3

√15(15 + 1)

12

(15

+15

)

= 2, 95.(2, 83)= 8, 35

Contrastes:

Tabela 7.13: Contrastes para os dados de tempo de percurso de um rato ate sair do labirinto.Contraste IC(1− α)%L1 = x1 − x2 = 5 5± 8, 35 : (−3, 38; 13, 35)L2 = x1 − x3 = 10 10± 8, 35 : (1, 66; 18, 35)L3 = x2 − x3 = 5 5± 8, 35 : (−3, 38; 13, 35)

Decisao: Se o numero 0 nao pertencer ao IC, Rejeitamos H0.Observando que o 0 (zero) pertence somente aos IC de L1 e L3, podemos concluir que os tratamentos

que diferem significativamente sao dados pelo contraste L2: motivacao pela comida e motivacao sexual. Istoe, as ratas tendem a correr mais para sair do labirinto, quando estimuladas a comida e ao sexo.

Page 94: Apostila bioestatistica

7.4 Analise de Variancia com Numero Diferente de Repeticoes ROSSI, Robson M. 91

7.4 Analise de Variancia com Numero Diferente de Repeticoes

Muitas vezes o pesquisador dispoe de diversas amostras, cada uma proveniente de uma populacao, masessas amostras nao tem todas o mesmo tamanho. Mesmo assim, e possıvel conduzir a analise de variancia.Alias, todos os calculos, com excecao da soma de quadrados de tratamentos, sao feitos na forma ja apresentadaanteriormente.

Para entender como se calcula a soma de quadrados de tratamentos quando os tratamentos nao tem omesmo numero de repeticoes, primeiro observe a Tabela 7.14.

Tabela 7.14: Notacao para a analise de variancia com diferentes repeticoes.Tratamentos1 2 3 ... k Totalx11 x21 x31 ... xk1

x12 x22 x32 ... xk2

. .

. .

. .x1r x2r x3r xkr

Total T1 T2 T3 ... Tk

∑T =

∑x

No de repeticoes r1 r2 r3 ... rk n = krMedia x1 x2 x3 xk

A soma de quadrados de tratamentos e dada pela formula:

SQTr =T 2

1

r1+

T 22

r2+ ... +

T 2k

rk− C

onde C e a correcao ja definida anteriormente.E mais facil entender a aplicacao de formulas atraves de um exemplo.

Page 95: Apostila bioestatistica

7.4 Analise de Variancia com Numero Diferente de Repeticoes ROSSI, Robson M. 92

Exemplo 7.5. Analise de variancia para os dados da Tabela 7.15.

Tabela 7.15: Dados de 3 amostras e respectivas medias.Amostras

A B C15 23 1910 16 1513 19 2118 18 1415 1613

x1 = 84 x2 = 76 x3 = 86

1. os graus de liberdade:

(a) de tratamento: k − 1 = 3− 1 = 2

(b) de total: n− 1 = 15− 1 = 14

(c) de resıduo: (n− 1)− (k − 1) = n− k = 15− 3 = 12

2. o valor C:

C =(∑

x)2

n=

(15 + 10 + ... + 16)2

15= 4001, 67

3. a soma de quadrados total:

SQT =∑

x2 − c = 152 + 102 + ... + 162 − 4001, 67 = 159, 33

3. a soma de quadrados de tratamentos:

SQTr =∑

T 2

r− C =

842

6+

762

4+

852

5− 4001, 67 = 63, 33

4. a soma de quadrados de resıduos:

SQR = SQT − SQTr = 159, 33− 63, 33 = 96, 00

5. o quadrado medio de tratamentos:

QMTr =SQTr

k − 1=

63, 332

= 31, 67

6. o quadrado medio de resıduo:

QMR =SQR

n− k=

9612

= 8, 00

7. o valor de FF =

QMTr

QMR=

31, 678, 00

= 3, 96

Os valores calculados estao apresentados na Tabela 7.16.Ao nıvel de significancia de 5%, com 2 e 12 g.l., o valor de F tabelado e de 3,89, menor do que 3,96,

conclui-se que as medias diferem entre si.Os metodos de comparacao de medias apresentados anteriormente tambem podem ser usados quando o

numero de repeticoes por tratamento nao e constante. Se ri e rj sao o numero de repeticoes dos tratamentosem comparacao, as formulas para a diferenca mınima significante ficam como segue:

Page 96: Apostila bioestatistica

7.4 Analise de Variancia com Numero Diferente de Repeticoes ROSSI, Robson M. 93

Tabela 7.16: Analise de variancia.Causas da variacao GL SQ QM F pTratamentos 2 63,33 31,67 3,96 0,04784Resıduo 12 96 8Total 14 159,33

7.4.1 Teste Tukey

Para comparar as medias de tratamentos duas a duas, pode-se aplicar o teste de Tukey que, neste caso, eaproximado, porque os tratamentos tem numeros diferentes de repeticoes. A diferenca mınima significativa(d.m.s.) e dada pela formula:

d.m.s. = q

√(1ri

+1rj

)QMR

2

onde ri e o numero de repeticoes do i-esimo tratamento e rj e o numero de repeticoes do j-esimo tratamento.No caso do Exemplo anterior com dados na Tabela 7.15, para comparar a media de A com a media de

B, tem-se:

d.m.s. = 3, 77

√(16

+14

)82

= 4, 87.

Para comparar A com C, tem-se:

d.m.s. = 3, 77

√(16

+15

)82

= 4, 57.

Para comparar B com C, tem-se:

d.m.s. = 3, 77

√(14

+15

)82

= 5, 06.

Os valores absolutos das diferencas entre as medias estao sao apresentados a seguir. Como o valorabsoluto da diferenca entre A e B e maior do que a respectiva d.m.s., conclui-se que, em media, A difere deB, ao nıvel de significancia de 5%.

Tabela 7.17: Comaparacoes entre medias.Pares de medias Valor absoluto da diferenca p

A e B |14− 19| = 5 0,0443*A e C |14− 17| = 3 0,2272B e C |19− 17| = 2 0,5589

Page 97: Apostila bioestatistica

7.4 Analise de Variancia com Numero Diferente de Repeticoes ROSSI, Robson M. 94

7.4.2 Teste t

A diferenca mınima significativa (d.m.s.) e dada pela formula:

d.m.s. =

√t

(1ri

+1rj

)QMR

7.4.3 Teste Dunnett

A diferenca mınima significativa (d.m.s.) e dada pela formula:

d.m.s. = d

√(1ri

+1rj

)QMR

ConsideracoesA escolha apropriada de um teste e muito flexıvel. Se o pesquisador quer ter alta chance de rejeitar

H0 : de que as medias sao iguais, pode optar pelo teste t ou pelo teste Duncan (Nao apresentado nestematerial-Ver Vieira, 1999). Estes dois testes tem caracterısticas similares, mas o teste t e mais antigo e,talvez por isso, mais conhecido. Tambem e de aplicacao mais facil. Entretanto, o pesquisador tambem podeoptar por aplicar o teste de Tukey ou de Dunnett, com nıvel de significancia mais elevado. Estes testesteriam, entao, maior poder. Por exemplo, o teste de Tukey a 10% tem maior poder do que o teste de Tukeya 5%.

Um pesquisador que pretende somente rejeitar a hipotese de que as medias sao iguais com muita confianca,deve optar pelo teste de Tukey ou de Dunnett, com baixo nıvel de significancia. Esta situacao pode ocorrerquando se comparam novas drogas terapeuticas com uma droga conhecida. Toda droga tem efeitos colaterais.Entao, muitas vezes so e razoavel indicar uma nova droga - de efeitos colaterais desconhecidos - quandoexistem indicacoes seguras de que essa nova droga e melhor do que a convencional.

De qualquer forma, fica aqui um alerta: todos os procedimentos para a comparacoes de medias temvantagens e desvantagens. Ainda nao existe um teste definitivamente “melhor” que todos os outros.

Page 98: Apostila bioestatistica

Capıtulo 8

Testes Clınicos

8.1 Introducao

Uma das experiencias mais rotineiras da pratica medica e a solicitacao de um teste diagnostico. Osobjetivos sao varios, incluindo a triagem de paciente, o diagnostico de doencas e o acompanhamento ouprognostico da evolucao de um paciente. Para chegar ao diagnostico, o medico considera varias possibilidades,com nıveis de certeza que variam de acordo com as informacoes disponıveis.

Um dos objetivo deste capıtulo e mostrar como se mede o nıvel de certeza da ocorrencia de um evento,por exemplo: a presenca de uma doenca apos a observacao de um teste positivo. Consideraremos o testepositivo quando indicar a presenca da doenca e negativo quando indicar a ausencia.

Nao existe teste perfeito, aquele que com certeza absoluta determina a presenca ou ausencia da doenca.Estudaremos os ındices nos quais o conceito de qualidade de um teste diagnostico e usualmente desmenbrado.

Frequentemente, um unico teste nao e suficiente, e portanto deve-se combinar dois ou mais testes. Oideal seria que, para cada patologia, fossem determinados os testes a serem incluıdos no processo diagnosticoe a melhor forma de combina-los. Apresentaremos as formas mais comuns de combinacoes de testes e comomedir a qualidade do teste conjunto.

8.2 Testes Diagnosticos

O bom uso de um teste diagnostico requer, alem de consideracoes clınicas, o conhecimento de medidasque caracterizam a sua qualidade intrınsica: a sensibilidade, a especificidade e os parametros que refletema sua capacidade de produzir decisoes clınicas corretas: Valor da Predicao Positiva e o Valor da PredicaoNegativa.

Na analise da qualidade de testes diagnosticos, interessa conhecer duas probabilidades condicionais, quepor suas importancias, recebem nomes especiais:

95

Page 99: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 96

8.2.1 Sensibilidade e Especificidade

A sensibilidade, denotada por s, e definida como a probabilidade de o teste ser positivo dado que o pacienteexaminado e doente:

s = Pr(T+|D+)

A especificidade, denotada por e, e definida como a probabilidade de o teste ser negativo dado que opaciente examinado nao e doente:

e = Pr(T−|D−)

Os nomes sao descritivos: sensibilidade mede a capacidade de reacao do teste em um paciente doenteenquanto que especificidade, a reacao do teste em pacientes nao portadores da doenca, isto e, o teste eespecıfico para a doenca em questao.

A analise da definicao desses dois ındices (s e e) mostra que, subjacentemente a estes conceitos, estamosassumindo a existencia de um padrao ouro (gold-standart), ou seja, um teste diagnostico que sempre produzresultados corretos. Alem, disso assumimos que os pacientes sao classificados apenas como doentes e nao-doentes nao se admitindo estagios intermediarios.

De acordo com a Tabela 8.1,

Tabela 8.1: Distribuicao quanto a ocorrencia de um evento.Fator Total

Doenca Presente AusentePresente a b n1 = a + bAusente c d n2 = c + dTotal m1 = a + c m2 = b + d n = n1 + n2

os ındices s e e sao estimados por:s =

a

a + b=

a

n1

ee =

d

c + d=

d

n2.

Exemplo 8.1. Diagnostico de doenca coronariana.

Wiener et al. compararam os resultados do teste ergometrico de tolerancia a exercıcios entre indivıduoscom e sem doenca coronariana. O teste foi considerado positivo quando se observou mais de 1 mm dedepressao ou elevacao do segmento ST, por no mınimo 0,08 s, em comparacao com os resultados obtidoscom o paciente em repouso. O diagnostico definitivo foi feito atraves de angiografia (gold). A Tabela 8.2,sintetiza os resultados encontrados.

Tabela 8.2: Resultados da avaliacao da aplicacao do teste ergometrico de tolerancia a exercıcios em 1465pacientes.

Doenca Teste ergometrico TotalCoronariana Positivo (T+) Negativo (T−)Presente (D+) 815 208 1023Ausente (D−) 115 327 442Total 930 535 1465

A sensibilidade e a especificidade sao estimadas por:

s =8151023

= 0, 797

ee =

327442

= 0, 740.

O teste ergometrico tem uma sensibilidade de 79,7%, ligeiramente superior que sua especificidade (74%).

Page 100: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 97

8.2.2 Valor das Predicoes: VPP e VPN

A sensibilidade e a especificidade, embora sendo ındices ilustrativos e bons sintetizadores das qualidadesgerais de um teste, tem uma limitacao seria: nao ajudam a decisao da equipe medica que, recebendo umpaciente com resultado positivo do teste, precisa avaliar se o paciente esta ou nao doente. Nao se podedepender apenas da sensibilidade e da especificidade, pois estes ındices sao provenientes de uma situacaoem que ha certeza total sobre o diagnostico, o que nao acontece no consultorio medico. Daı a necessidadedestes dois outros ındices que refletem melhor a realidade pratica. Neste momento, interessa mais conheceros seguintes ındices denominados valor da predicao positiva (VPP) e valor da predicao negativa (VPN),definidos respectivamente por:

V PP = Pr [D+|T+]

eV PN = Pr [D−|T−] .

Em palavras, VPP e a probabilidade do paciente estar realmente doente quando o resultado do teste epositivo e VPN, a probabilidade do paciente nao estar doente quando o resultado do teste e negativo. Estesvalores sao probabilidades condicionais, tal que o evento condicionante e o resultado do teste, aquele que napratica acontece primeiro.

A maneira mais facil de se calcular o VPP e o VPN e atraves das formulas sugeridas por Vecchio (1966).

Tabela 8.3: Probabilidade necessarias para o calculo dos ındices VPP e VPN.Populacao Proporcao Proporcao com resultado

Positivo NegativoDoente p ps p(1− s)Sadia 1− p (1− p)(1− e) (1− p)eTotal p + (1− p) ps + (1− p)(1− e) p(1− s) + (1− p)e

Seja p = Pr(D+) a prevalencia da doenca na populacao de interesse, isto e, a proporcao de pessoasdoentes, ou a probabilidade de doenca pre-teste.

O valor de predicao positiva e obtido dividindo-se a frequencia dos ”verdadeiros-positivos” (oriundos depacientes doentes), pelo total de positivos

V PP =ps

ps + (1− p)(1− e).

De forma analoga, considerando-se os ”verdadeiros-negativos” obtemos o valor da predicao negativa

V PN =(1− p)e

p(1− s) + (1− p)e.

Ambas as expressoes dependem do conhecimento de p, uma estimativa da prevalencia da doenca napopulacao de interesse. Estas sao probabilidades de resultados corretos de diagnostico.

Exemplo 8.2. Diagnostico de doenca coronariana (Continuacao).

Para uma populacao cuja prevalencia de doenca coronariana e de 2%, os valores de predicao do testeergometrico sao:

V PP =0, 02× 0, 797

0, 02× 0, 797 + (1− 0, 02)(1− 0, 74)= 5, 89%.

e

V PN =(1− 0, 02)× 0, 797

0, 02× (1− 0, 74) + (1− 0, 02)× 0, 797= 99, 34%.

Portanto, o valor de predicao positiva e baixo enquanto que o valor de predicao negativa e bastante alto.Se o resultado da ergometria for negativo, a chance de nao haver uma doenca coronaria e de 99,43%.Se, antes de qualquer informacao, o paciente tinha uma chance de 2% de apresentar a doenca, apos o

resultado do teste negativo esta chance e de apenas 0,66% (1-0,9934).

Page 101: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 98

8.2.3 Decisoes Incorretas: PFP e PFN

As probabilidadesPFP = Pr [D−|T+] = 1− Pr [D+|T+] = 1− V PP

ePFN = Pr [D+|T−] = 1− Pr [D−|T−] = 1− V PN

referem-se, respectivamente, ao ”falso-positivo” e ao ”falso-negativo”, isto e, decisoes incorretas baseadasno teste diagnostico.

Uma dificuldade com relacao a estes ındices e que muitos autores admitem, implicitamente, que aprevalencia que ocorre na tabela e a mesma na populacao de interesse e assim usam tabelas 2 × 2 paracalcular os valores de predicao. Nada justifica esta hipotese. Este procedimento se usado sistematicamente,leva a erros serios.

Exemplo 8.3. Teste ELISA para deteccao do HIV.

Entre as varias tecnologias para detectar a presenca do HIV, a primeira a se difundir no Brasil foi oELISA (Enzymelinked immunosorbent assay). Em 1985 esta foi simultaneamente comercializada por varioslaboratorios americanos. Alguns deles reportaram, em seus testes preliminares, sensibilidade de 95% eespecificidade de 99,8%. Os valores para os outros laboratorios sao parecidos, segundo Marwick (1985).

A Tabela 8.4 apresenta os valores dos ındices VPP e VPN para a implementacao do teste ELISA e variossupostos valores da prevalencia.

Tabela 8.4: Valores da VPP, VPN, PFP e PFN para o teste ELISA para a deteccao do HIV.Prevalencia VPP(%) VPN(%) PFP(%) PFN(%)1/100.000 0,47 100,00 99,53 0,001/10.000 4,54 100,00 95,46 0,001/1.000 32,21 99,99 67,79 0,011/500 48,77 99,99 51,23 0,011/200 70,47 99,99 29,53 0,011/100 82,75 99,99 1725 0,011/50 90,65 99,89 9,35 0,11

Considerando-se a populacao total de um paıs, a AIDS e uma doenca de prevalencia pequena. Osresultados da Tabela 8.4 mostram que em um programa de uso do teste em larga escala, grande parte dospacientes com resultado positivo consiste na realidade de falsos-positivos; em outra palavras, o valor dapredicao positiva e muito pequeno. Por outro lado, pouquıssimos nao doentes deixarao de ser detectados e,portanto, o valor de predicao negativa e alto. Isto sugere um cuidado basico: um resultado positivo deverser reconfirmado atraves de teste baseado em tecnologia diferente do ELISA.

8.2.4 Combinacao de Testes Diagnosticos

Muitas vezes, para o diagnostico de certa doenca dispomos apenas de testes com VPP ou VPN baixoou, se existe um bom teste, este e muito caro ou oferece grande risco e/ou desconforto ao paciente. Nestascircunstancias, uma opcao frequentemente usada e o uso de uma combinacao de testes mais simples. Aassociacao de testes eleva a qualidade do diagnostico, diminuindo o numero de resultados incorretos.

Quando dois ou mais testes sao usados para se chegar a um diagnostico e preciso saber como sao obtidosos ındices de qualidade do teste multiplo, aquele composto pela agregacao de dois ou mais testes individuais.Restringiremos ao caso de apenas dois testes e as ideias apresentadas a seguir podem ser estendidas para ocaso de mais de dois testes. Alguns detalhes podem ser encontrados em Hirsh & Rielgelman (1996).

Formas de Combinacao de Testes

As maneiras mais simples de se formar um teste multiplo a partir dos resultados de dois testes sao osesquemas em paralelo e em serie. No caso do teste em paralelo, se um dos dois testes e positivo o testeconjunto tambem o e. No teste em serie, este e considerado positivo se os dois testes individuais sao positivos.

Page 102: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 99

A associacao de testes em serie e bastante empregada, tanto em triagens como no diagnostico individual,sendo de grande utilidade quando a questao do custo e relevante.

Chamando os testes originais de A e B, o teste em paralelo de Tp e o em serie de Ts, e usando a linguagemde eventos temos:

Tp+ = A+ ∪B+

eTs+ = A+ ∩B+.

As sensibilidade e especificidade de Tp e Ts sao calculadas com o auxılio das regras de calculo de proba-bilidades de eventos.

Combinacao em Paralelo

Nesse caso, o resultado do teste sera considerado positivo, se pelo menos um dos testes apresentarresultado positivo. E de maior utilidade em casos de urgencia, quando se necessita de uma abordagemrapida, ou por outro tipo de conveniencia, como para pacientes provenientes de lugares distantes. A Tabela8.5 apresenta de forma explıcita o procedimento proposto.

Tabela 8.5: Resultado do teste em paralelo dependendo da classificacao dos testes individuais A e B.Teste A Teste B Teste em paralelo

- - -- + ++ - ++ + +

Em analogia a expressao para obter a sensibilidade temos:

Pr[Tp+|D+] = Pr[A+ ∪B+|D+]= Pr[A+|D+] + Pr[B+|D+]− Pr[A+ ∩B+|D+]

ou seja, a sensibilidade do teste em paralelo (sp) e dada por

sp = sA + sB − sA × sB .

Admitindo-se que os resultados dos dois testes sao independentes, pode-se calcular a especificidade deum teste em paralelo da seguinte forma:

Pr[Tp−|D−] = Pr[A− ∩B−|D−]= Pr[A−|D−]× Pr[B−|D−]

ou seja, a especificidade do teste em paralelo (ep) e dada por

ep = eA × eB .

Portanto, facilmente calculamos a sensibilidade e a especificidade de um teste em paralelo a partir dassensibilidades e especificidades dos testes A e B. Alem disso, os parametros VPP e VPN sao calculados damesma forma ja vista para testes isolados, utilizando-se agora a sensibilidade e especificidade da combinacaoem paralelo, e a prevalencia da populacao de interesse.

Combinacao em Serie

Nesse caso, os testes sao aplicados consecutivamente, sendo o segundo teste aplicado apenas se o primeiroapresentar resultados positivo. O teste so sera considerado positivo, se o resultado dos dois testes for positivo.Esse procedimento e indicado em situacoes em que nao ha necessidade de rapido atendimento e quando opaciente pode ser acompanhado ao longo do tempo, e se a consideracao de custo e importante, seja pelaquestao finaceira, pelo risco ou desconforto induzidos pelo exame. A Tabela 8.6 apresenta de forma explıcitao procedimento proposto.

Page 103: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 100

Tabela 8.6: Resultado do teste em serie dependendo da classificacao dos testes individuais A e B.Teste A Teste B Teste em serie

- desnecessario -+ - -+ + +

Como so serao aplicados dos testes se o primeiro for positivo, o custo desse tipo de combinacao e menor.Uma discussao sobre a ordem mais indicada para a aplicacao dos testes a serem combinados em serie podeser encontrada em Soares & Parenti (1995).

Se os dois testes A e B sao independentes, a sensibilidade (ss) e a especificidade (es) par o teste combinadoem serie sao obtidos sa seguinte forma:

Pr[Ts+|D+] = Pr[A+ ∩B+|D+]= Pr[A+|D+]× Pr[B+|D+].

Portanto,ss = sA × sB

ees = eA + eB − eA × eB .

Para os calculos da sensibilidade e especificidade da associacao em serie e em paralelo, a independenciados dois testes e crucial. Entretanto, nao se pode garantir que isto ocorra sempre. Quando os testes naoforem independentes, nao ha uma forma analıtica simples para se obter tais ındices para um teste composto.

Exemplo 8.4. Diagnostico de cancer pancreatico.

Imagine um paciente idoso com dores persistentes nas costas e no abdomem e perda de peso. Na ausenciade uma explicacao para estes sintomas, a possibilidade de cancer do pancreas e frequentemente levantada.E comum para se verificar esta possibilidade diagnostica, que ambos os testes de ultrasom (A) e tomografiacomputadorizada (B) do pancreas sejam solicitados. A Tabela 8.7 apresenta dados hipoteticos sobre osındices s e e dos testes, quando utilizados separadamente e em conjuto (Griner et al., 1981).

Tabela 8.7: Sensibilidade e especificidade dos testes de ultra-som e tomografia computadorizada no di-agnostico do cancer de pancreas individualmente e em conjunto.

Teste Sensibilidade (%) Especificidade (%)A: Ultra-Som 80 60B: Tomografia 90 90C: A ou B positivo 98 54D: A e B positivo 72 96

Note que os esquemas C e D correspondem respectivamente a testes em paralelo e em serie. Admitindoque os resultados dos dois testes sejam independentes e usando as expressoes vistas anteriormente, temos asseguintes sensibilidades e especificidades combinadas:

Em paralelo:sC = 0, 8 + 0, 9− 0, 8× 0, 9 = 0, 98

eeC = 0, 6× 0, 9 = 0, 54;

Em serie:sD = 0, 8× 0, 9 = 0, 72

eD = 0, 6 + 0, 9− 0, 6× 0, 9 = 0, 96.

Quando um ou outro teste e positivo, a sensibilidade combinada e maior que o mais sensıvel dos testes,mas a especificidade e menor.

Page 104: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 101

Ao contrario, quando o criterio para a positividade do teste e que tanto o ultra-som como a tomografiasejam positivos, a especificidade combinada e maior que o mais especıfico dos dois, mas a sensibilidade emenor. Portanto, a sugestao seria o teste em serie.

Exemplo 8.5. Sensibilidade e especificidade de testes em paralelo e em serie.

Consideremos dois testes A e B com sensibilidade e especificidade apresentados na Tabela 8.7, supondouma prevalencia de 1%, entao teremos os seguintes valores: s, e, VPP e VPN.

Tabela 8.8: Sensibilidade, especificidade e valores de predicao de testes individuais A e B e dos testes emserie e em paralelo considerando-se uma prevalencia de 1%.

Teste s e VPP VPNA 0,9500 0,9000 0,0876 0,9994B 0,8000 0,9500 0,1391 0,9979Paralelo 0,9900 0,8550 0,0645 0,9999Serie 0,7600 0,9950 0,6056 0,9976

A combinacao em paralelo apresenta alta sensibilidade (0,99) mas sua especificidade e menor que a dostestes isolados. Ja a combinacao em serie apresenta alta especificidade (0,995) enquanto que a sensibilidadee relativamente baixa comparada com testes isolados.

Como esperado, os valores de predicao negativa sao altos, tanto para os testes isolados como para asduas formas combinadas dos testes. Entretanto, os valores de predicao positiva nao sao altos, sendo que acombinacao em serie proporcionou o melhor resultado (V PP = 0, 6056).

E importante lembrar que, na maioria das vezes, os testes usados na combinacao sao dependentes entresi. Portanto, os valores acima tendem a superestimar o verdadeiro valor dos ındices dos testes combinados.Nesse caso, nao e possıvel determinar os valores dos parametros de qualidade conhecendo-se apenas os valoresde cada teste em separado. Torna-se necessario um trabalho de pesquisa realizado em um grupo de pacientesnos quais sao utilizados o teste padrao (gold test) e teste combinado (Di Magno et al., 1977).

8.2.5 Escolha entre Testes Diagnosticos

Idealmente, os testes utilizados devem ter alta sensibilidade e especificidade. Entretanto, na pratica nemsempre existem testes disponıveis com caracterısticas otimas. E relativamente comum a situacao em que hamais de um teste e entao surge a necessidade da comparacao entre eles para uma escolha mais adequada.

Em processos de escolha do ponto de corte (ponto limite para decidir se um paciente e doente ou sadio),por exemplo, Galen & Gambino (1975) sugeriram uma medida de eficiencia definida pela soma da sensibili-dade e especificidade, isto e, o valor de referencia (k :Ponto de corte) foi obtido atraves dos valores de s e eque tinham a maior soma.

Suponha que dois testes diagnosticos estao disponıveis: um com alta sensibilidade mas relativamentebaixa especificidade e o outro com alta especificidade e relativamente baixa sensibilidade. Qual seria amelhor escolha?

Embora a avaliacao de um teste nao seja trivial, ja que varios fatores devem ser considerados, apre-sentaremos alguns argumentos baseados nas medidas de qualidades, que podem ajudar na escolha de umteste diagnostico.

O primeiro fato importante e que os valores de predicao (VPP e VPN) dependem conjuntamente de s, ee p. Soares & Parenti (1995) apresentam um estudo detalhado atraves de graficos que ilustram claramenteo efeito da prevalencia nos valores de predicao. O exemplo a seguir ilustra numericamente este fato.

Exemplo 8.6. Diagnostico da gonorreia.

O teste Gonosticon Dri-Drot, desenvolvido para o diagnostico de gonorreia, tem sensibilidade de 0,80 eespecificidade de 0,95. Os valores da predicao positiva e negativa sao apresentados na Tabela 8.9 para quatropopulacoes com diferentes prevalencias.

Embora o teste tenha parametros de qualidades razoaveis, o VPP e baixıssimo para populacoes de baixaprevalencia, tornando o exame sem utilidade nessas condicoes.

Para simplificar o raciocınio sobre a escolha de testes diagnosticos, vamos inicialmente considerar duassituacoes extremas, obviamente sem interesse pratico, e depois vamos estender para situacoes masi gerais.

Page 105: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 102

Tabela 8.9: Valores de predicao (VPP e VPN) do teste Gonosticon Dri-Drot para quatro prevalencias (p).Populacao p VPP VPNA 0,500 0,940 0,830B 0,100 0,640 0,980C 0,020 0,250 0,990D 0,001 0,020 1,00

Suponhamos que p = 0, isto e, ninguem tem a doenca, ou que p = 1, isto e, toda a populacao tem a doencaem questao. Facilmente chagamos nos valores apresentados na Tabela 8.10, para quaisquer valores de s e e.

Tabela 8.10: Valores de predicao (VPP e VPN) e proporcao de resultados falsos (PFP e PFN) para casosextremos de prevalencias.

p VPP PFP VPN PFN0 0 1 1 01 1 0 0 1

A extensao para o caso mais geral de p pequeno (doenca rara) e p grande (doenca comum) pode ser feitapela analise das expressoes ja estudadas variando-se as quantidades envolvidas (s, e e p), mas nos restringimosa apresentarmos uma analise numerica. A Tabela 8.11 mostra os valores de predicao para prevalencias de1% e 90%.

Tabela 8.11: Valores de predicao (VPP e VPN) para alguns valores de sensibilidade e especificidade paraprevalencias de 1% e 90%.

Prevalencia de 1% Prevalencia de 90%s e VPP VPN VPP VPN0,99 0,99 0,5000 0,9999 0,9989 0,91670,99 0,90 0,0909 0,9999 0,9889 0,90910,99 0,80 0,0476 0,9999 0,9780 0,89890,90 0,99 0,4762 0,9990 0,9988 0,52380,90 0,90 0,0833 0,9989 0,9878 0,50000,90 0,80 0,0435 0,9987 0,9759 0,47060,80 0,99 0,4469 0,9980 0,9986 0,35480,80 0,90 0,0748 0,9978 0,9863 0,33330,80 0,80 0,0388 0,9975 0,9730 0,3077

Quando a prevalencia e baixa, o valor de predicao positiva (VPP) e mais influenciado pela especificidade.O valor de predicao negativa (VPN) e pouco influenciado tanto pela sensibilidade quanto pela especificidadee e alto, como era de se esperar.

Para a prevalencia alta, o VPP e proximo de 1, independente dos valores da sensibilidade e da especifi-cidade. Alem disso, o VPN e influenciado mais pela sensibilidade do que pela especificidade.

Embora este nao seja um estudo exaustivo, existem evidencias para as seguintes conclusoes:

1. Um teste com alta especificidade deve ser usado quando a prevalencia da doenca e relativamente baixa(doenca rara), mesmo que o teste tenha relativamente baixa sensibilidade.

2. Um teste com alta sensibilidade deve ser usado quando a prevalencia da doenca e alta (doenca comum),mesmo que o teste tenha relativamente baixa especificidade.

E comum a ideia de que se a doenca e rara, um teste com alta sensibilidade dever ser usado para acharos casos e para uma doenca de alta prevalencia, um teste com alta especificidade deve ser escolhido.

Esse raciocınio nao coincide com os argumentos apresentados.Outro tipo de simulacao e apresentado nas Figuras 8.1 e 8.2 para algumas situacoes especıficas:

Page 106: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 103

Prevalência

VP

P

s = 99%; e = 70%

s = 95%; e = 95%

s = 70%; e = 99%

s = 99%; e = 99%

0% 10% 20% 30% 40% 50%

0%

100%

50%

Figura 8.1: Valor Preditivo Positivo em Funcao da Prevalencia

Prevalência

VP

N

s = 70%; e = 99%

s = 95%; e = 95%

s = 99%; e = 70%

s = 99%; e = 99%

0% 20% 40% 60% 80% 100%

0%

50%

100%

Figura 8.2: Valor Preditivo Negativo em Funcao da Prevalencia

Inicialmente percebe-se na Figura 8.1 que, para qualquer situacao, quanto maior a prevalencia da doenca,maior o valor preditivo positivo. Para um teste com sensibilidade e especificidade elevadas (s = 99% e e =99%) o seu valor preditivo positivo sera muito alto mesmo em situacoes de prevalencia nao muito elevada.Entretanto, esta situacao sofre um impacto importante ao se diminuir apenas um pouco a sensibilidade eespecificidade do teste (s = 95% e e = 95%).

Uma outra situacao ocorrera ao se modificar apenas uma das caracterısticas do teste. Por exemplo, aose diminuir a sensibilidade mantendo-se a especificidade elevada (s = 70% e e = 90%), percebe-se que prati-camente nao houve impacto nos valores preditivos positivos em funcao da prevalencia. Entretanto, quandoessa mesma diminuicao ocorre na especificidade, o impacto e bastante grande, diminuindo-se muito o valorpreditivo positivo do resultado mesmo para prevalencias mais elevadas. Dessa forma, pode-se afirmar que ovalor preditivo positivo de um teste e funcao da prevalencia da doenca, da sensibilidade e fundamentalmenteda especificidade, conforme ja fora observado na formula anterior.

Note na Figura 8.2 que, ao reduzir apenas a sensibilidade (s = 70% e e = 99%), ocorre uma drasticareducao no VPN, mostrando o grande impacto que essa medida exerce no VPN. Ao se reduzir apenas aespecificidade (s = 99% e e = 70%), o impacto no VPN e muito pequeno, menor do que quando se reduzapenas um pouco a sensibilidade e a especificidade conjuntamente (s = 95 e e = 95%).

Note tambem que, para um mesmo teste diagnostico (excecao apenas para s = 70% e e = 99%), o impactodo aumento da prevalencia na reducao do VPN e muito pequeno. Esse impacto se acentua nas prevalenciasmuitos elevadas. Como na pratica clınica, as doencas estudadas comumente possuem prevalencias relati-vamente baixas, o VPN ira sofrer apenas pequena variacao ao se modificar a especificidade de um testediagnostico e mesmo ao se modificar pouco a sensibilidade.

Page 107: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 104

8.2.6 Relacao entre Sensibilidade e Especificidade

O teste diagnostico ideal seria aquele na qual a sensibilidade e a especificidade fossem 100%, ou seja, naoexistiria erro em seu resultado. Entretando, na pratica, isso nao e possıvel. Ao contrario, frequentemente,existe uma contra-balanco (trade-off ) entre essas duas propriedades de tal modo que, quando um delasaumenta a outra diminui e vice-versa. Assim, para um teste expresso em uma escala contınua (glicemia, porexemplo) e necessario determinar um ponto de corte (cut off ) entre os valores considerados normais e osanormais. Neste caso, uma determinada propriedade do teste (por exemplo, a sensibilidade) somente podeser aumentada as custas da diminuicao da especificidade e vice-versa.

Frequentemente, na pratica clınica, escolhe-se um ponto de corte onde exista o menor erro possıvel, tantode falsos positivos quanto de falsos negativos (Figura 8.3).

Figura 8.3: Ponto de corte com o mınimo erro possıvel

8.2.7 Curva ROC

Uma forma de expressar graficamente a relacao entre a sensibilidade e a especificidade e atraves da con-strucao da curva ROC (receiver operating characteristic curve). Esta curva foi primariamente desenvolvidana decada de 1950 para avaliar a deteccao de sinais de radar (daı a sua denominacao), embora somenterecentemente tenha se tornado comum o seu uso na area medica.

Sua construcao e feita colocando-se os valores da sensibilidade (proporcao de verdadeirospositivos) no eixo Y (ordenadas) e o complemento da especificidade (1 - e), ou seja, a proporcao de fal-sos positivos no eixo X (abscissas) para diferentes pontos de corte.

A partir dos dados apresentados na Tabela 8.12 foi construıda a curva ROC (8.4).

Note que quanto mais proxima a curva estiver do canto superior esquerdo do grafico, melhor sera o poderdiscriminatorio do teste diagnostico e quanto mais distante, ate o limite da diagonal do grafico, pior sera oseu poder de discriminar doentes e nao doentes. A curva ROC pode servir como orientacao para a escolhado melhor ponto de corte de um teste diagnostico que, em geral, se localiza no extremo da curva proximoao canto superior esquerdo do grafico.

As curvas ROC, alem de auxiliarem na identificacao do melhor ponto de corte, sao muito utilizadas paracomparar dois (ou mais) testes diagnosticos para a mesma doenca. Nesse caso, o poder discriminatorio doteste, ou seja, a acuracia global, pode se mensurado atraves do calculo da area sob a curva ROC; quantomaior for a area tanto melhor sera o teste diagnostico.

Um teste diagnostico ideal, com 100% de sensibilidade e 100% de especificidade, a area total seria iguala 1 (um), ou seja, a “curva” seria coincidente com o lado esquerdo e o topo do grafico. Neste caso, o testenao possuiria erro, identificando perfeitamente todos os indivıduos sadios e doentes (gold test).

Para um teste sem nenhuma utilidade, a “curva” seria uma linha reta em diagonal, partindo do cantoinferior esquerdo ate o canto superior direito. Neste caso, o teste diagnostico nao possuiria nenhum poderpara discriminar doentes de nao-doentes.

Page 108: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 105

Tabela 8.12: Trade-off entre Sensibilidade e Especificidade no tratamento de Diabetes (Glicemia pos-prandial2(h) mg/100 ml).

Glicemia pos-prandial Sensibilidade (%) Especificidade (%) 1 - Especificidade (%)(2h) mg/100 ml

70 98,6 8,8 91,280 97,1 25,5 74,590 94,3 47,6 52,4100 88,6 69,8 30,2110 85,7 84,1 15,9120 71,4 92,5 7,5130 64,3 96,9 3,1140 57,1 99,4 0,6150 50,0 99,6 0,4160 47,1 99,8 0,2170 42,9 100,0 0180 38,6 100,0 0190 34,3 100,0 0200 27,1 100,0 0

Se

ns

ibil

ida

de

1 - Especificidade

0% 20% 40% 60% 80% 100%

0%

50%

100%

Figura 8.4: Curva ROC da Glicemia pos-prandial (2h) mg/100 ml

Exemplo 8.7. Os dados da Tabela 8.13 foram obtidos na UEM/HU - Hospital Universitario da UniversidadeEstadual de Maringa, em um estudo para avaliacao de equipamentos para dosagem glicemica capilar Oobjetivo do trabalho foi o de escolher o melhor equipamento entre tres analisados: Glucotrend, Precision eAdvantage. Os testes foram realizados em 21 indivıduos. O teste Colorimetrico foi ser utilizado comoGold Standard (Teste Ouro), que classifica sem erro doentes e nao-doentes.

Obs.: Valores de referencia: 60 a 120 mg/dl (Consideram-se anormais os valores abaixo de 60 (hi-poglicemia) e acima de 120 (hiperglicemia)).

Obs.:

1. *1 foram utilizadas duas fitas por falha na leitura do equipamento;

2. *2 foram utilizadas quatro fitas por falha na leitura do equipamento;

3. *3 equipamento apresentou erro.

Page 109: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 106

Tabela 8.13: Resultados da avaliacao de equipamentos para dosagem glicemica capilar.Indivıduo Gold-Calorimetrico G-Glucotrend P-Precision A-Advantage

1 282 310 336 2832 121 115 143 1373 71 71 76 664 101 *3 85 995 161 *3 215 1776 192 215 134 *2 2117 99 97 123 1348 105 152 156 *1 1369 190 200 208 20510 64 69 76 6911 108 125 105 11512 99 97 95 116 *113 107 107 109 10814 68 75 81 6415 81 86 94 9116 82 84 49 *1 8917 88 90 93 9318 71 76 88 7719 76 90 91 9620 98 107 89 *1 10521 87 86 90 96

Exercıcio 8.1. Utilize o banco de dados referentes a Tabela 8.13 e:

1. Determine as Tabelas Cruzadas: Gold X G; Gold X P e Gold X A.

2. Determine a sensibilidade e especificidade de cada testes acima . Baseado nestes resultados qual (quais)o(s) melhor(es) teste(s) ?

3. Determine os valores de predicao positiva (VPP) e negativa (VPN) assim como o PFP e o PFN paracada um dos testes, usando a prevalencia da doenca obtida atraves da Tabela Cruzada. Interprete-os.

4. Considerando que a prevalencia para a doenca em questao e de 1%, recalcule os itens anteriores.

5. Combine os testes: G x P, G x A e P x A de forma paralela e em serie, considerando uma prevalenciade 1%. Qual a melhor combinacao ? porque ?

Page 110: Apostila bioestatistica

Referencias Bibliograficas

[1] ARANGO, H.G.. Bioestatıstica: Teorica e computacional. Guanabara Koogan S.A. RJ, 2001.

[2] CALLEGARI-JACQUES, S. M.. Bioestatıstica: Princıpios e Aplicacoes. Ed. Artmed. RS, 2003.

[3] CAMPOS, H.. Estatıstica Experimetal Nao-Parametrica. 4a Ed. USP/ESALQ, 1983.

[4] CARVAJAR, S. S. R.. Elementos de Estatıstica (com aplicacoes as ciencias medicas e biologicas). Riode Janeiro: UFRJ, 1970.

[5] CASTELLANOS, R. S e MERINO, A. P.. Psicoestadistica-Contrastes Parametricos y no Parametricos.Ediciones Piramide S.A., Madrid, 1989.

[6] CENTENO, A. J. Curso de Estatıstica aplicada a Biologia. Goiania: Ed. Universidade Federal de Goias,1981.

[7] CARVAJAR, S. S. R. Elementos de Estatıstica (com aplicacoes as ciencias medicas e biologicas). Riode Janeiro: UFRJ, 1970.

[8] COLLET, D..Modelling survival data in medical research. Tests in statistical science. 4a Ed. Chapman& Hall. London, 1994.

[9] DANIEL, W. W. Bioestatistics: a foundation for analysis in the health sciences. 2 Ed. New York: JohnWiley, 1999.

[10] DOWNING, D e CLARK, J.. Estatıstica aplicada. 2a Ed. Saraiva. SP, 2002.

[11] FORANTTINI, O. P.. Epidemiologia Geral. 1a Ed. Artes Medicas, Ltda., 1980.

[12] GAUVREAU, K. e PAGANO.. Principios de Bioestatıstica. 2a Ed. Thonson, 2004.

[13] GUEDES, M. L. S. e GUEDES, J. S.. Bioestatıstica - Para profissionais de saude. 1a Ed. Ao livrotecnico S.A. RJ, 1988.

[14] MEDRONHO, R. A.. Epidemiologia. Ed. Atheneu. SP, 2003.

[15] PEREIRA, M. G.. Epidemiologia: Teoria e Pratica. Ed. Guanabara & Koogan, 1995.

[16] RODRIGUES, P. C.. Bioestatıstica. EdUFF, RJ, 2002.

[17] SIEGEL, S.. Estatıstica nao-parametrica. 1a Ed. RJ, Editora McGraw Hill do Brasil Ltda, 1981.

[18] SOARES, J. F e BARTMAN, F. C.. Metodos estatısticos em medicina e biologia. 14o Coloquio Brasileirode Matematica. IMPA/CNPq. RJ, 1983.

[19] SOARES, J. F. e SIQUEIRA, A.L.. Introducao a estatıstica medica. Ed. UFMG. 1999.

[20] SOKAL, R.R. Biometry: The Principles and Practice of Statistics in Biological Research. New York:W.F. Freeman, 1995.

[21] SOUNIS, E. Bioestatıstica. Princıpios fundamentais, metodologia, estatıstica, aplicacao a cienciasbiologicas. 2a Ed. Revisada, McGraw-Hill, 1975.

107

Page 111: Apostila bioestatistica

8.2 Testes Diagnosticos ROSSI, Robson M. 108

[22] STEEL, R.G.D. Principles and Procedures of Statistics a Biometrical Approach. 2. Ed. New York: McGraw-Hill, 1980.

[23] WAYNE, W. D.. Biostatistics. A foundation for analysis in the health sciences. 7a Ed. J&S. NY, 1999.

[24] VIEIRA, S.. Introducao a Bioestatıstica. 5a Edicao Revista e Ampliada. Editora Campus,1980.

[25] VIEIRA, S.. Estatıstica Experimental. 2a Edicao. Ed Atlas S.A. SP,1999.