introdução à bioestatística

Upload: mateus-rocha

Post on 11-Jul-2015

569 views

Category:

Documents


0 download

TRANSCRIPT

BIOESTATSTICABOTUCATU2008MATERIAL DIDTICO PARA A DISCIPLINADEBIOESTATSTICA OFERECIDA AOS ALUNOS DE GRADUAO EM CINCIAS BIOLGICAS E DA SADE PELO PROF. DR. CARLOS ROBERTO PADOVANI, DEPARTAMENTO BIOESTATSTICA -IB / UNESP.IntroduoO que estatstica? E a Bioestatstica? Considerando oconceito de que aCincia o aprendizado adquirido por meio da experimentao e dos dados observados, segundo o quala procuradas causas, das leis, traduz-senumprocessoiterativodeobservaodoreal, da realizao de experimentos confirmatrios e da avaliao quantitativa dos fenmenos em estudo, o paradigma da Estatstica, emparticular a Estatstica Aplicada s Cincias Biolgicas Bioestatstica, consiste em construir o conjunto unificado de mtodos e tcnicas de planejamento e anlise de dados experimentais e observacionais.O grande desafio que se torna imperativo diz respeito a comodesenvolver as atividades de ensino de Estatstica, sob as exigncias de um modelo referencial de conceitos matemticos e probabilsticosnocotidianodaformaodaestruturalgicaderaciocniodosestudantesdas reas biolgicas e da sade, e qual linguagem e motivao devem ser colocadas em prtica para ministrar o contedo programtico?Botucatu, maro de 2008Prof. Dr. Carlos Roberto PadovaniIntroduo BioestatsticaProf. Dr. Carlos Roberto PadovaniProf. Titular de Bioestatistica IB/UNESP , Botucatu-SPDefinio de EstatsticaA Estatstica constitui-se em uma cincia destinada a:I. Decidir o melhor plano (experimental ou observacional) para a execuo de uma pesquisa metodologia cientfica.II. Organizar e resumir dados de contagem, mensurao e classificao raciocnio dedutivo.III. Inferir sobre populaes de unidades (indivduos, animais, objetos) quando uma parte (amostra) considerada raciocnio indutivo.ESTATSTICA: CINCIA + TECNOLOGIA + ARTEDefinio de Bioestatsticaametodologiaestatsticaaplicadascinciasbiolgicas, comafinalidadeplanejar, coletar, organizar, resumir, analisar e interpretar os dados, permitindo tirar concluses biolgicas sobre populaes a partir do estudo de amostras.Em 1829, Pierre Charles Alexandre Louis (1787-1872), afirmou: Eu sei que a verdade est nos fatos e no na mente que os julga, e quanto menos eu introduzir da minha opinio pessoal nas concluses, mais prximo estarei da verdade (Louis, considerado o pai da bioestatstica).BIOESTATSTICA: VIDA + ESTATSTICAVarivel Biolgica (Conceito)Quando se estuda uma varivel biolgica, o maior interesse do pesquisador conhecer o comportamento dessa varivel, analisando a ocorrncia de suas possveis realizaes.O estudo de bioestatstica compreende o planejamento e a anlise estatstica (estatstica descritiva e inferencial), mas voltado s informaes biolgicas contidas nas variveis em considerao, transformadas emdados coletados para a operacionalizao dos mtodos estatsticos.Anlise DescritivaOrganizao dos dados coletados por meio de classificao, contagem ou mensurao. Os dadosdevemser apresentadosdeformaclarapor meiotabelas, grficosemedidasresumo (posio e variabilidade), no permitindo, no entanto, concluses analticas.Anlise InferencialPermite realizar inferncias (concluses e analticas) a respeito de populaes a partir de amostras pela aplicao de testes de hipteses e/ou construo de intervalos de confiana. Deve ser consideradoqueestutilizando-seamostras parainferir aosdados reais dapopulao ( parmetros), portanto existindo nestas estatsticas (dados obtidos de amostras) uma margem de erro. A exceo o censo, quando toda a populao pesquisada.PlanejamentoConsisteemestabelecer odesenhoamostral compoder adequadoparaostestesde hipteses e estimaes sem vises (distores). Deve ser considerado o clculo do tamanho da amostra (tamanho ticoe estatstico) ea definio da forma de coleta de dados ( tcnicas de amostragem).Tipos de varivelVariveis so caractersticas que assumem valores diferentes de um indivduo para outro ou no mesmo indivduo ao longo do tempo.Em relao participao no estudo, as variveis podem ser classificadas em:I. Independente, explicativa ou preditora: permite predizer uma resposta (causas).II. Dependente ou resposta: evento que se pretende estudar (efeitos).III. Varivel de controle: deseja-se que esteja homogeneamente distribuida nos grupos, pois poderia interferir nos resultados (atuando, por exemplo, como uma varivel de confuso). No tem interesse para estudo.Observaes: I. Dependo do objetivo do estudo, uma mesma varivel pode ser preditora, resposta ou de controle.II. As variveis preditoras, resposta e de controle devem ser indicadas pelo pesquisador (biologia), nunca pelo estatstico.III. O nmero excessivo de variveis dificulta a anlise estatstica e torna menor o poder da amostra.IV. O estatstico capaz de coordenar o planejamento de uma pesquisa e realizar a anlise.Escala de Variveis Quanto escala utilizada, tm-se variveis: Nominal ( classificao sem ordem definida)Categricas(Qualitativas) Ordinal ( classificao com ordem definida)Discreta ( contagem, correspondendo a nmeros inteiros)Numricas(Quantitativa ou Intervalar)Contnua ( mensurao, correspondendo a nmeros reais) Observaes:I. A unidade de medida mostra a diferena entre as numricas discreta e contnua.II. Escorenocontagem( noconfundir variveiscategricasnominaisexpressaspor nmeros com variveis discretas).III. Pode-setransformar umavarivel numricaemcategrica(lembrar quehperdade informaes).IV. Para variveis categricas a anlise estatstica limitada. Se as variveis dependentes e independentes forem todas categricas, s ser possvel utilizar testes no paramtricos, que apresentam menor poder.Estatstica DescritivaConsiste na organizao dos dados obtidos por meio de classificao, contagem ou mensurao. Os dados so apresentados em medidas resumo, tabelas e grficos, no permitindo, no entanto, concluses analticas.Medidas Resumo ( Posio e Variabilidade) MdiaTendncia CentralModa MedianaPosioQuartisSeparatizesPercentis Mdia: soma dos valores divididos pelo nmero de observaes (centro de massa).Observaes:I. A mdia afetada por valores extremos.II. A mdia bastante utilizada em distribuies simtricas.III. No utilizvel em variveis categricas.IV. A mdia pode ser utilizada para variveis discretas, inclusive com decimais.Moda: Valor mais freqente no conjunto de observaes ( valor tpico, valor mais comum).Observaes:I. Um conjunto pode apresentar mais de uma moda.II. A moda pode ser calculada para variveis numricas e categorizada.III. Pode existir conjunto sem moda (amodal).Mediana:valor que divide as observaes, ordenadas de forma crescente, em igual nmero de observaes acima e abaixo.Observaes:I. No utilizvel em variveis categricas.II. Pouco afetada por valores muito discrepantes.III. Bastante utilizada para distribuio assimtrica.Finalizandoparadecidir seamedidadetendnciacentral apropriadadeveser mdiaou mediana, considere: Distribuio simtrica mdia. Distribuio assimtrica mediana.No caso de distribuio simtrica, mdia, moda e mediana so equivalentes ( x =Mo=Me). Quando existe assimetria, a mdia e a mediana desviam-se na direo dos valores extremos ( Mo < Me < x ou x < Me < Mo).Separatrizes: Quartis e PercentisQuartis:so valores que dividemaamostraemquatropartes como mesmo nmero de observaes.Q1 Limita os 25% dos menores valores (ou 75% doa maiores valores).Q2 Limita os 50% dos menores valores (ou 50% dos maiores valores).Q3 Limita os 75% dos menores valores (ou 25% dos maiores valores).Percentis: so valores que dividem mostra em cem partes. Amplitude Total Amplitude InterquartilIndividual Varincia Desvio Padro Coeficiente VariaoVariabilidade Erro padroAmostral Erro amostralAmplitude Total: expressa a variao mxima, obtida pela diferena entre o maior e menor valor.Amplitude Interquartlica: expressa a variao de 50% de amostra ao redor da mediana. Seu valor dado pela diferena entre o terceiro e primeiro quartil.Varincia e Desvio padro:indicam como os valores variam entre si, por meio do afastamento dos valores em relao mdia.Observaes:I. A varincia apresenta unidade quadrtica.II. Quanto mais afastado o valor se encontrar emrelao mdia, maior ser sua contribuio para o valor da varincia (desvio-padro).III. Ambas as medidas (varincia e desvio-padro) indicam a variao absoluta.Coeficiente de Variao: expressa, a razo entre o desvio padro e a mdia.Observaes:I. Quanto menor o coeficiente de variao, mais homogneo o conjunto de valores.II. Trata-se de uma medida de variao relativa e adimensional.Erro padro: medida de variabilidade da mdia amostral (expressa como a mdia varia de uma amostra para outra).Observaes:I. A margem de erro que se comete em estimar a mdia populacionalpela mdia de uma amostra dada pelo erro padro.II. O valor do erro padro dado em funo do tamanho amostral. Ou seja, inversamente proporcional raiz quadrada do tamanho amostral.ErroAmostral:medida do afastamento damdia amostralem relao mdia da populao, associada a um nvel de confiana.Observaes:I. O erro amostral proporcional ao erro padroII. A constante de proporcionalidade fica estabelecida pelo nvel de confiana.III. Erro amostral proporcional ao erro padro equivale a:EA = EPSe = 1,00 Nvel de confiana 68%Se = 1,64 Nvel de confiana 90%Se = 1,96 Nvel de confiana 95%Quanto maior o valor de ,maior o nvel de confiana na estimao da mdia populacional.Outras medidas: Coeficiente de Assimetria e Coeficiente de CurtoseCoeficiente de Assimetria:mede a assimetria da distribuio emtorno da mdia, sendo assimetria positiva quando existe desvio para a direita e negativa, quando h para a esquerda.Coeficiente de Curtose:mede a relao entre a altura e largura da curva, ou seja, o grau de achatamento da curva. O padro de achatamento pode indicar curva: leptocrtica, mesocrtica ou platicrtica.TabelaseGrficos:soformasdeapresentaodoresumodosdados, devendoser auto-explicativas.Observaes:I. Aconstruodegrficosetabelasestabelecidapor meioderegras,sendoasmais comuns: IBGE e ABNT.II. Um tipo especial de tabela consiste na tabela de contingncia, onde as linhas e colunas so compostas por freqncias de ocorrncias dos atributos.III. Os grficos mais usuais para variveis numricas so histogramas, barras com haste e diagrama de caixas (box plot).IV. Paraasvariveiscategricasosgrficosdesetorescirculares(dotipopizza) eos grficos em barras (vertical e horizontal).V. Uma aplicao interessante do box plot consiste emidentificar valor discrepante (outlier).A maioria dos programas de anlise estatstica define outliers como valores fora do intervalo (Q1 1,5 Q; Q3 + 1,5 Q), ondeQ= Q3 - Q1, denomina-se amplitude interquartis.Exemplos:Tabela 1 Distribuio de freqncias do peso (kg) de recm-nascidosClasses ixifi ix f( ) x x fi i2i ix f2) ( x x fi i20 , 3 00 , 33,10 2 6,20 -0,752 19,22 0,28275240 , 3 20 , 33,30 7 23,10 -1,232 76,23 0,21683260 , 3 40 , 3 3,50 10 35,00 0,240 122,50 0,00576080 , 3 60 , 33,70 4 14,80 0,896 54,76 0,20070400 , 4 80 , 3 3,90 2 7,80 0,848 30,42 0,359552Total 25 86,90 0,000 303,13 1,065600

211 , 0 0444 , 0240656 , 124476 , 3 25 13 , 30322 + s s

476 , 3 x25 n25 , 420 , 3720 , 3 40 , 3) 25 , 6 ( ) 4 / 25 ( ) (11 QQ 321 , 3725 , 4 20 , 020 , 31 + xQ25 n50 , 340 , 31040 , 3 60 , 3) 5 , 12 ( ) 2 / 25 ( ) ( ) (2 MeMe Q 47 , 310 50 , 3 20 , 040 , 3 + xMe25 n50 , 360 , 3460 , 3 80 , 3) 5 , 22 ( ) 100 / 25 90 ( ) 90 (90 Px P 775 , 3450 , 3 20 , 060 , 390 + xPModa de Czuber) 6 (60 , 3) 3 (40 , 32 1 Mo MoDEC ABC47 , 392 , 313 80 , 10 40 , 20 6 Mo Mo MoGeral2 1112 112 112 1212122112 121 + + + + + hl Mol Mohh h hhh h hh l L h hMo L hL Mo hmoMoMo MoMoMoTabela 2. Colesterol total de indivduos sadios (mg/dL) e indicativos de referncia180 182 184 190 186 192 188 186 186Colesterol Total Desejvel< 200 mg/dLGlicose Normal 70 a 110 mg/dLHDL Colesterol Desejvel 40 a 60 mg/dLLDL Colesterol timo 0.A regra do produto de probabilidades pode ser deduzida da expresso anterior,ou seja P(A B) =P(A/B)P(B), comP(B) >0. SeainformaodaocorrnciaounodeBnoalteraa probabilidadedaocorrnciadeA, deveacontecer queP(A/B) =P(A), ouequivalentemente, ) ( ) ( ) ( B P A P B A P , comP(B) >0, mostrando a independncia probabilstica entre os eventos A e B.4. Teorema de BayesSeja a participao C1,C2,...,Cn do espao amostral,_

inii iC U i i C C1'; ' , e as seguintes probabilidades conhecidas P(iC) e P(A/iC), i=1,..., n.Ento para qualquer j=1,...,n, tem-se:nii ij j jjC P C A PC P C A PA PA C PA C P1) ( ) / () ( ) / () () () / (Exemplos:1) Umtestedeproficinciainloco, avaliouacompetnciadostcnicosqueanalisavamo Papanicolau para anormalidades. Os tcnicos de 306 laboratrios de citologia foram avaliados e revelaram: P(Ca feminino no colo do tero) = 0,000083; P(Teste negativo/cncer) = 0,1625 (falso negativo); P(Teste positivo/cncer) = 0,8375 (sensibilidade); P(Teste positivo/sem cncer) = 0,1864 (falso positivo); P(Teste negativo/sem cncer) = 0,8136 ( espeficidade).Qual aprobabilidadedeumamulhercomPapanicolaupositivoparaocncerterrealmentea doena?) ( ) / ( ) ( ) / () ( ) / () / (Cncer Sem P Cncer Sem Pos Teste P Cncer P Cncer Pos Teste PCncer P Cncer Pos Teste Ppositivo Teste Cncer P+ +) ( 999983 , 0 ) / () ( 000373 , 01864 , 0 999917 , 0 8375 , 0 000083 , 08375 , 0 000083 , 0negativo teste um de preditivo Valor negativo Teste Cncer Sem Ppositivo teste um de preditivo Valorx xx+ 2) Levantamento Nacional de Entrevistas de Sade (MS )Condio de Emprego Amostra Debilidade Auditiva (Leso)Atualmente Empregado (1E )400000 60000Atualmente Desempregado(2E )38000 950Fora de Fora de Trabalho(3E)227000 2270Total 665000 63220Evento P(evento) P(Deb/Evento) ) (iE D P 1E 0,6015037 0,150 0,09022552E 0,0571428 0,025 0,001428573E 0,3413533 0,010 0,00341353D (debilidade) 0,0950676 0,0950675) ( ) ( ) ( ) (3 2 1E D P E D P E D P D P + + 3) Sensibilidade e EspecificidadeTeste Doena Probabilidade Sensibilidade(S) e Especificidade (E) so caractersticas fixas dos testes diagnsticos.Os valores preditivos do teste, porm, dependem da prevalncia da doena.Presente(D) Ausente(D)Positivo (T+)P(+T D ) P(+T D ) P(+T )Negativo (T-)P(T D ) P(T D ) P(T )Probabilidade P(D) P(D)Falso Positivo =) ( / ) ( ) / ( D P T D P D T P+ + Falso Negativo = ) ( / ) ( ) / ( D P T D P D T P Correto Positivo = ade Sensibilid D P T D P D T P + +) ( / ) ( ) / (.Correto Negativo =dade Especifici D P T D P D T P ) ( / ) ( ) / (Valor Preditivo Positivo =) ( / ) ( ) / (+ + + T P T D P T D PValor Preditivo Negativo = ) ( / ) ( ) / ( T P T D P T D PConsiderando os resultados do exemplo 1P(+T D/ )= 0,000373 (VPP) Para cada 1 milho (1000000) de Papanicolau positivos, somente 373 representam casos verdadeiros (corretos) de cncer no colo(colon) uterino.P(T D/ ) = 0,999987(VPN)Para cada 1 milho de Papanicolau negativos, 999987 representam casos verdadeiros de ausncia de cncer no colo uterino.4)Dois equipamentos, A e B, para processamento de dosagens bioqumicas so colocados para teste de controle de qualidade por 120 horas. A probabilidade de que um erro de clculo acontea emumequipamento do tipoA de 1/30; no tipo B, 1/80 e emambos, 1/1000. Qual a probabilidade de que:a) Pelo menos um dos equipamentos tenha apresentado erro?04483 , 0 24000 / ) 24 300 800 (10001801301) ( + + B A Pb) Nenhum equipamento tenha apresentado erro?95517 , 0 ) ( 1 ) ( ) ( B A P B A P B A Pc) Apenas o equipamento A tenha apresentado erro?) ( ) ( ) ( :03233 , 0 3000 / ) 3 100 (10001301) ( ) ( ) (B A B A B B A A A ObservaoB A P A P B A P Modelos Probabilsticos Variveis Aleatrias DiscretasUma quantidade X, associada a cada possvel resultado do espao amostral, denominada de VarivelAleatria Discreta (VAD) se assume valores num conjunto enumervel com certa probabilidade.Exemplos:- Nmero de filhos em famlias.- Nmero de gestaes.A funo de probabilidade atribui a cada valor da VAD sua probabilidade. A notao para a funo feita como: i i ip x p x X P ) ( ) ( i =1....,n; onde 1 0 ip eniip11 Modelos Discretos mais Comuns1. Modelo Uniforme (Equiprovvel)Todos os valores ocorrem com a mesma probabilidade.nx X Pi1) ( , para i=1,...,n.2. Modelo de Bernoulli (Ensaio de Bernoulli)Uma VAD segue o modelo Bernoulli quando o espao amostral temalternativas dicotmicas, que genericamente podem ser representadas por respostas tipo sucesso-fracasso.( )x xp p x X P 11 ) ( parax=0,1, com 0