Cap_01 bioestatística, princípios e aplicaçoes

Download Cap_01 bioestatística, princípios e aplicaçoes

Post on 29-Jun-2015

3.266 views

Category:

Documents

28 download

Embed Size (px)

TRANSCRIPT

<p>1Organizao de dados quantitativos</p> <p>U</p> <p>ma contribuio importante da estatstica no manejo das informaes foi a criao de procedimentos para a organizao e o resumo de grandes quantidades de dados. A descrio das variveis imprescindvel como um passo prvio para a adequada interpretao dos resultados de uma investigao, e a metodologia empregada faz parte da estatstica descritiva. Os dados podem ser organizados em tabelas ou grficos. Neste captulo, sero apresentados conceitos bsicos para a montagem e a apresentao dessas estruturas quando os dados so quantitativos. Para a descrio dos dados podem-se utilizar, alm de tabelas e grficos, medidas de tendncia central e de disperso, que sero abordadas em captulos subseqentes. Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com determinada doena, um pesquisador obtenha, em 25 indivduos, os seguintes valores (em g/100 mL): 5,1 5,0 5,2 4,5 4,8 4,9 5,0 5,2 5,4 5,1 4,9 5,0 4,9 5,1 5,3 5,1 5,1 5,3 4,7 5,3 4,7 5,4 5,0 5,5 5,0</p> <p>Dos dados obtidos, o pesquisador pode concluir inicialmente que: (1) Os valores de albumina nos pacientes variam de indivduo para indivduo. (2) Alguns indivduos apresentam valores iguais. (3) Os valores oscilam entre 4,5 e 5,5. As duas primeiras concluses so obtidas de forma imediata, mas a terceira exige pacincia e ateno, especialmente se a amostra for grande. Organizando os dados em tabelas de freqncias, nas quais se indicam os valores obtidos e a freqncia com que ocorrem, estas e outras concluses podem ser obtidas mais rapidamente e com menor probabilidade de erro.</p> <p>20</p> <p>Sidia M. Callegari-Jacques</p> <p>DISTRIBUIES DE FREQNCIAS: TABELAS Tabela de grupamento simples As tabelas de grupamento simples mostram os valores obtidos e o nmero de vezes que cada valor foi observado. Inicia-se a construo de uma tabela de grupamento simples procurando-se o menor valor obtido. A partir dele, organiza-se uma lista por ordem crescente dos valores que podem ocorrer (coluna 1 da Tabela 1.1). A seguir, volta-se aos valores anotados de forma desorganizada e, lendo um a um, marca-se um trao vertical ao lado do valor correspondente na tabela (tabulao ou contagem).</p> <p>TABELA 1.1 Taxa de albumina (g/100 mL) no plasma de 25 pacientes Albumina (x) 4,5 4,6 4,7 4,8 4,9 5,0 5,1 5,2 5,3 5,4 5,5 S ou soma Contagem / // / /// //// //// // /// // / f 1 0 2 1 3 5 5 2 3 2 1 25 fr 0,04 0,00 0,08 0,04 0,12 0,20 0,20 0,08 0,12 0,08 0,04 1,00 F 1 1 3 4 7 12 17 19 22 24 25 Fr 0,04 0,04 0,12 0,16 0,28 0,48 0,68 0,76 0,88 0,96 1,00 </p> <p>Recomenda-se reunir os traos de 5 em 5, cortando quatro traos com o quinto, para facilitar a contagem. O mtodo de procurar cada valor ao longo de toda a amostra, verificando quantas vezes ele ocorre, bastante desaconselhado, pois leva facilmente a erro, alm de exigir que a seqncia de dados seja lida vrias vezes. Costuma-se chamar de x os valores da varivel quantitativa em estudo. O total de traos obtidos em cada valor de x denominado freqncia absoluta simples, sendo indicada por f. O sinal (sigma maisculo; letra S no alfabeto grego) usado para indicar soma. Observe que a soma dos valores de f (Sf) igual ao nmero de indivduos examinados, que tambm costuma ser indicado por n. Portanto, Sf = n. Dividindo f por Sf, obtm-se a freqncia relativa simples (fr), que representa a proporo com que cada valor ocorre. Os valores mais freqentes apresentados na Tabela 1.1 so x = 5,0 e x =5,1, tendo, cada um, uma freqncia relativa fr = 0,20 (ou 20% do total de indivduos estudados). A tabela pode, ainda, indicar as freqncias acumuladas (F), que identificam quantos indivduos tm taxa de albumina igual ou menor do que um determinado valor. Observando-se a coluna F da Tabela 1.1, possvel notar que quatro pessoas possuem uma taxa de albumina igual ou menor do que 4,8. As freqncias acumuladas so obtidas somando-se a freqncia simples (f) da linha desejada (x)</p> <p>Bioestatstica</p> <p>21</p> <p>com as freqncias simples dos valores de x menores do que o considerado. A soma da coluna F no tem o menor sentido. Para saber a proporo de pessoas com taxa de albumina igual ou menor do que 4,8, calcula-se a freqncia acumulada relativa (Fr), obtida ou por meio da diviso de F por Sf (4/25 = 0,16 ou 16%) ou pela soma acumulada das fr a partir do valor de interesse [fr (4,8) = 0,04 + 0,08 + 0 + 0,04 = 0,16]. Qualquer freqncia relativa (fr ou Fr) pode ser transformada em freqncia percentual, bastando multiplic-la por 100. A Fr pode ser usada para se obter percentis, quantidades bastante usadas em certas reas da medicina. O percentil de ordem k (Pk) o valor de x que precedido por k% valores e seguido por (100-k)% dos valores. Por exemplo, P25 o valor de x que precedido por 25% dos valores (os 25% menores da srie) e seguido pelos restantes 75%. Os percentis P25, P50 e P75 dividem o conjunto de dados em quatro partes iguais; por isso, recebem o nome de quartis e so respectivamente os quartis Q1, Q2 e Q3. Na Tabela 1.1, o percentil P25 um valor entre 4,8 e 4,9, j que 16% dos indivduos tm valores iguais ou menores do que 4,8 e 28% das pessoas tm nveis de albumina iguais ou menores do que 4,9. Estima-se, ento, o percentil pela mdia entre 4,8 e 4,9, obtendo-se P25 = 4,85. So bastante populares os percentis P5 e P95, que delimitam os 5% valores menores, os 90% centrais e os 5% maiores de um conjunto de dados. As tabelas elaboradas para realizar clculos estatsticos no se prestam para publicao em relatrios ou artigos cientficos. Em tabelas para publicao, no se apresenta a tabulao dos dados. Tampouco se apresentam informaes redundantes: se for indicado f, no se apresenta fr ou a percentagem. Alm disso, a estrutura da tabela segue regras determinadas. As principais so: (1) A tabela deve ser precedida de um ttulo, suficientemente claro para que o leitor no necessite voltar ao texto para entender o contedo da mesma. (2) A tabela limitada por uma linha limitante superior e outra inferior, que indica seu final. O cabealho deve ser separado do restante do texto por uma linha horizontal. (3) No se usam linhas verticais separando as colunas; usam-se espaos em branco. (4) As abreviaturas e os smbolos pouco conhecidos devem ser explicados no rodap da tabela. (5) Deve ser indicada a fonte dos dados. Tabela de grupamento por intervalo de classe Quando os valores de uma caracterstica variam muito, como o caso da estatura ou do peso das pessoas, uma tabela como a Tabela 1.1 tenderia a ser muito extensa, perdendo a propriedade de condensar a informao. A soluo grupar os dados por intervalos de classe, como foi feito na Tabela 1.2 para valores de peso em 256 universitrias gachas. Cada intervalo de classe possui um extremo ou limite inferior e um extremo ou limite superior. O sinal | indica que o extremo inferior est includo no intervalo, mas o superior, no. Intervalos indicados por esse sinal so denominados intervalos abertos direita e so os mais comumente usados.</p> <p>22</p> <p>Sidia M. Callegari-JacquesTABELA 1.2 Pesos (kg) de 256 alunas da Universidade Federal do Rio Grande do Sul, obtidos no perodo de 1980 a 1999 (dados organizados em intervalos de classe) Peso (kg) 40 | 45 45 | 50 50 | 55 55 | 60 60 | 65 65 | 70 70 | 75 75 | 80 80 | 85 85 | 90 f 9 36 78 55 53 11 7 5 1 1 256 fr 0,035 0,141 0,304 0,215 0,207 0,043 0,027 0,020 0,004 0,004 1,000</p> <p>A notao envolvendo intervalos abertos direita (|), abertos esquerda (|) ou fechados em ambos os lados (||) muito til quando se quer elaborar tabelas de freqncias para variveis contnuas, pois no permite ambigidade na locao dos valores nos intervalos. Note, porm, que comum encontrar, referindo-se idade de crianas, por exemplo, a notao 3-4 anos, 5-6 anos, 7-8 anos para indicar 3 a 4 anos, 5 a 6 anos, 7 a 8 anos. A notao de intervalo aberto, mas a idia transmitida a de intervalo fechado em ambas as extremidades! O nmero escolhido de classes fica geralmente entre 6 e 8, podendo oscilar entre 5 e 20, dependendo do detalhamento desejado pelo investigador e do tamanho da amostra. Nas tabelas de grupamento por intervalo de classe, alm de f e fr pode-se calcular F e Fr, do mesmo modo como foi explicado para tabelas de grupamento simples. DISTRIBUIES DE FREQNCIAS: GRFICOS A representao grfica bastante interessante, porque d uma viso mais imediata de como se distribuem os indivduos nos diferentes valores da varivel. Nas publicaes, os grficos devem ser chamados de figuras. O ttulo do grfico deve ser claro, para evitar que o leitor volte ao texto para entender a que se refere, sendo colocado ao p do desenho, ao contrrio da tabela que tem o ttulo colocado na sua parte superior. Histograma O histograma o grfico mais utilizado para variveis contnuas. Consiste de uma sucesso de retngulos contguos, cuja base o intervalo de classe, e a altura, a freqncia relativa em cada classe dividida por h, a amplitude do intervalo de classe. Se as classes forem todas de igual amplitude, no necessrio realizar a diviso. No final, tem-se uma figura geomtrica, com rea total considerada como</p> <p>Bioestatstica</p> <p>23</p> <p>80 f 60</p> <p>100% ou 1 (a soma de todas as freqncias relativas). A Figura 1.1 apresenta o histograma relativo ao peso corporal de estudantes do sexo feminino da Universidade Federal do Rio Grande do Sul (UFRGS), obtido no perodo 19801999. Ogiva</p> <p>40</p> <p>A ogiva o grfico adequado para representar as freqncias acumuladas (F 20 ou Fr). No eixo horizontal, so colocados os intervalos de classe. No ponto mdio de cada intervalo, levanta-se uma perpendicular imaginria e mar0 ca-se um ponto na altura corresponden45 55 65 75 85 te freqncia acumulada na classe. A FIGURA 1.1 Peso (kg) observado em 256 alunas da Universiseguir, os pontos so unidos por segdade Federal do Rio Grande do Sul. mentos de reta. A ogiva til para se identificar graficamente percentis de interesse, como, por exemplo, a mediana (percentil 50). A Figura 1.2 apresenta a ogiva correspondente a dados de presso arterial sistlica medida nas primeiras 24 horas de vida, em 96 recm-nascidos de Porto Alegre (Oliveira, 1991; Tabela 1.3). Desenhando uma linha auxiliar a partir da freqncia acumulada igual a 50% at a ogiva e desta para o eixo horizontal, pode-se obter graficamente uma estimativa para a mediana da presso arterial sistlica nesses recm-nascidos (md: 65 mmHg). Diagrama de bastes A representao grfica apropriada para variveis quantitativas discretas o diagrama em basto. Esse grfico parecido com um histograma, com uma importante diferena: as freqncias para cada valor de x so agora representadas por</p> <p>TABELA 1.3 Presso arterial sistlica medida em 96 recm-nascidos, nas primeiras 24 horas de vida PAS (mmHg) 55 | 59 | 63 | 67 | 71 | 75 | 79 | 59 63 67 71 75 79 83 f 3 5 40 24 15 8 1 96 Fr 0,031 0,083 0,500 0,750 0,906 0,990 1,000 </p> <p>TotalFonte: Oliveira, 1991.</p> <p>24</p> <p>Sidia M. Callegari-Jacques100 90Freq. acumulada (%)</p> <p>80 70 60 50 40 30 20 10 0 50 55 60 65 70 75 80 85 90 FIGURA 1.2 Presso arterial sistlica (mmHg) de 96 recm-nascidos, nas primeiras 24 horas de vida. (Fonte: Oliveira, 1991.)</p> <p>Presso arterial sistlica (mmHg)</p> <p>bastes e no retngulos, pois inexiste continuidade entre os valores. A Tabela 1.4 e a Figura 1.3 apresentam um exemplo de representao tabular e grfica para dados deste tipo. FREQNCIA RELATIVA E PROBABILIDADE A freqncia relativa (fr) de um valor estima a probabilidade verdadeira de ocorrncia deste valor, que s conhecida tendo-se informao quanto a todos os indivduos da populao. A freqncia relativa associada a x = 2 irmos, conforme mostra a Tabela 1.4, de 0,35 na amostra estudada. Pode-se, ento, estimar em 35% a frao de universitrios que tm dois irmos. Isto equivale tambm a dizer que se estima em 0,35 a probabilidade de que um universitrio, selecionado ao acaso desta populao, tenha dois irmos. Estas concluses so vlidas se a amostra for representativa da populao de estudantes da UFRGS. Por outro lado, quanto maior for uma amostra representativa, melhor ser a idia da ocorrncia relativa (fr) do valor x = 2 na populao, isto , melhor ser a estimativa da probabilidade verdadeira. O mesmo raciocnio vale para as tabelas de dados grupados por intervalo de classe (Tabela 1.2). A probabilidade estimada de que uma estudante tenha peso entre 45 e 50 kg 0,14.40 30 % 20 10 0 0 1 2 3 4 5 6 7 8 9 Nmero de irmos FIGURA 1.3. Nmero de irmos relatados por 115 estudantes universitrios da UFRGS.</p> <p>BioestatsticaTABELA 1.4 Nmero de irmos relatados por 115 estudantes universitrios da UFRGS (dados obtidos entre 1986 e 1992) No de irmos 0 1 2 3 4 5 6 7 8 9 f 8 20 40 26 9 7 4 0 0 1 fr 0,07 0,17 0,35 0,23 0,08 0,06 0,03 0,00 0,00 0,01 Fr 0,07 0,24 0,59 0,82 0,90 0,96 0,99 0,99 0,99 1,00</p> <p>25</p> <p>No histograma relativo a estes dados (Figura 1.1), a rea do retngulo referente ao intervalo 45 | 50 corresponde a 14% da rea de todo o histograma (100%). Portanto, a rea deste retngulo a representao geomtrica da probabilidade estimada de se encontrar valores entre 45 e 50 na populao. No grfico de bastes, a probabilidade estimada para cada valor a altura do basto.</p>