bioestatística básica aula 2 conteúdo: apresentação de dados (gráficos) medidas de posição...
TRANSCRIPT
Bioestatística
básica AULA 2
Conteúdo:
Apresentação de dados (Gráficos)
Medidas de posição
Medidas de dispersão
Características importantes dos dados
Centro: Um valor representativo ou médio, que indica onde se localiza o meio do conjunto de dados.
Variação: Uma medida de quanto os valores dos dados variam.
Distribuição: A natureza ou forma da distribuição dos dados (ex. uniforme, sino, assimétrica).
Outliers ou valores discrepantes: valores amostrais que se localizam muito longe da grande maioria dos outros valores amostrais.
Tempo: Características dos dados que mudam com o tempo.
Apresentação gráfica de dados
Diagrama de Barras
Usado para apresentar variáveis
qualitativas e quantitativas discretas.
As barras do diagrama podem ser
verticais ou horizontais.
Variáveis qualitativas - ilustrar
comparações entre categorias.
Variáveis quantitativas discretas -
barras do diagrama devem ser
verticais.
Diagrama de Barras - Exemplos
Taxas de mortalidade pelos cânceres mais comuns, sexo feminino. Estado de São Paulo, 1992.
0
2
4
6
8
10
12
14
mama estômago cólon/reto pulmão colo/útero
Tipo de Câncer
Ób
ito
s / 1
00.0
00 h
abit
ante
s
Fonte: Fonte: Ministério da Saúde (1994)
Fonte: Fonte: FOSP / Fundação Seade
Diagrama de Barras - Exemplos
Incidência de efeitos colaterais devido ao uso de um novo agente anti-hipertensivo
0
5
10
15
20
25
30
1 2 3 4 5
número de efeitos colaterais
freq
üên
cia
Apresentação gráfica de dados
Gráfico de setores
Usado para representar variáveis
qualitativas.
Cada categoria corresponderá a uma
divisão ou a um setor de um círculo.
Geralmente utilizado quando se pretende
comparar o total de cada categoria com o
conjunto total.
Neste tipo de gráfico, um círculo de raio
qualquer vai representar 100% dos dados
(360o).
Quando usar a freqüência relativa no gráfico, colocar o N.
Gráfico de Setores - Exemplo
Gráfico em setores da distribuição da tuberculose (Dawson, 2003, p.43)
Negros não-hispânicos
37%
Brancos não-hipânicos
35%
Asiáticos ou habitantes das ilhas
do Pacífico11%
Americanos nativos1%
Hipânicos16%
Apresentação gráfica de dados
Histograma
Adequado para ilustrar o comportamento de
valores agrupados em classes.
É um gráfico de colunas composto por vários
retângulos adjacentes, representando a
tabela de freqüência.
As classes são colocadas no eixo horizontal
e as freqüências no eixo vertical.
Na construção devem ser empregadas de 5 a
20 classes.
Interpretação: Centro, variação, forma e outlier. Não é apropriado para verificar se há mudanças ao longo do tempo.
Histograma – Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
Percentual de linfócitos Freqüência
10 |- 12 5
12 |- 14 6
14 |- 16 5
16 |- 18 1
18 |- 20 2
20 |- 22 1
total 20
Histograma - Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
0
1
2
3
4
5
6
7
11 13 15 17 19 21
percentual de linfócitos
freq
üên
cia
Apresentação gráfica de dados
Polígono de freqüência
Utilizado na representação de variáveis quantitativas contínuas.
Usa segmentos de reta ligados a pontos localizados diretamente acima dos valores dos pontos médios de classe.
Os segmentos são estendidos à direita e à esquerda de forma que o gráfico comece e termine no eixo horizontal.
Exemplo: tabela usada para construção do histograma
Polígono de freqüência Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
0
1
2
3
4
5
6
7
9 11 13 15 17 19 21 23
percentual de linfócitos
freq
üên
cia
Apresentação gráfica de dados
Ogiva de Galton
É um gráfico de linha que representa as freqüências acumuladas.
O gráfico se inicia com a fronteira inferior da primeira classe e termina com a fronteira superior da última classe.
Exemplo: tabela usada para construção do histograma
Ogiva de Galton - Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
0
5
10
15
20
25
10 12 14 16 18 20 22
percentual de linfócitos
freq
üên
cia
acu
mu
lad
a
Apresentação gráfica de dados
Ramo-e-folha
Representa dados separando cada valor em duas partes: o ramo (dígito mais a esquerda) e a folha (dígito mais a direita).
Pode ser expandido ou condensado.
Ao virar o ramo-e-folhas de lado podemos ver a distribuição dos dados.
Vantagem: os dados originais podem ser recuperados.
Usar de 5 a 20 classes.
Ramo-e-folha – Exemplo
57 63 66 70 74 81 87 94
59 63 68 71 75 83 88 95
60 63 69 72 75 85 88 101
60 64 69 72 77 86 89 107
62 66 70 73 78 86 91 119
Diâmetros abdominais de 40 indivíduos
Ramo-e-folha – Exemplo
Ramo (dezena) Folhas (unidades)
5 7 9
6 0 0 2 3 3 3 4 6 6 8 9 9
7 0 0 1 2 2 3 4 5 5 7 8
8 1 3 5 6 6 7 8 8 9
9 1 4 5
10 1 7
11 9
Diâmetros abdominais de 40 indivíduos
Apresentação gráfica de dados
Diagrama de dispersão
É a melhor maneira de visualizar o
relacionamento entre duas variáveis.
A representação gráfica é feita no
mesmo sistema de coordenadas, em
que uma das variáveis é colocada no
eixo x e outra no eixo y.
O gráfico de dispersão é utilizado para
interpretar o relacionamento entre duas
variáveis (direção, forma e intensidade
do relacionamento).
Diagrama de Dispersão - Exemplo
Índice de massa corporal (IMC) e percentual de gordura de 10 universitárias. Brasil, 1997
Indivíduo IMC Percentual de gordura
1 21,5 29
2 20,7 25
3 21,3 26
4 19,0 23
5 21,2 25
6 18,6 23
7 16,8 18
8 20,7 28
9 30,8 46
10 18,3 22
Fonte: dados fictícios
Diagrama de Dispersão - Exemplo
Relação entre IMC e percentual de gordura de 10 universitárias. Brasil, 1997
0
10
20
30
40
50
0 5 10 15 20 25 30 35
IMC
Per
cetu
al d
e g
ord
ura
Boxplot – após MP
Medidas de centro
Valor no centro ou no meio do
conjunto de dados.
Medidas: média, mediana, moda
e ponto médio. Média
Média amostral Média populacional
n
xX
n
ii
1
N
xn
ii
1
Média - exemplo Variação de freqüência cardíaca com a
respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
Mediana
Para calcular a mediana devemos
primeiro colocar os valores em ordem
crescente (ou decrescente) e, em
seguida, aplicar um dos dois processos
abaixo:
Se o número de valores é ímpar, a
mediana é o número localizado
exatamente no meio da lista.
Se o número de valores é par, a mediana
é a média dos 2 valores do meio.
Mediana - exemplo Variação de freqüência cardíaca com a
respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
Moda (M)
É o valor que ocorre mais freqüentemente.
Uma distribuição pode ser unimodal, bimodal, multimodal ou amodal.
Moda
5 5 5 3 1 5 1 4 3 5
1 2 2 2 3 4 5 6 6 6 7 9
1 2 3 6 7 8 9 10
Moda - exemplo Variação de freqüência cardíaca com a
respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
Ponto médio
É o valor a meio caminho entre o maior valor e o menor valor da série.
Ponto médio - exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
Média de uma distribuição de freqüência
n
ii
n
iii
n
nxX
1
1
Média de uma distribuição de freqüência - Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
Percentual de linfócitos Freqüência
10 |- 12 5
12 |- 14 6
14 |- 16 5
16 |- 18 1
18 |- 20 2
20 |- 22 1
total 20
Assimetria
A distribuição de dados é assimétrica quando se estende mais para um lado que para o outro.
Uma distribuição de dados é simétrica se a metade esquerda do seu histograma é praticamente uma imagem espelhada de sua imagem direita.
Separatrizes
Separatrizes
Quartil: Divide a distribuição em 4
partes iguais em um conjunto
ordenado de valores.
Percentil: Divide a distribuição em 100
partes iguais em um conjunto
ordenado de valores.
Decil: Divide a distribuição em 10
partes iguais em um conjunto
ordenado de valores.
Separatrizes
Separatrizes Observação:
Intervalo interquartil = Q3 – Q1
Intervalo semi-quartil = (Q3 – Q1) / 2
Quartil médio = (Q1 + Q3) / 2
Amplitude de percentis 10-90 = P90 – P10
Separatrizes - Exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9Calcule Q1, Q2, Q3, P10 e D9
Apresentação gráfica de dados
Boxplot ou diagrama em caixa ou diagrama de caixa e bigode
Resumo dos cinco números: mínimo, Q1, Q2, Q3 e máximo.
É um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo até o valor máximo, em uma caixa com linhas traçadas em Q1, Q2 e Q3.
Utilização: comparação entre conjuntos de dados.
Apresentação gráfica de dados
Construção de um diagrama de caixa
Ache o resumo dos cinco números.
Construa uma escala com valores que incluam o máximo e o mínimo dos dados.
Construa uma caixa retangular estendendo-se de Q1 a Q3, e trace uma linha ns caixa no valor de Q2.
Trace linhas estendendo-se da caixa até os valores mínimo e máximo.
Boxplot - Exemplo
Figure 1. Effect of Newly Diagnosed Helicobacter pylori Infection on Thyrotropin Levels in Patients with Multinodular Goiter Treated with Thyroxine. The box plots show levels of thyrotropin in patients who received no treatment with thyroxine, in patients receiving thyroxine treatment (median dose, 1.56 microg per kilogram per day) and in whom a low level of thyrotropin (0.05 to 0.20 mU per liter) was stably achieved, in patients with H. pylori infection (with no change in the dose of thyroxine), and in patients after the eradication of H. pylori infection (median dose, 1.70 microg per kilogram per day).
Medidas de dispersão
A dispersão fornece uma medida da
proximidade da série de dados em
torno de um valor de tendência central,
tomado como comparação.
Medidas para avaliar a dispersão de
um conjunto de dados: Amplitude
Total, Desvio Médio, Variância,
Desvio Padrão e Coeficiente de
Variação.
Medidas de dispersão
Amplitude total
maior amplitude total maior
dispersão.
Problema: somente são usados os
extremos do conjunto (medida
instável).
Elemento auxiliar na análise mostra
a faixa de variação onde encontramos
todos os elementos do conjunto.
)()( mínxmáxxAT
Amplitude - exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
Desvio médio
É a média aritmética dos desvios absolutos dos elementos da série, tomados em relação a média.
xxdN
dDM i onde
||
Desvio médio - exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
Desvio padrão
Utilização
Verificação da dispersão ou espalhamento de
um conjunto de dados;
Permite distinguir numericamente conjuntos
de dados de mesmo tamanho e mesma
média, mas que são visivelmente diferentes.
n
xn
ii
1
2)(
1
)(1
2
n
Xxs
n
ii
Medidas de dispersão
Desvio padrão - Interpretação
Uma pergunta que pode surgir é se
um desvio padrão é grande ou
pequeno; dependendo da ordem de
grandeza da variável.
Comparação de séries menor
desvio padrão mais homogênea
ou menos dispersa.
Desvio padrão - Exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
Desvio padrão de uma distribuição de freqüência
População Amostra
1
)(1
2
n
Xxns
n
iii
)(
1
2
n
xnn
iii
Desvio padrão de uma distribuição de freqüência - Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide
Percentual de linfócitos Freqüência
10 |- 12 5
12 |- 14 6
14 |- 16 5
16 |- 18 1
18 |- 20 2
20 |- 22 1
total 20
Medidas de dispersão
Variância
Medida direta da dispersão conjunto
com os dados mais dispersos terá
maior variância.
Medida em unidade quadrada
(exemplo: anos2) o que dificulta a
sua interpretação.
)(
1
2
2
n
xn
ii
1
)(1
2
2
n
Xxs
n
ii
Variância - exemplo Variação de freqüência cardíaca com a
respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
Coeficiente de variação
É uma medida de dispersão relativa
(%) que mede a variação do desvio
padrão em relação à média aritmética.
X
sCV 100(%)
Medidas de dispersão
Série Média Desvio padrão
A (t) 80,8 t 10,0 t
B (cm) 450,0 cm 10,0 cm
C (oC) 32,6 oC 4,2 oC
D (oC) 30,0 oC 2,6 oC
E (t) 8200 t 700,0 t
Coeficiente de variação
1) Qual a série mais homogênea: a série A ou a série B?
2) A série C ou a série D?
3) A série A ou a série E?
Coeficiente de variação - exemplo
Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes
Identificação do
indivíduo
Variação da freqüência cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Banco de dados - Honolulu
Doenças Cardíacas – 7.683 casos coletados no Havai em 1969
Tamanho da amostra: 100
Universo: Homens doentes com idade entre 45 e 67 anos.
Fator de exposição: fumante
Média de Idade da população: 54,36 anos
Banco de dados - Honolulu
Variáveis Codificadas:
1) Educatio: nível de instrução
Utilizando similar brasileiro:
1 = nenhuma
2 = primeiro grau incompleto
3 = primeiro grau completo
4 = segundo grau completo
5 = curso técnico
6 = curso superior
2) Weight : peso em Kg
3) Height : altura em cm
4) Age : idade em anos
Banco de dados - Honolulu
Variáveis Codificadas:
5) Smoking: status de fumante
0 = não
1 = sim
6) Phisical : atividade física
1 = sedentário
2 = moderada
3 = alta
7) Glucose: nivel de glicose no sangue em miligramas percentuais
8) Cholest: nível de coleterol sérico em miligramas percentuais
10) Pressure: pressão sanguinea sistólica em mmHg
Banco de dados - Honolulu
Procedimentos - Tabelas (Planilha: quali. cont. graf.)
Variáveis nível educacional, Fumo e Atividade Física – construção de tabela usando comando freqüência.
Banco de dados - Honolulu
Procedimentos – Gráficos (Planilha: quali. cont. graf.)
Variáveis Nível Educacional, Fumo e Atividade Física – construção de diagrama de barras (barras e colunas) e diagrama circular.
Banco de dados - Honolulu
Procedimentos - Medidas
Calcular média, mediana, moda,
amplitude total, desvio médio,
desvio padrão, variância para as
variáveis massa, estatura, glicose,
colesterol e pressão.
Uso das funções estatísticas do
EXCEL.
Uso da ferramenta análise
descritiva do menu Ferramentas.
Banco de dados - Honolulu
Procedimentos - Medidas
Uso das funções estatísticas do
EXCEL.
Inserir Função Estatística
nome da função (planilha: medidas)
Banco de dados - Honolulu
Procedimentos - Medidas
Nome das funções
Medida Função
Média Média
Moda Modo
Mediana Med
Quartil Quartil
Percentil Percetil
Amplitude total
Máximo – mínimo
Desvio médio
Desv.médio
Desvio padrão
Desvpad
Variância Var
Banco de dados - Honolulu
Ferramentas Análise de dados Estatística descritiva (planilha: dados)