1 estatística descritiva 2002 © luís silva bioestatística dep. biologia universidade dos açores
TRANSCRIPT
1
Estatística Descritiva
2002 © Luís Silva
Bioestatística
Dep. Biologia
Universidade dos Açores
www.uac.pt
2
Distribuições de frequência
Distribuição de Frequências(Dados Nominais)
Tabela. Frequências absolutas e relativas
Masculino FemininoFa Fr Fa Fr
Sim 14 73,7% 19 65,5%Não 5 26,3% 10 34,5%
19 29
Fuma
Uma distribuição de frequências contabiliza o número de ocorrências para
cada valor tomado pela variável (frequência absoluta).
Quando em percentagem (frequências relativas), permite comparar amostras
de diferentes dimensões.
3
Distribuições de frequência
Gráfico de sectores(Dados Nominais)
Cor dos Cabelos
7%
91%
2%
preto
castanho
louro
Os dados em escala nominal podem ser resumidos em tabelas de frequências
relativas ou absolutas, ou ainda em gráficos de sectores ou de barras. As barras
estão separadas, evidenciando a natureza qualitativa dos dados.
Gráfico de barras(Dados Nominais)
Núm
ero
de la
goas
(%
)0
10
20
30
40
50
60
70
80
90
Peixes Rã Tritão Aves
Vertebrados
4
Distribuições de frequência
Gráfico de Barras(Dados Nominais)
Biologia
Biol/ Geo
Alunos
Alunas
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
Per
c en
tag e
m d
e a l
un
os
5
Distribuições de frequência
Gráfico de Barras(Dados Ordinais)
0
5
10
15
20
25
Nº
de
alu
no
s
ne
nh
um
po
uco
alg
um
gra
nd
e
mtº
grd
.Interesse pelo Ambiente
Interesse pelo ambiente -Alunos
5%0%
0%
58%
37%
nada
pouco
algum
bastante
muito
Os dados em escala ordinal
podem ser resumidos em tabelas
ou em gráficos de sectores ou de
barras.
Quando o número de valores
que a variável pode assumir é
elevado, não é aconselhável a
utilização de gráficos e sectores,
pois perdem legibilidade
6
Escala de Rácios: Dados Discretos(Plantas de Rumex sp. em pastagens, amostras de 1 metro quadrado)
Número de plantas por amostra
0
5
10
15
20
25
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nú
mer
o d
e am
ostr
as
(%)
Os dados discretos na escala de rácios devem ser representados por gráficos de barras. As barras estão separadas, evidenciando a natureza discreta, descontínua dos dados.
Distribuições de frequência
7
Dados ContínuosOs dados contínuos na escala de rácios devem ser representados em histogramas. Os dados contínuos na escala de rácios devem ser representados em histogramas. Os dados são agrupados em classes com uma amplitude pré-definida. Nos Os dados são agrupados em classes com uma amplitude pré-definida. Nos histogramas as barras referentes às várias classes encontra-se justapostas, dando histogramas as barras referentes às várias classes encontra-se justapostas, dando a ideia de continuidade. Exemplo: comprimentos de tritão de crista.a ideia de continuidade. Exemplo: comprimentos de tritão de crista.
11,000 12,000 0 0,000
12,000 13,000 4 0,050
13,000 14,000 11 0,138
14,000 15,000 43 0,538
15,000 16,000 14 0,175
16,000 17,000 8 0,100
17,000 18,000 0 0,000
Total 80 1,000
De (=) Até (<)Freq. Abs.Freq. Rel.
Distribuição de frequências para as fêmeas
0
10
20
30
40
50
60
Per
cent
agem
de
fêm
eas
11 12 13 14 15 16 17 18
Comprimento total (cm)
Distribuições de frequência
8
Dados Contínuos(Pesos de uma turma de alunos de Bioestatística)
HistogramaHistograma
0
2
4
6
8
10
12
n.º a
luno
s
45 55 65 75 85 95 105 115
Peso (Kg) Alunos
0
2
4
6
8
10
12
n.º a
luna
s
45 55 65 75 85 95 105 115
Peso (Kg) Alunas
A utilização de frequências absolutas pode dificultar a comparação dos
gráficos, quando as amostras a comparar (neste caso alunos e alunas) não têm
a mesma dimensão.
Distribuições de frequência
9
Dados Contínuos(Envergadura de uma turma de alunos de Bioestatística)
Os dados contínuos também podem ser representados por Os dados contínuos também podem ser representados por Polígonos de Frequências. Os pontos médios das classes são unidos Polígonos de Frequências. Os pontos médios das classes são unidos por segmentos de recta. Permitem uma representação simultânea por segmentos de recta. Permitem uma representação simultânea de duas amostras, que não é tão legível no caso dos histogramasde duas amostras, que não é tão legível no caso dos histogramas
0%
10%
20%
30%
40%
50%
60%
Envergadura (cm)
Fre
q.
rela
tiva
Alunos 0,0% 0,0% 5,3% 5,3% 42,1% 42,1% 0,0% 0,0% 5,3%
Alunas 3,4% 3,4% 20,7% 55,2% 13,8% 3,4% 0,0% 0,0% 0,0%
135 145 155 165 175 185 195 205 215
Distribuições de frequência
10
Frequências acumuladas
As frequências acumuladas (absolutas ou relativas) são calculadas por adição
sucessiva dos termos de uma distribuição de frequências. Indicam a frequência
das observações com valores iguais ou inferiores a xi.
Exemplo: percentagem de alunos com até 170 cm de estatura.
0
20
40
60
80
100
145 155 165 175 185 195
Estatura (cm)
Nº
de
alu
no
s (%
)
11
Escala de intervalos
Distribuições circulares. Estes dados sofrem um transformação em graus. Calcula-
se o ângulo médio e a variância angular. Depois, transformam-se esses dados na
unidade inicial. Por exemplo, transformam-se horas em graus (24h = 360º),
realizam-se os cálculos e, no final, transforma-se o ângulo médio e o desvio padrão
angular em horas. Apresentam-se em histogramas circulares.
12
3
4
5
6
7
8
9
10
1112
1314
15
16
17
18
19
20
21
22
2324
Hora de levantar Hora de deitar
5
1525
12
Medidas de tendência centralMedidas de tendência central
As medidas de tendência central ou de posição
indicam o centro de gravidade da distribuição, a
posição da distribuição ao longo do eixo, ou um
ponto de acumulação de dados.
13
Medidas de tendência centralMedidas de tendência central Média Aritmética
Mais utilizada
Fórmula para o parâmetro
N(xi)
i=1 = ————— N
Fórmula para o estimador
n(xi) _ i=1x = ————— n
Média Aritmética
O caso de dados repetidos
kfa(xi) . xi
i=1 = ————— N
k =fr(xi) . xi
i=1
Onde k é o número de valores
diferentes.
No caso da média, a fórmula para o parâmetro () e para o
estimador (x) é a mesma.
_
14
Moda
O valor mais frequente num conjunto de dados.
Pode haver mais do que uma moda - distribuições
multimodais.
Definição mais geral: um ponto de relativa concentração de
dados.
Expressa menos informação do que a média.
Aplica-se a todos os tipos de dados.
Medidas de tendência centralMedidas de tendência central
15
Mediana
O valor central de um conjunto ordenado de dados - existem 50% das
observações abaixo e acima da mediana.
Exemplo
1 2 3 3 4 5 5 5 6 M = x(n+1)/2
= x 5 = 4
Exemplo
1 2 3 3 3 4 4 4 5 6 M = x(n+1)/2
= x 5,5
= (3+4)/2=3,5
Expressa menos informação do que a média.
Não é tão afectada pelos valores extremos
Pode-se usar para dados em escala ordinal ou em escala de rácios.
Medidas de tendência centralMedidas de tendência central
16
Mediana
Quando há dados com o mesmo valor, pode ser impossível aplicar esta
definição de mediana.
Exemplo
1 2 3 3 3 4 4 4 5 6 6
M = x(n+1)/2
= x 6 = 4, mas acima do 4 há apenas três observações.
Assim, uma definição mais geral é considerar a mediana como o ponto da
distribuição, abaixo ou acima do qual se encontram, no máximo, 50% das
observações.
Medidas de tendência centralMedidas de tendência central
17
Outros quantis
Quartis: divisão da distribuição em quatro partes.Q1= X (n+1)/4
Octis: divisão da distribuição em oito partes.Q1= X (n+1)/8
Percentis: divisão da distribuição em cem partes.
LD50, LC50: dose ou concentração letal para 50% da amostra.
GT 25, GT50, GT75: tempo de germinação para 25, 50 ou 75% da amostra de sementes.
Medidas de tendência centralMedidas de tendência central
18
Medidas de dispersãoMedidas de dispersão
As medidas de dispersão fornecem informação acerca da variabilidade
dos dados, indicando se existe uma concentração dos dados em volta da
média ou se, pelo contrário, os dados se distribuem ao longo de uma
curva relativamente ampla, com valores extremos bem distanciados da
média.
19
Medidas de dispersãoMedidas de dispersão Amplitude = Máximo - Mínimo
É uma medida algo grosseira que leva, em geral, a uma subestimação da amplitude na população.É utilizada em Taxonomia.Aplica-se aos dados nas escalas ordinal, por intervalos e de rácios. Surgiu a ideia de calcular a soma dos desvios das observações em relação à médiaDesvio Médio =
N|xi-| i=1 = ————— NPouco utilizado
20
Medidas de dispersãoMedidas de dispersão Surge a ideia de elevar os desvios ao quadrado:
VariânciaPopulação - parâmetro - 2
N(xi - )2
i=1 2 = ————— NAmostra - estimador - s2
n _(xi - x )2
i=1 s2 = ————— n-1
21
Medidas de dispersãoMedidas de dispersão
Fórmula para cálculo rápido:
n[xi ]2 i=n(xi
2) - ———— n ———————— n-1
Soma de quadrados (SS)
n[xi ]2 i=n(xi
2) - ———— n
Graus de liberdade = n-1
Na variância a fórmula para calcular o
parâmetro (2) é diferente da utilizada
para o cálculo do estimador (s2).
Se há dados repetidos:
n[ faxi).xi ]2 i=nfaxi).xi
2 - ———— n ——————————— n-1
22
Medidas de dispersãoMedidas de dispersão
Desvio padrão ou s
Raiz quadrada positiva da variância.
Tem a vantagem de se encontrar nas mesmas unidades da média, enquanto
que a variância tem as unidades da média ao quadrado.
Coeficiente de variação
Medida de variabilidade ou dispersão relativa.
CV = (s / x) . 100
Permite comparar espécies diferentes quanto à variabilidade.
_