1 estatística descritiva 2002 © luís silva bioestatística dep. biologia universidade dos açores

22
1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores www.uac.pt

Upload: internet

Post on 18-Apr-2015

119 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

1

Estatística Descritiva

2002 © Luís Silva

Bioestatística

Dep. Biologia

Universidade dos Açores

www.uac.pt

Page 2: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

2

Distribuições de frequência

Distribuição de Frequências(Dados Nominais)

Tabela. Frequências absolutas e relativas

Masculino FemininoFa Fr Fa Fr

Sim 14 73,7% 19 65,5%Não 5 26,3% 10 34,5%

19 29

Fuma

Uma distribuição de frequências contabiliza o número de ocorrências para

cada valor tomado pela variável (frequência absoluta).

Quando em percentagem (frequências relativas), permite comparar amostras

de diferentes dimensões.

Page 3: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

3

Distribuições de frequência

Gráfico de sectores(Dados Nominais)

Cor dos Cabelos

7%

91%

2%

preto

castanho

louro

Os dados em escala nominal podem ser resumidos em tabelas de frequências

relativas ou absolutas, ou ainda em gráficos de sectores ou de barras. As barras

estão separadas, evidenciando a natureza qualitativa dos dados.

Gráfico de barras(Dados Nominais)

Núm

ero

de la

goas

(%

)0

10

20

30

40

50

60

70

80

90

Peixes Rã Tritão Aves

Vertebrados

Page 4: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

4

Distribuições de frequência

Gráfico de Barras(Dados Nominais)

Biologia

Biol/ Geo

Alunos

Alunas

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

Per

c en

tag e

m d

e a l

un

os

Page 5: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

5

Distribuições de frequência

Gráfico de Barras(Dados Ordinais)

0

5

10

15

20

25

de

alu

no

s

ne

nh

um

po

uco

alg

um

gra

nd

e

mtº

grd

.Interesse pelo Ambiente

Interesse pelo ambiente -Alunos

5%0%

0%

58%

37%

nada

pouco

algum

bastante

muito

Os dados em escala ordinal

podem ser resumidos em tabelas

ou em gráficos de sectores ou de

barras.

Quando o número de valores

que a variável pode assumir é

elevado, não é aconselhável a

utilização de gráficos e sectores,

pois perdem legibilidade

Page 6: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

6

Escala de Rácios: Dados Discretos(Plantas de Rumex sp. em pastagens, amostras de 1 metro quadrado)

Número de plantas por amostra

0

5

10

15

20

25

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

mer

o d

e am

ostr

as

(%)

Os dados discretos na escala de rácios devem ser representados por gráficos de barras. As barras estão separadas, evidenciando a natureza discreta, descontínua dos dados.

Distribuições de frequência

Page 7: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

7

Dados ContínuosOs dados contínuos na escala de rácios devem ser representados em histogramas. Os dados contínuos na escala de rácios devem ser representados em histogramas. Os dados são agrupados em classes com uma amplitude pré-definida. Nos Os dados são agrupados em classes com uma amplitude pré-definida. Nos histogramas as barras referentes às várias classes encontra-se justapostas, dando histogramas as barras referentes às várias classes encontra-se justapostas, dando a ideia de continuidade. Exemplo: comprimentos de tritão de crista.a ideia de continuidade. Exemplo: comprimentos de tritão de crista.

11,000 12,000 0 0,000

12,000 13,000 4 0,050

13,000 14,000 11 0,138

14,000 15,000 43 0,538

15,000 16,000 14 0,175

16,000 17,000 8 0,100

17,000 18,000 0 0,000

Total 80 1,000

De (=) Até (<)Freq. Abs.Freq. Rel.

Distribuição de frequências para as fêmeas

0

10

20

30

40

50

60

Per

cent

agem

de

fêm

eas

11 12 13 14 15 16 17 18

Comprimento total (cm)

Distribuições de frequência

Page 8: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

8

Dados Contínuos(Pesos de uma turma de alunos de Bioestatística)

HistogramaHistograma

0

2

4

6

8

10

12

n.º a

luno

s

45 55 65 75 85 95 105 115

Peso (Kg) Alunos

0

2

4

6

8

10

12

n.º a

luna

s

45 55 65 75 85 95 105 115

Peso (Kg) Alunas

A utilização de frequências absolutas pode dificultar a comparação dos

gráficos, quando as amostras a comparar (neste caso alunos e alunas) não têm

a mesma dimensão.

Distribuições de frequência

Page 9: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

9

Dados Contínuos(Envergadura de uma turma de alunos de Bioestatística)

Os dados contínuos também podem ser representados por Os dados contínuos também podem ser representados por Polígonos de Frequências. Os pontos médios das classes são unidos Polígonos de Frequências. Os pontos médios das classes são unidos por segmentos de recta. Permitem uma representação simultânea por segmentos de recta. Permitem uma representação simultânea de duas amostras, que não é tão legível no caso dos histogramasde duas amostras, que não é tão legível no caso dos histogramas

0%

10%

20%

30%

40%

50%

60%

Envergadura (cm)

Fre

q.

rela

tiva

Alunos 0,0% 0,0% 5,3% 5,3% 42,1% 42,1% 0,0% 0,0% 5,3%

Alunas 3,4% 3,4% 20,7% 55,2% 13,8% 3,4% 0,0% 0,0% 0,0%

135 145 155 165 175 185 195 205 215

Distribuições de frequência

Page 10: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

10

Frequências acumuladas

As frequências acumuladas (absolutas ou relativas) são calculadas por adição

sucessiva dos termos de uma distribuição de frequências. Indicam a frequência

das observações com valores iguais ou inferiores a xi.

Exemplo: percentagem de alunos com até 170 cm de estatura.

0

20

40

60

80

100

145 155 165 175 185 195

Estatura (cm)

de

alu

no

s (%

)

Page 11: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

11

Escala de intervalos

Distribuições circulares. Estes dados sofrem um transformação em graus. Calcula-

se o ângulo médio e a variância angular. Depois, transformam-se esses dados na

unidade inicial. Por exemplo, transformam-se horas em graus (24h = 360º),

realizam-se os cálculos e, no final, transforma-se o ângulo médio e o desvio padrão

angular em horas. Apresentam-se em histogramas circulares.

12

3

4

5

6

7

8

9

10

1112

1314

15

16

17

18

19

20

21

22

2324

Hora de levantar Hora de deitar

5

1525

Page 12: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

12

Medidas de tendência centralMedidas de tendência central

As medidas de tendência central ou de posição

indicam o centro de gravidade da distribuição, a

posição da distribuição ao longo do eixo, ou um

ponto de acumulação de dados.

Page 13: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

13

Medidas de tendência centralMedidas de tendência central Média Aritmética

Mais utilizada

Fórmula para o parâmetro

N(xi)

i=1 = ————— N

Fórmula para o estimador

n(xi) _ i=1x = ————— n

Média Aritmética

O caso de dados repetidos

kfa(xi) . xi

i=1 = ————— N

k =fr(xi) . xi

i=1

Onde k é o número de valores

diferentes.   

No caso da média, a fórmula para o parâmetro () e para o

estimador (x) é a mesma.

_

Page 14: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

14

Moda

 

O valor mais frequente num conjunto de dados.

Pode haver mais do que uma moda - distribuições

multimodais.

Definição mais geral: um ponto de relativa concentração de

dados.

Expressa menos informação do que a média.

Aplica-se a todos os tipos de dados.

Medidas de tendência centralMedidas de tendência central

Page 15: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

15

Mediana 

O valor central de um conjunto ordenado de dados - existem 50% das

observações abaixo e acima da mediana.

Exemplo

1 2 3 3 4 5 5 5 6 M = x(n+1)/2

= x 5 = 4

Exemplo

1 2 3 3 3 4 4 4 5 6 M = x(n+1)/2

= x 5,5

= (3+4)/2=3,5

Expressa menos informação do que a média.

Não é tão afectada pelos valores extremos

Pode-se usar para dados em escala ordinal ou em escala de rácios. 

Medidas de tendência centralMedidas de tendência central

Page 16: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

16

Mediana

 

Quando há dados com o mesmo valor, pode ser impossível aplicar esta

definição de mediana.

Exemplo

1 2 3 3 3 4 4 4 5 6 6

M = x(n+1)/2

= x 6 = 4, mas acima do 4 há apenas três observações.

Assim, uma definição mais geral é considerar a mediana como o ponto da

distribuição, abaixo ou acima do qual se encontram, no máximo, 50% das

observações.

Medidas de tendência centralMedidas de tendência central

Page 17: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

17

Outros quantis

Quartis: divisão da distribuição em quatro partes.Q1= X (n+1)/4

Octis: divisão da distribuição em oito partes.Q1= X (n+1)/8

Percentis: divisão da distribuição em cem partes.

LD50, LC50: dose ou concentração letal para 50% da amostra.

GT 25, GT50, GT75: tempo de germinação para 25, 50 ou 75% da amostra de sementes.

Medidas de tendência centralMedidas de tendência central

Page 18: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

18

Medidas de dispersãoMedidas de dispersão

As medidas de dispersão fornecem informação acerca da variabilidade

dos dados, indicando se existe uma concentração dos dados em volta da

média ou se, pelo contrário, os dados se distribuem ao longo de uma

curva relativamente ampla, com valores extremos bem distanciados da

média.

Page 19: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

19

Medidas de dispersãoMedidas de dispersão Amplitude = Máximo - Mínimo

É uma medida algo grosseira que leva, em geral, a uma subestimação da amplitude na população.É utilizada em Taxonomia.Aplica-se aos dados nas escalas ordinal, por intervalos e de rácios. Surgiu a ideia de calcular a soma dos desvios das observações em relação à médiaDesvio Médio =

N|xi-| i=1 = ————— NPouco utilizado 

Page 20: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

20

Medidas de dispersãoMedidas de dispersão Surge a ideia de elevar os desvios ao quadrado:

VariânciaPopulação - parâmetro - 2

N(xi - )2

i=1 2 = ————— NAmostra - estimador - s2

n _(xi - x )2

i=1 s2 = ————— n-1

Page 21: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

21

Medidas de dispersãoMedidas de dispersão

Fórmula para cálculo rápido:

n[xi ]2 i=n(xi

2) - ———— n ———————— n-1

Soma de quadrados (SS)

  n[xi ]2 i=n(xi

2) - ———— n

Graus de liberdade = n-1

Na variância a fórmula para calcular o

parâmetro (2) é diferente da utilizada

para o cálculo do estimador (s2).   

Se há dados repetidos:

n[ faxi).xi ]2 i=nfaxi).xi

2 - ———— n ——————————— n-1

Page 22: 1 Estatística Descritiva 2002 © Luís Silva Bioestatística Dep. Biologia Universidade dos Açores

22

Medidas de dispersãoMedidas de dispersão

Desvio padrão ou s

 

Raiz quadrada positiva da variância.

Tem a vantagem de se encontrar nas mesmas unidades da média, enquanto

que a variância tem as unidades da média ao quadrado. 

Coeficiente de variação

Medida de variabilidade ou dispersão relativa.

CV = (s / x) . 100

Permite comparar espécies diferentes quanto à variabilidade.

_