1 estatística descritiva. 2 também chamada de análise exploratória de dados etapa inicial da...

43
1 Estatística Descritiva

Upload: internet

Post on 18-Apr-2015

162 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

1

Estatística Descritiva

Page 2: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

2

Estatística Descritiva Também chamada de Análise Exploratória de Dados

Etapa inicial da análise utilizada para descrever os dados coletados.

A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da Estatística.

Page 3: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

3

Exemplo: Estudo sobre Idade (anos)

Dados (n=165):

14 23 50 37 24 16 51 41 32 28 14 40 50 37 23 27 18 22 29 36 35 18 26 17 31 54 19 53 17 4153 17 44 14 40 50 16 25 26 22 21 24 70 21 32 18 10 26 32 28 22 41 32 31 29 34 31 17 39 25 70 21 32 37 19 19 39 30 44 18 22 40 50 37 2829 36 35 32 22 47 26 27 45 41 41 62 36 35 32 26 54 19 37 38 27 25 26 60 35 38 17 70 21 27 43 62 21 37 45 50 43 19 19 51 18 26 44 37 19 31 17 42 37 60 46 19 49 16 22 41 19 43 62 21 27 18 22 29 21 33 18 32 24 19 28 27 53 17 45 17 39 25 27 18 22 26 28 38 48 20 21 32 28 14

É preciso resumir de alguma forma

Page 4: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

4

Estatística Descritiva Após a coleta das observações:

Primeira Etapa

Resumo dos Dados = Estatística Descritiva

Page 5: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

5

Conceitos básicos

Variável é uma característica de interesse a

ser medida em cada unidade amostral.

Page 6: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

6

Tipos de variável

Variável

qualitativa ou atributo quantitativa

nominal ordinal discreta contínua

Page 7: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

7

Exemplos de variáveis qualitativa nominal: sexo, carreira, região onde

mora, portador de diabetes

qualitativa ordinal: grau de instrução, nível de renda, grau de evolução de uma doença

quantitativa discreta: número de filhos, número de acidentes em um mês

quantitativa contínua: peso, altura, pressão sangüínea sistólica, tempo de vida útil

Page 8: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

8

Distribuição de freqüênciasDistribuição de freqüências de uma variável é uma lista de

valores individuais ou intervalos de valores que a variável

pode assumir, com as respectivas freqüências de ocorrência.

Tipos de freqüência:

Freqüência absoluta Freqüência relativa

Page 9: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

9

Distribuição de freqüênciasExemplo (variável contínua):

Page 10: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

10

Histograma com as 10 classes da distribuição de freqüências original

60 65 70 75

05

10

15

20

h

Page 11: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

11

com 5 classes

60 65 70 75

05

10

15

20

25

h

Page 12: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

12

2 classes !

60 65 70 75

01

02

03

04

05

06

0

h

Page 13: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

13

20 classes

60 65 70 75

02

46

81

01

21

4

hh

Page 14: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

14

40 classes

60 65 70 75

02

46

8

hh

Page 15: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

15

88 classsssses

62 64 66 68 70 72 74

01

23

45

6

hh

Page 16: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

16

Produção de Aço em Março/2008 nas 300 siderúrgicas de Freedonia (em milhões de toneladas)

[1] 6.876618 12.097970 4.198805 1.977347 2.499686 5.129911 3.864137 5.393796 5.435424 5.223608 [11] 5.269344 8.197886 7.082304 8.214568 9.767853 10.176256 8.045936 3.122520 4.970869 6.404714 [21] 8.113886 7.930350 3.830383 7.858221 6.197518 1.087644 3.726859 8.387229 10.659252 5.406586 [31] 5.700303 3.690097 9.232655 6.348535 8.828824 6.914480 4.928011 12.833652 7.613482 10.833950 [41] 8.361260 3.399995 5.882505 7.311930 13.410290 3.102575 6.425824 19.574748 3.736885 3.118031 [51] 5.914881 11.656941 6.066372 11.832583 8.144090 17.089016 12.335980 3.832523 7.179797 6.408568 [61] 4.640458 4.094012 8.054444 8.787959 8.768513 7.705142 2.579192 7.626540 10.014986 5.214400 [71] 15.655666 7.731958 10.410604 7.770637 9.357073 16.611883 18.557087 2.920553 4.955024 12.896035 [81] 3.046784 14.960503 12.972153 7.748507 11.555733 7.487245 13.862800 2.461602 4.378627 1.583542 [91] 5.710247 7.465643 4.306912 2.272638 6.653955 14.555497 8.755477 9.626985 16.267962 8.753827[101] 7.089586 4.646395 18.751816 10.110630 4.158379 7.742147 3.403779 7.582975 7.576675 9.727539[111] 12.844820 2.496837 2.840600 9.474741 11.316375 6.479272 10.678346 3.114404 9.693240 7.113135[121] 3.105780 10.954278 17.490894 2.759040 7.712045 3.269794 6.263665 9.071387 8.896182 5.802322[131] 11.758015 4.243693 17.118969 5.777395 3.906514 14.505247 5.717483 7.158199 8.190922 6.751097[141] 2.234036 5.117306 8.722552 3.882102 6.429062 9.978124 6.519737 2.049796 3.034467 15.691433[151] 7.110984 17.289195 8.254315 6.176311 6.371584 3.125555 11.469224 2.949307 12.602642 11.876376[161] 13.546733 8.719288 4.419488 13.100454 4.044903 7.089641 4.767460 12.337639 4.022905 4.428531[171] 9.998569 6.556799 13.666071 5.542366 6.371643 3.392875 5.354327 4.315321 8.979245 7.408258[181] 14.878525 7.118937 10.931751 5.335933 4.543817 7.836608 7.523252 2.952185 4.266915 1.073351[191] 9.444695 5.392002 5.575110 14.988542 6.341733 13.245391 10.781805 4.336494 4.761749 2.340650[201] 5.395041 11.528355 6.114785 5.758685 8.049890 12.950325 4.124019 8.504680 8.249042 13.281873[211] 3.850087 9.467709 8.108362 6.552531 11.172370 11.036386 4.059687 2.583675 2.420407 6.700969[221] 1.659434 6.765582 5.605151 6.384327 4.294425 4.613965 5.630146 6.855454 5.585359 5.278643[231] 8.235252 13.671480 7.238542 10.177182 9.102644 6.050771 12.336994 22.141359 1.960311 3.975556[241] 6.489878 2.053341 3.800076 11.369381 3.684374 5.621648 3.093503 7.288933 6.913161 4.421509[251] 1.806421 6.155574 2.392318 8.558654 8.229195 8.939463 7.738086 13.302252 9.536604 12.589417[261] 3.900192 6.075976 3.158733 10.796325 9.731696 10.610404 8.560950 2.860262 8.263175 13.880770[271] 4.554466 11.910367 3.498353 9.844699 6.393392 6.744949 7.452153 10.043793 9.647260 4.645847[281] 12.441962 3.887967 8.057977 4.641737 3.772433 8.356782 8.919851 7.217435 4.212135 9.635687[291] 4.765684 4.524338 8.306220 4.544394 9.166337 8.486697 6.712709 6.346452 5.178664 8.333287

Page 17: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

17

Para construir o boxplot

Min, Q1 , Mediana , Q3 , Max

1.073351 4.54425 6.998392 9.559199 22.14136

Page 18: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

18

O Boxplot5

10

15

20

Page 19: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

19

Mediana = 7

Primeiro Quartil = 4.5

Terceiro Quartil = 9.5

IQ = 5

4.5 – 1.5 (5) = - 3

9.5 + 1.5 (5) = 17

8 pontos maiores que 17 ( a partir de 16.61)

Page 20: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

20

Histograma com 12 classes de mesma amplitude.

0 5 10 15 20

01

02

03

04

05

06

0

xx

Page 21: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

21

Média = 7.5

Mediana = 7

Variância = 14.37

Desvio-padrão = 3.79

Page 22: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

22

Variáveis Quantitativas

Medidas de Posição:Mínimo, Máximo, Moda, Média, Mediana, Percentis,

Quartis

Medidas de Dispersão:Amplitude, Intervalo Interquartil, Variância, Desvio

Padrão, Coeficiente de Variação.

Page 23: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

23

Medidas de Posição Máximo (max): a maior observação

Mínimo (min): a menor observação

Moda (mo): é o valor (ou atributo) que ocorre com maior freqüência

Dados: 4, 5, 4, 6, 5, 8, 4

max = 8 min = 4 mo = 4

Page 24: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

24

Medidas de Posição Média

Dados: 2, 5, 3, 7, 8

Page 25: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

25

Medidas de Posição Mediana

A Mediana é o valor que ocupa a posição central de um conjunto de n dados ordenados.

Posição da mediana: (n+1) / 2

Page 26: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

26

Mediana

Ordenados: 2 3 6 7 8

Ordenados: 1 2 4 6 8 9

n = 5 (ímpar)

(5+1)/2 = 3 => Md = 6

n = 6 (par)

(6+1)/2 = 3,5

Md = (4+6)/2 = 5

Page 27: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

27

Medidas de Posição Percentis:

O percentil de ordem px100 (0 < p < 1), em um conjunto de dados de tamanho n, é o valor da variável que ocupa a posição p x (n+1) do conjunto de dados ordenados.

Casos Particulares:

Percentil 50 = Mediana ou segundo quartil (Md)

Percentil 25 = Primeiro quartil (Q1)

Percentil 75 = Terceiro quartil (Q3)

Page 28: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

28

Quartis Dados: 4, 7, 8, 1, 3, 10, 2, 13, 5, 5, 8 => n = 11

Ordenados: 1, 2, 3, 4, 5, 5, 7, 8, 8, 10, 13

Q1 = 3 Md = 5 Q3 = 8

Dados: 15, 5, 3, 8, 10, 2, 7, 11, 12 => n = 9

Ordenados: 2, 3, 5, 7, 8, 10, 11, 12, 15

Q1 = 4,5 Md = 8 Q3 = 11,25

Page 29: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

29

Medidas Resumo Exemplo: Considere as notas de um teste de 3 grupos de alunos

Grupo 1: 3,4,5,6,7 Grupo 2: 1,3,5,7,9 Grupo 3: 5,5,5,5,5

Page 30: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

30

Medidas de Dispersão Finalidade: Encontrar um valor que resuma a variabilidade

do conjunto de dados

Amplitude (A):

A = máx - min

Para os grupos anteriores:

Grupo 1: A = 4

Grupo 2: A = 8

Grupo 3: A = 0

Page 31: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

31

Medidas de Dispersão Intervalo Interquartil: É a diferença entre o terceiro quartil e

o primeiro quartil, ou seja

d = Q3 – Q1

Dados: 15, 5, 3, 8, 10, 2, 7, 11, 12

Ordenados: 2, 3, 5, 7, 8, 10, 11, 12, 15

Q1 = 4,5 Q3 = 11,25

d = Q3 – Q1 = 11,25 – 4,5 = 6,75

Page 32: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

32

Medidas de Dispersão Variância

Desvio Padrão

Page 33: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

33

Medidas de DispersãoCálculo da variância para os grupos

Grupo 1:

Page 34: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

34

Medidas de DispersãoFórmula alternativa para cálculo da variância

Grupo 1:

Page 35: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

35

Medidas de Dispersão Coeficiente de Variação

é uma medida de dispersão relativa

elimina o efeito da magnitude dos dados

exprime a variabilidade em relação à média

Page 36: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

36

Tipos de gráficos

Dados unidimensionais: Gráfico de pizza Gráfico de barras Histograma Boxplot

Page 37: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

37

Gráfico de pizza

tipo Atipo Btipo Ctipo D

Page 38: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

38

Gráfico de Barras

4242,5

4343,5

4444,5

4545,5

4646,5

47

1° Trim 2° Trim 3° Trim 4° Trim

rendimento

Page 39: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

39

HistogramaAgrupar os dados em intervalos de classes (distribuição de freqüências)

• Bases iguais: construir um retângulo para cada classe, com base igual

ao tamanho da classe e altura proporcional à freqüência da classe (f)

• Bases diferentes: base igual ao tamanho da classe e área do

retângulo igual à freqüência relativa da classe (fr)

A altura será dada por: h = fr / base (densidade da freqüência)

Page 40: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

40

Histograma

Distribuição de notas finais na disciplina de Noções de Estatística

Exemplo com classes iguais

Page 41: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

41

HistogramaExemplo com classes desiguais

Dados de vacinação infantil

Page 42: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

42

Box Plot

Page 43: 1 Estatística Descritiva. 2 Também chamada de Análise Exploratória de Dados Etapa inicial da análise utilizada para descrever os dados coletados. A disponibilidade

43

Box PlotExemplo: Tempo de sobrevivência (dias)

Dados ordenados (n=36):