também designada análise exploratória de dados ou análise...

52
1 Estatística descritiva Também designada Análise exploratória de dados ou Análise preliminar de dados

Upload: duongdang

Post on 19-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

1

Estatística descritiva

Também designada

Análise exploratória de dados ou Análise preliminar de dados

Page 2: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

2

Estatística descritiva vs inferencial

� Estatística Descritiva: conjunto de métodos estatísticos que visam sumariar e descrever os atributos mais proeminentes aos dados.

� Estatística Inferencial: conjunto de métodos estatísticos que visam caracterizar (ou inferir sobre) uma população a partir de uma parte dela (a amostra).

Page 3: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

3

Estatísticas ou medidas amostrais

� Estatística ou medida amostral: uma medida numérica que descreve alguma característica de uma amostra. É habitualmente representada por letras latinas. Por exemplo: x (média),s (desvio padrão),r (coeficiente de correlação)

Amostra

Estatística / medida amostral

xx

Page 4: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

4

Parâmetros

� Parâmetro: uma medida numérica que descreve alguma característica de uma população. É habitualmente representado por letras gregas. Por exemplo: µ (média), σ (desvio padrão), ρ (coeficiente de correlação)

População

Parâmetro

Page 5: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

5

Ferramentas de Estatística Descritiva

� Cálculo numérico de medidas amostrais.

� Resumo e descrição global dos dados através da construção de tabelas e de gráficos.

� Análise e interpretação dos resultados obtidos.

Page 6: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

6

Medidas amostrais

� Tendência ou localização central:� média (mean), � mediana (median), � moda (mode),� média aparada (trimmed mean).

Page 7: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

7

Medidas amostrais

� Localização relativa:� Mínimo (minimum),� Máximo (maximum),� Quantil (quantile),� Quartil (quartile),� Percentil (percentile).

Page 8: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

8

Medidas amostrais

� Dispersão:� amplitude (range), � distância inter-quartil (inter-quartile range),� variância (variance), � desvio padrão (standard deviation),

Page 9: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

9

Medidas amostrais

� Assimetria:� Coeficiente de assimetria (skweness).

Page 10: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

10

Tabelas de frequências

� Tabelas que resumem a informação contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribuídos por intervalos).

Page 11: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

11

Gráficos

� Gráficos de frequências� Histogramas� Caixas de bigodes ou diagramas de

extremos e quartis (boxplots)� Diagramas de caule-e-folhas (stem and leaf)� Diagramas de dispersão (scatterplot)

Page 12: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

12

Descrição resumida das várias

ferramentas de Estatística descritiva

Page 13: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

13

Ordenação e tabela de frequências

� Tipos de frequências:� Frequência absoluta� Frequência relativa� Frequência absoluta acumulada� Frequência relativa acumulada

� Uma tabela de frequências é uma tabela onde figuram os valores de pelo menos um destes tipos de frequências.

Page 14: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

14

Tabela de frequências

� Exemplo de uma tabela produzida pelo SPSS:Durante um ano contabilizou-se diariamente o nº de golfinhos presos nas redes dos pescadores das águas Açoreanas.

nº de golfinhos presos num dia

37 14,4 14,4 14,4

45 17,5 17,5 31,9

84 32,7 32,7 64,6

52 20,2 20,2 84,8

23 8,9 8,9 93,8

11 4,3 4,3 98,1

2 ,8 ,8 98,8

1 ,4 ,4 99,2

1 ,4 ,4 99,6

1 ,4 ,4 100,0

257 100,0 100,0

0

1

2

3

4

5

6

8

9

13

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Page 15: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

15

Medidas amostrais

� Tendência ou localização central:� média (mean), � mediana (median), � moda (mode),� média aparada (trimmed mean).

Page 16: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

16

Medidas de localização central: Média

� Média: Numa amostra de n observações, x1, x2, …, xn

Se os dados estiverem agrupados (k valores distintos)

onde fi designa a frequência absoluta de xi* (ou a frequência absoluta

da classe com marca xi* no caso de dados agrupados em classes)

n

x

n

x

n

xxxx i

n

ii

n ∑∑==+++= =121 ...

n

fx

n

fx

n

fxfxfxx ii

k

iii

nn ∑∑==+++= =

*1

**

2*21

*1 ...

Page 17: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

17

Medidas de localização central: Média

� A média pode ser pensada como o centro de massa dos valores das observações, ie, o ponto de equilibrio após dispormos as observações sobre uma régua.

Pontos afastados ou erros nas observações podem afastar a média do grosso das observações.

Page 18: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

18

� A mediana á a observação central, depois de ordenada a amostra. Se a amostra tiver dimensão ímpar, coincide com a observação central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é .Se a amostra tiver dimensão par, a mediana toma o valor da média das duas observações mais centrais.Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é .

� A mediana é mais robusta que a média a erros ou a observações afastadas.

Medidas de localização central: Mediana

2.1

0.8

Page 19: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

19

Medidas de localização central: Média aparada

� Uma média aparada não é mais do que uma “mistura” entre os conceitos de média e mediana por forma a combinar as qualidades de ambas.

� Uma média aparada é uma média que é calculada excluindo uma certa proporção de observações em cada extremo da amostra.

Page 20: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

20

Medidas de localização central: Moda

� A moda é o valor mais frequente de uma amostra.� Ao contrário do que acontece com a mediana e a

média, uma amostra pode possuir mais do que uma moda.

Moda

Page 21: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

21

Medidas de localização central: Moda

� A moda é a única medida de localização central que pode ser utilizada para dados numa escala nominal.

� A moda pode não ter significado, especialmente em dados de natureza contínua ou em dados discretos com poucas observações repetidas!

� Quando os dados estão agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequência.

Page 22: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

22

Medidas amostrais

� Localização relativa:� Mínimo (minimum),� Máximo (maximum),� Quantil (quantile),� Quartil (quartile),� Percentil (percentile).

Page 23: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

23

Medidas de localização relativa:

Mínimo e Máximo

� Mínimo – é o valor mais reduzido da amostra� Máximo – é o valor mais elevado da amostra

Page 24: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

24

Medidas de localização relativa: Quartis

� Quartis – são os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possível). Q2 coincide com a mediana.

Page 25: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

25

Medidas de localização relativa: Quantis e

Percentis

� Quantil de ordem p (0≤ p ≤ 1)– é um valor, xp, que divide a amostra em duas partes, tal que à esquerda de xp está a proporção p da amostra e à direita a proporção 1-p.

� Percentil de ordem p (p vai de 1 a 100) - é o mesmo que um quantil mas em que a proporção é dada em percentagem.

Page 26: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

26

Medidas amostrais

� Dispersão:� amplitude (range), � distância inter-quartil (inter-quartile range),� variância (variance), � desvio padrão (standard deviation),

Page 27: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

27

Medidas de dispersão: Amplitude

� A amplitude de uma amostra é a diferença entre o máximo e o mínimo.Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude é . 2.3 - 1.2 = 1.1

Page 28: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

28

Medidas de dispersão: Distância inter-

quartil

� Distância inter-quartil – é a diferença entre o 3º e o 1º quartis, Q3 - Q1.

� No intervalo que vai de Q1 a Q3 encontram-se 50% das observações (as mais centrais).

Page 29: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

29

Medidas de dispersão: variância

� A variância é a média dos quadrados dos desvios das observações em relação à média da amostra.

� Habitualmente considera-se uma versão corrigida da variância

Page 30: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

30

Medidas de dispersão: desvio padrão

� A variância não vem representada na mesma unidade das observações. Se tomarmos a raiz quadrada da variância obtemos o desvio padrão que também é uma medida de dispersão e vem na mesma unidade das observações.

� Nos programas de estatística e nas máquinas de calcular o que aparece são as versões corrigidas da variância e do desvio padrão.

� O desvio padrão e a variância podem ser fortemente afectados por erros ou observações muito afastadas.

Page 31: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

31

Medidas amostrais: assimetria

� Coeficiente de assimetria – é uma medida que assume o valor zero quando a distribuição de frequências da amostra é completamente simétrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuição não é simétrica.

� Atenção que numa amostra é quase impossível observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria é relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente não exceder 2 ou 3 vezes o erro, o seu valor não serámuito relevante, especialmente quando queremos extrapolar para a população.

Page 32: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

32

Medidas amostrais: assimetria

� Uma distribuição possui assimetria positiva (alternativamente negativa) quando existe uma concentração de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.

Assimetria positiva Quase simetria Assimetria negativaCoef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0

Page 33: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

33

Medidas amostrais: assimetria

� A assimetria também pode ser avaliada comparando os valores da média, mediana e moda (desde que esta última faça sentido).

Assimetria positiva:

moda < mediana < média

moda médiamediana

Page 34: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

34

Medidas amostrais: assimetria

Assimetria negativa: média < mediana < moda

Simetria pura: média = mediana = moda

Simetria aproximada: média ~ mediana ~ moda

Page 35: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

35

Gráficos

� Gráficos de frequências� Histogramas� Caixas de bigodes ou diagramas de

extremos e quartis (boxplots)� Diagramas de caule-e-folhas (stem and leaf)� Diagramas de dispersão (scatterplot)

Page 36: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

36

Histogramas

� O histograma é um gráfico que reflecte a forma da distribuição de frequências da amostra. Também procura reflectir a estrutura (forma) da população de onde foi retirada a amostra.

� Para construir um histograma é necessário primeiro repartir os dados por classes e depois calcular as respectivas frequências. O histograma é um gráfico de frequências construído a partir desta tabela de frequências (por classes). Os histogramas são particularmente úteis para variáveis contínuas ou variáveis com poucos valores repetidos.

Page 37: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

37

Histogramas

� A apresentação do histograma depende muito do número de classes considerado. Um número muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um número demasiado reduzido de classes oculta a forma da distribuição (perde-se demasiada informação).

Page 38: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

38

Histogramas

Poucas classes Muitas classes

Page 39: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

39

Gráficos de frequências

� Gráficos de frequências são gráficos de barras que traduzem graficamente o conteúdo da tabela de frequências. Os mais habituais são os gráficos de frequências absolutas ou relativas, mas também podemos construir gráficos de frequências absolutas ou relativas acumuladas.

� Os gráficos de frequências (não acumuladas) são apropriados para dados qualitativos ou numéricos discretos (ou que se comportam como tal). Quando as frequências absolutas são reduzidas e a gama de valores da amostra é dispersa os gráficos de frequências tornam-se pouco interessantes (muito irregulares).

Page 40: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

40

Gráficos de frequências

� Chama-se função de distribuição empírica à função cuja imagem gráfica é o gráfico de frequências relativas acumuladas.

Exemplo:

0 1 2 3

x

0%

25%

50%

75%

100%

Per

cen

t

Page 41: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

41

Caixas de bigodes

� Pode ser encarada como a representação gráfica de algumas medidas de localização:

medianaQ1 Q3 outliers e extremos

Page 42: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

42

Caixas de bigodes

Mínimo da amostra mas não menos de Q1-1.5(Q3-Q1)

Máximo da amostra mas não mais de Q3+1.5(Q3-Q1)

Page 43: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

43

Caixa de bigodes

� Algumas caixas têm os bigodes até ao mínimo e máximo e não têm representados outliers.

� As caixas de bigodes dão informação sobre� A localização central: mediana� Outras localizações: 1º e 3º quartis e mínimo e

máximo.� Dispersão: amplitude e distância inter-quartil� Assimetria: posição relativa da mediana na caixa,

comprimento dos bigodes.

Page 44: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

44

Caixas de bigodes

Assimetria positiva Assimetria negativaSimetria

Page 45: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

45

Caixa de bigodes comparativas

� As caixas de bigodes também são úteis para comparar várias amostras num mesmo gráfico, caixas de bigodes comparativas.

Page 46: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

46

Diagramas de caule e folha

� Representa os dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical)Exemplo:(10.5 10.7 10.8

11.0 11.0 11.1 11.2 11.3 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.1)

diametro Stem-and-Leaf Plot

Frequency Stem & Leaf

3,00 10 . 5788,00 11 . 001234473,00 12 . 0993,00 13 . 3782,00 14 . 01

Stem width: 1,00Each leaf: 1 case(s)

Page 47: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

47

Diagramas de caule e folha

Outro exemplo:

(63 64 65 66

66 69 71 71 72 …………....85 86 87)

Devemos multiplicar cada

valor por 10 para recuperar

os dados.

altura Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 6 . 344,00 6 . 56696,00 7 . 1122448,00 7 . 555667899,00 8 . 0000011233,00 8 . 567

Stem width: 10,00Each leaf: 1 case(s)

Page 48: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

48

Formas de distribuições

� Os gráficos de frequências, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) dão-nos informação quanto à forma da distribuição dos dados (e consequentemente da população de onde foram retirados)

� Existem distribuições de vários tipos:unimodais, bimodais e multimodais

Page 49: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

49

Formas de distribuições

Exemplo:unimodal bimodal

Page 50: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

50

Diagramas de dispersão

� Os diagramas de dispersão são gráficos que permitem relacionar duas variáveis entre si.

� Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y

Page 51: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

51

Diagramas de dispersão

� Exemplo: pesos e comprimentos de 414 recém-nascidos.

Page 52: Também designada Análise exploratória de dados ou Análise ...sweet.ua.pt/andreia.hall/me/files/2EstatísticaDescritiva.pdf · 2 Estatística descritiva vs inferencial Estatística

52

Matrix de diagramas de dispersão

� Exemplo: Árvores