capÍtulo 4 - moodle.ufsc.br · 4 1,5 -0,12 0,0144 5 1,6 -0,02 0,0004 soma 8,1 0,00 0,028...

46
CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Upload: dinhnhu

Post on 16-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS

2ª parte

4.3 Medidas de posição 4.4 Medidas de dispersão 4.5 Separatrizes

09/11/2015 2 Prof. franke

Vimos que a informação contida num conjunto de dados pode ser resumida na forma de tabelas e gráficos.

Frequentemente, entretanto, necessitamos de um “índice” que expresse certa propriedade dos dados.

ESTATÍSTICAS: As “Estatísticas” são índices numéricos que representam propriedades específicas das

variáveis.

A primeira propriedade de uma variável em que normalmente estamos interessados refere-se a “posições” específicas na distribuição desta variável.

09/11/2015 3 Prof. franke

x1x2

Qual o significado dos valores de x1 e x2 na distribuição?

09/11/2015 4 Prof. franke

Existem três medidas básicas que refletem a posição da estatística numa distribuição de frequências: Média (aritmética, ponderada, geométrica, harmônica)

Moda

Mediana 4.3.1 - Média Aritmética

É a medida de posição mais utilizada.

Indica uma “posição central” nos dados.

É a soma de todos os casos dividida por seu número total.

onde: = média aritmética para amostra e para população

= representa cada uma das observações disponíveis na amostra

n = número de amostras.

Obs.: a média é afetada por valores extremos.

A média aritmética nem sempre está no “CENTRO” Exemplo: Considere as notas finais, relativas aos alunos de três turmas.

09/11/2015 5 Prof. franke

Turma Notas dos alunos Média da turma

A 4; 5; 5; 6; 6; 7; 7; 8 ?

B 1; 2; 4; 6; 6; 9; 10; 10 ?

C 0; 6; 7; 7; 7; 7,5; 7,5 ?

Figura 1 – Representação das distribuições das notas de três turmas e posições das médias aritméticas. Adaptado de BARBETTA et al., 2010.

4.3.2 - Média aritmética ponderada:

A forma de calcular de uma média ponderada é multiplicar cada valor pelo seu respectivo peso, somar todas as parcelas e dividir o resultado dessa soma pelo total dos pesos atribuídos.

Exemplo: Cálculo de média pondera de um aluno que obteve as seguintes notas

6 Prof. franke

Nota (xi) Peso (pi) Produto (xi .pi)

4 1 4

7 2 14

6 3 18

Total = 6 = 36

09/11/2015

Experimente fazer: São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,

respectivamente. Calcule as médias ponderadas.

Quem terá a maior e quem terá a menor média ponderada?

7 Prof. franke

Aluno 1ª prova 2ª prova 3ª prova Média ponderada

Ana 7 6 5

Cláudia 1 2 9

Marcos 5 5 5

Pedro 10 10 0

Sérgio 5 7 3

09/11/2015

Experimente fazer: São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,

respectivamente. Calcule as médias ponderadas.

Quem terá a maior e quem terá a menor média ponderada? Ana!

8 Prof. franke

Aluno 1ª prova 2ª prova 3ª prova Média ponderada

Ana 7 6 5 5,70

Cláudia 1 2 9 5,30

Marcos 5 5 5 5,00

Pedro 10 10 0 5,00

Sérgio 5 7 3 4,60

09/11/2015

4.3.3 - Media Harmônica

Retrata a harmonia entre os dados

Exercício exemplo: 2, 3, 5, 10

4.3.4 - Media geométrica

É obtida pela raiz n do produto dos n valores disponíveis

É utilizada em administração e economia, para determinar taxas de crescimento em certo período

Exercício: 2, 3, 5, 10.

9 Prof. franke

𝑥 ℎ =4

(12+13+

15+

110)

= 4

1,1333= 3,529

09/11/2015

Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas de distribuição de frequências. Exemplo das árvores

Prof. franke 10

Diâmetro (cm)

Ponto médio da classe

xi

Frequência absoluta

(fi)

Parciais da

média 20 |– 30 25 2 30 |– 40 35 9 40 |– 50 45 11 50 |– 60 55 15 60|– 70 65 17 70 |– 80 75 16 80 |– 90 85 7 90 |– 100 95 3

Total - 80

09/11/2015

Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas de distribuição de frequências. Exemplo das árvores

𝑥 = 60,5125

Prof. franke 11

Diâmetro (cm)

Ponto médio da classe

xi

Frequência absoluta

(fi)

Parciais da

média 20 |– 30 25 2 50,0 30 |– 40 35 9 315,0 40 |– 50 45 11 495,0 50 |– 60 55 15 825,0 60|– 70 65 17 1.105,0 70 |– 80 75 16 1.200,0 80 |– 90 85 7 595,0 90 |– 100 95 3 285,0

Total - 80 4.870,0

09/11/2015

Prof. franke 12

4.5.5 - Mediana

É o valor que ocupa a posição central de um conjunto de dados ordenados.

Se o número de observações for impar, a mediana será o valor central da distribuição; se o número for par, a mediana será a média dos dois valores centrais.

Tem a vantagem de não ser afetada pelos valores extremos.

Por ser insensível à presença de valores aberrantes, a mediana é considerada um estimador robusto.

Exercício: 7,0; 8,5; 5,0; 8,0; 5,5; 10,0 Ordenando: 5,0; 5,5; 7,0; 8,0; 8,5; 10,0

A mediana é uma separatriz porque separa o conjunto de dados em dois:

O que antecede a mediana;

O que sucede a mediana.

09/11/2015

Prof. franke 13

4.3.6 – Moda

É o valor que ocorre com mais frequência em uma amostra

A = {2, 4, 7, 12, 23, 8, 11, 4, 12, 22, 7, 12, 9, 10}

Comparação entre média, mediana e moda: Quando se comparam medidas de posição (tendência central) devemos lembrar:

A média aritmética é o centro de gravidade do conjunto de dados;

A mediana é o valor que ocupa a posição central de um conjuntos de dados ordenados;

A moda é o valor mais frequente.

09/11/2015

Prof. franke 14

As medidas de dispersão referem-se a maior ou menor variabilidade de um conjunto de dados em torno da média.

Permite identificar até que ponto os resultados se concentram ao redor da centro de um conjunto de observações.

Existem várias medidas para avaliar a dispersão de um conjunto de dados: 1. Amplitude 2. Variância 3. Desvio Padrão 4. Coeficiente de Variação 5. Assimetria 6. Curtose 7. Erro padrão da média

09/11/2015

Prof. franke 15

4.4.1 – Amplitude É a diferença entre o maior e menor valor presente nos dados amostrais O seu conhecimento é importante quando se faz a representação gráfica dos dados,

pois esta só deve conter valores entre o máximo e mínimo observado.

4.4.2 – Variância

Mede a dispersão dos dados em torno da média.

A dispersão dos dados em torno da média é medida pelos desvios em relação à média.

Desvios em relação à media é a diferença entre cada valor observado e a média do conjunto.

Ou seja, variância é a soma dos quadrados dos desvios de cada ponto em torno da média aritmética.

= variância da população = variância da amostra

09/11/2015

Prof. franke 16

Exemplo: Calcule a variância 09/11/2015do pH em cinco amostras de água.

Amostras pH

1 1,6

2 1,7

3 1,7

4 1,5

5 1,6

Soma 8,1

= 1,62

Amostras pH Desvios

1 1,6 -0,02

2 1,7 0,08

3 1,7 0,08

4 1,5 -0,12

5 1,6 -0,02

Soma 8,1 0,00

Amostras pH Desvios

Desvios

1 1,6 -0,02 0,0004

2 1,7 0,08 0,0064

3 1,7 0,08 0,0064

4 1,5 -0,12 0,0144

5 1,6 -0,02 0,0004

Soma 8,1 0,00 0,028

09/11/2015

09/11/2015 Prof. franke 17

Prof. franke 18

4.4.3. Desvio Padrão É a raiz quadrada, com sinal positivo, da variância

4.4.3.1 – Desvio padrão da Amostra

4.4.3.2 – Desvio padrão da população

S = desvio padrão

= desvio padrão

09/11/2015

Prof. franke 19

4.4.4 Coeficiente de Variação ou coeficiente de variabilidade (CV) O Coeficiente de variação (CV) é o desvio padrão expresso como percentagem

da média. É utilizado para comparar grandezas de unidades iguais ou diferentes, quando

os grupos são essencialmente diferentes.

Interpretação para o CV: CV até 15% - variação pequena

CV entre 15 e 30% - variação média

CV superior a 30% - variação grande

Onde: CV =coeficiente de variação S = variância da amostra = media da amostra

09/11/2015

Prof. franke 20

Exemplo de medidas descritivas:

Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas

Turma

Notas dos alunos Nº de alunos

Média Mediana Moda Variância Desvio padrão

CV (%)

A 4; 5; 5; 6; 6; 7; 7; 8

B 1; 2; 4; 6; 6; 9; 10; 10

C 0; 6; 7; 7; 7; 7,5; 7,5

Turma

Notas dos alunos Nº de alunos

Média Mediana Moda Variância Desvio padrão

CV (%)

A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8

B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5

C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8

09/11/2015

Prof. franke 21

Exemplo de medidas descritivas:

Tabela 2 – medidas descritivas das notas finais dos alunos de três turmas

Turma

Notas dos alunos Nº de alunos

Média Mediana Moda Variância Desvio padrão

CV (%)

A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8

B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5

C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8

Figura 1 – Representação das distribuições das notas de três turmas e posições das médias aritméticas. Adaptado de BARBETTA et al., 2010.

09/11/2015

Prof. franke 22

4.4.5. Assimetria Indica o grau de desvio de uma curva no sentido horizontal, podendo esse desvio ser

positivo, com excesso de valores altos, ou negativo, com predomínio de valores baixos em relação a uma curva da distribuição normal.

09/11/2015

Prof. franke 23

4.4.6. Curtose É o grau de achatamento de uma curva em relação a uma curva representativa da

distribuição normal

09/11/2015

Prof. franke 24

4.4.7. Erro padrão da média

Dá uma ideia da precisão da estimativa da média

A estimativa para a média se torna mais precisa (intervalo menor) com o aumento da quantidade de observações (n).

09/11/2015

Prof. franke 25

4.4.1 Extremos Quando se tem interesse em conhecer outros aspectos relativos ao

conjunto de valores, além de um valor central ou valor típico, podemos recorrer a medidas como: mediana, extremos e quartil.

Chamamos de extremo inferior ao menor valor do conjunto de valores e extremo superior ao maior valor.

Obs.: Mesmo para variáveis que supostamente tenham distribuição razoavelmente simétricas, a média e a mediana podem não ser iguais, já que, em geral, estamos analisando apenas alguns valores dessas variáveis.

Para variáveis com distribuições razoavelmente simétricas, a média é a medida de posição central mais adequada, porque usa o máximo da informação contida nos dados.

A média é calculada usando propriamente a magnitude dos valores, enquanto a mediana utiliza somente a ordenação dos valores.

09/11/2015

Prof. franke 26 09/11/2015

Prof. franke 27

4.5.2 Quartis São medidas que dividem a série de valores da amostra em quatro frequências iguais de

25% cada. São eles:

Q1 – 1º quartil (quartil inferior) que delimita os 25% menores valores

Q2 - 2º quartil (mediana) separa os 50% menores dos 50% maiores valores

Q3 - 3º quartil (quartil superior) que separa os 25% maiores valores

Com os dados ordenados crescentemente, temos:

Posição de Qi:

Posição de md:

Posição de Qs:

Fonte: BARBETTA et al., 2010

09/11/2015

Prof. franke 28

Exemplo: Dados brutos: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12 Ordenando: 3, 5, 5, 6, 7, 8, 9, 11, 12, 15, 18 n = 11

Posição de Qi: Qi = 5

Posição de md: md = 8

Posição de Qs: Qs = 12

09/11/2015

29

Ano Total (mm)

1961 1868 1962 955 1963 1673 1964 1389 1965 1770 1966 1875 1967 1811 1968 1488 1969 3287 1970 2824 1971 1286 1972 1673 1973 1609 1974 1381 1975 1485 1976 1597 1977 1823 1978 1374 1979 1416 1980 1606 1981 1259 1982 1944 1983 2292 1984 2044 1985 1407 1986 1467 1987 2005 1988 1489 1989 1582 1990 1944

Ano Total (mm)

1962 955 1981 1259 1971 1286 1978 1374 1974 1381 1964 1389 1985 1407 1979 1416 1986 1467 1975 1485 1968 1488 1988 1489 1989 1582 1976 1597 1980 1606 1973 1609 1963 1673 1972 1673 1965 1770 1967 1811 1977 1823 1961 1868 1966 1875 1982 1944 1990 1944 1987 2005 1984 2044 1983 2292 1970 2824 1969 3287

Moda = 1673 e 1944 mm

Série original Série ordenada

Qi

Distância interquartílica

Qs

09/11/2015 Prof. franke

09/11/2015 Prof. franke 30

31

Ano Total (mm)

1961 1868 1962 955 1963 1673 1964 1389 1965 1770 1966 1875 1967 1811 1968 1488 1969 3287 1970 2824 1971 1286 1972 1673 1973 1609 1974 1381 1975 1485 1976 1597 1977 1823 1978 1374 1979 1416 1980 1606 1981 1259 1982 1944 1983 2292 1984 2044 1985 1407 1986 1467 1987 2005 1988 1489 1989 1582 1990 1944

Ordem Ano

Total (mm)

1 1962 955 2 1981 1259 3 1971 1286 4 1978 1374 5 1974 1381 6 1964 1389 7 1985 1407 8 1979 1416 9 1986 1467

10 1975 1485 11 1968 1488 12 1988 1489 13 1989 1582 14 1976 1597 15 1980 1606 16 1973 1609 17 1963 1673 18 1972 1673 19 1965 1770 20 1967 1811 21 1977 1823 22 1961 1868 23 1966 1875 24 1982 1944 25 1990 1944 26 1987 2005 27 1984 2044 28 1983 2292 29 1970 2824 30 1969 3287

Moda = 1673 e 1944 mm

Série original Série ordenada

09/11/2015 Prof. franke

09/11/2015 Prof. franke 32

Figura 5 – Posição dos quartis e extremos em distribuições diferentes quanto à dispersão e assimetria. Fonte: BARBETTA et al., 2010

Prof. franke 33

4.5.2 Diagrama de caixas (Box plot) Trata-se de um retângulo que representa o desvio interquartílico.

Este retângulo representa, portanto, a faixa dos 50% dos valores mais típicos da distribuição

Ele é dividido no valor correspondente à mediana; assim, indica o quartil inferior, a mediana e o quartil superior

09/11/2015

09/11/2015 34 Prof. franke

• O coeficiente de Gini é um dos principais índices de desigualdade utilizados.

• O Gini é uma medida de desigualdade desenvolvida pelo estatístico italiano Corrado Gini e publicada no documento “Variabilità e Mutabilità” em 1912.

• Esse índice é comumente utilizado para calcular a desigualdade de distribuição de renda, mas pode ser usada também para qualquer distribuição, como concentração de terra, riqueza entre outras.

• Ele consiste em um número entre 0 e 1, onde:

• Índice 0 (zero) corresponde à completa igualdade de renda (onde todos têm a mesma renda), e;

• Índice 1 (um) corresponde à completa desigualdade (onde uma pessoa tem toda a renda, e as demais nada têm).

• A construção do coeficiente de Gini é baseado na “Curva de Lorenz”.

Prof. franke 35 09/11/2015

4.6.1 Definição da Curva de Lorenz É uma curva que mostra como a proporção acumulada da renda (qi ) varia em função

da proporção acumulada da população (i), estando os indivíduos ordenados pelos valores crescentes da renda.

Como a diagonal principal divide o quadrado em partes iguais, qualquer ponto nessa reta é um ponto em que os valores da abscissa e ordenada são iguais.

Prof. franke 36 09/11/2015

• 4.6.2 Coeficiente de Gini

Para calcular o índice de Gini usa-se frequentemente a equação de Brown

Onde: X = proporção acumulada da população Y= proporção acumulada da renda

Para facilitar os cálculos pode-se usar uma forma equivalente, usando

distribuição de frequências

Onde: Qi = proporção de renda e Pi = proporção da população Prof. franke 37 09/11/2015

• Exemplo: Calcule o índice de Gini para a distribuição dos salários mensais dos trabalhadores de uma empresa.

Prof. franke 38

Fonte: BARBETTA et al., 2010

Pessoa Salário Pessoa Salário Pessoa Salário

1 3200 16 600 31 600

2 1800 17 2500 32 300 3 1200 18 1500 33 480 4 600 19 360 34 480 5 5000 20 1200 35 480 6 3000 21 1680 36 600

7 2700 22 2300 37 720

8 1360 23 1094 38 400

9 750 24 1045 39 715

10 600 25 2625 40 960

11 150 26 4070 41 900 12 600 27 3565 42 400

13 700 28 2855 43 600 14 100 29 600 15 600 30 600

Parâmetros da tabela freq

n = 43

Máximo= 5000

Mínimo= 100

Amplitude= 4900

n. classes= 7

Intervalo classses = 700

09/11/2015

• Procedimento para cálculo do IGini

(6) = Acumulado da coluna (5) (7) = proporção do acumulado da população: quociente entre coluna (4) por (n) 43 (8) = proporção do acumulado da renda: quociente da coluna (6) por (54.350) (9) = Subtração da coluna (7) pela coluna (8)

Prof. franke 39

(1) (2) (3) (4) (5) (6) (7) (8) (9)

Faixas de

salários

(R$)

Ponto

médio

Frequência,

pessoas

(fi)

Frequência

acumulada

(fa)

P. Médio

X

frequência

Acumulado P Q P-Q

[100;800)

[800;1500)

[1500;2200)

[2200; 2900)

[2900;3600)

[3600; 4300)

[4300;5000]

450

1150

1850

2550

3250

3950

4650

23

8

2

5

3

1

1

23

31

33

38

41

42

43

10.350

9.200

3.700

12.750

9.750

3.950

4.650

10.350

19.550

23.250

36.000

47.750

49.700

54.350

0,53

0,72

0,77

0,88

0,95

0,98

1,00

0,19

0,36

0,43

0,66

0,84

0,91

1,00

0,34

0,36

0,34

0,22

0,11

0,07

0,00

Soma 43 54.350 4,83 1,44

09/11/2015

Figura 4 – Histograma de frequência do exemplo dos trabalhadores de uma empresa

Prof. franke 40

Fonte: BARBETTA et al., 2010

09/11/2015

23

8

2

5

3

1 1

0

5

10

15

20

25

450 1150 1850 2550 3250 3950 4650

Fre

qu

ên

cia

de

tra

ba

lha

do

res

Classes de salários (R$)

Como faz a curva de Lorenz no Excel

Figura 5 – Curva de Lorenz para o exemplo dos trabalhadores da empresa.

Prof. franke 41

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Po

rce

nta

ge

m d

e s

alá

rio

s (Q

)

Porcentagem da população (P)

09/11/2015

Tabela de classificação do Índice de Gini.

Prof. franke 42 09/11/2015

Prof. franke 43

Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008 Fonte: IBGE, 2013.

09/11/2015

Prof. franke 44

0,622 0,604

0,593 0,582 0,589 0,594 0,588 0,596 0,587

0,599 0,615

0,634 0,612

0,580 0,602 0,599 0,600 0,600 0,598 0,592 0,593 0,587 0,581

0,569 0,566 0,559 0,552 0,544

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0,450

0,500

0,550

0,600

0,650

0,700

1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007

Índ

ice

de

gin

i

Anos

desigualdade de renda no Brasil

Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008 Fonte: IBGE, 2013.

09/11/2015

09/11/2015 Prof. franke 45

09/11/2015 Prof. franke 46