aula 03 análise exploratória dos dados (medidas

27
Stela Adami Vayego - DEST/UFPR 1 Aula 03 Análise Exploratória dos Dados (Medidas Descritivas de Variáveis Quantitativas) Parte 1 – Medidas de Tendência Central

Upload: others

Post on 02-Jul-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 1

Aula 03

Análise Exploratória dos Dados

(Medidas Descritivas de Variáveis Quantitativas)

Parte 1 – Medidas de Tendência Central

Page 2: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 2

Medidas de Tendência Central dos Dados

Para uma variável quantitativa, uma medida de centralidade

ou de posição é um “valor típico” ou representativo de um

conjunto de dados, em torno do qual se situam os valores

daquela variável.

Page 3: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 3

Média

Mediana Quartil

Decil Percentil

Separatrizes Moda

Page 4: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 4

Média Aritmética

Sejam x1, x2, ... , xn os n valores observados da variável X. A média

aritmética dos dados é definida por:

n

x

nxxxX

n

ii

n∑

==+++= 121 ...

Page 5: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 5

Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da

raça Corriedale:

3,1 3,2 2,1 2,9 2,8 3,2 3,2 3,0 3,5 4,0

x = 2,12,82,93,03,13,23,23,23,54,010

= 3110

O peso médio é de 3,1 Kg

Page 6: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 6

Propriedades da Média Aritmética

✔ É influenciada por valores extremos!

✔ Mais informativa no caso de distribuições aproximadamente simétricas.

✔ A soma de todos os desvios em relação à média é zero:

✔ A média corresponde ao ponto que minimiza a soma de quadrados dos desvios:

0)(1

=−∑=

n

ii xx

2

1)(∑

=

−n

ii xx

Page 7: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 7

Sejam x(1), x(2), ... , x(n) os mesmos valores que compõem a amostra

dispostos em ordem crescente. A mediana dos dados é:

se n ímpar, valor da observação de posição central, ou seja

Md =

se n par, média dos valores de posição central, ou seja

+

21nx

+

+

2

122nn xx{

Mediana: Valor que determina a posição central de uma distribuição de dados,

tendo 50% deles a sua direita e 50% a sua esquerda.

Page 8: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 8

Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da

raça Corriedale:

x

n2 x

n21

2=

x5x6

2=

O peso mediano é de 3,15 Kg

x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10)

3,13,22

= 3,15 Kg

2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0

Page 9: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 9

Propriedades da Mediana

✔ Não é influenciada por valores extremos, podendo ser utilizada

em distribuições assimétricas.

✔ Não admite tratamento algébrico, isto é, o conhecimento das

medianas de diversos conjuntos de dados não permite calcular a

mediana da reunião dos mesmos.

Page 10: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 10

Moda

Valor da amostra que ocorre com maior freqüência. Em uma

distribuição de dados, a moda pode não existir e, quando existe, pode

não ser única. Logo, temos as seguintes classificações:

– Amodal – não existe valor dominante

– Unimodal – existe somente uma moda dominante

– Bimodal – existem dois valores dominantes

– Multimodal – existem mais de dois valores dominantes

✔ Não é influenciada por valores extremos.

✔ Não admite tratamento algébrico.

Page 11: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 11

Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da

raça Corriedale:

O peso modal é de 3,2 Kg

2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0

Page 12: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 12

Quartis, Decis e Percentis

O percentil de ordem k (onde k é qualquer valor entre 0 e 100),

denotado por Pk, é o valor tal que k% dos valores do conjunto de dados

são menores ou iguais a ele.

Assim, o percentil de ordem 10, o P10, é o valor da variável tal que

10% dos valores são menores ou iguais a ele.

Page 13: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 13

Quartis, Decis e Percentis

De modo geral, para se obter o percentil de ordem k, denotado por

Pk, após ordenar os dados, calcula-se o valor .

Se L for inteiro, o valor do Pk é a média entre o L-ésimo e o (L+1)-ésimo

valores a contar do menor.

Se L não for inteiro, arredonde L para o maior inteiro mais próximo, e

o valor de Pk será o L-ésimo valor a contar do menor.

L= k100

n

Page 14: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 14

Exemplo:Considere os pesos, em Kg, de 40 borregas e ovelhas de cria da raça

Hampshire Down, já colocados em ordem crescente:

40 41 42 42 44 47 48 48 49 49 51 52 53 58 59 62 63 64 65 66

67 68 69 70 75 76 83 83 85 86 86 87 87 88 92 93 94 95 97 98

Primeiro Quartil:

25% de 40 = 10.

Então o Q1 = média(10o e 11o valores)=(49+51)/2 = 50 Kg.

Terceiro Quartil:

75% de 40 = 30.

Então o Q3 = média(30o e 31o valores)=(86+86)/2 = 86 Kg.

Page 15: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 15

Medidas que Descrevem o Formato

Descrevem como os dados estão distribuídos

Medidas de assimetria

Medidas de curtose

Page 16: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 16

Assimetria

Assimetria significa desvio ou afastamento da simetria.

É o grau de deformação de uma curva de freqüências.

6,25%

25%

37,5%

25%

6,25%

0

6

12

18

24

30

36

42

40 70 100 130 160Valores da variável em estudo

%

Page 17: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 17

Assimétrica à DireitaAssimétrica à DireitaAssimétrica à EsquerdaAssimétrica à Esquerda SimétricaSimétrica

MédiaMédia = = MedianaMediana = = ModaModaMédiaMédia MedianaMediana ModaModa ModaModa MedianaMediana MédiaMédia

Quanto ao grau de deformação ou assimetria, pode-se ter três tipos de curvas de freqüências:

Curva Simétrica

Curva Assimétrica Positiva (ou deformada à direita)

Curva Assimétrica Negativa (ou deformada à esquerda)

XMdMo X=Md=Mo MoMd X

Page 18: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 18

Índice de Assimetria

Momento Central de terceira ordem

m3=1n∑ xi−x3

Se m30 , a distribuição é assimétrica positiva (à direita).

Se m30 , a distribuição é assimétrica negativa (à esquerda).

Se m3=0 , a distribuição é simétrica.

Page 19: Aula 03 Análise Exploratória dos Dados (Medidas

Curtose

A curtose indica até que ponto a curva de freqüência de uma

distribuição se apresenta mais afilada ou mais achatada do que uma

curva normal

Page 20: Aula 03 Análise Exploratória dos Dados (Medidas

Índices de Curtose

Coeficiente Percentílico de Curtose

)PP(2QQK

1090

13

−−=

• Se k = 0,263 ⇒ Curva Mesocúrtica• Se K > 0,263 ⇒ Curva Platicúrtica• Se K < 0,263 ⇒ Curva Leptocúrtica

Page 21: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 21

“Resumo de 5-Números”

O resumo de 5-números associa os limites inferior e superior do conjunto de dados aos quartis, fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da distribuição, isto é, do grau de deformação.

O resumo de 5-números pode ser encontrado na seguinte forma:

LlQ3Q1

MedTítulo

Page 22: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 22

“Boxplot”É uma representação gráfica dos dados através de seu resumo de 5-

números.

O Boxplot fornece informações importantes sobre o comportamento dos dados, como a simetria e variabilidade, e auxilia na detecção de outliers.

Para sua construção é necessário ter:

O primeiro quartil (Q1)

A mediana (Med)

O terceiro quartil (Q3)

O desvio interquartílico (DQ = Q3 – Q1)

Page 23: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 23

Page 24: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 24

Detecção de outliers:

pontos externos (outliers): são os pontos que estão a mais de 1,5 DQ do

quartil correspondente até 3,0 DQ

pontos soltos (extremos): são pontos que estão a mais de 3,0 DQ

Page 25: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 25

Exemplo:

Os dados a seguir fornecem a duração média do ciclo menstrual, em fase de pré-ovulação, de 21 mulheres sadias, as quais estavam usando métodos naturais de planejamento familiar.

28,431,828,031,227,630,327,630,027,529,926,929,426,928,826,828,826,628,526,328,422,9

Page 26: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 26

Realizando os cálculos iniciais temos:Q1 = 26,9Med = 28,4Q3 = 29,4

31,822,929,426,9

28,4

Duração Média do Ciclo Menstrual

Q3 + 1,5 . DQ = 33,15Q1- 1,5 . DQ = 23,15Q3 + 3,0 . DQ = 36,9Q1 - 3,0 . DQ = 19,4

Limites para “outliers”

DQ = 29,4 – 26,9 = 2,5 (Desvio interquartílico)1,5 . DQ = 3,753,0 . DQ = 7,5

QuartisLimites

Med n = 21

Page 27: Aula 03 Análise Exploratória dos Dados (Medidas

Stela Adami Vayego - DEST/UFPR 27

Non-Outlier Max = 31Non-Outlier Min = 2675% = 29,425% = 26,9Median = 28,4Outliers

CICLO

22 24 26 28 30 32 34