5. análise descritiva com dados agrupados - ufscar.br · tabela de frequências. divórcios = x i...
TRANSCRIPT
5. Análise descritiva com dados agrupados
Em algumas situações, os dados podem ser apresentados
diretamente nas tabelas de frequências. Netas situações devemos
utilizar estratégias específicas para obter as medidas descritivas de
posição e de dispersão.
A) Variáveis discretas: para variáveis discretas os resultados
com dados agrupados são os mesmos quando se tem a
amostra, pois esta pode ser recomposta com as frequências da
tabela.
Exemplo 3: Dados coletados em entrevistas com 500 pessoas
sendo coletadas informações sobre o tempo de casamento até o
primeiro divórcio e o número de divórcios de cada.
Variável discreta: X = número de divórcios por indivíduo
Tabela de frequências.
Divórcios = xi ni fi Fac xi fi ni xi2
1 240 0.480 0.480 0.480 240
2 125 0.250 0.730 0.500 500
3 81 0.162 0.892 0.486 729
4 48 0.096 0.988 0.384 768
5 6 0.012 1.000 0.060 150
Total 500 1.000 − 1.910 2387
i) Média amostral: k é o número de classes na tabela de
frequências, então, a média amostral pode ser calculada
fazendo
k
i
ii
k
i
ii
n
jj
n
nx
n
nx
n
x
x11
1,
ou seja,
k
iii fxx
1
.
Portanto, no exemplo temos:
k
iii fxx
1
= 1.91 divórcios (≈ 2 divórcios)
ii) Variância e desvio padrão amostrais: da mesma forma como
no caso anterior, podemos obter a variância amostral fazendo:
k
iii
n
jj xnx
1
2
1
2.
Desta forma,
13.1499
95.562
)1500(
)91.1(5002387
)1(
2222
n
xnxs i
06.1s divórcios (≈ 1 divórcio)
iii) Mediana: a mediana pode ser obtida por meio da frequência
acumulada.
Como a frequência acumulada da mediana é 0.50,
Fac[med(x)] = 0.50,
basta identificar a classe xi para a qual Fac(xi) ≥ 0.50, portanto,
med(x) = 2 divórcios (Fac em xi = 2 é maior que 0.50)
iv) Quartis: para os quartis, procedemos da mesma forma como
para e mediana, pois as frequências acumuladas de Q1 e Q3 são
0.25 e 0.75, respectivamente, ou seja
Fac(Q1) = 0.25 e Fac(Q3) = 0.75.
Desta forma, os quartis 1 e 3 são obtidos identificando as classes
para as quais Fac(xi) ≥ 0.25 e Fac(xi) ≥ 0.75, respectivamente.
11Q divórcio (Fac em xi = 1 é maior que 0.25)
33Q divórcios (Fac em xi = 3 é maior que 0.75)
Outra representação para a tabela pode ser obtida representando-se
os desvios )( xxi diretamente:
Divórcios = xi ni fi Fac xi fi (xi – x ) ni (xi – x )2
1 240 0.480 0.480 0.480 -0.910 198.744
2 125 0.250 0.730 0.500 0.090 1.013
3 81 0.162 0.892 0.486 1.090 96.236
4 48 0.096 0.988 0.384 2.090 209.669
5 6 0.012 1.000 0.060 3.090 57.2886
Total 500 1.000 – 1.910 – 562.950
Média amostral: ii fxx = 1.91 divórcios
Variância amostral:
13.1499
95.562
)1(
22
n
xxs i
No exemplo acima, a localização das medidas de posição mediana
e quartis ficou bastante facilitada pela configuração da tabela.
Atenção especial, no entanto, deve ser dedicada quanto alguns
valores da variável X, totalizam as frequências acumuladas
referentes às medidas desejadas. Nestes casos, devemos observar a
posição da medida desejada na amostra.
Por exemplo, considere a tabela abaixo representando a
distribuição de frequências de uma variável X.
xi ni n acum. fi Fac xi fi ni xi2
2 3 3 0.083 0.083 0.167 12
3 6 9 0.167 0.250 0.500 54
4 9 18 0.250 0.500 1.000 144
5 5 23 0.139 0.639 0.694 125
6 6 29 0.167 0.806 1.000 216
7 4 33 0.111 0.917 0.778 196
8 3 36 0.083 1.000 0.667 192
Total 36 – 1.000 – 4.806 939
Então:
média amostral:
k
iii fxx
1
= 4.806
variância amostral: )136(
)806.4(36939
)1(
2222
n
xnxs i
071.335
485.1072 s
desvio padrão amostral: 752.1s
A mediana está entre a terceira e quarta classes, pois
Fac(4) = 0.50.
Desta forma, vemos diretamente da tabela que:
5.42
54)(
xmed
De fato, a mediana ocupa a posição: 5.182
136
2
1
n, logo,
5.42
54
2)(
)19()18(
xxxmed .
Para a obtenção dos quartis, o procedimento é semelhante.
Como n é par, podemos encontrar os quartis como as observações
centrais das metades inferior e superior à mediana.
Desta forma, Q1 está entre a segunda e terceira classes. Como
metade das observações é igual a 18, Q1 ocupa a posição:
5.92
118
,
sendo igual a: 5.32
43
2
)10()9(
1
xx
Q .
Contudo, Q1 pode ser obtido diretamente da tabela, visto que
Fac(3) = 0.25.
Podemos ver que Q3 pertence à quinta classe, pois Fac(6) ≥ 0.75,
ou seja,
0.63 Q .
Nota: Caso seja escolhido o método da interpolação introduzido
por Murteira (2002), teremos:
a) A posição de Q1 é dada por 75.94
3
n, logo:
)34(75.03)(75.0 )9()10()9(1 xxxQ
75.31 Q .
b) Posição de Q3: 25.274
13
n, logo:
)66(75.06)(25.0 )27()28()27(3 xxxQ
00.63 Q .
B) Variáveis Contínuas: no caso de variáveis contínuas os
resultados com dados agrupados não são os mesmos quando se
tem a amostra.
Neste caso, faz-se uma aproximação a partir da suposição de
que os dados estão distribuídos de maneira uniforme dentro da
classe.
A partir desta suposição, como as classes têm amplitude h,
tomamos os seus pontos médios como referência e, a partir daí,
procedemos da mesma maneira como no caso anterior para o
cálculo de x e s2.
Para as medidas de posição, com a suposição de uniformidade
dos pontos nas classes, devemos identificar o ponto exato para o
qual a frequência acumulada é igual àquela desejada.
Exemplo 4: Dados coletados em entrevistas com 500 pessoas
sendo coletadas informações sobre o tempo de casamento até o
primeiro divórcio e o número de divórcios de cada.
Variável contínua: X = tempo, em anos, até o primeiro divórcio.
Tabela de frequências.
Anos até 1º.
divórcio
Pto. médio
xi ni fi Fac xi fi ni xi
2
0 |---- 6 3 280 0.56 0.56 1.68 2520
6 |---- 12 9 140 0.28 0.84 2.52 11340
12 |---- 18 15 60 0.12 0.96 1.80 13500
18 |---- 24 21 15 0.03 0.99 0.63 6615
24 |---- 30 27 5 0.01 1.00 0.27 3645
Total
500 1.00 – 6.90 37620
i) Média amostral:
ii fxx = 6.90 anos
ii) Variância e desvio padrão amostrais:
685.27499
13815
)1500(
)90.6(50037620
)1(
2222
n
xnxs i
26.5s anos
iii) Mediana:
Pertence à 1ª classe, pois sua Fac é maior do que 0.50.
Regra de três
50.0
56.0
0)(
)06(
xmed,
de onde se obtêm:
50.0656.0)( xmed
56.0
50.06)(
xmed
36.5)( xmed anos
iv) Quartis:
Q1 pertence à 1ª classe, pois sua Fac é maior do que 0,25.
Regra de três
25.0
56.0
0
)06(
1
Q,
25.0656.01 Q
68.21 Q anos
Q3 pertence à 2ª classe, pois sua Fac é maior do que 0,75.
A frequência cumulada até a classe anterior é 0.56, portanto,
faltam 19.056.075.0 de frequência.
Regra de três
19.0
28.0
6
)612(
3
Q,
19.0628.063 Q
07.103 Q anos
Outra representação:
Anos = xi
ptos. médios ni fi Fac xi fi (xi – x ) ni (xi – x )2
3 280 0.56 0.56 1.68 -3.9 4258.8
9 140 0.28 0.84 2.52 2.1 617.4
15 60 0.12 0.96 1.80 8.1 3936.6
21 15 0.03 0.99 0.63 14.1 2982.15
27 5 0.01 1.00 0.27 20.1 2020.05
Total 500 1.00 − 6.90 − 13815
Média amostral: ii fxx = 6.90 anos
Variância amostral:
685.27499
13815
)1(
22
n
xxs i anos2
v) Moda:
Para dados agrupados, ao invés da moda, pode-se considerar a
classe modal , que neste caso é a 1ª classe, com frequência igual
a 280, ou seja, a classe modal seria: )6;0[ anos.
Porém, uma opção mais apropriada seria a moda de Czuber,
calculada a seguir:
Neste caso: LI = 0, h = 6, da = 280 e dp = 140, portanto:
)140280(
28060)(
xmocz
4420
2806
czmo
Exemplo 3: Notas no teste GMAT na seleção de alunos de
graduação numa universidade americana.
Tabela de frequências.
Escores Pto. médio: xi ni fi xi fi ni xi2
300 |-- 350 325 3 0.035 11.5 316875
350 |-- 400 375 7 0.082 30.9 984375
400 |-- 450 425 18 0.212 90.0 3251250
450 |-- 500 475 24 0.282 134.1 5415000
500 |-- 550 525 15 0.176 92.6 4134375
550 |-- 600 575 10 0.118 67.6 3306250
600 |-- 650 625 4 0.047 29.4 1562500
650 |-- 700 675 4 0.047 31.8 1822500
Totais 85 1.000 488.0 20793125
i) Média amostral: ii fxx = 488.0 pts
ii) Variância e desvio padrão amostrais:
2.655884
2024224020793125
)1(
22
2
n
xnxns
ipts2
98.802.6558 s pts
Histograma:
iii) Moda: Pelo método de Czuber, temos:
LI = 450, h = 50, da = 6 e dp = 9, portanto:
15
300450
)96(
650450)(
xmocz
470)( xmocz
5.1. Percentis amostrais pelo gráfico da distribuição
acumulada
Escores Pto. médio: xi ni fi Fac
300 |-- 350 325 3 0.035 0.035
350 |-- 400 375 7 0.082 0.117
400 |-- 450 425 18 0.212 0.329
450 |-- 500 475 24 0.282 0.611
500 |-- 550 525 15 0.176 0.787
550 |-- 600 575 10 0.118 0.905
600 |-- 650 625 4 0.047 0.952
650 |-- 700 675 4 0.048 1.000
Totais 85 1.000
Obtenção da mediana por semelhança de triângulos:
Regra de três:
329.050.0
329.0611.0
450)(
450500
xmed,
171.050282.0450)( xmed
3.480)( xmed pts
O mesmo procedimento pode ser realizado para a obtenção
dos quartis.
117.025.0
117.0329.0
400
400450
1
Q,
079.050212.04001 Q
6.4181 Q pts
611.075.0
611.0787.0
500
500550
3
Q,
139.050176.05003 Q
5.4391 Q pts
A seguir são apresentados mais 2 exemplos com dados
agrupados: o primeiro caso com dados discretos e o segundo,
dados contínuos.
Exemplo 5: dados coletados em entrevistas com 48 mulheres de
uma comunidade rural sobre o número de vezes que ficaram
grávidas (dados fictícios).
X = variável número de gravidezes por mulher
Tabela de frequências
ix in if acF ii fx 2)( xxn ii
1 7 0.146 0.146 0.146 30.343
2 13 0.271 0.417 0.542 15.219
3 11 0.229 0.646 0.687 0.074
4 7 0.146 0.792 0.584 5.899
5 6 0.125 0.917 0.625 22.072
6 4 0.083 1.000 0.498 34.059
Total 48 1.000 - 3.082 107.666
Calcular a média, variância, mediana, moda, quartis:
i) Cálculo da média:
)229.03()271.02()146.01(1
k
ii fxx
)083.06()125.05()146.04(
498.0625.0584.0687.0542.0146.01
k
ii fxx
3082.31
k
ii fxx gravidezes
ii) Cálculo da variância e desvio padrão:
29.247
666.107
11
22
k
i
ii
n
xxns
514.129,2 s gravidezes
iii) Cálculo da mediana:
3)( xmed gravidezes pois Fac(3) > 0.50.
iv) Cálculo dos quartis:
21 Q gravidezes pois Fac(2) > 0.25.
43 Q gravidezes pois Fac(4) > 0.75.
v) 2)( xmo gravidezes observação com maior
frequência.
Figura 1: Histograma do número de gravidezes/mulher (dados fictícios).
Exemplo 6: Salário de 36 funcionários da Companhia MB em
número de salários mínimos (dados fictícios)
X = salário (sm)
Tabela de frequências
classes Pto.
Médio ix in if acF ii fx 2)( xxn ii
04 |-- 08 6 10 0.28 0.28 1.68 274.576
08 |-- 12 10 12 0.33 0.61 3.30 18.451
12 |-- 16 14 8 0.22 0.83 3.08 60.941
16 |-- 20 18 5 0.14 0.97 2.52 228.488
20 |-- 24 22 1 0.03 1.00 0.66 115.778
Total 36 1.000 - 11.24 698.234
Calcular a média, variância, mediana, moda, quartis: (no caso, xi, i = 1, 2, …, k são os pontos médios das classes)
i) Cálculo da média:
24.111
k
ii fxx sm
ii) Cálculo da variância e desvio padrão:
950.19
35
234.698
11
22
kii
n
xxns
467.4950.19 s sm
iii) Mediana: )(xmed pertence à 2ª classe, pois a 2ª classe
acumula mais de 50% dos dados ( 50.0acF ).
Como até a classe anterior temos 0.28 de distribuição
acumulada, os 0.22 restantes para totalizar 0.50 devem ser obtidos
da 2ª classe. Assim, por meio da proporcionalidade entre os
retângulos na figura (regra de três), obtém-se a mediana.
Logo, 22.0
33.0
8)(
)812(
xmed,
de onde se obtêm:
22.0)812(33.08)( xmed
33.0
22.048)(
xmed
67.10)( xmed sm
iv) Quartis: Para os quartis o procedimento é semelhante ao da
mediana.
Para o quartil 1Q devemos encontrar a classe que acumula
uma frequência igual ou maior do que 0.25.
Desta forma, 1Q pertence à 1ª classe, que acumula uma
frequência igual a 0.28. Num procedimento semelhante ao
anterior, temos:
Portanto,
25.0
28.0
4
)48(
1
Q
de onde se obtêm:
28.0
25.0441
Q
57.71 Q sm
3
Q pertence à 3ª classe, que acumula uma frequência igual a
0.83 (> 0.75).
Desta forma, temos:
Portanto,
14.0
22.0
12
)1216(
3
Q
de onde se obtêm:
22.0
14.04123
Q
55.143 Q sm
Os cálculos acima podem resumidos na fórmula dos percentis
amostrais. No caso a mediana é o percentil 0.50 (50%) e sua
fórmula é dada por:
i
ca
inff
FhLxmed
)1(50.0)(
,
Em que:
h = amplitude da classe;
Linf = limite inferior da classe da mediana;
fi = frequência relativa da classe que contém a mediana;
)1(caF = frequência acumulada até a classe imediatamente
anterior à classe da mediana.
Obs: Para os quartis 1
Q e 3
Q a fórmula é a mesma, substituindo
apenas a frequência 0.5 por 0.25 e 0.75, respectivamente.