1. anÁlise descritiva de dados 1.1. conceitos · marcando o ponto médio de cada retângulo do...
TRANSCRIPT
1. ANÁLISE DESCRITIVA DE DADOS
1.1. CONCEITOS: População: conjunto de indivíduos, ou itens, com pelo menos uma característica em comum.
Também será denotada por população objetivo, que é sobre a qual desejamos obter informações e/ou fazer inferências.
Pode, ainda, ser chamada de Universo.
Será denotada por: Nu,,u,u,uU 321
iu unidades elementares, i = 1, 2, . . . , N.
N = no de elementos, ou tamanho, da população. Amostra: é um subconjunto, necessariamente finito, de uma população.
é selecionada de forma que todos os elementos da população tenham a mesma chance de serem escolhidos.
A população pode ser infinita, mas a amostra é sempre finita.
Parâmetro Populacional: normalmente denotado por , é uma característica populacional de interesse, que pode ser expressa através de uma quantidade
numérica. Normalmente é desconhecido e fixo.
Estatística: é uma medida numérica, que descreve uma característica da amostra.
Uma Estatística é uma função da amostra: S = f(X1, X2, . . . , Xn)
X1, X2, . . . , Xn representa as n observações da amostra
Exemplos
n
XX
n
ii
1 (média amostral)
1
1
2
2
n
XX
s
n
ii
(variância amostral)
min = valor mínimo da amostra denotado por X(1)
max = valor máximo da amostra denotado por X(n)
PARÂMETROS E ESTATÍSTICAS
Nome ESTATÍSTICA (Amostra) PARÂMETRO (População)
Média X
Variância s2
2
Correlação rX,Y X,Y
Proporção p̂ p
Variável uma variável é uma característica desconhecida, que pode variar de
um indivíduo para outro da população e que, ao ser observada ou mensurada, deve gerar uma única resposta. Tipos de variáveis:
a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou qualidades. São NÃO NUMÉRICAS.
Podem ser classificadas em:
i) ORDINAIS, quando obedecem a uma ordem natural ou ii) NOMINAIS, quando não obedecem nenhuma ordem.
b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores numéricos resultantes de uma mensuração ou contagem.
Podem ser classificadas em:
i) DISCRETAS, quando assumem valores inteiros, ou ii) CONTÍNUAS, quando assumem valores reais.
Representação gráfica para Variáveis Quantitativas:
O gráfico de pontos é a primeira representação da
amostra, fornecendo um aspecto visual da concentração e
distribuição dos pontos na nossa escala de medidas.
No exemplo abaixo, percebemos o conjunto de dados
concentrado na primeira metade da escala, com uma grande
concentração entre os valores 2,5 e 7,5, e uma dispersão
mais acentuada no lado superior (direito) da distribuição,
com valores chegando a 17,5. Esta dispersão indica uma
forte assimetria na cauda superior da distribuição (assimetria
à direita).
Figura 1: Gráfico de pontos.
Uma forma prática de representação gráfica para dados
quantitativos (em especial dados contínuos) é dada pelo
histograma, no qual, representamos as frequências de uma
tabela por barras adjacentes para cada intervalo de classe.
Histograma com k = 7 classes:
Classe – (Xi) ni fi
0,0 |--- 2,5 34 0,136
2.5 |--- 5,0 74 0,296
5,0 |--- 7,5 86 0,344
7,5 |--- 10,0 30 0,120
10,0 |--- 12,5 16 0,064
12,5 |--- 15,0 5 0,020
15,0 |--- 17,5 5 0,020
Total 250 1,000
Figura 2: Histograma(sobre o gráfico de pontos).
O Polígono de Frequências Marcando o ponto médio de cada retângulo do histograma
na sua na parte superior e ligando esses pontos, teremos uma figura que chamaremos de Polígono de Frequências
(Figura 3).
Figura 3: Polígono de frequências.
As linhas retas que compõem o polígono de
frequências são uma aproximação rudimentar para uma
curva que representa uma Distribuição de Frequências. Essa distribuição é descrita por uma função f(x), contínua e diferenciável, definida num intervalo dos reais, a qual será
denotada por função distribuição de probabilidades ou fdp
(Figura 4).
Gráfico de pontos no MINITAB
3020100
horas
Gráfico de pontos para horas de TV
Estatísticas descritivas no MINITAB
Descriptive Statistics: horasTV Variable N Mean Median TrMean StDev SE Mean
horasTV 50 10.780 10.000 10.273 6.891 0.974
Variable Minimum Maximum Q1 Q3
horasTV 0.000 30.000 5.000 14.000
Histograma para variáveis contínuas no MINITAB
0 6 12 18 24 30
0
10
20
horas
Fre
qü
ên
cia
Histograma de horas de TV
Outros limites
0.0 5.5 11.0 16.5 22.0 27.5 33.0
0
5
10
15
horas
Fre
qü
ên
cia
Histograma de horas de TV
Exemplo: Tabela de freqüências e histograma para variáveis contínuas, no Excel.
Bloco Freqüência
0 1 4.3 6 8.6 13
12.9 15 17.1 7 21.4 4 25.7 2 Mais 2
Histograma
0
4
8
12
16
0 4.3 8.6 12.9 17.1 21.4 25.7 Mais
Bloco
Fre
qü
ên
cia
Freqüência
Dados discretizados:
Uma grande companhia está preocupada com o tempo que
seus equipamentos ficam em manutenção na assistência
técnica. Sendo assim, fez um levantamento do tempo de
manutenção (dias) de 50 equipamentos para um estudo mais
detalhado.
X = dias em manutenção de equipamentos.
15 13 21 9 5 5 10 6 2 2 9 10 3 4 2 13 12 16 7 6 4 11 8 6 6 10 17 13 9 5 2 5 9 14 15 3 6 18 3 4 5 7 8 3 10 5 5 4 5 2
Dados Ordenados:
2 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 5
5 6 6 6 6 6 7 7 8 8
9 9 9 9 10 10 10 10 11 12 13 13 13 14 15 15 16 17 18 21
Tabela de frequências:
k = [1 + 3,322*log1050] = [ 6,64 ] = 6 a 7 classes
A = 21 – 2 = 19 h = 19/6 = 3,16 3,2
Com k = 7 classes:
Xi (dias) ni fi Fac
2 a 4 13 0,26 0,26
5 a 7 15 0,30 0,56
8 a 10 10 0,20 0,76
11 a 13 5 0,10 0,86
14 a 16 4 0,08 0,94
17 a 19 2 0,04 0,98
20 a 22 1 0,02 1,00
Total 50 1,00 -
Medidas Descritivas de Posição:
i) Média: xi = 392 84,750
392x dias
ii) Mediana: Md(x) = 62
66
2
)26()25(
xx dias
iii) Moda: Mo(x) = 5 dias aparece 8 vezes na amostra.
Com k = 6 classes:
Xi (dias) ni fi Fac
0 a 3 9 0,18 0,18
4 a 7 19 0,38 0,56
8 a 11 11 0,22 0,78
12 a 15 7 0,14 0,92
16 a 19 3 0,06 0,98
20 a 23 1 0,02 1,00
Total 50 1,00 -
Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,
3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,
9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,
10, 5, 5, 4, 5, 2)
nclass.Sturges(manuten)
hist(manuten, col="bisque")
hist(manuten, breaks="Sturges", col="bisque")
nclass.scott(manuten)
hist(manuten, breaks="Scott", col="bisque")
nclass.FD(manuten)
hist(manuten, breaks="FD", col="bisque")
hist(manuten, breaks=7, col="bisque")
hist(manuten, breaks=8, col="bisque")
# definindo os intervalos
#########################
h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)
hist(manuten, breaks=h1, col="bisque")
h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)
hist(manuten, breaks=h2, col="bisque")
Dados Contínuos:
X = notas de avaliação de teste verbal aplicado em 87 alunos.
2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0
4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7
4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1
5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4
5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8
5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2
6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5
6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9
6,9 7,0 7,0 7,1 7,2 7,3 7,5
k = [1 + 3,322*log1087] = [ 7,44 ] = 7 a 8 classes
A = 7,5 – 2,5 = 5 h = 5/7 = 0,714 0,72
Com k = 7 classes:
Xi (nota) ni fi Fac
2,50 |--- 3,22 4 0,046 0,046
3,22 |--- 3,94 5 0,057 0,103
3,94 |--- 4,66 8 0,092 0,195
4,66 |--- 5,38 22 0,253 0,448
5,38 |--- 6,10 16 0,184 0,632
6,10 |--- 6,82 24 0,276 0,908
6,82 |--- 7,54 8 0,092 1,000
Total 87 1,000 -
Medidas Descritivas de Posição:
i) Média: xi = 475,8 47,587
8,475x
ii) Mediana: 50,5)( )44( xxMd
iii) Moda: 29,5)214(
72,01466,4)(
xMo
Comandos do R para o histograma: verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,
4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,
4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,
5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,
5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,
5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,
6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,
6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,
7.5)
hist(verbal, col="bisque")
nclass.Sturges(verval)
hist(verbal, breaks="Sturges", col="bisque")
nclass.scott(verbal)
hist(verbal, breaks="Scott", col="bisque")
nclass.FD(verbal)
hist(verbal, breaks="FD", col="bisque")
hist(verbal, breaks=7, col="bisque")
hist(verbal, breaks=8, col="bisque")
# definindo os intervalos
#########################
h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54)
hist(verbal, breaks=h, col="bisque")
boxplot(verbal, col="yellow2", horizontal=FALSE)
boxplot(verbal, col="yellow2")
boxplot(verbal, plot=F)
Média, Moda e Mediana e a Simetria dos dados
Figura 4: Função de distribuição de probabilidades
sobre o histograma.
O que podemos dizer acerca desta distribuição de
frequências em relação a sua simetria?
Quando uma distribuição de frequências é simétrica,
teremos que a Média, a Moda e a Mediana serão iguais, ou
seja:
x = Mo(x) = Md(x)
E quanto ao exemplo acima, como podemos classificá-
lo em função da sua falta de simetria?
Quando a distribuição não é simétrica, podemos
distinguir duas situações possíveis (Figura 5):
a) Quando a cauda superior da distribuição for mais
alongada, puxando a distribuição para a direita. Neste
caso, a média é maior do que a moda e a assimetria é
dita à direita ou positiva.
b) Quando a cauda inferior da distribuição for mais
alongada, puxando a distribuição para a esquerda.
Neste caso, a média é menor do que a moda e a
assimetria é dita à esquerda ou negativa.
Figura 5: Assimetrias à direita e à esquerda,
respectivamente.
Relação entre média, moda e mediana
i) A Média é sempre influenciada por valores extremos,
sendo puxada na direção da cauda mais alongada (ver
a seta na Figura 5);
ii) A Moda é o elemento de maior frequência, sendo o
ponto de máximo de f(x); iii) A Mediana está sempre no meio do conjunto,
dividindo-o em duas partes iguais, ficando entre as
duas medidas anteriores.
Assim, para cada situação, teremos:
a) Quando a simetria é perfeita as três medidas são iguais.
b) Na situação em que ocorre a assimetria à direita,
teremos a moda menor do que a mediana que é menor
do que a média.
c) E, para a assimetria à esquerda, devemos ter a
média menor do que a mediana que é menor do que a
moda.
Sumário dos exemplos:
I – Representação gráfica para Variáveis Quantitativas II – Histograma para variáveis contínuas no soft MINITAB III – Tabela de freqüências e histograma para v. contínuas, no Excel IV – Exemplo Estatísticas Descritivas de dados contínuos V – Estatísticas Descritivas no soft MINITAB
VI – Estatísticas Descritivas no EXCEL VII – Exemplos de Dados Agrupados VIII – Representação gráfica para Variáveis Qualitativas
IX – Histogramas pelo número de observações
Gráfico de pontos no MINITAB
3020100
horas
Gráfico de pontos para horas de TV
Estatísticas descritivas no MINITAB Descriptive Statistics: horasTV Variable N Mean Median TrMean StDev SE Mean
horasTV 50 10.780 10.000 10.273 6.891 0.974
Variable Minimum Maximum Q1 Q3
horasTV 0.000 30.000 5.000 14.000
II - Histograma para variáveis contínuas no MINITAB
0 6 12 18 24 30
0
10
20
horas
Fre
qü
ên
cia
Histograma de horas de TV
Outros limites
0.0 5.5 11.0 16.5 22.0 27.5 33.0
0
5
10
15
horas
Fre
qü
ên
cia
Histograma de horas de TV
III - Tabela de freqüências e histograma para v. contínuas, no Excel.
Bloco Freqüência
0 1 4.3 6 8.6 13
12.9 15 17.1 7 21.4 4 25.7 2 Mais 2
Histograma
0
4
8
12
16
0 4.3 8.6 12.9 17.1 21.4 25.7 Mais
Bloco
Fre
qü
ên
cia
Freqüência
Dados do estudo sobre exposição à violência familiar de crianças
em idade escolar (2 grupos Expostos à violência e Não Expostos)
IV - Exemplo Estatísticas Descritivas de dados contínuos:
Variável: Renda PC por grupo (Exposto e Não Exposto)
Grupo
EXP 68 96 100 100 112 112 117 120 120 135
150 160 160 200 260
- Mediana: 120)( )8( xxMd reais
- 1o Quartil: Q1 = x(4) = 100 reais
- 3o Quartil: Q3 = x(12) = 160 reais
- Média: 13415
2010
n
xx reais
- Variância: 3009422x
14
269340300942
)115(
)134(15300942
)1(
2222
n
xnxs
286.225714
316022 s
- desvio-padrão: 51.47286.22572 ss reais
50 150 250
Box-plot renda per capita
Grupo Exposto
35 85 135 185 235 285
0
1
2
3
4
5
6
7
8
Grupo Exposto
Fre
qü
ên
cia
Grupo
NEXP 36 50 70 84 108 109 120 120 150 150
180 220 250 260 300
- Mediana: 120)( )8( xxMd reais
- 1o Quartil: Q1 = x(4) = 184 reais
- 3o Quartil: Q3 = x(12) = 220 reais
- Média: 13.14715
2207
n
xx reais
- Variância: 4139972x
14
27.324723413997
)115(
)13.147(15413997
)1(
2222
n
xnxs
695.637614
73.892732 s
- desvio-padrão: 85.79695.63762 ss reais
0 100 200 300
Grupo Não Exposto
Box-plot renda per capita
0 66 132 198 264 330
0
1
2
3
4
5
6
Grupo não Exposto
Fre
qü
ên
cia
ex <- c(68,96,100,100,112,112,117,120,120,135,150,160,
160,200,260)
nex <- c(36,50,70,84,108,109,120,120,150,150,180,220,
250,260,300)
renda <- c(ex,nex)
gr <- c(rep("ex",length(ex)),rep("nex",length(nex)))
boxplot(renda~gr, col=c("red3","green3"))
V - Estatísticas Descritivas no soft MINITAB
Variável: Renda PC por grupo (Exposto e Não Exposto)
Descriptive Statistics: EXP; NEXP Variable N Mean Median TrMean StDev SE_Mean EXP 15 134.0 120.0 129.4 47.5 12.3 NEXP 15 147.1 120.0 143.9 79.9 20.6 Variable Minimum Maximum Q1 Q3 EXP 68.0 260.0 100.0 160.0 NEXP 36.0 300.0 84.0 220.0
VI - Estatísticas Descritivas no EXCEL
Variável: Renda PC por grupo (Exposto e Não Exposto)
Exp Nexp Média 134 147.13
Erro padrão 12.3 20.6
Mediana 120 120
Modo 160 150
Desvio padrão 47.5 79.9
Variância da amostra 2257.286 6376.695
Curtose 2.62 -0.67
Assimetria 1.44 0.54
Intervalo 192 264
Mínimo 68 36
Máximo 260 300
Soma 2010 2207
Contagem 15 15
VII – Exemplos com Dados Agrupados
Exemplo 1: dados coletados em entrevistas com 500 pessoas (a) – variável número de divórcios por indivíduo (b) – variável tempo (em anos) até o primeiro divórcio
a) Variável discreta: tabela do número de divórcios por indivíduo.
Divórcios = xi ni fi xi fi Fac ni xi2
1 240 0,480 0,480 0,480 240
2 125 0,250 0,500 0,730 500
3 81 0,162 0,486 0,892 729
4 48 0,096 0,384 0,988 768
5 6 0,012 0,060 1,000 150
Total 500 1,000 1,910 - 2387
Média amostral: ii fxx = 1.91 divórcios
Variância amostral:
13.1499
95.562
)1500(
)910.1(5002387
)1(
2222
n
xnxs i
06,1s divórcios
Outra representação: Divórcios = xi ni fi xi fi Fac (xi – x ) ni (xi – x )
2
1 240 0,480 0,480 0,480 -0,910 198,744
2 125 0,250 0,500 0,730 0,090 1,013
3 81 0,162 0,486 0,892 1,090 96,236
4 48 0,096 0,384 0,988 2,090 209,669
5 6 0,012 0,060 1,000 3,090 57,2886
Total 500 1,000 1,910 – – 562,950
Média amostral: ii fxx = 1.91 divórcios
Variância amostral:
13.1499
95.562
)1(
22
n
xxs i
b) Variável contínua: tabela do tempo até o primeiro divórcio.
Anos
Casados
ponto médio
xi ni fi xi fi Fac ni xi
2
0 |----- 6 3 280 0,56 1,68 0,56 2520
6 |----- 12 9 140 0,28 2,52 0,84 11340
12 |----- 18 15 60 0,12 1,80 0,96 13500
18 |----- 24 21 15 0,03 0,63 0,99 6615
24 |----- 30 27 5 0,01 0,27 1,00 3645
Total
500 1,00 6,90 – 37620
Média amostral: ii fxx = 6.90 anos
Variância amostral:
685.27499
13815
)1500(
)90.6(50037620
)1(
2222
n
xnxs i
26.5s anos
Anos = xi ptos. médios
ni fi xi fi Fac (xi – x ) ni (xi – x )2
3 280 0,56 1,68 0,56 -3,9 4258,8 9 140 0,28 2,52 0,84 2,1 617,4
15 60 0,12 1,80 0,96 8,1 3936,6 21 15 0,03 0,63 0,99 14,1 2982,15 27 5 0,01 0,27 1,00 20,1 2020,05
Total 500 1,00 6,90 - - 13815
Média amostral: ii fxx = 6.90 anos
Variância amostral:
685.27499
13815
)1(
22
n
xxs i
Exemplo 2: Escores GMAT (Graduate Management Apititude Test) aplicado num processo seletivo para a escolha de alunos num programa de graduação.
Escores Pto. Médio
xi ni fi xi fi ni xi
2
300 |-- 350 325 3 0,035 11,5 316875
350 |-- 400 375 7 0,082 30,9 984375
400 |-- 450 425 18 0,212 90,0 3251250
450 |-- 500 475 24 0,282 134,1 5415000
500 |-- 550 525 15 0,176 92,6 4134375
550 |-- 600 575 10 0,118 67,6 3306250
600 |-- 650 625 4 0,047 29,4 1562500
650 |-- 700 675 4 0,047 31,8 1822500
Totais 85 1.000 488 20793125
Histograma:
Medidas de dispersão (variabilidade):
i) Variância amostral:
n
i
i
n
xxs
1
22
1
2
1
22
1
1xnx
ns
n
ii
ii) Quartis (quantis 25% e 75%):
medidas que dividem o conjunto de dados em quatro
partes iguais de 25% cada
25% 25% 25% 25%
------------|------------|------------|------------
Q1 Q2 Q3
Md(x)
Amplitude interquartil
Denotada por AQ, determina o tamanho da região em torno
da mediana que contém 50% das observações:
AQ = Q3 – Q1
iii) O gráfico box-plot
Representação gráfica da dispersão dos dados em torno
da mediana
Valores discrepantes Valores discrepantes
Q1 – 1.5AQ Q1 Md(x) Q3 Q3 + 1.5AQ
Procedimento para a construção do box-plot
i) Construir a “caixa” ou “box” com os valores dos
quartis Q1 e Q3;
ii) Com uma linha, demarcar a mediana na caixa,
dividindo-a em duas partes;
iii) Calcular os limites inferior (LI) e superior (Ls):
- LI = Q1 – 1.5AQ
- LS = Q3 + 1.5AQ
Obs: valores da amostra menores do que LI ou maiores
do que LS são identificados como “valores discrepantes”
e destacados no box-plot com pontos além desses limites.
iv) Para os “braços” do box-plot, traçar linhas a partir dos
centros das laterais inferior e superior da caixa,
obedecendo ao seguinte critério:
- se min(x) < LI, traçar uma linha da lateral inferior da
caixa até o limite LI e marcar os pontos discrepantes
com símbolos (asteriscos) segundo a escala;
- se min(x) LI, traçar uma linha da lateral inferior da
caixa até o limite o valor min(x);
- se max(x) > LS, traçar uma linha da lateral inferior da
caixa até o limite LS e marcar os pontos discrepantes
com símbolos (asteriscos) segundo a escala;
- se max(x) LS, traçar uma linha da lateral inferior da
caixa até o limite o valor max(x);
VIII - Representação gráfica para Variáveis Qualitativas:
Exemplo1: Pesquisa PNAD 2004 – Moradores por domicílio Brasil.
a) Tabela de uma entrada: número de domicílios por região
Região domicílios %
SE 23157114 44,8
NE 13090124 25,3
SE 8198266 15,8
CO 3745500 7,2
NE 3561524 6,9
51752528 100,0
b) Tabela de dupla entrada: moradores/dom. por região (dados brutos)
MOR. Brasil N NE SE S CO
1 5 411 443 292 910 1 190 705 2 612 431 890 834 424 563
2 10 062 238 506 597 2 141 312 4 816 793 1 857 904 739 632
3 12 118 894 747 866 2 793 052 5 630 782 2 103 424 843 770
4 12 098 742 791 985 2 936 946 5 532 907 1 888 026 948 878
5 6 449 038 532 447 1 858 876 2 682 387 917 583 457 745
6 2 906 091 308 311 991 114 1 094 518 322 794 189 354
7 1 311 592 161 696 532 787 410 151 131 936 75 022
8 OU + 1 394 490 219 712 645 332 377 145 85 765 66 536
Total 51 752 528 3 561 524 13 090 124 23 157 114 8 198 266 3 745 500
b) Tabela de dupla entrada: moradores/dom. por região (porcentagens)
MOR. Brasil N NE SE S CO
1 10,5 8,2 9,1 11,3 10,9 11,3
2 19,4 14,2 16,4 20,8 22,7 19,7
3 23,4 21,0 21,3 24,3 25,7 22,5
4 23,4 22,2 22,4 23,9 23,0 25,3
5 12,5 14,9 14,2 11,6 11,2 12,2
6 5,6 8,7 7,6 4,7 3,9 5,1
7 2,5 4,5 4,1 1,8 1,6 2,0
8 OU + 2,7 6,2 4,9 1,6 1,0 1,8
Total 100,0 100,0 100,0 100,0 100,0 100,0
Gráfico de setores (pizza): número de domicílios por região
Região Domic. (freq) proporção ângulo
SE 23157114 0,447 161
NE 13090124 0,253 91
SE 8198266 0,158 57
CO 3745500 0,072 26
NE 3561524 0,069 25
51752528 1 360
- Para achar o ângulo, deve-se usar a relação: 100% = 360o. - Portanto, se uma categoria tem proporção de 0,447, então, basta multiplicar 0,447 por 360o para encontrar o ângulo correspondente (regra de três).
Logo: 0,447 • 360o = 161o 0,072 • 360o = 26o 0,253 • 360o = 91o 0,069 • 360o = 25o 0,158 • 360o = 57o
Domicílios por região
45%
25%
16%
7%7%
SE
NE
S
CO
N
Domicílios por região
45%
25%16%
7%
7% SE
NE
S
CO
N
Gráfico de colunas:
0
5
10
15
20
25
1 2 3 4 5 6 7 8+
Moradores por domicílio - regiões SE e N
N
SE
Exemplo2: Notas de Português por grupo de estudantes expostos à
violência familiar (grupos Expostos e Não Expostos).
Nota Port.
Expostos Não Expostos
ni % ângulo ni % ângulo
I 5 33% 119o 3 20% 74o
S 8 54% 194o 6 40% 144o
PS 5 13% 47o 6 40% 144o
I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória
a) Gráfico de colunas:
0.0
0.2
0.3
0.5
0.6
Exposto Não Exposto
Notas de Português
I
S
PS
0.0
0.2
0.3
0.5
0.6
I S PS
Notas de Português
Exposto
Não Exposto
b) Gráfico de setores (pizza):
Notas de Português - Grupo Exposto
S
54%
I
33%
PS
13%
Notas de Português - Grupo Não Exposto
I
20%PS
40%
S
40%
Exemplos A) Dados DISCRETOS não agrupados:
X = variável representando o número de vezes que um sistema
travou, por período de execução, na sua carga máxima de
processamento.
4 4 1 6 3 2 3 3 4 3 4 2 4 5 2 5 1 2 5 4 6 3 1 2 3
Medidas de tendência central mais comuns, no Excel:
a) Média aritmérica ...... =MÉDIA(A1:A25)
b) Mediana ................... =MED(A1:A25)
c) Moda ........................ =MODO(A1:A25)
d) Média geométrica .... = MÉDIA.GEOMÉTRICA(A1:A25)
e) Média harmônica ..... = MÉDIA.HARMÔNICA(A1:A25)
Para construir Tabelas de Frequências no Excel i) marcar os dados;
ii) selecionar “> Inserir > Tabela Dinâmica”;
iii) arrastar X para a margem esquerda e centro da tabela;
iv) clicar com o botão direito sobre a coluna “Total”, selecionar “>
Resumir Dados por” e marcar a opção “Contagem”;
v) inserir as colunas e concluir a tabela, atentando para que os
cálculos sejam feitos corretamente.
Tabela de Frequências:
X ni fi Fac
1 3 0,12 0,12
2 5 0,20 0,32
3 6 0,24 0,56
4 6 0,24 0,80
5 3 0,12 0,92
6 2 0,08 1,00
Total 25 1,00
Para construir Gráfico de Frequência (Histograma) no Excel i) marcar os dados;
ii) selecionar “> Inserir > Gráficos > Colunas”;
iii) acertar as configurações para melhor visualização do gráfico:
- título (tipo de fonte e tamanho);
- eixos (fontes e espaçamentos);
- linhas de grade;
- espaçamento (clicar numa das colunas do gráfico e selecionar
“> Formatar > Séria de Dados” e definir
“Largura do Espaçamento” no máximo “Intervalo Grande”.
Para construir Gráfico de Frequência Acumulada: - digitar a tabela de forma a construir um gráfico XY.
B) Dados DISCRETOS agrupados:
X = variável representando o número de dias em manutenção
de equipamentos de uma empresa.
15 13 21 9 5 5 10 6 2 2 9 10 3
4 2 13 12 16 7 6 4 11 8 6 6 10
17 13 9 5 2 5 9 14 15 3 6 18 3
4 5 7 8 3 10 5 5 4 5 2
X ni X (dias) ni fi Fac
2 5 01 a 03 9 0,18 0,18
3 4 04 a 06 17 0,34 0,52
4 4 07 a 09 8 0,16 0,68
5 8 10 a 12 6 0,12 0,80
6 5 13 a 15 6 0,12 0,92
7 2 16 a 18 3 0,06 0,98
8 2 19 a 21 1 0,02 1,00
9 4 Total 05 1,00
10 4
11 1
12 1
13 3
14 1
15 2
16 1
17 1
18 1
21 1 Total 50
Construindo a Tabela de Frequência e o Histograma no Excel i) “> Dados > Análise de Dados > Histograma > OK”;
ii) Marcar as opções:
- “Intervalo de entrada” => conjunto de dados para a tabela;
- “Intervalo do bloco” => coluna com os limites das classes da
tabela;
- “Intervalo de saída” => local onde a tabela será colocada;
- marcar “Porcentagem cumulativa” para obter a freqüência
acumulada Fac;
- marcar “Resultado do gráfico” para obter o Histograma;
(Ver resultado na planilha)
** Ver a saída da opção “Estatística Descritiva” e comparar com o
“MINITAB”.
C) Dados CONTÍNUOS:
Exemplo: Em 1798 o cientista Henry Cavendish mediu a densidade
do glogo terrestre em 29 ensaios. Os dados foram obtidos do
Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65 5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39 5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85
Dados ordenados
4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85
99,157x
09,8622x