1. anÁlise descritiva de dados 1.1. conceitos · marcando o ponto médio de cada retângulo do...

46
1. ANÁLISE DESCRITIVA DE DADOS 1.1. CONCEITOS: População: conjunto de indivíduos, ou itens, com pelo menos uma característica em comum. Também será denotada por população objetivo, que é sobre a qual desejamos obter informações e/ou fazer inferências. Pode, ainda, ser chamada de Universo. Será denotada por: N u , , u , u , u U 3 2 1 i u unidades elementares, i = 1, 2, . . . , N. N = n o de elementos, ou tamanho, da população. Amostra: é um subconjunto, necessariamente finito, de uma população. é selecionada de forma que todos os elementos da população tenham a mesma chance de serem escolhidos. A população pode ser infinita, mas a amostra é sempre finita. Parâmetro Populacional: normalmente denotado por , é uma característica populacional de interesse, que pode ser expressa através de uma quantidade numérica. Normalmente é desconhecido e fixo. Estatística: é uma medida numérica, que descreve uma característica da amostra. Uma Estatística é uma função da amostra: S = f(X 1 , X 2 , . . . , X n ) X 1 , X 2 , . . . , X n representa as n observações da amostra

Upload: vuongtuong

Post on 12-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

1. ANÁLISE DESCRITIVA DE DADOS

1.1. CONCEITOS: População: conjunto de indivíduos, ou itens, com pelo menos uma característica em comum.

Também será denotada por população objetivo, que é sobre a qual desejamos obter informações e/ou fazer inferências.

Pode, ainda, ser chamada de Universo.

Será denotada por: Nu,,u,u,uU 321

iu unidades elementares, i = 1, 2, . . . , N.

N = no de elementos, ou tamanho, da população. Amostra: é um subconjunto, necessariamente finito, de uma população.

é selecionada de forma que todos os elementos da população tenham a mesma chance de serem escolhidos.

A população pode ser infinita, mas a amostra é sempre finita.

Parâmetro Populacional: normalmente denotado por , é uma característica populacional de interesse, que pode ser expressa através de uma quantidade

numérica. Normalmente é desconhecido e fixo.

Estatística: é uma medida numérica, que descreve uma característica da amostra.

Uma Estatística é uma função da amostra: S = f(X1, X2, . . . , Xn)

X1, X2, . . . , Xn representa as n observações da amostra

Exemplos

n

XX

n

ii

1 (média amostral)

1

1

2

2

n

XX

s

n

ii

(variância amostral)

min = valor mínimo da amostra denotado por X(1)

max = valor máximo da amostra denotado por X(n)

PARÂMETROS E ESTATÍSTICAS

Nome ESTATÍSTICA (Amostra) PARÂMETRO (População)

Média X

Variância s2

2

Correlação rX,Y X,Y

Proporção p̂ p

Variável uma variável é uma característica desconhecida, que pode variar de

um indivíduo para outro da população e que, ao ser observada ou mensurada, deve gerar uma única resposta. Tipos de variáveis:

a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou qualidades. São NÃO NUMÉRICAS.

Podem ser classificadas em:

i) ORDINAIS, quando obedecem a uma ordem natural ou ii) NOMINAIS, quando não obedecem nenhuma ordem.

b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores numéricos resultantes de uma mensuração ou contagem.

Podem ser classificadas em:

i) DISCRETAS, quando assumem valores inteiros, ou ii) CONTÍNUAS, quando assumem valores reais.

ESQUEMATICAMENTE

Representação gráfica para Variáveis Quantitativas:

O gráfico de pontos é a primeira representação da

amostra, fornecendo um aspecto visual da concentração e

distribuição dos pontos na nossa escala de medidas.

No exemplo abaixo, percebemos o conjunto de dados

concentrado na primeira metade da escala, com uma grande

concentração entre os valores 2,5 e 7,5, e uma dispersão

mais acentuada no lado superior (direito) da distribuição,

com valores chegando a 17,5. Esta dispersão indica uma

forte assimetria na cauda superior da distribuição (assimetria

à direita).

Figura 1: Gráfico de pontos.

Uma forma prática de representação gráfica para dados

quantitativos (em especial dados contínuos) é dada pelo

histograma, no qual, representamos as frequências de uma

tabela por barras adjacentes para cada intervalo de classe.

Histograma com k = 7 classes:

Classe – (Xi) ni fi

0,0 |--- 2,5 34 0,136

2.5 |--- 5,0 74 0,296

5,0 |--- 7,5 86 0,344

7,5 |--- 10,0 30 0,120

10,0 |--- 12,5 16 0,064

12,5 |--- 15,0 5 0,020

15,0 |--- 17,5 5 0,020

Total 250 1,000

Figura 2: Histograma(sobre o gráfico de pontos).

O Polígono de Frequências Marcando o ponto médio de cada retângulo do histograma

na sua na parte superior e ligando esses pontos, teremos uma figura que chamaremos de Polígono de Frequências

(Figura 3).

Figura 3: Polígono de frequências.

As linhas retas que compõem o polígono de

frequências são uma aproximação rudimentar para uma

curva que representa uma Distribuição de Frequências. Essa distribuição é descrita por uma função f(x), contínua e diferenciável, definida num intervalo dos reais, a qual será

denotada por função distribuição de probabilidades ou fdp

(Figura 4).

Gráfico de pontos no MINITAB

3020100

horas

Gráfico de pontos para horas de TV

Estatísticas descritivas no MINITAB

Descriptive Statistics: horasTV Variable N Mean Median TrMean StDev SE Mean

horasTV 50 10.780 10.000 10.273 6.891 0.974

Variable Minimum Maximum Q1 Q3

horasTV 0.000 30.000 5.000 14.000

Histograma para variáveis contínuas no MINITAB

0 6 12 18 24 30

0

10

20

horas

Fre

ên

cia

Histograma de horas de TV

Outros limites

0.0 5.5 11.0 16.5 22.0 27.5 33.0

0

5

10

15

horas

Fre

ên

cia

Histograma de horas de TV

Exemplo: Tabela de freqüências e histograma para variáveis contínuas, no Excel.

Bloco Freqüência

0 1 4.3 6 8.6 13

12.9 15 17.1 7 21.4 4 25.7 2 Mais 2

Histograma

0

4

8

12

16

0 4.3 8.6 12.9 17.1 21.4 25.7 Mais

Bloco

Fre

ên

cia

Freqüência

Dados discretizados:

Uma grande companhia está preocupada com o tempo que

seus equipamentos ficam em manutenção na assistência

técnica. Sendo assim, fez um levantamento do tempo de

manutenção (dias) de 50 equipamentos para um estudo mais

detalhado.

X = dias em manutenção de equipamentos.

15 13 21 9 5 5 10 6 2 2 9 10 3 4 2 13 12 16 7 6 4 11 8 6 6 10 17 13 9 5 2 5 9 14 15 3 6 18 3 4 5 7 8 3 10 5 5 4 5 2

Dados Ordenados:

2 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 5

5 6 6 6 6 6 7 7 8 8

9 9 9 9 10 10 10 10 11 12 13 13 13 14 15 15 16 17 18 21

Tabela de frequências:

k = [1 + 3,322*log1050] = [ 6,64 ] = 6 a 7 classes

A = 21 – 2 = 19 h = 19/6 = 3,16 3,2

Com k = 7 classes:

Xi (dias) ni fi Fac

2 a 4 13 0,26 0,26

5 a 7 15 0,30 0,56

8 a 10 10 0,20 0,76

11 a 13 5 0,10 0,86

14 a 16 4 0,08 0,94

17 a 19 2 0,04 0,98

20 a 22 1 0,02 1,00

Total 50 1,00 -

Medidas Descritivas de Posição:

i) Média: xi = 392 84,750

392x dias

ii) Mediana: Md(x) = 62

66

2

)26()25(

xx dias

iii) Moda: Mo(x) = 5 dias aparece 8 vezes na amostra.

Com k = 6 classes:

Xi (dias) ni fi Fac

0 a 3 9 0,18 0,18

4 a 7 19 0,38 0,56

8 a 11 11 0,22 0,78

12 a 15 7 0,14 0,92

16 a 19 3 0,06 0,98

20 a 23 1 0,02 1,00

Total 50 1,00 -

Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,

3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,

9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,

10, 5, 5, 4, 5, 2)

nclass.Sturges(manuten)

hist(manuten, col="bisque")

hist(manuten, breaks="Sturges", col="bisque")

nclass.scott(manuten)

hist(manuten, breaks="Scott", col="bisque")

nclass.FD(manuten)

hist(manuten, breaks="FD", col="bisque")

hist(manuten, breaks=7, col="bisque")

hist(manuten, breaks=8, col="bisque")

# definindo os intervalos

#########################

h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)

hist(manuten, breaks=h1, col="bisque")

h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)

hist(manuten, breaks=h2, col="bisque")

Dados Contínuos:

X = notas de avaliação de teste verbal aplicado em 87 alunos.

2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0

4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7

4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1

5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4

5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8

5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2

6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5

6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9

6,9 7,0 7,0 7,1 7,2 7,3 7,5

k = [1 + 3,322*log1087] = [ 7,44 ] = 7 a 8 classes

A = 7,5 – 2,5 = 5 h = 5/7 = 0,714 0,72

Com k = 7 classes:

Xi (nota) ni fi Fac

2,50 |--- 3,22 4 0,046 0,046

3,22 |--- 3,94 5 0,057 0,103

3,94 |--- 4,66 8 0,092 0,195

4,66 |--- 5,38 22 0,253 0,448

5,38 |--- 6,10 16 0,184 0,632

6,10 |--- 6,82 24 0,276 0,908

6,82 |--- 7,54 8 0,092 1,000

Total 87 1,000 -

Medidas Descritivas de Posição:

i) Média: xi = 475,8 47,587

8,475x

ii) Mediana: 50,5)( )44( xxMd

iii) Moda: 29,5)214(

72,01466,4)(

xMo

Comandos do R para o histograma: verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,

4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,

4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,

5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,

5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,

5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,

6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,

6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,

7.5)

hist(verbal, col="bisque")

nclass.Sturges(verval)

hist(verbal, breaks="Sturges", col="bisque")

nclass.scott(verbal)

hist(verbal, breaks="Scott", col="bisque")

nclass.FD(verbal)

hist(verbal, breaks="FD", col="bisque")

hist(verbal, breaks=7, col="bisque")

hist(verbal, breaks=8, col="bisque")

# definindo os intervalos

#########################

h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54)

hist(verbal, breaks=h, col="bisque")

boxplot(verbal, col="yellow2", horizontal=FALSE)

boxplot(verbal, col="yellow2")

boxplot(verbal, plot=F)

Média, Moda e Mediana e a Simetria dos dados

Figura 4: Função de distribuição de probabilidades

sobre o histograma.

O que podemos dizer acerca desta distribuição de

frequências em relação a sua simetria?

Quando uma distribuição de frequências é simétrica,

teremos que a Média, a Moda e a Mediana serão iguais, ou

seja:

x = Mo(x) = Md(x)

E quanto ao exemplo acima, como podemos classificá-

lo em função da sua falta de simetria?

Quando a distribuição não é simétrica, podemos

distinguir duas situações possíveis (Figura 5):

a) Quando a cauda superior da distribuição for mais

alongada, puxando a distribuição para a direita. Neste

caso, a média é maior do que a moda e a assimetria é

dita à direita ou positiva.

b) Quando a cauda inferior da distribuição for mais

alongada, puxando a distribuição para a esquerda.

Neste caso, a média é menor do que a moda e a

assimetria é dita à esquerda ou negativa.

Figura 5: Assimetrias à direita e à esquerda,

respectivamente.

Relação entre média, moda e mediana

i) A Média é sempre influenciada por valores extremos,

sendo puxada na direção da cauda mais alongada (ver

a seta na Figura 5);

ii) A Moda é o elemento de maior frequência, sendo o

ponto de máximo de f(x); iii) A Mediana está sempre no meio do conjunto,

dividindo-o em duas partes iguais, ficando entre as

duas medidas anteriores.

Assim, para cada situação, teremos:

a) Quando a simetria é perfeita as três medidas são iguais.

b) Na situação em que ocorre a assimetria à direita,

teremos a moda menor do que a mediana que é menor

do que a média.

c) E, para a assimetria à esquerda, devemos ter a

média menor do que a mediana que é menor do que a

moda.

Sumário dos exemplos:

I – Representação gráfica para Variáveis Quantitativas II – Histograma para variáveis contínuas no soft MINITAB III – Tabela de freqüências e histograma para v. contínuas, no Excel IV – Exemplo Estatísticas Descritivas de dados contínuos V – Estatísticas Descritivas no soft MINITAB

VI – Estatísticas Descritivas no EXCEL VII – Exemplos de Dados Agrupados VIII – Representação gráfica para Variáveis Qualitativas

IX – Histogramas pelo número de observações

Gráfico de pontos no MINITAB

3020100

horas

Gráfico de pontos para horas de TV

Estatísticas descritivas no MINITAB Descriptive Statistics: horasTV Variable N Mean Median TrMean StDev SE Mean

horasTV 50 10.780 10.000 10.273 6.891 0.974

Variable Minimum Maximum Q1 Q3

horasTV 0.000 30.000 5.000 14.000

II - Histograma para variáveis contínuas no MINITAB

0 6 12 18 24 30

0

10

20

horas

Fre

ên

cia

Histograma de horas de TV

Outros limites

0.0 5.5 11.0 16.5 22.0 27.5 33.0

0

5

10

15

horas

Fre

ên

cia

Histograma de horas de TV

III - Tabela de freqüências e histograma para v. contínuas, no Excel.

Bloco Freqüência

0 1 4.3 6 8.6 13

12.9 15 17.1 7 21.4 4 25.7 2 Mais 2

Histograma

0

4

8

12

16

0 4.3 8.6 12.9 17.1 21.4 25.7 Mais

Bloco

Fre

ên

cia

Freqüência

Dados do estudo sobre exposição à violência familiar de crianças

em idade escolar (2 grupos Expostos à violência e Não Expostos)

IV - Exemplo Estatísticas Descritivas de dados contínuos:

Variável: Renda PC por grupo (Exposto e Não Exposto)

Grupo

EXP 68 96 100 100 112 112 117 120 120 135

150 160 160 200 260

- Mediana: 120)( )8( xxMd reais

- 1o Quartil: Q1 = x(4) = 100 reais

- 3o Quartil: Q3 = x(12) = 160 reais

- Média: 13415

2010

n

xx reais

- Variância: 3009422x

14

269340300942

)115(

)134(15300942

)1(

2222

n

xnxs

286.225714

316022 s

- desvio-padrão: 51.47286.22572 ss reais

50 150 250

Box-plot renda per capita

Grupo Exposto

35 85 135 185 235 285

0

1

2

3

4

5

6

7

8

Grupo Exposto

Fre

ên

cia

Grupo

NEXP 36 50 70 84 108 109 120 120 150 150

180 220 250 260 300

- Mediana: 120)( )8( xxMd reais

- 1o Quartil: Q1 = x(4) = 184 reais

- 3o Quartil: Q3 = x(12) = 220 reais

- Média: 13.14715

2207

n

xx reais

- Variância: 4139972x

14

27.324723413997

)115(

)13.147(15413997

)1(

2222

n

xnxs

695.637614

73.892732 s

- desvio-padrão: 85.79695.63762 ss reais

0 100 200 300

Grupo Não Exposto

Box-plot renda per capita

0 66 132 198 264 330

0

1

2

3

4

5

6

Grupo não Exposto

Fre

ên

cia

ex <- c(68,96,100,100,112,112,117,120,120,135,150,160,

160,200,260)

nex <- c(36,50,70,84,108,109,120,120,150,150,180,220,

250,260,300)

renda <- c(ex,nex)

gr <- c(rep("ex",length(ex)),rep("nex",length(nex)))

boxplot(renda~gr, col=c("red3","green3"))

V - Estatísticas Descritivas no soft MINITAB

Variável: Renda PC por grupo (Exposto e Não Exposto)

Descriptive Statistics: EXP; NEXP Variable N Mean Median TrMean StDev SE_Mean EXP 15 134.0 120.0 129.4 47.5 12.3 NEXP 15 147.1 120.0 143.9 79.9 20.6 Variable Minimum Maximum Q1 Q3 EXP 68.0 260.0 100.0 160.0 NEXP 36.0 300.0 84.0 220.0

VI - Estatísticas Descritivas no EXCEL

Variável: Renda PC por grupo (Exposto e Não Exposto)

Exp Nexp Média 134 147.13

Erro padrão 12.3 20.6

Mediana 120 120

Modo 160 150

Desvio padrão 47.5 79.9

Variância da amostra 2257.286 6376.695

Curtose 2.62 -0.67

Assimetria 1.44 0.54

Intervalo 192 264

Mínimo 68 36

Máximo 260 300

Soma 2010 2207

Contagem 15 15

VII – Exemplos com Dados Agrupados

Exemplo 1: dados coletados em entrevistas com 500 pessoas (a) – variável número de divórcios por indivíduo (b) – variável tempo (em anos) até o primeiro divórcio

a) Variável discreta: tabela do número de divórcios por indivíduo.

Divórcios = xi ni fi xi fi Fac ni xi2

1 240 0,480 0,480 0,480 240

2 125 0,250 0,500 0,730 500

3 81 0,162 0,486 0,892 729

4 48 0,096 0,384 0,988 768

5 6 0,012 0,060 1,000 150

Total 500 1,000 1,910 - 2387

Média amostral: ii fxx = 1.91 divórcios

Variância amostral:

13.1499

95.562

)1500(

)910.1(5002387

)1(

2222

n

xnxs i

06,1s divórcios

Outra representação: Divórcios = xi ni fi xi fi Fac (xi – x ) ni (xi – x )

2

1 240 0,480 0,480 0,480 -0,910 198,744

2 125 0,250 0,500 0,730 0,090 1,013

3 81 0,162 0,486 0,892 1,090 96,236

4 48 0,096 0,384 0,988 2,090 209,669

5 6 0,012 0,060 1,000 3,090 57,2886

Total 500 1,000 1,910 – – 562,950

Média amostral: ii fxx = 1.91 divórcios

Variância amostral:

13.1499

95.562

)1(

22

n

xxs i

b) Variável contínua: tabela do tempo até o primeiro divórcio.

Anos

Casados

ponto médio

xi ni fi xi fi Fac ni xi

2

0 |----- 6 3 280 0,56 1,68 0,56 2520

6 |----- 12 9 140 0,28 2,52 0,84 11340

12 |----- 18 15 60 0,12 1,80 0,96 13500

18 |----- 24 21 15 0,03 0,63 0,99 6615

24 |----- 30 27 5 0,01 0,27 1,00 3645

Total

500 1,00 6,90 – 37620

Média amostral: ii fxx = 6.90 anos

Variância amostral:

685.27499

13815

)1500(

)90.6(50037620

)1(

2222

n

xnxs i

26.5s anos

Anos = xi ptos. médios

ni fi xi fi Fac (xi – x ) ni (xi – x )2

3 280 0,56 1,68 0,56 -3,9 4258,8 9 140 0,28 2,52 0,84 2,1 617,4

15 60 0,12 1,80 0,96 8,1 3936,6 21 15 0,03 0,63 0,99 14,1 2982,15 27 5 0,01 0,27 1,00 20,1 2020,05

Total 500 1,00 6,90 - - 13815

Média amostral: ii fxx = 6.90 anos

Variância amostral:

685.27499

13815

)1(

22

n

xxs i

Exemplo 2: Escores GMAT (Graduate Management Apititude Test) aplicado num processo seletivo para a escolha de alunos num programa de graduação.

Escores Pto. Médio

xi ni fi xi fi ni xi

2

300 |-- 350 325 3 0,035 11,5 316875

350 |-- 400 375 7 0,082 30,9 984375

400 |-- 450 425 18 0,212 90,0 3251250

450 |-- 500 475 24 0,282 134,1 5415000

500 |-- 550 525 15 0,176 92,6 4134375

550 |-- 600 575 10 0,118 67,6 3306250

600 |-- 650 625 4 0,047 29,4 1562500

650 |-- 700 675 4 0,047 31,8 1822500

Totais 85 1.000 488 20793125

Histograma:

Medidas de dispersão (variabilidade):

i) Variância amostral:

n

i

i

n

xxs

1

22

1

2

1

22

1

1xnx

ns

n

ii

ii) Quartis (quantis 25% e 75%):

medidas que dividem o conjunto de dados em quatro

partes iguais de 25% cada

25% 25% 25% 25%

------------|------------|------------|------------

Q1 Q2 Q3

Md(x)

Amplitude interquartil

Denotada por AQ, determina o tamanho da região em torno

da mediana que contém 50% das observações:

AQ = Q3 – Q1

iii) O gráfico box-plot

Representação gráfica da dispersão dos dados em torno

da mediana

Valores discrepantes Valores discrepantes

Q1 – 1.5AQ Q1 Md(x) Q3 Q3 + 1.5AQ

Procedimento para a construção do box-plot

i) Construir a “caixa” ou “box” com os valores dos

quartis Q1 e Q3;

ii) Com uma linha, demarcar a mediana na caixa,

dividindo-a em duas partes;

iii) Calcular os limites inferior (LI) e superior (Ls):

- LI = Q1 – 1.5AQ

- LS = Q3 + 1.5AQ

Obs: valores da amostra menores do que LI ou maiores

do que LS são identificados como “valores discrepantes”

e destacados no box-plot com pontos além desses limites.

iv) Para os “braços” do box-plot, traçar linhas a partir dos

centros das laterais inferior e superior da caixa,

obedecendo ao seguinte critério:

- se min(x) < LI, traçar uma linha da lateral inferior da

caixa até o limite LI e marcar os pontos discrepantes

com símbolos (asteriscos) segundo a escala;

- se min(x) LI, traçar uma linha da lateral inferior da

caixa até o limite o valor min(x);

- se max(x) > LS, traçar uma linha da lateral inferior da

caixa até o limite LS e marcar os pontos discrepantes

com símbolos (asteriscos) segundo a escala;

- se max(x) LS, traçar uma linha da lateral inferior da

caixa até o limite o valor max(x);

VIII - Representação gráfica para Variáveis Qualitativas:

Exemplo1: Pesquisa PNAD 2004 – Moradores por domicílio Brasil.

a) Tabela de uma entrada: número de domicílios por região

Região domicílios %

SE 23157114 44,8

NE 13090124 25,3

SE 8198266 15,8

CO 3745500 7,2

NE 3561524 6,9

51752528 100,0

b) Tabela de dupla entrada: moradores/dom. por região (dados brutos)

MOR. Brasil N NE SE S CO

1 5 411 443 292 910 1 190 705 2 612 431 890 834 424 563

2 10 062 238 506 597 2 141 312 4 816 793 1 857 904 739 632

3 12 118 894 747 866 2 793 052 5 630 782 2 103 424 843 770

4 12 098 742 791 985 2 936 946 5 532 907 1 888 026 948 878

5 6 449 038 532 447 1 858 876 2 682 387 917 583 457 745

6 2 906 091 308 311 991 114 1 094 518 322 794 189 354

7 1 311 592 161 696 532 787 410 151 131 936 75 022

8 OU + 1 394 490 219 712 645 332 377 145 85 765 66 536

Total 51 752 528 3 561 524 13 090 124 23 157 114 8 198 266 3 745 500

b) Tabela de dupla entrada: moradores/dom. por região (porcentagens)

MOR. Brasil N NE SE S CO

1 10,5 8,2 9,1 11,3 10,9 11,3

2 19,4 14,2 16,4 20,8 22,7 19,7

3 23,4 21,0 21,3 24,3 25,7 22,5

4 23,4 22,2 22,4 23,9 23,0 25,3

5 12,5 14,9 14,2 11,6 11,2 12,2

6 5,6 8,7 7,6 4,7 3,9 5,1

7 2,5 4,5 4,1 1,8 1,6 2,0

8 OU + 2,7 6,2 4,9 1,6 1,0 1,8

Total 100,0 100,0 100,0 100,0 100,0 100,0

Gráfico de setores (pizza): número de domicílios por região

Região Domic. (freq) proporção ângulo

SE 23157114 0,447 161

NE 13090124 0,253 91

SE 8198266 0,158 57

CO 3745500 0,072 26

NE 3561524 0,069 25

51752528 1 360

- Para achar o ângulo, deve-se usar a relação: 100% = 360o. - Portanto, se uma categoria tem proporção de 0,447, então, basta multiplicar 0,447 por 360o para encontrar o ângulo correspondente (regra de três).

Logo: 0,447 • 360o = 161o 0,072 • 360o = 26o 0,253 • 360o = 91o 0,069 • 360o = 25o 0,158 • 360o = 57o

Domicílios por região

45%

25%

16%

7%7%

SE

NE

S

CO

N

Domicílios por região

45%

25%16%

7%

7% SE

NE

S

CO

N

Gráfico de colunas:

0

5

10

15

20

25

1 2 3 4 5 6 7 8+

Moradores por domicílio - regiões SE e N

N

SE

Exemplo2: Notas de Português por grupo de estudantes expostos à

violência familiar (grupos Expostos e Não Expostos).

Nota Port.

Expostos Não Expostos

ni % ângulo ni % ângulo

I 5 33% 119o 3 20% 74o

S 8 54% 194o 6 40% 144o

PS 5 13% 47o 6 40% 144o

I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória

a) Gráfico de colunas:

0.0

0.2

0.3

0.5

0.6

Exposto Não Exposto

Notas de Português

I

S

PS

0.0

0.2

0.3

0.5

0.6

I S PS

Notas de Português

Exposto

Não Exposto

b) Gráfico de setores (pizza):

Notas de Português - Grupo Exposto

S

54%

I

33%

PS

13%

Notas de Português - Grupo Não Exposto

I

20%PS

40%

S

40%

Exemplos A) Dados DISCRETOS não agrupados:

X = variável representando o número de vezes que um sistema

travou, por período de execução, na sua carga máxima de

processamento.

4 4 1 6 3 2 3 3 4 3 4 2 4 5 2 5 1 2 5 4 6 3 1 2 3

Medidas de tendência central mais comuns, no Excel:

a) Média aritmérica ...... =MÉDIA(A1:A25)

b) Mediana ................... =MED(A1:A25)

c) Moda ........................ =MODO(A1:A25)

d) Média geométrica .... = MÉDIA.GEOMÉTRICA(A1:A25)

e) Média harmônica ..... = MÉDIA.HARMÔNICA(A1:A25)

Para construir Tabelas de Frequências no Excel i) marcar os dados;

ii) selecionar “> Inserir > Tabela Dinâmica”;

iii) arrastar X para a margem esquerda e centro da tabela;

iv) clicar com o botão direito sobre a coluna “Total”, selecionar “>

Resumir Dados por” e marcar a opção “Contagem”;

v) inserir as colunas e concluir a tabela, atentando para que os

cálculos sejam feitos corretamente.

Tabela de Frequências:

X ni fi Fac

1 3 0,12 0,12

2 5 0,20 0,32

3 6 0,24 0,56

4 6 0,24 0,80

5 3 0,12 0,92

6 2 0,08 1,00

Total 25 1,00

Para construir Gráfico de Frequência (Histograma) no Excel i) marcar os dados;

ii) selecionar “> Inserir > Gráficos > Colunas”;

iii) acertar as configurações para melhor visualização do gráfico:

- título (tipo de fonte e tamanho);

- eixos (fontes e espaçamentos);

- linhas de grade;

- espaçamento (clicar numa das colunas do gráfico e selecionar

“> Formatar > Séria de Dados” e definir

“Largura do Espaçamento” no máximo “Intervalo Grande”.

Para construir Gráfico de Frequência Acumulada: - digitar a tabela de forma a construir um gráfico XY.

B) Dados DISCRETOS agrupados:

X = variável representando o número de dias em manutenção

de equipamentos de uma empresa.

15 13 21 9 5 5 10 6 2 2 9 10 3

4 2 13 12 16 7 6 4 11 8 6 6 10

17 13 9 5 2 5 9 14 15 3 6 18 3

4 5 7 8 3 10 5 5 4 5 2

X ni X (dias) ni fi Fac

2 5 01 a 03 9 0,18 0,18

3 4 04 a 06 17 0,34 0,52

4 4 07 a 09 8 0,16 0,68

5 8 10 a 12 6 0,12 0,80

6 5 13 a 15 6 0,12 0,92

7 2 16 a 18 3 0,06 0,98

8 2 19 a 21 1 0,02 1,00

9 4 Total 05 1,00

10 4

11 1

12 1

13 3

14 1

15 2

16 1

17 1

18 1

21 1 Total 50

Construindo a Tabela de Frequência e o Histograma no Excel i) “> Dados > Análise de Dados > Histograma > OK”;

ii) Marcar as opções:

- “Intervalo de entrada” => conjunto de dados para a tabela;

- “Intervalo do bloco” => coluna com os limites das classes da

tabela;

- “Intervalo de saída” => local onde a tabela será colocada;

- marcar “Porcentagem cumulativa” para obter a freqüência

acumulada Fac;

- marcar “Resultado do gráfico” para obter o Histograma;

(Ver resultado na planilha)

** Ver a saída da opção “Estatística Descritiva” e comparar com o

“MINITAB”.

C) Dados CONTÍNUOS:

Exemplo: Em 1798 o cientista Henry Cavendish mediu a densidade

do glogo terrestre em 29 ensaios. Os dados foram obtidos do

Annals os Statistics, 1977.

X = densidade do globo terrestre (g/cm3).

5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65 5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39 5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85

Dados ordenados

4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85

99,157x

09,8622x