estatística básica (parte iii - graficos e medidas resumo)

37
24 PARTE III : Análise de dados: Métodos Gráficos Métodos numéricos: medidas de posição e dispersão

Upload: ricardo-alex

Post on 14-Jun-2015

7.214 views

Category:

Documents


1 download

DESCRIPTION

Análise de dados: Métodos GráficosMétodos numéricos: medidas de posição e dispersão

TRANSCRIPT

Page 1: Estatística básica  (Parte III - Graficos e Medidas Resumo)

24

PARTE III:

Análise de dados: Métodos Gráficos

Métodos numéricos: medidas de posição e dispersão

Page 2: Estatística básica  (Parte III - Graficos e Medidas Resumo)

25

4. ESTATÍSTICA DESCRITIVA:

APRESENTAÇÃO DE DADOS – MÉTODOS GRÁFICOS

Como já dissemos as ferramentas usuais da estatística descritiva para apresentação dos

dados são:

Tabelas e distribuições de freqüências;

Gráficos ou diagramas: histogramas, gráficos de barras, gráficos de pizzas, gráfico de

linhas, ramos e folhas, entre outros.

4.1 Métodos Gráficos para apresentação dos dados

Objetivo: Facilitar a compreensão do fenômeno estatístico por meio do efeito visual imediato.

Tipos de gráficos: Existem vários tipos de gráficos, os mais usados são:

Para dados temporais (ou seja, no tempo), temos:

- Gráficos de linha;

- Gráfico de barras.

Para dados qualitativos:

- Gráficos de coluna;

- Gráficos de barras;

- Gráficos de setores (ou gráfico de Pizza).

Representação gráfica mais usada para dados contínuos:

- Polígono de freqüências;

- Histograma e

- Ogiva.

Figura 8: Resumo da aplicação de tabelas e gráficos de acordo com o tipo de variável

Page 3: Estatística básica  (Parte III - Graficos e Medidas Resumo)

26

Gráficos de linha: Sempre que as categorias utilizadas representarem um intervalo de tempo, assim

como sucede com os dados do exemplo 1 (Figura 2), os dados podem ser descritos também através

de um gráfico de linha. Um gráfico de linha retrata as mudanças nas quantidades com respeito ao

tempo através de uma série de segmentos de reta

Gráfico de barras (ou colunas): O gráfico ou diagrama de barras representa por meio de uma série

de barras, quantidades ou freqüências para diferentes categorias de dados. (Ver Exemplo 1 – Figura

3) A diferença entre um diagrama de barras e um histograma é que o histograma refere-se sempre

aos dados quantitativos contínuos, enquanto o diagrama de barras ilustra quantidades para qualquer

tipo de variáveis qualitativas. O gráfico de barras, quando as barras estão dispostas no sentido

vertical, também é chamado de gráfico de colunas.

Gráfico de setores: O gráfico ou diagrama de setores, também conhecido como gráfico de Pizza, é

uma gráfico particularmente apropriado para representar as divisões de um montante total. (Ver

Exemplo 2 – Figura 4).

Histograma: Um Histograma é um gráfico de barras de uma distribuição de freqüência com uma

diferença: não há espaços entre as barras. Os intervalos de classe são colocados no eixo horizontal

enquanto as freqüências são colocadas no eixo vertical. Já representações gráficas comuns para

variáveis quantitativas contínuas (Ver Exemplo 3 – Figura 5).

Polígonos de Freqüência: O polígono de freqüência é um gráfico de linha de uma distribuição de

freqüência. Os eixos de um Polígono de freqüência são similares ao do Histograma, exceto que no

eixo horizontal são colocados os pontos médios de cada intervalo de classe do histograma. (Figura 6)

Ogiva: Uma Ogiva é um gráfico de uma distribuição de freqüência acumulada. (Ver Figura 7)

Exemplo 1: De acordo com os dados dos censos demográficos do IBGE, temos os seguintes dados,

em termos percentuais, sobre o analfabetismo no Brasil:

ANO 1872 1890 1920 1940 1950 1960 1970 1980 1990

% 82,3 82,6 71,2 61,1 57,1 46,7 38,7 31,9 26,5

Construa:

a) Um gráfico de linha;

Figura 9: Gráfico de linha do % de analfabetismo por ano.

Page 4: Estatística básica  (Parte III - Graficos e Medidas Resumo)

27

b) Um gráfico de barras (ou colunas);

Figura 10: Gráfico de barras para o % de analfabetismo do Brasil

Exemplo 2: De 75.200 mortes por acidentes nos EUA, em um ano, 43.500 foram causadas por veículos

motorizados, 12.200 por quedas, 6.400 envenenamento, 4.600 afogamento, 4.200 incêndios, 2.900

ingestão de alimentos ou de um objeto, e 1.400 por armas de fogo (com base em dados do Conselho

de Segurança Nacional). Descrever estes dados através de um gráfico de setores.

GRÁFICO DE SETORES

Veiculo Mot orizado;

43500; 57%

Armas de f ogo; 1400;

2%

Ingest çao de

aliment os ou objet o;

2900; 4%

Incêndio; 4200; 6%

Af ogament o; 4600; 6%

Envenenament o;

6400; 9%

Quedas; 12200; 16%

Figura 11: Gráfico de Pizza ou setores para a variável qualitativa “tipo de mortes por acidentes”.

Exemplo 3: A tabela abaixo representa o salário de famílias de uma pequena comunidade.

Salário (em reais) Freq. Absoluta (fa) Freq. % (fp) Freq. Acumulada (fa ac)

8000,00 |- 9000,00 18 25,7% 25,7%

9000,00 |- 10000,00 31 44,3% 70,0%

10000,00 |- 11000,00 15 21,4% 91,4%

11000,00 |- 12000,00 3 4,3% 95,7%

12000,00 |- 13000,00 1 1,4% 97,1%

13000,00 |- 14000,00 1 1,4% 98,6%

14000,00 |- 15000,00 1 1,4% 100,0%

Total 70 100%

Page 5: Estatística básica  (Parte III - Graficos e Medidas Resumo)

28

Construa com estes dados:

a) Um Histograma;

HISTOGRAMA

26%

44%

21%

4%

1% 1% 1%

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais

Fre

qu

en

cia

pe

rce

ntu

al

Figura 12: Histograma do salário das famílias da comunidade

b) Um polígono de freqüências

POLIGONO DE FREQUENCIA

26%

44%

21%

4%

1% 1% 1%0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais

Fre

qu

en

cia

pe

rce

ntu

al

Figura 13: Polígono de freqüência do salário das famílias da comunidade

Page 6: Estatística básica  (Parte III - Graficos e Medidas Resumo)

29

c) Uma Ogiva

OGIVA

26%

70%

100%

99%97%

91%96%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

8000 |- 9000 9000 |- 10000 10000 |- 11000 11000 |- 12000 12000 |- 13000 13000 |- 14000 14000 |- 15000

Salarios em reais

Fre

qu

en

cia

pe

rce

ntu

al

ac

Figura 14: Ogiva do salário das famílias da comunidade

Exemplo 4: Os histogramas abaixo mostram como as populações de dois países distintos se distribuem

por faixa etária. O país “A” tem 50 milhões de habitantes e o país “B” tem 20 milhões.

Figura 15: Histograma para dados agrupados com freqüências absolutas

Segundo os histogramas (que consideram as freqüências absolutas), o país A tem mais velhos que o

país B: 5 milhões acima dos 80 anos para o país A contra 2 milhões acima dos 80 anos para o país B.

Será que podemos concluir que o país A é um país com população relativamente mais velha que a

do país B?

Para melhor comparar as distribuições populacionais dos dois países, vamos analisar os histogramas

para as freqüências relativas percentuais:

Page 7: Estatística básica  (Parte III - Graficos e Medidas Resumo)

30

Figura 16: Histograma para dados agrupados com freqüências relativas

A porcentagem de pessoas acima de 80 anos no país A é exatamente igual à do país B.

De fato, constata-se que as distribuições populacionais dos dois países por faixa etária são

idênticas!

Isto não é evidente a partir da comparação dos histogramas para as freqüências absolutas, o

que indica que só se podemos comparar duas distribuições quando usamos histogramas para dados

relativos.

Note que a comparação entre os histogramas também só é possível porque os intervalos

escolhidos para as duas amostras são iguais.

Page 8: Estatística básica  (Parte III - Graficos e Medidas Resumo)

31

Exemplo 5: Considere o conjunto de dados abaixo.

Faça um resumo através dos gráficos apropriados.

Page 9: Estatística básica  (Parte III - Graficos e Medidas Resumo)

32

Disciplina: EstatísticaProf. Sergio A. Rodrigues

5

Outros;

36%

Capital;

31% Interior;

33%

33%

50%

17%

0%

10%

20%

30%

40%

50%

60%

Ensino

Fundamental

Ensino Médio Superior

Exemplo5: Tabela 2.1 - Funcionários

Variável Ql. Nominal: Região de procedência

Variável Ql Ordinal: Grau de Instrução

A ordem é

importante

Variável Qt. Discreta: Número de Filhos

3%

8%

0%

19%14%

56%

0%

10%

20%

30%

40%

50%

60%

70%

0 1 2 3 4 5

Nº de Filhos

Fre

qu

enci

a %

Gráfico

Pizza

Gráfico

de Barras

Gráfico

de linhas

Variável Qt. Discreta: Número de Filhos

Gráfico

de Barras

3%

8%

0%

19%

14%

56%

0% 10% 20% 30% 40% 50% 60% 70%

0

1

2

3

4

5

filh

os

Frequencia %

Page 10: Estatística básica  (Parte III - Graficos e Medidas Resumo)

33

Disciplina: EstatísticaProf. Sergio A. Rodrigues

6

28%

33%

22%

0,14

0,03

0%

10%

20%

30%

40%

4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24

Classe de salários

Fre

qu

en

cia

%

100%

61%

83%

0,97

28%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24

Classe de salários

Fre

qu

en

cia

% a

c.

'

33%

22%

0,14

0,03

28%

0%

10%

20%

30%

40%

4 a 7,99 8 a 11,99 12 a 15,99 16 a 19,99 20 a 24

Classe de salários

Fre

qu

en

cia

%

Exemplo5: Tabela 2.1 - Funcionários

Variável Qt. Contínua: Salário mínimo

Variável Nº de filhos versus Salários Mínimos

Histograma

Polígono

Freqüência

Gráfico de

Dispersão

Ogiva

Variável Qt. Contínua: Salário mínimo

Variável Qt. Contínua: Salário mínimo

15

20

25

30

35

40

45

50

0,00 2,50 5,00 7,50 10,00 12,50 15,00 17,50 20,00 22,50 25,00

Salários

me

ro d

e filh

os

'

Page 11: Estatística básica  (Parte III - Graficos e Medidas Resumo)

34

Disciplina: EstatísticaProf. Sergio A. Rodrigues

8

Exemplo6: gráfico para tabelas cruzadasVariável sexo versus candidato que votaria na eleição

41

28

14

6

15 5

35

27

18

41

5

10

0

5

10

15

20

25

30

35

40

45

Masculino Feminino

Intenção de voto entre os homens e mulheresEm frequência %

Cand. NL

Cand. DM

Cand. PA

Cand B

Cand. E

Branco / Nulo

Indeciso

Intenção de voto entre os homens e mulheres

Em frequência %

41

35

28

27

14

18

6

4

1

1

5

5

5

10

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Masculino

Feminino

Cand. NL Cand. DM Cand. PA Cand. B Cand. E Branco / Nulo Indeciso

ou

Page 12: Estatística básica  (Parte III - Graficos e Medidas Resumo)

35

Exemplo 5: O Gráfico de Pareto é usado para mostrar por ordem de importância, a contribuição de cada item

para o efeito total. Para classificar oportunidades para a melhoria. É uma técnica gráfica simples para a

classificação de itens desde os mais até os menos freqüentes. Ele é baseado no Princípio de Pareto, que declara que muitas vezes apenas alguns itens são responsáveis pela maior parte do efeito. É um gráfico de barras verticais permitindo determinar quais problemas ou assuntos resolver e qual a sua ordem de prioridade. Os dados utilizados foram reportados numa Lista de Verificação ou em uma outra fonte de coleta de dados, concentra a nossa atenção e esforços para problemas ou assuntos verdadeiramente importantes

(separa o importante do trivial). Na maioria das vezes, teremos melhores resultados se atuarmos nos dados da barra mais alta do gráfico do que nos embaraçarmos nas barras menores.

Vamos considerar que em uma central telefônica de uma grande empresa, havia a sensação de saturação do sistema utilizado. Para melhor representar o que ocorria foi realizado um acompanhamento com as telefonistas que teriam que observar os problemas, anotando em que números ocorriam e lançá-los na Lista de Verificação.

Lista de Verificação.

X= Tipo de Defeito fi= Nº de Ocorrências fp Fp

Linha ruidosa 250 49 49

Linha aberta 110 21 70

Alarme 85 17 86

Não responde 45 9 95

Não toca 25 5 100

Total Geral 515 100

Figura 17: Histograma para dados agrupados com freqüências relativas

Como é possível notar pelo gráfico o defeito "Linha ruidosa" (defeito nas uniões dos fios telefônicos ou

emendas mal feitas) representa 49% de todos os defeitos ocorridos no período e que os dois maiores defeitos "Linha ruidosa" e "Linha Aberta" (deixar o telefone fora do gancho) representam juntos 70% de todos os defeitos. Corrigindo estes dois defeitos teremos uma melhoria de 70% no sistema.

Gráfico de Pareto

49

2117

95

10095

86

70

0

20

40

60

80

100

120

Linha Ruidosa Linha Aberta Alarme Não Responde Não Toca

tipo de defeito

fp fp

fp ac

Page 13: Estatística básica  (Parte III - Graficos e Medidas Resumo)

36

Exercício prático:

A próxima tabela nos dá a média das temperaturas máximas mensais na estação Santa Cruz no

período entre Janeiro de 1982 e Dezembro de 1991. O que fazer com todos estes 120 números?

A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este

gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno! Além

disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de

cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico

também nos possibilita verificar que a temperatura máxima nestes 10 anos está sempre acima de 22º.

Tabela 2- Temperatura máxima (média das máximas) na estação de Santa Cruz (RJ) .

Mês Ano Mês Ano Mês Ano Mês Ano Mês Ano

jan­82 33.55 jan­83 33.51 jan­84 36.50 jan­88 35.30 jan­90 35.20

fev­82 34.80 fev­83 33.69 fev­84 36.60 fev­88 31.60 fev­90 34.00

mar­82 29.80 mar­83 32.42 mar­84 32.40 mar­88 32.70 mar­90 33.80

abr­82 27.60 abr­83 31.00 abr­84 29.70 abr­88 30.40 abr­90 33.00

mai­82 27.40 mai­83 25.81 mai­84 30.50 mai­88 27.80 mai­90 28.40

jun­82 28.50 jun­83 24.98 jun­84 30.00 jun­88 25.80 jun­90 28.00

jul­82 28.20 jul­83 26.30 jul­84 27.80 jul­88 24.80 jul­90 26.00

ago­82 28.70 ago­83 27.20 ago­84 26.40 ago­88 29.00 ago­90 26.20

set­82 28.10 set­83 24.20 set­84 27.00 set­88 28.90 set­90 27.40

out­82 29.20 out­83 27.40 out­84 30.30 out­88 28.40 out­90 30.90

nov­82 30.53 nov­83 31.60 nov­84 30.20 nov­88 29.40 nov­90 33.10

dez­82 31.67 dez­83 31.90 dez­84 30.00 dez­88 31.20 dez­90 33.70

jan­85 30.00 jan­86 33.60 jan­87 33.80 jan­89 32.60 jan­91 31.20

fev­85 33.50 fev­86 33.60 fev­87 33.90 fev­89 33.20 fev­91 33.40

mar­85 32.40 mar­86 32.80 mar­87 31.10 mar­89 32.00 mar­91 31.80

abr­85 32.10 abr­86 31.70 abr­87 31.10 abr­89 31.60 abr­91 31.00

mai­85 28.00 mai­86 30.00 mai­87 27.30 mai­89 27.70 mai­91 28.60

jun­85 27.30 jun­86 28.20 jun­87 26.70 jun­89 26.70 jun­91 29.40

jul­85 27.30 jul­86 26.30 jul­87 29.90 jul­89 25.70 jul­91 26.90

ago­85 30.70 ago­86 28.00 ago­87 27.70 ago­89 27.20 ago­91 27.90

set­85 26.30 set­86 28.10 set­87 27.85 set­89 26.90 set­91 27.50

out­85 28.30 out­86 29.20 out­87 28.00 out­89 27.80 out­91 30.10

nov­85 29.90 nov­86 33.10 nov­87 30.40 nov­89 30.50 nov­91 29.80

dez­85 29.90 dez­86 31.40 dez­87 32.10 dez­89 31.50 dez­91 33.30

O gráfico apresentado na Figura 11 é muito útil, mas certamente ele não conta à estória toda.

Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a

temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25

graus? Tomando­se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm

temperaturas entre estes dois valores? Podemos pensar nestas, e numa infinidade de outras questões.

O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas.

Figura 18: Temperaturas máximas (1982 a 1991)

Page 14: Estatística básica  (Parte III - Graficos e Medidas Resumo)

37

O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma

medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos

(chamados intervalos de classe) e conta quantas observações caem em cada intervalo.

A escolha do número de intervalos é meio arbitrária. O importante é garantir que o número de

classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno,

fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito

grande, existirão muito poucas observações em cada classe.

O primeiro passo é ordenar os dados (se for possível fazê­lo automaticamente, senão, não

vale a pena). Isto torna um pouco mais fácil a colocação dos dados em cada classe.

Considerando 7 classes para as temperaturas, a primeira vai de 24 a 26 graus, a segunda vai

de 26.1 a 28 graus e assim sucessivamente. A Tabela de freqüências dos dados da temperatura será

dada por:

Classe Freqüência Freqüência Relativa Freq. Relativa Acumulada

24­26 graus 7 7/120 = 5,83 % 5,83 %

26,1­28 graus 31 31/120 = 25,83 % 31,66 %

28,1­30 graus 26 26/120 = 21,67 % 53,33 %

30,1­32 graus 26 26/120 = 21,67 % 75,00 %

32,1­34 graus 25 25/120 = 20,83 % 95,83 %

34,.1­36 graus 3 3/120 = 2,50 % 98,33 %

36,1­38 graus 2 2/120 = 1,67 % 100 %

Total 120 100%

Observação: Escolha do número de classes numa tabela de freqüência: Seja n o número de intervalos numa

tabela de freqüência. Recomenda­se escolher n entre 5 e 20. Quanto maior o número de

observações, maior o número de intervalos. Geralmente usa­se n igual à raiz quadrada do

número total de observações, o que neste caso daria 11120 . Para facilitar a visualização

normalmente usamos intervalos com o mesmo comprimento (ou quase). Também muitas vezes o

primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um

certo valor". Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número

nos permitiu encontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a

primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par.

Pura conveniência!

A Tabela de freqüências já nos permite responder a diversas outras questões. Por exemplo, a

grande maioria (69,17 %) das temperaturas máximas está entre 26,1 e 32 graus. Também percebemos

que temperaturas máximas acima de 34,1 graus são incomuns (apenas 5 dentre as 120).

A partir de uma Tabela de freqüências podemos facilmente construir um histograma.

Como já foi visto, o Histograma é um gráfico de barras, onde o eixo vertical contém as

freqüências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes

faz­se a área de cada barra igual à freqüência relativa de cada classe, de tal forma que a área total

sob o histograma é 1 (100%). O histograma a seguir foi produzido automaticamente pelo Excel. Você

pode verificar que os pontos médios dos intervalos são diferentes dos que especificamos no

diagrama de freqüência.

Page 15: Estatística básica  (Parte III - Graficos e Medidas Resumo)

38

Histograma da distribuição de frequência de temperaturas

5,83

25,83

21,67 21,6720,83

2,51,67

0

5

10

15

20

25

30

24­26

graus

26,1­28

graus

28,1­30

graus

30,1­32

graus

32,1­34

graus

34,.1­36

graus

36,1­38

graus

Figura 19: Histograma da distribuição de temperatura

O histograma pode ser construído a partir de tabelas de freqüências com um número maior de

classes. Por exemplo, ao construir uma tabela com 11 classes, o histograma seria:

Figura 20: Histograma da distribuição de temperaturas (os valores do eixo x são os pontos médios das classes

Page 16: Estatística básica  (Parte III - Graficos e Medidas Resumo)

39

5. ESTATÍSTICA DESCRITIVA:

MÉTODOS NUMÉRICOS:

medidas de posição e dispersão

5.1. Resumo dos dados

A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn. Note que n é

o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da

amostra. Vamos estar interessados em 2 tipos principais de medidas numéricas: as que caracterizam

a localização do centro da amostra e as que caracterizam a dispersão dos dados.

Noção de Somatório

Um dos símbolos mais usados em estatística é a letra grega (lê-se sigma maiúsculo), usada

para designar a soma de vários termos, chamada de somatória. Em geral, a operação de somatória

é expressa da seguinte maneira:

N

1i

N1Ni321i xx ... x ... xxxx ,

onde implica somatória, xi é a variável a ser somada, i é o índice da somatória e 1 e N designam a

abrangência da soma.

Exemplos: Sejam x1 = 1, x2 = 3, x3 = 2, x4 = 4 e x5 = 5.

a)

1554231xxxxxx 5

5

1i

4321i

b)

4

2i

432i 9423xxxx

c)

5

1i

222222

5

2

4

2

3

2

2

2

1

2

i 5554231xxxxxx

Page 17: Estatística básica  (Parte III - Graficos e Medidas Resumo)

40

d)

2251554231xxxxxx222

54321

25

1i

i

5.2. Medidas de posição /Medidas de tendência central

a) Média Aritmética

A média aritmética, ou simplesmente média, de uma amostra de n elementos é definida por:

n

x

x

n

i

i 1

Quando calculamos a média aritmética com base em observações de uma amostra, essa

medida é chamada de média amostral e freqüentemente é denotada por x . Já quando

calculamos a média aritmética com base em observações da população, chamamos de média da

população, sendo denotada por µ. Normalmente, a média amostral, x , é utilizada para estimar

("chutar") a média da população (µ).

A média aritmética é uma medida que indica onde está o "centro" de seu conjunto de dados,

ou seja, os valores de seu conjunto de dados estarão espalhados tendo a média como um

representante do ponto central em torno do qual eles tendem a se espalhar.

Por exemplo, se 10 pessoas levarem em seus bolsos, num dado instante, as seguintes quantias

em dinheiro: R$5,00; R$7,00; R$7,00; R$10,00; R$12,00; R$15,00; R$19,00; R$22,00; R$26,00 e R$35,00, elas

levam, em média, R$15,80.

Note que nenhuma delas leva, de fato, R$15,80 no bolso, mas este valor representa um ponto

em torno do qual os diferentes valores estão distribuídos.

Quando o número de elementos na amostra é pequeno, a média torna-se muito sensível a

grandes valores dos elementos.

Por exemplo, se a décima pessoa do exemplo acima levasse R$200,00 no bolso ao invés de

R$35,00, a média do dinheiro das pessoas passaria a ser de R$32,30. Se ela levasse R$1.000,00 a média

pularia para R$110,70.

Page 18: Estatística básica  (Parte III - Graficos e Medidas Resumo)

41

Uma outra maneira de se expressar à média de uma coleção de números é através das

freqüências de ocorrência desses números. Se os números x1, x2, x3,...,xn ocorrerem f1, f2, f3,...,fn vezes,

respectivamente, a média dos números pode ser escrita como:

n

fx

x

n

i

ai 1

.

Exemplo: Uma pesquisa sobre o número de filhos por família tendo por base uma amostra de 47

famílias resultou na tabela de freqüências abaixo.

Número de Filhos (xi) Freqüência

(fa)

X . fa

0 1 0 * 1 = 0

1 8 1 * 8 = 8

2 18 2 * 18 = 36

3 14 3 * 14 = 42

4 4 4 * 4 = 16

5 2 5 * 2 = 10

total 47 112

O número médio de filhos por família é dado por:

filhosn

fx

x

n

i

ai

38,247

112.

1

b) Mediana

A mediana divide um conjunto de dados em duas partes iguais, de maneira que 50% dos

dados fiquem acima dela e 50% fiquem abaixo.

Para encontrar a mediana é necessário que os dados (xi) estejam ordenados (x1, x2, ...,xn), de

tal forma que x1 é o menor elemento do conjunto de dados, x2 é o segundo menor elemento, ...., e xn

é o maior elemento. A partir disso, basta encontrar a mediana, dado por:

5,0

2

nXMd

Dados ordenados

Mediana 50% dos

dados 50% dos

dados

Page 19: Estatística básica  (Parte III - Graficos e Medidas Resumo)

42

Se o valor de X for um número inteiro, a mediana será o valor do conjunto de dados que está

na posição encontrada na fórmula acima.

Se o valor de X não for um número inteiro, a mediana será dada pela média dos elementos do

conjunto de dados que se encontram nas posições dadas pelo numero inteiro anterior e superior ao

numero de X encontrado na formula anterior, ou seja, se 2

98

5,8

XXXMd

.

Exemplo1: Sejam os dados de idade de um grupo de alunos: 23, 4, 6, 12, 4, 4, 7, 19, 15.

Para se obter a mediana, primeiramente devem-se organizar os dados em ordem crescente:

4, 4, 4, 6, 7, 12, 15, 19, 23.

Como o número de dados é ímpar (9), a mediana será simplesmente o elemento do meio do

conjunto de dados, ou seja, o número 7. Abaixo do 7 existem quatro números e acima dele também,

23 19, 15, 12, 7, 6, 4, 4, 1, ,

Usando a fórmula, poderíamos encontrar a mediana por:

55,0

2

9 XXMd

O numero do conjunto de dados que está na posição 5 é o numero 7, ou seja, 7Md

INTERPRETAÇÃO: metade dos alunos (50%) tem menos que 7 anos de idade. Consequentemente, a

outra metade tem mais que 7 anos de idade.

Se o dado 23 fosse substituído por 230, ou mesmo 230.000.000, a mediana não mudaria,

continuando a ser 7.

Como a mediana só depende do número de elementos em uma amostra e não dos seus

valores individuais, ela é insensível a altos valores dos dados.

Exemplo2: Sejam os seguintes dados de idade de um conjunto de alunos: 13, 6, 17, 5, 10, 5.

Arranjando em ordem crescente: 5, 5, 6, 10, 13, 17.

Page 20: Estatística básica  (Parte III - Graficos e Medidas Resumo)

43

O número de dados é par (6), portanto não há um dado central que divida a amostra em duas

partes iguais. Neste caso, tomam-se os dois valores centrais e calcula-se a sua média, que será a

mediana.

Usando a fórmula, a mediana é dada por:

2

435,35,0

2

6

XXXXMd

Os números do conjunto de dados que estão nas posições X3 e X4, são respectivamente os números

6 e 10.

Desta forma a 82

106

2

43

XX

Md .

INTERPRETAÇÃO: Metade dos alunos analisados (50%) tem menos do que 8 anos de idade.

Note que o número 8 não faz parte do conjunto dos dados, mas mesmo assim é a sua

mediana.

A mediana é outra medida de tendência central, dando um valor em torno do qual os

diferentes dados estão distribuídos. Ela caracteriza o centro da distribuição: metade dos dados está

acima dela e metade abaixo.

Analogamente ao caso da média, também podemos definir uma mediana para a

população.

A mediana amostral tem uma vantagem sobre a média amostral: ela é menos influenciada

por observações extremas do que a média amostral.

c) Moda

A moda de um conjunto de elementos é o elemento que ocorre o maior número de vezes, ou

seja, o mais freqüente.

No caso em que mais de um valor da amostra ocorre com a freqüência máxima, a

distribuição é chamada de multimodal.

Por exemplo, para os dados: 1, 5, 3, 1, 2, 1, 5, a moda é o número 1.

Já para os dados: 7, 12, 5, 12, 5, 8, 9, 5, 6, 12, há duas modas, os números 5 e 12. Neste último

caso a distribuição é dita bimodal.

Page 21: Estatística básica  (Parte III - Graficos e Medidas Resumo)

44

Unimodais Multimodais (bimodais)

Figura 21: Ilustração de distribuições unimodais e multimodais

Quando uma distribuição de dados é unimodal, isto é tem um único valor mais freqüente, a

moda também é usada como medida de tendência central para o conjunto de valores. Os valores

estão distribuídos em torno do pico da distribuição de freqüências.

A decisão sobre o uso da média, da mediana ou da moda para descrever a tendência

central de uma amostra depende da forma da distribuição de freqüências e do uso que se fará dela.

Para a descrição de distribuições assimétricas a mediana é bastante útil, já que não “sente” o

peso dos grandes valores dos dados. A média, neste caso, sofre esta influência e acaba fornecendo

uma descrição errônea dos dados.

Para distribuições simétricas não há grandes diferenças entre o uso da média, da mediana, ou

da moda. Se uma distribuição for unimodal e perfeitamente simétrica a sua média, a sua mediana e

a sua moda serão iguais.

Page 22: Estatística básica  (Parte III - Graficos e Medidas Resumo)

45

Para uma distribuição multimodal, os valores das várias modas fornecem uma melhor

descrição da distribuição do que a sua média ou mediana.

d) Quartis, Decis e Percentis

A mediana é o valor que separa o conjunto de dados em duas partes iguais: 50% dos dados

abaixo dela e 50% acima. Existem, assim como a mediana, outros valores que separam os dados em

partes iguais. Os mais importantes e usados são:

Quartis: dividem os dados em quatro partes iguais (cada parte com 25% dos dados). Os quartis

são indicados por Q1 (primeiro quartil), Q2 = Md (segundo quartil) e Q3 (terceirto quartil).

Decis: dividem os dados em dez partes iguais (cada parte com 10% dos dados). Os decis são

indicados por D1 (primeiro decil), D2 (segundo decil), ..., D9 (nono decil).

Percentis: dividem os dados em cem partes iguais (cada parte com 1% dos dados). Os percentis

são indicados por P1 (primeiro percentil), P2 (segundo percentil), ..., P99 (nonagésimo nono

percentil).

Um conjunto de dados pode ser dividido em 3 quartis, 9 decis e 99 percentis. Veja o exemplo a

seguir para os quartis.

Para uma coleção de n dados discretos, as posições (ou postos) dos quartis, decis e percentis

são calculadas por:

Quartis:

1o quartil : 4

)1n(posição

e portanto

4

)1n(1 xQ ;

2o quartil ou mediana: 2

)1n(

4

)1n(*2posição

e portanto

2

)1n(

4

)1n(*22 xxQ ;

3o quartil: 4

)1n(*3posição

e portanto

4

)1n(*33 xQ .

Decis:

1o decil: 10

nposição e portanto

10

n1 xD ;

2o decil: 10

n*2posição e portanto

10

n*22 xD ;

i-ésimo decil: 10

n*iposição e portanto

10

n*ii xD ;

Page 23: Estatística básica  (Parte III - Graficos e Medidas Resumo)

46

9o decil: 10

n*9posição e portanto

10

n*99 xD .

Percentis:

1o percentil: 100

nposição e portanto

100

n1 xP ;

2o percentil: 100

n*2posição e portanto

100

n*22 xP ;

i-ésimo percentil: 100

n*iposição e portanto

100

n*ii xP ;

99o percentil: 100

n*99posição e portanto

100

n*9999 xP .

A partir das posições, pode-se calcular o valor do quartil, do decil ou do percentil desejado.

Como regra geral, se a posição calculada coincide com um número inteiro o valor numérico

que ocupa essa posição é tomado; se a posição for um número exatamente entre dois números

inteiros, toma-se a média entre os valores que ocupam as posições desses números inteiros; e se a

posição for um número não inteiro e diferente do valor central entre dois números inteiros, a

convenção que será adotada aqui é arredondar para a posição do número inteiro mais próximo e

tomar o valor correspondente.

Por exemplo, para os 16 números ordenados:

0,5; 0,7; 0,7; 0,9; 1,0; 1,1; 1,1; 1,2; 1,3; 1,3; 1,5; 1,8; 2,1; 2,2; 2,5; 2,5.

Posição de Q1=

4

)1n( =(16+1)/4=4,25. Arredondando para 4 Q1 = 0,9.

Posição de Q2=2

)1n( =(16+1)/2=8,5 Q2 = Md = (1,2 + 1,3)/2 = 1,25.

Posição de Q3=4

)1n(*3 =3*4,25=12,75. Arredondando para 13 Q3 = 2,1.

Posição de D1=10

n =16/10=1,6. Arredondando para 2 D1 = 0,7.

Posição de D9=10

n*9 =9*1,6=14,4. Arredondando para 14 D9 = 2,2.

Posição de P95=10

n*95 =95*0,16=15,2. Arredondando para 15 P95 = 2,5.

e) Média, Mediana e Moda para Dados Agrupados

Se, por algum motivo, não se tiver acesso aos dados de uma amostra, mas apenas à sua

tabela de freqüências ou ao seu histograma não será possível calcular exatamente os valores da sua

média, da sua mediana, da sua moda e dos quantis. Neste caso, o melhor que se pode fazer é

calculá-las aproximadamente. Tomemos como exemplo a tabela a seguir:

Page 24: Estatística básica  (Parte III - Graficos e Medidas Resumo)

47

Exemplo 1: Medidas da capacidade vital de 50 adultos do sexo masculino entre 18 e 27 anos de

idade (Santa Casa de São Paulo, 1974).

Capacidade Vital ( ) Freqüência (fi) Freqüência

Acumulada

4,0 ├ 4,5 8 8

4,5 ├ 5,0 11 19

5,0 ├ 5,5 5 24

5,5 ├ 6,0 15 39

6,0 ├ 6,5 6 45

6,5 ├ 7,0 2 47

7,0 ├ 7,5 2 49

7,5 ├ 8,0 1 50

Total 50

Fonte: Depto. de Provas Funcionais Pulmonares - Santa Casa/SP.

Para se calcular a média das medidas acima, que só são fornecidas na forma de uma tabela

de freqüências, é necessário supor que todas as medidas que caiam dentro de um intervalo de

classe são iguais ao ponto médio daquele intervalo. Portanto, para cada intervalo calcula-se o seu

ponto médio e considera-se que ele ocorre com a mesma freqüência da classe. Desta maneira, a

aproximação que se faz para os dados desconhecidos deste problema é a seguinte:

Dados xi (pontos médios

das classes)

4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 Total

Freqüências (fi) 8 11 5 15 6 2 2 1 50

Considerando os dados da tabela aproximada como os dados verdadeiros para o problema,

basta agora usar a fórmula da média aritmética para obter a média da distribuição:

44550

272

1226155118

1757225727566256157555255117548254,

*,*,*,*,*,*,*,*,

fa

fax

x

i

onde xi são os pontos médios de cada classe.

Para calcular a mediana, também teremos que fazer uma aproximação. Inicialmente, temos

que determinar o intervalo de classe no qual ela se encontra. Como existem 50 dados, a mediana

será a média entre o 25o e o 26 o dados, portanto será o "dado" na posição 25,5. Olhando na coluna

das freqüências acumuladas da tabela, vemos que o dado na posição 25,5 cai dentro do quarto

intervalo de classe, que vai de 5,5 a 6,0. Portanto, já sabemos que a mediana tem que valer entre 5,5

e 6,0.

Para encontrar um valor único, vamos fazer o seguinte raciocínio: Dentro do intervalo que vai

de 5,5 a 6,0 temos 15 dados (veja na tabela). Não sabemos os valores exatos desses dados, mas

vamos supor que eles varrem o intervalo de 5,5 a 6,0 de maneira uniforme. Como este intervalo tem

6,0 - 5,5 = 0,5 unidades, para distribuir 15 dados uniformemente por ele temos que por um dado a

cada 0,5/15 unidades. O primeiro dado do intervalo é o 25o do total de 50 e será colocado em

5,5 + 1*(0,5/15). O segundo dado do intervalo é o 26o e será colocado em 5,5 + 2*(0,5/15). Os demais

dados são posicionados de maneira equivalente até o 15o , que ficará em 5,5 + 15*(0,5/15) = 6,0.

Page 25: Estatística básica  (Parte III - Graficos e Medidas Resumo)

48

Como o dado correspondente à mediana é o 25,5, ou seja é o de ordem 1,5 dentro da série

dos 15 dados a serem postos dentro do intervalo, o seu posicionamento será:

5,5 + 1,5*(0,5/15) = 5,5 + 0,05 = 5,55.

De maneira genérica, podemos estimar a mediana de uma distribuição de dados agrupados

a partir da fórmula:

m

aiif

h.fPLMd ,

onde Li é o limite inferior da classe onde está a mediana, P é a posição da mediana no conjunto total

dos dados (chamado de posição ou posto da mediana), fai é a freqüência acumulada até a classe

anterior à classe onde está a mediana, h é a largura do intervalo de classe e fm é a freqüência da

classe onde está a mediana.

Usando esta fórmula para calcular a mediana para o exemplo dado, temos:

5,550,055,515

0,51,5.5,5

15

0,5.2425,55,5Md

Para se calcular a moda, basta obter o ponto central do intervalo de maior freqüência.

No caso do exemplo, o intervalo de maior freqüência é o quarto, que vai de 5,5 a 6,0. Seu

ponto central é 5,75 . Também se pode falar de intervalo ou classe modal. Neste caso, a classe

modal seria a classe de maior freqüência: 5,5 ├ 6,0 .

Exemplo 2: Calcular a média, a mediana e a moda para a seguinte distribuição de freqüências.

Medidas das larguras dos pulsos dos braços esquerdos de 45 alunos de ambos os

sexos da turma de Estatística (Administração) do prof. Roque (3 o sem. de 2003).

Comprimento do Pulso (cm) Freqüência (fi) Freqüência Acumulada

4,8 ├ 5,1 8 8

5,1 ├ 5,4 16 24

5,4 ├ 5,7 3 27

5,7 ├ 6,0 5 32

6,0 ├ 6,3 9 41

6,3 ├ 6,6 4 45

Total 45

Média:

cm ,,,,,,,,

57545

65250

4953168

4456915658553555162558954

fa

fax

x

i

onde xi é o ponto médio das classes.

Mediana: A mediana é o 23 o dado, que cai na 2a classe, que vai de 5,1 a 5,4. Esta classe tem 16

elementos e a mediana é o 15 o deles. Portanto:

cm 38,528,01,516

3,0.151,5

16

3,0).823(1,5

f

hfPLMd

m

aii

Page 26: Estatística básica  (Parte III - Graficos e Medidas Resumo)

49

Moda: A moda é o ponto médio da classe de maior freqüência. Portanto: Moda = 5,25 cm. A classe

modal é a classe de maior freqüência. Logo: Classe modal = (5,1 a 5,4) cm.

Já para calcularmos os quartis, decis e percentis , quando temos dados agrupados, usamos

um raciocínio idêntico ao que foi usado para o cálculo da mediana, substituindo a posição da

mediana (P) pela posição do quartil, decil ou percentil em questão.

5.3. Medidas de Dispersão

As medidas de tendência central não são as únicas medidas necessárias para caracterizar

uma amostra (ou população). Precisamos também saber o quanto às observações na amostra estão

"espalhadas".

Por exemplo, nos dois gráficos a seguir as populações têm a mesma média (µ), mas

certamente a primeira distribuição tem maior dispersão.

Figura 22: Distribuição 1 (com maior dispersão)

Figura 23: Distribuição 2 (mais concentrada na media µ)

Variação ou Dispersão de um conjunto de dados é como os dados tendem a dispersar-se em

torno de um valor médio.

Dentre as várias medidas de dispersão ou variação, podemos destacar como mais comuns à

amplitude, o desvio médio, o desvio padrão e a variância.

a) Amplitude (range)

A amplitude total dos dados de uma amostra é a diferença entre o maior e o menor número

da amostra.

Page 27: Estatística básica  (Parte III - Graficos e Medidas Resumo)

50

A = maior valor – menor valor

Por exemplo, para o conjunto de valores {2, 3, 4, 6, 6, 7, 7, 9, 9, 10, 12} a amplitude total é

A=12 – 2 = 10.

Já para o histograma abaixo, a amplitude total dos dados é 306,5 – 294,5 = 12. Note que se

tomou a diferença entre os pontos médios da última e da primeira classe.

Histograma

0

5

10

15

20

25

30

35

40

45

293-296 296-299 299-302 302-305 305-308

Fre

ên

cia

Figura 24: Histograma dos dados

A amplitude total dos dados dá uma visão “grosseira” da variação, ou dispersão, dos dados.

No entanto, em alguns casos é justamente esta visão grosseira sobre dispersão que se quer.

Por exemplo, uma pessoa de férias no exterior e que pretende alugar um carro pode estar

interessada em saber quais os valores máximo e mínimo que uma multa de trânsito pode ter no país

para onde ela vai.

b) Desvio Médio

O desvio médio de um conjunto de dados indica quão distantes “em média” estão os dados

individuais em relação à média aritmética do grupo. Consideremos a seguinte tabela.

Ganho de peso para uma amostra de seis ratos com dieta suplementar

No do rato Ganho de peso

(xi) (gramas) xxi

xxi 2

xxi

1 6 3 3 9

2 2 -1 1 1

3 4 1 1 1

4 1 -2 2 4

5 3 0 0 0

6 2 -1 1 1

18 ix

0 xxi 8 xxi

162 xxi

36

18

6

x

x

6

1i

i

.

Page 28: Estatística básica  (Parte III - Graficos e Medidas Resumo)

51

A partir dos dados da segunda coluna calcula-se a média x . A terceira coluna serve para

ilustrar o fato de que a soma dos desvios é sempre nula. Na quarta coluna estão listados os valores

absolutos dos desvios. A soma desses valores absolutos dividida pelo total de dados é o desvio médio:

3,16

8

n

xx

DM

6

1i

i

gramas.

Este resultado quer dizer que, em média, os dados estão 1,3 gramas afastados do valor médio

do grupo, que vale 3 gramas.

O desvio médio é muito pouco usado e só aparece aqui para ajudar na apresentação de

uma medida similar, esta sim bastante usada, o desvio padrão, o qual é obtida a partir da variância.

c) Variância

Para obter a variância de um conjunto de dados, somamos os quadrados dos desvios

(diferença entre cada valor e a média de todos os valores) e dividimos o resultado por (n-1). O valor

obtido é um tipo de média dos quadrados dos desvios, chamada de variância.

A Variância é a medida mais comum de dispersão. A variância amostral, denotada por S2 é

definida como:

n

1i

2

i

2 xx1n

1S

onde x é a média amostral, já definida e n é o tamanho da amostra.

Já a Variância populacional é denotada por 2 , podendo ser calculada por:

N

x

2N

1i

i2

onde é a média populacional, calculada com base nos dados da população e N é o tamanho da

população.

É importante lembrar que a variância (da amostra ou da população) é sempre maior ou igual

a zero.

A unidade de medida da variância é o quadrado da unidade de medida das observações.

Assim, se os dados estão em metros, à variância é expressa em metros quadrados. Isso dificulta a

interpretação da variância. Para evitar isso, normalmente trabalhamos com o desvio padrão, o qual

será definido a seguir.

d) Desvio Padrão

Page 29: Estatística básica  (Parte III - Graficos e Medidas Resumo)

52

Como vimos, a variância é uma soma de quadrados, e, portanto, é expressa nas unidades da

variável medida ao quadrado. Por exemplo, se estamos analisando os pesos (em gramas) dos

pacotes de café produzidos por uma empresa, a variância será dada em gramas ao quadrado.

Para voltarmos às unidades originais da variável medida (sem o quadrado), temos que tomar

a raiz quadrada da variância. A raiz positiva da variância é chamada de desvio padrão.

O desvio padrão amostral, denotado por S, é definido como a raiz quadrada positiva da

variância amostral, ou seja,

2SS v ariância

Desta forma, podemos concluir que S é sempre expresso na mesma unidade de medida que

as observações na amostra.

No caso do exemplo anterior (do ganho de peso de uma amostra de 6 ratos), a variância de

uma amostra, designada por S2 e o desvio padrão por S são dados por:

Ganho de peso

(xi) (gramas) xxi

2xxi

6 3 9

2 -1 1

4 1 1

1 -2 4

3 0 0

2 -1 1

162 xxi

. gramas 79,1SS ;gramas 2,3

5

16

1n

xx

S 22

26

1i

i2

O desvio padrão é uma medida de dispersão. Quando temos dois conjuntos de dados e o

primeiro tem uma amplitude total muito pequena, seu desvio padrão será menor que o do segundo

conjunto.

OI desvio padrão mede dispersão através do afastamento médio dos dados em relação à

média do conjunto de dados.

O desvio padrão, conforme foi definido, é o chamado desvio padrão amostral. Ele é obtido

tomando-se a raiz quadrada da divisão da soma dos quadrados dos desvios por (n-1), o número de

elementos na amostra menos um.

Existe outra definição de desvio padrão, válida para quando estamos trabalhando com uma

população, ou seja, com o conjunto total de valores sendo estudado. Neste caso, o desvio padrão

populacional é definido como a raiz quadrada da divisão da soma dos quadrados dos desvios por N,

ou seja, o número total de dados na população,

populaçãodaVariância 2 ,

Page 30: Estatística básica  (Parte III - Graficos e Medidas Resumo)

53

Note que, para o caso do desvio padrão populacional, usou-se a letra grega (sigma) para

representá-lo. Esta é a convenção adotada em estatística: o desvio padrão populacional é

denotado por e o desvio padrão amostral é denotado por S.

De maneira geral, usa-se letras do alfabeto grego para representar variáveis relativas a uma

população e letras do alfabeto latino para representar variáveis relativas a uma amostra (por

exemplo, usa-se para representar a média de uma população e x para representar a média de

uma amostra).

Alguém poderia perguntar por que o desvio padrão foi definido de um jeito para amostras e

de outro para populações. O motivo para isto é explicado pelas propriedades dos estimadores

estudadas na inferência estatística. Por ora, podemos dizer que se quisermos estimar o desvio padrão

para uma população a partir do cálculo do desvio padrão para uma amostra retirada da

população, o desvio padrão da amostra calculado dividindo-se por (n-1) será um melhor estimador

do verdadeiro desvio padrão da população, , do que seria o desvio padrão da amostra calculado

dividindo-se por n.

e) Coeficiente de variação amostral

Em muitos casos é importante comparar a variabilidade relativa de muitos conjuntos de

dados. Isto não pode ser feito apenas pelo exame dos desvios padrões dos conjuntos de dados, pois

os conjuntos podem conter dados com magnitudes bem diferentes ou unidades diferentes. Para fazer

tal tipo de comparação, é costume expressar o desvio padrão como uma porcentagem da média

aritmética. A variável definida a partir desta expressão é chamada de coeficiente de variação:

O coeficiente de variação amostral é definido como:

100x

S%CV ,

onde S é o desvio padrão amostral e x é a média amostral.

A definição do coeficiente de variação para a população é análoga, substituindo­se S por

e x por µ.

Exemplo1: Para um grupo de indivíduos, a temperatura corporal média é igual a 36,8C com desvio

padrão de 0,27C e a pulsação média é igual a 78 batidas/min com desvio padrão de 9 batidas/min.

Portanto, os coeficientes de variação para a temperatura e a pulsação dos indivíduos são:

%5,1110078

9CV ;%7,0100

8,36

27,0CV pulsotemp.

Vemos então que a variabilidade relativa da pulsação é bem maior que a variabilidade relativa da

temperatura. O coeficiente de dispersão é útil quando se quer analisar como a dispersão de um

conjunto de dados varia no tempo, dado que a média dos dados também varia.

Page 31: Estatística básica  (Parte III - Graficos e Medidas Resumo)

54

Exemplo2: Suponhamos que uma pesquisa tenha sido feita comparando-se o aumento no preço de

um cafezinho em seis diferentes bares da cidade entre 1994 e 2000 e os resultados sejam os dados

abaixo (valores em reais).

Bar A B C D E F x S CV

1994 0,30 0,40 0,40 0,50 0,60 0,70 0,483 0,147 30,4%

2000 0,60 0,80 0,80 1,00 1,20 1,40 0,967 0,294 30,4%

Note que todos os valores dobraram de 1994 para 2000. O desvio padrão para a amostra também

dobrou, indicando que a dispersão dos valores aumentou. Porém, o preço médio do cafezinho

também dobrou, de maneira que o coeficiente de variação permaneceu constante. Podemos dizer

que, de maneira absoluta, a dispersão dos preços do cafezinho dobrou entre 1994 e 2000; porém, de

maneira relativa, ela permaneceu constante.

Exemplo3: Para entender melhor as medidas de variabilidade ou dispersão, imagine que quatro

alunos obtiveram, em cinco provas, as notas apresentadas na tabela abaixo:

Notas de quatro alunos em cinco provas de estatística

Aluno Notas Média

Prova 1 Prova 2 Prova 3 Prova 4 Prova 5

Antônio 5 5 5 5 5 5

João 6 4 5 4 6 5

José 10 5 5 5 0 5

Pedro 10 10 5 0 0 5

Todos os alunos obtiveram média igual a 5, mas a dispersão das notas obtidas em torno da média

não é a mesma para todos os alunos. Olhando os dados de notas da tabela acima, verificamos que

as notas do aluno Antônio não variaram, enquanto que as notas do aluno João tiveram uma

pequena variação e de Pedro uma grande variação. Mas quanto está variando as notas de cada

aluno? As notas de qual aluno variaram mais?

Somente olhando os dados, percebe-se que:

As notas de Antônio não variaram (a dispersão é nula).

As notas de João variaram menos do que as notas de José (a dispersão das notas de João é

menor do que a dispersão das notas de José).

As notas de Pedro variaram mais do que as notas de todos os outros ( a dispersão das notas de

Pedro é a maior).

Estas observações serão verificadas através das seguintes medidas de dispersão: amplitude, variância

e desvio padrão.

Calculando a AMPLITUDE (A):

As notas de Antônio tem amplitude: A = 5 – 5 A = 0

As notas de João têm amplitude: A = 6 – 4 A = 2

As notas de José têm amplitude: A = 10 – 0 A = 10

As notas de Pedro têm amplitude: A = 10 – 0 A = 10

Page 32: Estatística básica  (Parte III - Graficos e Medidas Resumo)

55

A amplitude nem sempre capta certas diferenças. No caso das notas dos alunos, a amplitude mostra,

acertadamente, que as notas de Antônio não variam (A=0) e que as notas de João variam menos

que as notas de José (A=2 e A=10 respectivamente). Entretanto a amplitude não mostra que as notas

de Pedro variaram mais do que as notas de José A=10 (nos dois casos).

A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se apenas os

valores extremos – e não todos os dados. De qualquer forma a amplitude é usada, principalmente

porque é fácil de calcular e fácil de interpretar.

Calculando a VARIÂNCIA

Os dados distribuem-se em torno da média. Então o grau de dispersão de um conjunto de dados

pode ser medido pelos desvios em relação à média. Desvios em relação à média é a diferença entre

cada valor da amostra (os dados) e a média da amostra.

Para medir dispersão dos dados em torno da média, os estatísticos usam a soma de quadrados dos

desvios divididos por “n-1”. Como os quadrados de números negativos são positivos, toda soma de

quadrados é positiva ou, no mínimo, nula (a soma dos quadrados dos desvios só é nula quando todos

os desvios são iguais à zero).

Então, para calcular a variância dos dados das notas do aluno João:

Dados do aluno João

(xi) Desvios (x – x ) Quadrados dos desvios

2)( xx i

10 10 – 5 = 5 25

10 10 – 5 = 5 25

5 5 – 5 = 0 0

0 0 – 5 = - 5 25

0 0 – 5 = -5 25

5x 05

1

i

xx

1005

1

2

i

xx

Desta forma, usando a fórmula da variância amostral:

25

4

100

15

100

1

2

2

n

xxS

Para os demais alunos, temos as seguintes variâncias:

Cálculo da variância das notas de Antonio:

1

2

2

n

xxS 0

4

0 22 SS

Cálculo da variância das notas de João:

1

2

2

n

xxS 12 S

Cálculo da variância das notas de José:

1

2

2

n

xxS 5122 , S

Page 33: Estatística básica  (Parte III - Graficos e Medidas Resumo)

56

Para entender que a variância mede a dispersão dos dados em torno da média, podemos verificar

que:

Para as notas de Antônio que não variam, 2S =0.

a) Para as notas de João, que variaram menos do que as notas de José, 2S =1, menor do que a

variância das notas de José, que é 2S =12,5.

b) Para as notas de Pedro, que variaram mais do que todas as outras, a variância é 2S =25, maior do

que todas as outras.

A unidade da variância é dada ao quadrado e, portanto não tem interpretação coerente na

maioria das situações.

Calculando o DESVIO PADRÃO (S)

.

Para as notas dos alunos, temos o desvio padrão:

S S

S

S

2

0

0 João

S S

S

S

2

1

1 Antônio

S S

S

S

2

12 5

3 54

,

, Pedro

S S

S

S

2

25

5 José

Calculando o coeficiente de variação

Para as notas dos alunos, temos o desvio padrão:

Antônio: %. 01000

5

0

x

SCV

João: %., 2010020

5

1

x

SCV

José: %,.,

,8701007080

5

543

x

SCV

Pedro: %. 1001001

5

5

x

SCV

Exemplo 3: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10,

14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio-padrão (S), a variância (2S ) e o

coeficiente de variação (cv). Interprete os resultados

Solução:

Amplitude: A= 18 – 10 = 8 litros de leite

ou seja, existe uma variação de 8 litros de leite entre o dia que a vaca A produziu mais e o dia que

menos produziu.

Page 34: Estatística básica  (Parte III - Graficos e Medidas Resumo)

57

OBS: Sabemos que a média para estes dados é: x = 14 litros de leite por dia

Desvio-padrão:

1n

)xx(

S

n

1i

2

i

=1n

)xx()xx()xx( 2

n

2

2

2

1

=

semanapor leite de litros 65,27

6

42

6

416411016

6

2421104

17

14121418141614151413)1414()1410(

2222222

2222222

Interpretação: A vaca A em média produz 14 litros de leite por dia, variando aproximadamente 2,65

litros de leite para mais e para menos.

Variância:

2222 leite) de (litros765,2)( SS

Coeficiente de variação:

1893,014

65,2

x

Scv ou seja, existe uma variabilidade de 18,93% dos dados em relação a

média.

Page 35: Estatística básica  (Parte III - Graficos e Medidas Resumo)

58

EXERCÍCIOS DE ESTATÍSTICA

1) Considere que uma loja de roupas anotou o número de calças femininas vendidas todo o mês

durante um ano. Os dados deste levantamento estão abaixo:

ANO jan fev mar abr mai jun jul ago set out nov dez

% 50 41 32 30 25 28 34 25 15 34 30 49

Construa:

a) Um gráfico de linha;

b) Um gráfico de barras (ou colunas).

2) Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes, obtendo-se os

seguintes dados (em centímetros):

160 152 155 154 161 162 162 161 150 160 163 178 153 155

163 156 162 161 161 171 160 170 156 164 167 165 155

155 151 158 166 169 170 158 160 168 164 157 156 152

a) Fazer a distribuição de freqüência usando 6 classes. (iniciando por 150 cm e terminando em 180).

b) A partir da tabela acima, construir um histograma e interprete os resultados.

c) Faça um polígono de freqüência.

3) Uma secretária de uma grande empresa faz o agendamento das reuniões com a diretoria da

empresa. Para cada reunião agendada, ela anota o período do dia em que foi agendada a

reunião e o número de participantes.

Reunião 1 2 3 4 5 6 7 8 9 10 11 12 13

Período M T N M M M T N M T T M N

Nº de participantes 5 4 2 3 2 5 4 4 3 6 5 5 6

a) Construa uma tabela de freqüência para a variável “Período da reunião” e faça um gráfico de

barras. Interprete os resultados.

b) Faça uma tabela de freqüência para a variável “Nº de participantes” e construa um gráfico de

barras. Interprete os resultados.

4) O gerente de uma central telefônica solicitou para a secretária da área fazer um relatório com os

principais tipos de defeitos que ocorrem em um determinado mês. O objetivo deste estudo era

minimizar o número de ligações com defeitos. Para isso, a secretaria solicitou as telefonistas que

anotassem os tipos de defeitos que ocorrem em cada ligação com problemas na central. Um

resumo deste levantamento pode ser visto na tabela abaixo:

X= Tipo de Defeito fa= Nº de Ocorrências

Linha aberta 82

Linha cruzada 36

Linha ruidosa 140

Não responde 45

Não toca 15

Total Geral 515

a) Faça um gráfico de barras com a tabela acima.

b) Colocar a tabela acima em ordem decrescente de “fa” e encontrar “fr”, “fp” e “Fp”.

c) Usando a tabela do item “b” faça em um mesmo gráfico, barras com os percentuais da

coluna “fp” e linha com os percentuais da coluna “Fp” (Gráfico de Pareto). Interprete os

resultados.

Page 36: Estatística básica  (Parte III - Graficos e Medidas Resumo)

59

5) Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10, 14, 13, 15,

16, 18 e 12 litros, pergunta-se: Encontre a média, a moda e a mediana para a produção diária de

leite desta vaca.

6) A pulsação de 10 estudantes após exercícios físicos foram às seguintes (em batimentos por

minuto): 80, 91, 84, 86, 80, 89, 85 e 86. Determine a media, a moda e a mediana e interprete os

resultados.

7) Os salários-hora de sete funcionários de uma companhia são: R$180,00, R$220,00, R$253,00,

R$220,00 e R$192,00 R$1200,00 e R$750,00. Determine a média a moda e a mediana e interprete os

resultados.

8) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos. Para

isso, uma amostra de 21 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em

reais). O resultado da amostra segue abaixo:

400 120 390 450 300 335 480 475 450 450 390 630 600 560 570 450 300 590 600 620 750

a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.

b) Calcule a moda e a mediana e interprete esses resultados.

c) Faça uma tabela de freqüência com 2 classes e calcule o valor médio dos alugueis usando essa tabela.

9) Uma imobiliária fez um estudo para analisar o valor dos aluguéis pagos pelos seus inquilinos dos

apartamentos de 1 quarto da cidade de Ribeirão Preto, independente da imobiliária. Para isso,

uma amostra de 39 inquilinos foi levantada, onde analisamos o valor pago pelo aluguel (em

reais). Segue os resultados:

Valor do

aluguel (R$)

fi

300 5

400 18

500 10

600 6

Total 39

a) Qual é o valor médio dos aluguéis pago pelos inquilinos desta imobiliária? Interprete o resultado.

10) Uma revista realizou um levantamento para informa-se sobre seus assinantes. Uma das questões

do levantamento perguntava sobre o valor que o assinante tinha aplicado na poupança. A

seguinte tabela de freqüência foi preparada a partir das respostas para essa questão:

Valor investido na

poupança (em R$)

fa

0 250 17

250 500 9

500 750 12

750 1000 20

1000 1250 13

1250 1500 13

1500 1750 20

Total 104

Calcule o valor médio investido na poupança e interprete os resultados.

Page 37: Estatística básica  (Parte III - Graficos e Medidas Resumo)

60

11) A idade média dos candidatos a um determinado curso de especialização sempre foi baixa, na

ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se

fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um

levantamento da idade dos candidatos a ultima promoção, e os resultados estão na tabela

abaixo:

Idade fa

18 |--- 22 anos 30

22 |--- 26 anos 10

26 |--- 30 anos 8

30 |--- 34 anos 2

34 |--- 38 anos 3

Total 53

a) Baseando-se nestes resultados, você diria que a campanha produziu algum efeito, isto é, aumentou a idade

média? Por quê?

b) Complete a tabela de freqüência acima (calculando fr, fp e Fp) e interprete os resultados da tabela de

freqüência, dizendo qual é o percentual de candidatos com idade entre 30 e 34 anos e o percentual de

candidatos que possuem menos do que 34 anos.

12) Considere a amostra de 6 clientes de uma locadora de DVD, onde foi levantado o “número de

DVD locados por mês”: 5 8 10 7 10 14

Calcule a amplitude, a variância, o desvio padrão e o coeficiente de variação e interprete os resultados. Resposta: Amplitude=9,0 Desvio Padrão = 3,1 Variância = 9,6 CV=34,4%

13) Em 13 semanas consecutivas para o vendedor A e 12 semanas para o vendedor B, a comissão

dos dois vendedor (A e B) em R$ foi de:

Vend. A R$ 35 R$ 47 R$ 31 R$ 94 R$ 98 R$ 100 R$ 15 R$ 10 R$ 120 R$ 73 R$ 60 R$ 184 R$ 13

Vend. B R$ 60 R$ 80 R$ 85 R$ 90 R$ 96 R$ 93 R$ 68 R$ 75 R$ 86 R$ 93 R$ 83 R$ 88

a) Calcule a comissão semanal média de cada vendedor. Interprete.

b) Calcule o desvio padrão da comissão de cada vendedor e interprete.

c) Utilize o coeficiente de variação para concluir qual vendedor é mais constante em suas vendas.

14) Duas empresas, A e B, analisando os salários de seus funcionários (em mil reais) obteve os

seguintes resumos a respeito dos salários de seus funcionários:

Empresa A: Média = 1220 e Desvio Padrão = 91,3

Empresa B: Média = 900 e Desvio Padrão = 76,8

A OIT (Organização Internacional do Trabalho) recomenda que se a variação em torno da média for maior do

que 8% os salários devem ser revistos, pois acima deste valor, considera-se que os salários são demasiadamente

desiguais. Qual empresa deverá realizar revisão de seus salários, considerando o padrão da OIT? Por quê?

15) O Departamento Pessoal de uma certa empresa fez um levantamento dos salários de uma

amostra de 120 funcionários do setor administrativo, obtendo os seguintes resultados:

O Salário médio dos funcionários é de R$ 1.544,00.

O desvio padrão dos salários dos funcionários é de R$ 1.124,00

a) Calcule a variância e o coeficiente de variação da variável salário.

b) Como você interpretaria os resultados do enunciado?

16) O treinador de uma equipe de corredores, anotou o tempo das corridas de dois grupos de corredores. Em

um grupo formado por 55 corredores foi anotado o tempo que cada corredor demorou a percorrer 400

metros, sendo que o tempo médio foi de 2,8 minutos com um desvio padrão de 1.3 minutos. Já o outro grupo

de corredores, formado por 50 corredores, obteve um tempo médio de 5,9 minutos para percorrer 1.600

metros, com desvio padrão de 1,8 minutos.

a) Calcule a variância de cada grupo de corredores

b) Interprete os resultados do desvio padrão em cada grupo de corredores.

c) Qual grupo de corredor é mais constante?