capítulo 5 apresentação estatística - gráficos e tabelas. · ... (o eixo x) possui uma escala...

38
Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. 5.1 - OBJETIVO DO CAPÍTULO Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos. Veremos nesse capítulo os gráficos estatísticos mais comuns e utilizados para representar uma amostra de dados coletados de uma determinada população. Através de uma apresentação gráfica adequada vemos com maior facilidade as características da população em estudo. Desta maneira apresentaremos os gráficos de barra/coluna, setores/pizza, histograma, linhas, barras múltiplas, barras empilhadas e polígono de freqüência. 5.2 - APRESENTAÇÃO GRÁFICA DOS DADOS. Além de utilizar tabelas para resumir um conjunto de dados, os gráficos fornecem um impacto visual alternativo. Ao construir qualquer tipo de gráfico, é importante garantir que (assim como as tabelas) o gráfico receba um título adequado, cada um dos eixos sendo rotulado e uma escala sensata utilizada. Isso para que um gráfico faça sentido e seja facilmente compreensível, se nenhum dado acompanhá-lo. Neste capítulo, serão consideradas as formas mais comuns de representação gráfica utilizadas. Isso será feito, inicialmente, considerando-se um único conjunto de dados e fazendo-se a correspondência do gráfico mais apropriado aos tipos de dados (isto é, nominais, ordinais, discretos, contínuos). 5.3 – GRÁFICO DE BARRAS / COLUNAS Este tipo de gráfico mais normalmente utilizado. Cada categoria é representada por uma barra retangular distinta, sendo a freqüência indicada pelo comprimento/altura da barra. Esse gráfico pode ser utilizado para todos os tipos de dados, exceto dados contínuos e dados ordinais na forma de uma série temporal.

Upload: lynhu

Post on 02-Dec-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

Capítulo 5 Apresentação Estatística - Gráficos e Tabelas.

5.1 - OBJETIVO DO CAPÍTULO

Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos. Veremos nesse capítulo os gráficos estatísticos mais comuns e utilizados para representar uma amostra de dados coletados de uma determinada população. Através de uma apresentação gráfica adequada vemos com maior facilidade as características da população em estudo. Desta maneira apresentaremos os gráficos de barra/coluna, setores/pizza, histograma, linhas, barras múltiplas, barras empilhadas e polígono de freqüência. 5.2 - APRESENTAÇÃO GRÁFICA DOS DADOS.

Além de utilizar tabelas para resumir um conjunto de dados, os gráficos fornecem um impacto visual alternativo.

Ao construir qualquer tipo de gráfico, é importante garantir que (assim como as tabelas) o gráfico receba um título adequado, cada um dos eixos sendo rotulado e uma escala sensata utilizada. Isso para que um gráfico faça sentido e seja facilmente compreensível, se nenhum dado acompanhá-lo.

Neste capítulo, serão consideradas as formas mais comuns de representação gráfica utilizadas. Isso será feito, inicialmente, considerando-se um único conjunto de dados e fazendo-se a correspondência do gráfico mais apropriado aos tipos de dados (isto é, nominais, ordinais, discretos, contínuos). 5.3 – GRÁFICO DE BARRAS / COLUNAS

Este tipo de gráfico mais normalmente utilizado. Cada categoria é representada por uma barra retangular distinta, sendo a freqüência indicada pelo comprimento/altura da barra.

Esse gráfico pode ser utilizado para todos os tipos de dados, exceto dados contínuos e dados ordinais na forma de uma série temporal.

Page 2: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

32

Alunos de uma Escola "X"

0

5

10

15

20

25

Masculino Feminino

Gênero

Freq

uênc

ia

5.4 - GRÁFICO DE SETORES / “PIZZA”

Aqui, todo conjunto de dados é representado por um círculo, e cada categoria é representada por uma parte desse círculo (isto é, um setor). A freqüência é representada pelo ângulo e 360° representa o total de dados.

De maneira análoga a um gráfico de barra/coluna, o gráfico de setores pode ser utilizado para a maioria dos tipos de dados. Entretanto, como um gráfico de setores é utilizado para mostrar que proporção todo é tomada por uma categoria, ele somente será útil se o número de categorias for pequeno e cada uma for uma proporção significativa do total de dados. Também é possível enfatizar determinada categoria “cortando a fatia” do gráfico principal.

Estatística - Teoria e Aplicações.

Preferência por produto de limpeza

33%

27%

20%

13%

7%

ABCDE

Prof. Anderson Dias Gonçalves

Page 3: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

33

5.5 – HISTOGRAMA

O histograma é utilizado para fornecer o equivalente ao gráfico de barras para dados contínuos que foram agrupados em uma tabela de distribuição de freqüência, isto é, ele fornece uma representação comparativa dos dados.

Deve-se observar que existem muitas situações em que os histogramas são representados imprecisamente e que poucos pacotes de computador possuem a capacidade de representá-los com precisão. Tome muito cuidado ao falar de histogramas; geralmente, é um gráfico de barras que foi utilizado.

Embora um histograma se pareça muito com um gráfico de barras, existem duas diferenças principais: 1 – O eixo na parte inferior (o eixo x) possui uma escala contínua, e os blocos são dispostos juntos. 2 - Mais importante, a área de cada bloco representa a freqüência.

Se os intervalos de classe dos dados tiverem todos a mesma amplitude, isto não apresenta nenhum problema, e a altura de um bloco será igual à freqüência. Entretanto, quando as amplitudes de classe forem desiguais, constrói-se um histograma com a altura do bloco igual a uma medida conhecida como densidade de freqüência, onde:

Densidade de freqüência = freqüência dividida pela amplitude da categoria.

A construção de um histograma em ambas essas circunstâncias é ilustrada nos dois próximos exemplos. Exemplo 1:

A Rowell Graphics é uma pequena que emprega 25 artistas gráficos permanentes. A empresa opera com horário de trabalho flexível. Sob esse sistema, cada mês um funcionário pode acumular até 10 horas de crédito ou quatro horas de débito para o próximo mês de trabalho. A tabela abaixo resume o número de horas acumuladas para o mês de janeiro deste ano.

Horas de crédito dos funcionários da Rowell Garphics.

Horas de crédito acumuladas Número de funcionários -4 a menos de -2 2 -2 a menos de 0 3 0 a menos de 2 5 2 a menos de 4 8 4 a menos de 6 4 6 a menos de 8 2

8 a menos de 10 1 Total 25

Fonte: Registros da empresa

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 4: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

34

Nesse caso, todas as categorias cobrem a mesma faixa de tempo de duas horas. Portanto, ao construir o histograma, a freqüência (isto é, o número de funcionários) de cada grupo pode ser utilizada para representar a altura de um único bloco (lembrando que, como os dados são contínuos, os blocos são unidos no eixo x, que representa o tempo).

O histograma resultante é exibido na figura abaixo.

Exemplo 2:

A Rowell Graphics também emprega em torno de 50 funcionários que trabalham em casa, durante períodos particularmente ativos. Esses artistas recebem por hora, e seu pagamento é feito retrospectivamente no final de cada mês. A tabela abaixo resume o número de horas apresentadas por esses funcionários no final de janeiro deste ano. Ilustre esses dados em um histograma.

Como a amplitude das categorias é desigual, é necessário o cálculo da densidade da freqüência para representar a altura de cada bloco. Como esse cálculo é feito dividindo-se a freqüência pela amplitude das categorias, encontrar o valor da última categoria em aberto não é possível no momento.

Horas reivindicadas pelos funcionários da Rowell Graphics que trabalham em casa

Horas reivindicadas Número de funcionários Menos de 30 3

De 30 a menos de 50 5 De 50 a menos de 75 8 De 75 a menos de 100 10 De 100 a menos de 125 15 De 125 a menos de 150 7

150 ou mais 2 Total 50

Fonte: Registros da empresa

É bem comum que os dados sejam representados dessa maneira, e não existem regras fixas sobre a maneira pela qual se trata esse assunto. Neste texto,

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 5: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

35

recomenda-se que a amplitude de uma categoria aberta seja o dobro da categoria mais comum utilizada para resumir os dados.

Portanto, nesse exemplo, a amplitude da última categoria será de 50, gerando um ponto final em 200 horas. Veja a nova tabela abaixo, com a densidade da freqüência.

Encontro da densidade freqüência.

Horas reivindicadas Número de funcionários

Amplitude da Classe

Densidade da freqüência

Menos de 30 3 30 3/30=0,1 De 30 a menos de 50 5 20 5/20=0,25 De 50 a menos de 75 8 25 8/25=0,32

De 75 a menos de 100 10 25 10/25=0,25 De 100 a menos de 125 15 25 15/25=0,6 De 125 a menos de 150 7 25 7/25=0,28 De 150 a menos de 200 2 50 2/50=0,04 Fonte: Registros da empresa

O histograma é, então, construído plotando-se as horas reivindicadas sobre os eixo x com os valores da densidade da freqüência sendo plotados no eixo y. Veja a figura abaixo.

Fonte: Registro da empresa

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 6: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

36

EXERCÍCIO PROPOSTO

1) Ilustre os dados fornecidos na tabela abaixo em um histograma. Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis.

Aluguel mensal ($) Freqüência(f) De 100 a menos de 110 1 De 110 a menos de 120 4 De 120 a menos de 130 7 De 130 a menos de 140 13 De 140 a menos de 150 7 De 150 a menos de 160 3 160 ou mais 1

Fonte: Questionário Aplicado aos alunos. 5.6 – GRÁFICO DE FREQÜÊNCIA ACUMULADA

O gráfico de freqüência acumulada, ou ogiva, é outro gráfico utilizado em particular com dados contínuos. O gráfico fornece uma representação proporcional dos dados e seu principal uso é para encontrar mediana, cujo cálculo veremos nos capítulos posteriores.

Para construir um gráfico de freqüência acumulada, geralmente é necessário mudar a maneira como os dados foram tabulados, para que se calculem as freqüências acumuladas (isto é, o número total de observações que são menores do que determinada observação). Esses valores da freqüência acumulada tornam-se pontos do eixo y. Gráfico de freqüência acumulada.

Exemplo:

Construa uma nova tabela com a freqüência acumulada para os dados dos aluguéis mensais mostrados na tabela abaixo.

Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis.

Aluguel mensal ($) Freqüência(f) De 100 a menos de 110 1 De 110 a menos de 120 4 De 120 a menos de 130 7 De 130 a menos de 140 13 De 140 a menos de 150 7 De 150 a menos de 160 3 160 ou mais 1

Fonte: Questionário Aplicado aos alunos.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 7: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

37

Duas novas colunas são adicionadas. Essas duas últimas colunas de dados são plotados nos eixos horizontal (x) e vertical (y) respectivamente, e então ligados com linhas retas ou curvas para produzir a ogiva. Isto é mostrado na figura abaixo.

Aluguel mensal ($) Freqüência Aluguel mensal menor que

Freqüência Acumulada

- 100 0 De 100 a menos de 110 1 110 1 De 110 a menos de 120 4 120 5 De 120 a menos de 130 7 130 12 De 130 a menos de 140 13 140 25 De 140 a menos de 150 7 150 32 De 150 a menos de 160 3 160 35 160 ou mais 1 180* 36

Fonte: Questionário aplicado aos alunos

Aluguel mensal pago por alunos

05

10152025303540

100 110 120 130 140 150 160 180

Aluguel

Freq

uênc

ia A

cum

ulad

a

5.7 – GRÁFICO DE LINHAS

Novamente, este é um gráfico que normalmente é utilizado para um propósito específico, isto é, apresentar dados de uma série temporal. Ele simplesmente consiste na variável do tempo plotada no eixo horizontal (x) e na segunda variável (seja ela vendas, lucros, custos de produção etc.) plotada no eixo (y). Cada ponto individual é representado por uma cruz ou um ponto, e cada um desses pontos é ligado ao seguinte por uma linha reta. Então, por exemplo, se o aluguel mensal médio pago pelos alunos tivesse sido coletado ao longo do período de 10 anos, então o gráfico de linhas seria a escolha de apresentação mais adequada.

A figura abaixo mostra o gráfico de linhas que, apesar de uma tabela de dados não ter sido fornecida, as informações do gráfico são facilmente obtidas.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 8: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

38

Por exemplo, qual foi o aluguel mensal médio pago pelos alunos do bacharel em Ciências Contábeis em 1992?

Aluguel mensal médio pago pelos alunos.

80

90

100

110

120

130

140

150

160

1989 1990 1991 1992 1993 1994 1995 1996 1997 1998

Anos

Alu

guel

Para os gráficos de linhas, se dois ou mais conjuntos de dados estiverem sendo exibidos, então diferentes padrões, cores e indicadores de pontos podem ser utilizados para distingui-los e uma chave ou legenda de acompanhamento fornecida. Isso naturalmente nos leva a observar as alternativas que estão disponíveis para exibir mais de um conjunto de dados.

Para dados nominais e discretos, existem duas alternativas que se baseiam no gráfico de barras/colunas, e, para dados contínuos, um gráfico conhecido como polígono de freqüência é utilizado. 5.8 – GRÁFICO DE BARRAS MÚLTIPLAS

Um gráfico de barras múltiplas é utilizado quando é necessária uma comparação da distribuição de dois ou mais grupos de dados. Em muitas ocasiões, o número total de observações em cada um dos grupos será diferente, portanto, as freqüências não podem ser comparadas diretamente. Se isso for necessário, freqüências percentuais serão calculadas, e os valores resultantes serão plotados no gráfico.

A figura abaixo é um gráfico de barras múltiplas que foi utilizado para mostrar os dados sobre as acomodações e gêneros dos alunos do curso de bacharelado em Ciências Contábeis.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 9: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

39

Tipo de acomodações dos alunos.

0

5

10

15

20

25

30

35

AlojamentoEstudantil

Hospedaria Casa Própria/dos Pais

Apartamento /Casa alugada

Outro

Acomodação

Freq

uênc

ia p

erce

ntua

l

Homens Mulheres

Neste caso os dois grupos comparados possuem tamanhos diferentes, isto é, 15 homens versus 21 mulheres, foram utilizados as freqüências percentuais. Os cálculos necessários para isso são exibidos na tabela abaixo.

Acomodações dos alunos do curso de bacharelado em Ciências Contábeis.

Acomodação Homens Freqüência % Mulheres Freqüência % Alojamento Estudantil 4 26,6 6 28,57 Hospedaria 3 20 5 23,80 Casa Própria/ dos Pais 3 20 2 9,52 Apartamento / Casa alugada

4 26,6 7 33,33

Outro 1 6,6 1 4,76 Total 100% 100% Fonte: Questionário aplicado aos alunos 5.9 – GRÁFICO DE BARRAS EMPILAHDAS

De maneira similar aos gráficos de setores para um único conjunto de dados, um gráfico de barras empilhadas é utilizado para ilustrar uma representação proporcional dentro de um conjunto de dados. Os gráficos de barras empilhadas são mais eficazes quando existe um pequeno número de divisões (duas ou três) dentro de uma categoria. Nos casos em que a comparação dá-se entre um número de subdivisões, um simples gráfico de linhas ou um gráfico de barras múltiplas são mais adequados.

Portanto para a tabulação cruzada dos dados de acomodações por gênero, ambas as formas de representação são igualmente válidas. Entretanto, o gráfico de barras empilhadas possui uma pequena vantagem de não exigir o cálculo das

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 10: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

40

freqüências percentuais. Um gráfico de barras empilhadas desses dados pode ser visto na figura abaixo.

Acomodação dos alunos

0

2

4

6

8

10

12

Alojamentoestudantil

Hospedaria Casa própria/ dos pais

Apartamento/ casa

alugada

Outro

Freq

uênc

ia

FemininoMasculino

5.10 – POLÍGONO DE FREQUÊNCIA

Como o histograma utiliza uma escala contínua ao longo do eixo x, não é possível traçar dois histogramas sobre o mesmo gráfico, porque eles ficariam sobrepostos um ao outro. Portanto, para comprar a distribuição de dois ou mais grupos de dados contínuos, um polígono de freqüência (similar a um gráfico de linhas) é utilizado.

Com base nos dados dos alunos do bacharelado em Ciências Contábeis, um polígono de freqüência seria necessário para comparar a distribuição da idade dentro de cada gênero.

Idade e gênero dos alunos do bacharelado em Ciências Contábeis. Número de alunos Idade

Masculino Feminino Total De 18 a menos de 19 7 9 16 De 19 a menos de 20 2 5 7 De 20 a menos de 21 3 4 7 De 21 a menos de 22 1 2 3

22 ou mais 2 1 3 Total 15 21 36

Fonte: Questionário aplicado aos alunos.

Os dois grupos de alunos são de tamanhos diferentes (Masculino: 15 e Feminino: 21), então, para se fazer uma comparação direta, e necessário primeiro calcular as freqüências percentuais, como é mostrado na tabela abaixo.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 11: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

41

Idade dos alunos do bacharelado em Ciências Contábeis, mostrando as freqüências

percentuais. Idade Freqüência em % de homens Freqüência em % de mulheres

De 18 a menos de 19 46,66 42,85 De 19 a menos de 20 13,33 23,80 De 20 a menos de 21 20 19,04 De 21 a menos de 22 6,66 9,52

22 ou mais 13,33 4,76

Essas freqüências percentuais são então plotadas contra os pontos médios das classes para produzir o diagrama do polígono de freqüência. Veja a figura abaixo.

Polígono de frequência, comparando idade e gênero.

05

101520253035404550

De 18 a menos de 19 De 19 a menos de 20 De 20 a menos de 21 De 21 a menos de 22 22 ou mais

Freq

uênc

ia p

erce

ntua

l

Homens Mulheres

Fonte: Questionário aplicado aos alunos.

Nesse capítulo, somente as maneira mais comuns pelas quais os dados podem ser apresentados foram cobertas. Basta dar uma olhada em um jornal, assistir a um noticiário na televisão ou olhar publicações científicas para ver a ampla variedade disponível.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 12: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

42

5.11 – PONTOS CHAVES A SEMREM LEMBRADOS Gráficos 1. Assim como as tabelas, certifique-se de que os gráficos possuam um título

adequado e dê rótulos aos eixos. 2. Os gráficos devem ser compatíveis com seu tipo de dados: a) Gráfico de barra/coluna – adequado para todos, exceto dados contínuos ou de

séries temporais. b) Gráfico de setores – como o anterior bom para enfatizar proporções. c) Histograma – para um único conjunto de dados contínuos. d) Ogiva – dados contínuos e) Gráfico de Linhas – dados de séries temporais.

3. Para categorias contínuas desiguais, utilize a densidade da freqüência ao

construir um histograma. 5.12 - EXERCÍCIOS PROPOSTOS 1) A autoridade local encomendou um estudo para examinar as distâncias que os

motoristas de carro viajam até o centro da cidade como parte de estudo de exeqüibilidade de um esquema proposto de estacionamento e trajetos. Um lote de 50 resultados (distâncias em milhares) é fornecido a seguir.

15 21 8 3 7 9 2 3 20 15 9 9 11 14 19 2 3 6 9 17

17 6 8 2 5 9 32 5 23 40 18 19 8 8 22 7 8 4 8 3 23 12 4 9 10 8 3 6 13 2

a) Construa a distribuição de freqüência com base nesses dados, utilizando oito

intervalos de classes de mesma amplitude.

2) Os números a seguir são relativos à quantidade de visitantes em um museu local:

Ano 1991 1992 1993 1994 1995 1996 1997 Visitantes (x 10.000) 34,5 33,6 39,9 40,7 40,6 46,5 57,8

a) Desenhe um gráfico apropriado para representar esses dados.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 13: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

43

3) A tabela abaixo mostra os resultados de uma amostra aleatória de 100 declarações de despesas diárias feitas pelos executivos de uma empresa.

Declarações de despesas feitas pelos executivos de uma empresa.

Valor da declaração ($) Freqüência Abaixo de 15,00 12 De 15,00 a menos de 17,50 23 De 17,50 a menos de 20,00 26 De 20,00 a menos de 22,50 18 De 22,50 a menos de 25,00 13 De 25,00 a menos de 30,00 8

a) Desenhe um histograma para representar esses dados. b) Construa um diagrama de freqüência acumulada (ogiva) e utilize-o pra estimar a

porcentagem de declarações acima de $21,00.

4) A tabela abaixo mostra a freqüência e porcentagem dos empregados da Empresa MB, segundo o número de filhos.

Número de filhos Freqüência Porcentagem

0 4 20 1 5 25 2 7 35 3 3 15 5 1 5

Com base nos dados acima, construa o gráfico mais indicado para essa representação. 5) Os dados abaixo refere-se a produção nacional de petróleo – Brasil de 1982 à 1986.

Período 100 Barris/Dia 1982 268 1983 339 1984 474 1985 563 1986 593

Com base nos dados acima, construa o gráfico mais indicado para essa representação.

6) A revista EXAME/Set-2006 publicou alguns resultados em parceria com o Banco Mundial a respeito da qualidade de ensino no Brasil. Entre alguns estudos está o nível de escolaridade dos brasileiros. A tabela abaixo nos mostra os dados desta pesquisa.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 14: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

44

Nível de escolaridade PorcentagemFundamental incompleto 27% Fundamental completo 16,4% Médio incompleto 8,7% Médio completo 29,5% Superior incompleto 3,8% Superior completo 14,7%

Com base nos dados acima, construa o gráfico mais indicado para essa representação. 7) A bolsa na vida dos brasileiros. O bom momento da economia e os recordes da Bovespa fazem aumentar o número de investidores. Veja os dados abaixo extraídos da revista Exame do mês de Abril de 2007.

Ano Pessoa física (em milhares) 2000 76,5 2001 75 2002 85 2003 85,5 2004 117 2005 155 2006 219,5 2007 245

Com base nos dados da tabela acima responda: a) Qual a representação gráfica mais indicada para representação dessa tabela. Justifique sua resposta e construa o gráfico. b) Qual foi o aumento percentual do número de investidores nos últimos sete anos? 8) Melhores empresas para os executivos trabalharem; esse é o resultado de uma pesquisa com base em 8287 respostas de supervisores, gerentes e diretores das 150 empresas classificadas pela VOCÊ-S/A – EXAME. Vejam abaixo as cinco empresas com maior número de funcionários, total de executivos e o índice de IFT (índice de felicidade no trabalho).

EMPRESA Total de

Funcionários Total de

Executivos IFT

Caixa Econômica Federal 68257 13933 67,02 Bradesco 61348 17486 73,00 ABN Amro Real 28135 4083 77,81 Maganize Luiza 8165 904 79,89 Bunge Alimentos 5317 826 64,62

Com base nos dados acima responda: a) Qual a representação gráfica mais indicada para cada uma das variáveis

(Total de funcionário, total de executivos e IFT)? Justifique sua resposta. b) Construa o gráfico do problema acima.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 15: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

CAPÍTULO 6 Medidas de Posição

6.1 - OBJETIVO DO CAPÍTULO

Este capítulo te como objetivo considerar várias medidas estatísticas que fornecem uma medida de tendência central de um conjunto de dados. Interpretar essas medidas e utilizá-las para localizar a maior concentração de valores de uma distribuição, isto é, se ela se localiza no início, no meio ou no final, ou ainda se há uma distribuição por igual. 6.2 INTRODUÇÃO

As medidas de posição são aquelas que podem ser identificadas no eixo das abscissas. As medidas de tendência central visam fornecer ao pesquisador informações representativas do núcleo das observações de um fenômeno relativo a qualquer campo da atividade administrativa, econômica, contábil, social e psicológica. Também é importante saber como os dados se espalham ou quão variadas são as observações e as estatísticas utilizadas para fazer isso; geralmente são chamadas de medidas de dispersão, que veremos no capítulo posterior.

Pesquisadores em muitos campos têm usado o termos “média” em questões tais como qual a renda média de universitários já graduados? Quantos fumam em média, o adolescente? Qual a nota média de uma universitária? Em média, quantos são os acidentes automobilísticos que resultam diretamente da ingestão de bebidas alcoólicas, ou drogas?

Uma forma útil de descrever um grupo como um todo consiste em encontrar um único número que represente o que é “médio” naquele conjunto particular de dados. Em pesquisa tal valor é conhecido por media de tendência central, uma vez que ela geralmente se localiza em torno do meio ou centro de uma distribuição, onde a maior parte dos dados tende a se concentrar-se.

A idéia que o leigo faz do termo “média” é quase sempre vaga e mesmo confusa. A concepção do pesquisador é muito mais precisa do que a do público em geral; ela expressa numericamente como uma das várias espécies de “medidas médias” ou de tendência central que, para um mesmo conjunto de dados, pode assumir diferentes valores. Somente as três medidas de tendência central mais conhecida são aqui discutidas: a média aritmética, a mediana e a moda,

6.3 - MEDIDAS SIMPLES DE TENDÊNCIA CENTRAL

Média Aritmética: A média aritmética é o ponto de equilíbrio de um conjunto numérico. Ela é o ponto de sustentação de um conjunto, sendo definida, como o valor de melhor representatividade de um conjunto.

Mediana: A mediana é uma medida de tendência central que determina um

valor que divide um conjunto numérico, e duas partes iguais. Praticamente, é a

Page 16: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

46

posição abaixo ou acima da qual se situam 50% dos casos. Dividindo-se um conjunto em duas partes iguais, aquela parte central é denominada mediana.

Moda: A moda é uma medida de tendência central definida como o valor de

maior freqüência. A moda é aquele valor que mais se repete dentre os diversos valores de um conjunto. A moda é o valor preponderante, o valor dominante de um conjunto. Pode-se haver um rol que não possua moda como também pode haver um que possua mais de uma moda, mas toda a filosofia dos estatísticos está em conjuntos uni modais. 6.3.1 MÉDIA ARITMÉTICA SIMPLES

A média aritmética simples de número não tabulados é definida como o quociente entre a soma destes números e a sua quantidade. A média aritmética é representada por X , que lê-se “x barra”.

Sejam os valores x1,x2,...,xn então se defini a média aritmética deste conjunto como a razão existente entre a soma destes valores e a sua quantidade, desta maneira temos:

nx

nxxx

X in ∑=+++=

...21

Onde representa cada um dos valores do conjunto e n a quantidade de números. ixObserve que a média aritmética de um conjunto, multiplicada pelo tamanho da amostra, é igual à soma dos valores deste conjunto e n representa o tamanho da amostra. Exemplo 1: A variável aleatória X assume os seguintes valores 5, 7, 8, 10 e 15e a variável aleatória Y assume os valores 4, 7, 11, 15, 20, e 21. Determine a média aritmética de cada uma dessas variáveis. 6.3.2 - MEDIANA SIMPLES

A mediana Md é uma medida de tendência central cuja definição é um valor que se localiza na posição central tal que 50% dos valores são menores que a mediana, e os demais 50% são maiores.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 17: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

47

Estatística - Teoria e Aplicações.

Depois de ordenar os n valores da variável de forma crescente, a Md é determinada de acordo com o tipo de n:

• Se n for um número ímpar, a Md será o valor da variável situado na

posição 2

)1( +n .

• Se n for um número par, a Md será igual ao resultado da divisão por

dois da soma dos valores das posições ⎟⎠⎞

⎜⎝⎛

2n e 1

2+⎟

⎠⎞

⎜⎛ . Nesse caso, a

mediana poderá não ser um valor da variável. ⎝

n

Exemplo 2: Determine a mediana da variável aleatória que assume os seguintes valores 2, 5, 10, 9, 6, 8 e 4. Exemplo 3: Determine a mediana da variável aleatória que assume os seguintes valores 1, 3, 5, 6, 7 e 8. 6.3.3 MODA SIMPLES

No caso de dados isolados ou simples, a moda (Mo)é aquele valor de maior freqüência, valor preponderante, valor dominante, dentre os diversos valores de um conjunto.

Exemplo 4: Determine a moda do conjunto de dados de valores: 2, 2, 5, 6, 7, 9, 9, 9, 10, 10, 11, 12 e 18. Exemplo 5: Determine a moda do conjunto de dados de valores: 2, 2, 2, 5, 6, 7, 9, 9, 9, 10, 10, 11, 12 e 18. 6.4 - MEDIDAS PONDERADAS DE TENDÊNCIA CENTRAL 6.4.1 - Média Aritmética Ponderada

Se os valores x1,x2,...xn ocorrem com freqüências f1,f2,...fn vezes, respectivamente, a média aritmética ponderada deste conjunto é dada por:

nxf

fffxfxfxf

X ii

n

nn ∑=++++++

=21

2211

Prof. Anderson Dias Gonçalves

Page 18: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

48

Exemplo 6: Os valores 5, 8, 6 e 2 ocorrem com freqüências 3, 2,4 e 1, respectivamente. Calcule a média aritmética destes valores. Exemplo 7: Você foi encarregado de comprar vários lotes para construir a sede de sua empresa. Você conseguiu comprar 8 lotes à $70.000,00 cada, depois 15 à $90.000,00 cada e por fim 7 lotes à $100.000,00 cada. Qual é o preço médio de um lote? Exemplo 8: A tabela abaixo define a distribuição das vendas das diversas filiais da Empresa Batuilk, Fevereiro de 2004, Minas Gerais, em milhões de reais. Calcule o faturamento médio da empresa.

Vendas por filiais Empresa Batuilk FEV/2004 – BH – Em milhões de reais.

Vendas fi xi 6 I─ 14 3 10 14 I─ 23 7 19 23 I─ 32 9 28 32 I─ 41 5 37 41 I─ 50 4 46

Total 28 6.4.2 – Mediana nas Distribuições de Freqüências

Se o número total de freqüências for n, a mediana será um número tal que 50% dos valores de n, caiam abaixo dele e 50% acima dele. A mediana vai dividir o nosso conjunto de observações em duas partes iguais. Para determinar a classe que contém a mediana, basta verificar qual é a primeira classe cuja freqüência acumulada crescente contém 50% dos casos, isto é, 50% de n, e através da fórmula:

hfi

FnlMd acair .

%50 −+=

Onde:

irl = limite inferior real

if = freqüência de classe =n tamanho da amostra =acaF Freqüência acumulada anterior à classe que contém a mediana

=h Intervalo de classe

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 19: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

49

Exemplo 9: No primeiro trimestre de 2004, a empresa Mares do Sul realizou 80 importações, cujos valores estão registrados na tabela a seguir, expressos em milhões de dólares.

IMPORTAÇÕES REALIZADAS – EMPRESA MARES DO SUL 1° TRIMESTRE DE 2004 - PARANÁ - MILHOES DE DÓLARES.

Importações fi fac150 I─ 170 8 8 170 I─ 190 12 20 190 I─ 210 20 40 210 I─ 230 16 56 230 I─ 250 12 68 250 I─ 270 8 76 270 I─ 290 4 80

Total 80 Determine a importação mediana, isto é, qual é o valor onde abaixo dele ou acima dele encontraremos 50% das importações. 6.4.3 – Moda nas Distribuições de Freqüências

Em uma distribuição de freqüências, a moda se encontra na classe de maior freqüência simples ou relativa. Neste caso, a moda é calculada pela fórmula de Czuber ou de King. Pela fórmula de Czuber, a moda é definida por:

hlMo ir .21

1

Δ+ΔΔ

+=

Onde:

irl = limite inferior real da classe modal =Δ1 Diferença entre a freqüência modal e a freqüência da classe imediatamente

anterior à classe modal: am ff −=Δ1 =Δ 2 Diferença entre a freqüência modal e a freqüência da classe imediatamente

posterior à classe modal: pm ff −=Δ1 =h Intervalo de classe modal

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 20: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

50

Exemplo 10: Determinar o valor modal das exportações realizadas pela Empresa Mares do Sul, no primeiro trimestre de 2004, conforme a tabela acima dada. 6.5 - ANÁLISE DAS MEDIDAS DE TENDÊNCIA CENTRAL. Embora a média, mediana e moda sejam medidas importantes de tendência central por serem fácies de serem obtidas e úteis para obter informações sobre uma amostra, elas devem ser utilizadas de acordo com a análise desejadas. Analisaremos primeiro, as principais vantagens e desvantagens dessas medidas. MODA

Vantagens Desvantagens Fácil de calcular Pode ser afastada do centro dos dados. Não é afetada pelos dados extremos da amostra

Difícil de incluir em funções matemáticas

Pode ser aplicada em qualquer escala: nominal, ordinal, intervalar e proporcional.

Não utiliza todos os dados da amostra.

A mostra pode ter mais de uma moda Algumas amostras podem não ter moda. MEDIANA

Vantagens Desvantagens Fácil de calcular. Difícil de incluir em funções

matemáticas. Não é afetada pelos dados extremos da amostra.

Não utiliza todos os dados da amostra.

É um valor único. Pode ser aplicada nas escalas: ordinal, intervalar e proporcional.

MÉDIA

Vantagens Desvantagens Fácil de compreender e aplicar. É afetada pelos dados extremos da

amostra. Utiliza todos os dados da amostra. É necessário conhecer todos os dados

da amostra. É um valor único. Fácil de incluir em funções matemáticas. Pode ser aplicada nas escalas: Intervalar e proporcional.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 21: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

51

6.6 - EXERCÍCIOS POSPOSTOS 1) Encontre a nota média dos alunos mostrados na tabela abaixo

Notas 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10 Nº. de alunos

2 3 10 15 10 6 4 3

2) Encontre a moda das notas dos alunos mostrados na tabela abaixo

Notas 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10 Nº. de alunos

2 3 10 15 10 6 4 3

3) Calcule a média, moda e mediana da distribuição abaixo:

Classes ( i ) Freqüências ( fi ) xi Fi fi xi 41 45

45 49 49 53 53 57 57 61

7 3 4 1 5

Σ = 20 Σ =

Estatística - Teoria e Aplicações.

4) Dada a distribuição abaixo, calcule a média, a moda e a mediana. .

i Estaturas (cm)

f i xi Fi fi xi

1 2 3 4 5 6

150 154 154 158 158 162 162 166 166 170 170 174

4 9 11 8 5 3

Σ = 40 Σ =

5) Dada a distribuição abaixo: .

i Estaturas (cm) f i xi Fi fi xi

1 2 3 4 5 6

150 154 154 158 158 162 162 166 166 170 170 174

6 8

10 15 12 8

Σ = 60 Σ =

Prof. Anderson Dias Gonçalves

Page 22: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

52

Calcule: a) a média; b) a moda; c) a mediana; 6) A média aritmética de um grupo de 120 pessoas é de 40 anos. Se a média

aritmética das idades das mulheres é de 35 anos e dos homens é de 50 anos, qual o número em porcentagem de pessoas do sexo feminino?

7) Ao escrever as notas de 10 alunos, o professor omitiu uma nota, achando uma média igual a 6,8. As notas foram: 4,0; 4,5; 5,0; 6,0; 6,0; 7,0; 7,5; 8,0; 8,5. Calcule a nota omitida.

8) No mês de Janeiro, a Empresa Atlântico Norte realizou quinze exportações,

cujos valores foram de 12, 14, 16, 16, 18, 18, 20, 20, 20, 20, 20, 22, 24, 25 milhões de dólares. As experiências mostram que os meses de janeiro, fevereiro e março envolvem 20%, 30% e 50% das exportações do trimestre. Por outro lado, os 1°, 2°, 3° e 4° trimestre participam com 15%, 20%, 25% e 40% das exportações do ano.

a) Calcule a exportação média, mediana e modal desta Empresa, em Janeiro. b) Calcule as perspectivas de exportação para os meses de fevereiro e março. c) Calcule as tendências das exportações para os 1°, 2°, 3° e 4° trimestres.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 23: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

CAPÍTULO 7 Medidas de Dispersão ou de Variabilidade

7.1 - OBJETIVO DO CAPÍTULO

Este capítulo te como objetivo considerar várias medidas estatísticas que fornecem uma medida de dispersão de um conjunto de dados. Interpretar essas medidas e saber como esses dados se espalham ou o quão são variadas as observações e as estatísticas utilizadas para fazer isso; geralmente são chamadas de medidas de dispersão ou de variabilidade. 7.2 – INTRODUÇÃO

Quase nunca uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados. Tomemos como exemplo a caso da média aritmética, que é uma medida de locação, ou seja, de tendência central, largamente empregada, e consideremos os dois conjuntos de observações dados por:

{ }37,34,31,28,25=A e { }46,39,30,23,17=B Qual a média aritmética dos dois conjuntos? Observação: O conjunto B apresenta maior dispersão de dados que o conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão ou variabilidade, em relação ao valor central. 7.3 – VARIÂNCIA - DESVIO PADRÃO

A variância e o desvio-padrão são medidas de dispersão mais normalmente aplicadas e relacionam-se uma com a outra, já que a variância é o desvio padrão ao quadrado. A variância considera a posição de cada observação em relação ao valor médio do conjunto de dados, e define-se como a média do quadrado do desvio em relação à média.

Como com a média, para certos cálculos, saber se os dados são provenientes

de uma população ou de uma amostra é vital.

Page 24: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

54

Agora, dois símbolos separados serão utilizados:

• (variância) e 2σ σ (desvio-padrão) indicam que os dados são provenientes de uma população;

• (variância) e (desvio-padrão) indicam que os dados provêm de uma amostra.

2s s

σ é a letra grega sigma.

7.3.1 - Fórmulas para o cálculo da variância e desvio padrão.

( )n

x∑ −=

22 μ

σ

Onde μ é a média da população e é o tamanho da população. n Podemos reescrever essa fórmula de outra maneira, para simplificar o cálculo. Vejamos:

22

2

⎥⎥⎦

⎢⎢⎣

⎡−= ∑∑

nx

nx

σ

Se os dados estiverem agrupados em uma tabela de distribuição de freqüência, a fórmula será levemente corrigida para se tornar:

Estatística - Teoria e Aplicações.

222

⎥⎥⎦

⎢⎢⎣

⎡−= ∑∑

nfx

nfx

σ

Podemos facilmente calcular o desvio padrão para uma população da seguinte forma:

2σσ =

Os dados que se originam de uma amostra (por razões práticas) geralmente

são utilizadas para fornecer uma estimativa do que acontece com a população inteira.

Prof. Anderson Dias Gonçalves

Page 25: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

55

Ao calcular a variância de dados que se originam de uma amostra, a fórmula da variância da população é utilizada e um ajuste é feito ao valor resultante para encontrar a variância da amostra. Veja como pode ser feito esse ajuste:

22 .1σ⎟⎠⎞

⎜⎝⎛

−=

nns

7.4 – SIGNIFICADO DO DESVIO PADRÃO

O desvio padrão depende da soma dos quadrados dos desvios dos dados da variável com relação a sua média. Portanto, quanto menor for o desvio padrão, mais valores da variável se aproximarão da média. Analisando a expressão do desvio padrão, podemos chegar a conclusões importantes:

• Qualquer dado da amostra ou variável com desvio menor dói que o desvio padrão da variável estará mais próximo da média do que qualquer outro valor com desvio maior;

• Quanto mais dados se afastarem da média, maior serão os desvios e,

consequentemente, maior será o desvio padrão da variável; • Duas variáveis com média iguais e desvios padrão diferentes têm

distribuições de freqüência com formas diferentes. A distribuição da variável com maior desvio padrão será mais aberta do que a da variável com menor desvio padrão.

Exemplo1: Dado o seguinte conjunto de tempos de reação (em segundos) de seis indivíduos a um estímulo. { }3,6,3,3,2,4 Calcule a média, a variância e o desvio padrão dessa amostra. Exemplo 2:

Consideremos a seguinte distribuição de idades de 200 homens em determinada situação. Calcule a média, a variância e o desvio padrão dessa amostra.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 26: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

56

Distribuição de freqüência das idades de 200 homens Classes (anos)

ix in 2ix iinx ii nx2

14,5 19,5 17 18 289 306 5202 19,5 24,5 22 74 484 1628 35816 24,5 29,5 27 62 729 1674 45198 29,5 34,5 32 26 1024 832 26624 34,5 39,5 37 20 1369 740 27380 Total 200 5180 140220

No contexto de um único conjunto de dados, o desvio padrão pode ser interpretado intuitivamente como uma unidade natural de dispersão de dados. Essa interpretação é utilizada na construção de “escores padronizados”, de larga utilização em medidas educacionais.

Em uma escala de 0 a 10, a nota 6 em uma prova que a nota máxima foi 6 é muito mais que a mesma nota 6 em uma prova em que a nota máxima foi 9. Um forma de captar essa diferença é considerar a nota do aluno como a sua posição relativa no grupo, e é medida por:

sxx

Z ii

−=

Onde Z, é chamado de “escore padronizado”. Observação:

1. Comparando a nota do aluno com a média do grupo, estamos considerando o afastamento da nota em relação à média.

2. Ao dividirmos aquela diferença pelo desvio padrão, estamos tomando o desvio como a unidade padrão de medida. Daí o surgimento do nome desvio padrão.

Exemplo 3: Em uma turma de nove alunos, as notas em matemática e história foram as seguintes: N° do aluno 1 2 3 4 5 6 7 8 9 Matemática 6 4 5 7 8 3 5 5 7 História 7 8 9 10 6 7 8 9 5

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 27: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

57

O aluno de número 6 saiu-se relativamente melhor em história ou matemática?

⎩⎨⎧

==

59,156,5

sxMatemática

⎩⎨⎧

==

58,167,7

sxHistória

O aluno de número 6 teve nota inferior à média em ambas as disciplinas.

Matemática: 61,159,1

56,53−=

−=Z História: 42,0

58,167,77

−=−

=Z

O aluno de número 6 saiu-se melhor em História, pois seu “escore padronizado” foi de que é maior que . 42,0− 61,1− Observação: Um escore negativo indica que a observação está à esquerda da média, enquanto um escore positivo indica que a observação está à direita da média.

iZ ix

Pergunta-se: O aluno de número 7 saiu-se relativamente melhor em história ou matemática? 7.5 – OUTLIERS

Nos trabalhos de coleta de dados, podem ocorrer observações que fogem das dimensões esperadas – os outliers. Para detectá-los, pode-se calcular o escore padronizado e considerar outliers as observações cujos escores, em valor absoluto (em módulo), sejam maiores do que 3.

( iZ )

Exemplo 4: Os dados de uma pesquisa revelaram média igual a 0,243 e desvio padrão de 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável. Solução:

243,0=x e 052,0=sLogo temos:

Para um escore padronizado de 380,0=x 63,2052,0

0243380,0=

−=Z

Para um escore padronizado de 455,0=x 08,4052,0

0243455,0=

−=Z

Desta maneira podemos ver que o dado 0,380 pode ser considerado normal, por outro lado, 0,455 pode ser considerado um outliers, portanto descartável.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 28: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

58

7.6 – COEFICIENTE DE VARIAÇÃO DE PEARSON

Muitas vezes é conveniente exprimir a variabilidade em termos relativos (porcentagem). Então, toma-se uma medida relativa de variabilidade, comparando o desvio padrão com a média. Essa medida recebe o nome de coeficiente de variação, e é denotada por:

xscv =

Exemplo 4: Testes de resistência à tração, aplicados os dois tipos de aços deram os seguintes resultados: Tipo 1: 2/45,27 mmkgx = 2/0,2 mmKgs = Tipo 2: 2/147 mmKgx = 2/25,17 mmKgs = Coeficiente de variação é dado por:

%29,70729,045,27

21 ===cv

%73,111173,0147

25,172 ===cv

Conclui-se que, embora menos resistente, o Tipo 1 se apresenta relativamente mais estável que o Tipo 2. 7.7 – ASSIMETRIA E CURTOSE

A média e o desvio padrão definem muito bem uma distribuição. A assimetria e a curtose acrescentam informações a esta descrição. 7.7.1 – ASSIMETRIA

Uma distribuição é simétrica quando o eixo que passa pela média divide em duas partes simetricamente iguais; caso contrário, fala-se assimetria.

Podem apresentar três casos, conforme se observa na figura abaixo.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 29: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

59

Para o calculo do coeficiente de assimetria existem diversos procedimentos. Utilizaremos a seguinte fórmula para o cálculo do coeficiente de assimetria:

( )( )∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛ −−−

=3

21 sxx

nnnAs i

O processo mecânico para o cálculo deste coeficiente é muito trabalhoso, no

entanto pode ser feito por pacotes estatísticos ou com o auxílio do Excel. O que interessa mais aqui é conhecer a interpretação deste coeficiente:

• Assimetria positiva. Significa valores concentrados à esquerda da média. Como é mostrado na curva A da figura acima.

0>As

• Simetria perfeita. Os valores estão distribuídos de forma normal em torno da média. Como é mostrado na curva B da figura acima.

0=As

• Assimetria negativa. Significa valores concentrados à direita da média. Como é mostrado na curva C da figura acima.

0<As

7.7.2 – CURTOSE

A curtose é o grau de achatamento da parte central de uma distribuição. Também como na assimetria podem ocorrer três casos, como mostra a figura abaixo.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 30: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

60

O cálculo deste coeficiente é dado da seguinte maneira:

( )( )( )( )

( )( )( )∑ −−

−−⎟

⎟⎠

⎞⎜⎜⎝

⎛ −−−−

+=

3213

3211 24

nnn

sxx

nnnnnC i

O processo mecânico para o cálculo deste coeficiente também é muito trabalhoso, no entanto pode ser feito por pacotes estatísticos ou com o auxílio do Excel. O que interessa mais aqui é conhecer a interpretação deste coeficiente:

• Curtose positiva. Significa que a curva A é mais “afunilada” que a normal padrão. Como mostra a figura acima.

0>C

• Curtose perfeita. Significa que temos a curva normal padrão (mais detalhes sobre esta curva serão vistos em capítulos posteriores). A curva normal padrão é mostrada na curva B da figura acima.

0=C

• Curtose negativa. Significa que a curva C é mais “achatada” do que a curva normal padrão. Como mostra a figura acima.

0<C

7.8 - EXERCÍCIOS DE PROPOSTOS 1. Calcule a média, a moda, a mediana, variância e desvio padrão da distribuição

de freqüência a seguir, que representa o número de erros cometidos por dia pelo sistema de computador de um departamento contábil, registrados por um período de 100 dias.

Erros 0 1 2 3 4 5 6 7 8 9 Dias 15 18 19 19 10 8 7 2 1 1

2. O fabricante de solventes químicos JFS registra dados de todos os funcionários

relacionados ao número de anos em que eles estão na empresa. Isso se encontra na tabela a seguir.

Anos de serviço Número de funcionários 0 5 105 5 15 231 15 25 173 25 35 85 35 50 31

Determine a média e o desvio padrão do número de anos de serviço na empresa.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 31: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

61

3. Foi feito um estudo em um shopping center de BH no qual se perguntou a 81 pessoas quanto elas gastavam em artigos de luxo por semana. O resultado é apresentado na tabela a seguir. Calcule a média e o desvio padrão dos gastos.

Valor (R$) Número de participantes 0 15 10 15 25 20 25 40 25 40 60 15 60 80 11

4. Em cinco testes, um estudante obteve média de 63,2 com desvio padrão 3,1.

Outro estudante teve média de 78,5 com desvio padrão de 5,5. Qual dos dois é mais consistente?

5. Dois grupos de pessoas acusavam os seguintes dados:

Grupo Peso Médio (kg) Desvio Padrão (kg) A 66,5 6,38 B 72,9 7,75

Se nesses dois grupos há pessoas que pesam, respectivamente, e ; qual delas revela maior excesso relativo de peso?

Kg2,81 Kg88

6. Por engano, um professor omitiu uma nota no conjunto de notas de 10 alunos.

Se as nove notas restantes são 48, 71, 79, 95, 45, 57, 75, 83, 97 e a média das 10 notas é 72, calcule: a) o valor da nota omitida; b) o desvio padrão do conjunto de notas dos 10 alunos.

7. Dada a tabela abaixo:

Estaturas (cm) ix in 2ix iinx ii nx2

150 154 4 154 158 9 158 162 11 162 166 8 166 170 5 170 174 3 Total

Calcule: a) Desvio padrão b) Coeficiente de variação.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 32: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

Capítulo 8 Amostragem

8.1- OBJETIVO DO CAPÍTULO

O objetivo desse capítulo é de apresentar ferramentas que possibilitam o cálculo do tamanho da amostra de populações finitas e infinitas. 8.2 – INTRODUÇÃO

Geralmente as pesquisas são realizadas por meio de estudos que compõem uma mostra extraída da população que se pretende analisar. O conceito de população é bem intuitivo, sabemos de capítulos anteriores que se trata de um conjunto de indivíduos ou objetos que apresentam em comum determinadas características definidas para o estudo. Amostra é um subconjunto da população. Tais conceitos foram vistos em capítulos anteriores. Na realização de qualquer estudo, quase nunca é possível examinar todos os elementos da população de interesse. Por exemplo, para responder à pergunta “Qual a idade média da frota de ônibus de Belo Horizonte?”, por várias razões inclusive as de custo operacional nunca poderíamos obter a idade de todos os ônibus.

É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população seríamos mais precisos. Os erros em processos de coletas de coleta e manuseio de um grande número de dados geram imprecisões não-mensuráveis no resultado final do trabalho.

Em se tratando de amostra, a preocupação central é de que ela seja representativa. Existem alguns procedimentos, descritos sucintamente nas próximas seções, que garantem, quando usados apropriadamente, essa propriedade. Ao descrevê-los estaremos sempre tratando de escolher uma amostra de tamanho em uma população de tamanho .

nN

8.3 – POPULAÇÃO-ALVO A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. A especificação da população-alvo pode parecer trivial, mas na verdade e que, em todos os levantamentos, aparecem casos dúbios em que exigem atenção especial. No caso da pergunta da introdução, provavelmente não estamos interessados em todos os ônibus, mas apenas naqueles das linhas regulares de transporte de passageiros. Isso exclui, por exemplo, os ônibus escolares. Uma causa freqüente de levantamentos ruins é a falta de clareza na definição da população-alvo. 8.4 – CARACTERÍSTICAS DE INTERESSE Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui, o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos,

Page 33: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

63

portanto, fixa-nos apenas em perguntas que contribuam para a quantificação da característica populacional de real interesse para o estudo. 8.5 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA UMA POPULAÇÃO INFINTA Procedimento: 1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar mais importante para o estudo. Se possível escolha mais do que uma variável. Calcule o tamanho para cada variável, escolhendo o maior . n 2º) Se a variável escolhida for intervalar1 e a população considerada infinita você poderá determinar o tamanho da amostra pela fórmula:

2.Zndσ⎛ ⎞= ⎜ ⎟

⎝ ⎠

Onde: Z =abscissa da distribuição normal padrão, fixado um nível de ( )1 %α− confiança. Se o nível for de 95,5%, 2Z = . Se o nível for de 95%, . 1,96Z =Se o nível for de 99%, . 2,57Z =Para outros valores, consultar a tabela de distribuição normal. σ = Desvio padrão da população, expresso na unidade variável. Você poderá avaliá-lo de, pelo menos, uma das três maneiras:

• Especificações técnicas • Resgatar o valor de estudos semelhantes • Fazer conjecturas com base em amostras piloto

d = Erro amostral expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador admite suportar entre μ e x , isto é: x dμ − ≤ , onde

μ é a verdadeira média populacional e x será a média a ser calculada com base na amostra. n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 1: Suponha que a variável escolhida em um estudo seja o peso de certa peça e que a população seja infinita. Pelas especificações do produto, o desvio padrão é de 10 kg. Logo admitindo um nível de confiança de 95,5% e um erro amostral de 1,5kg, temos: 1 Trata-se de uma escala verdadeiramente quantitativa com possibilidades de aplicação a todas as estatísticas paramétricas comuns. São exemplos de variáveis como nível intervalar: peso, altura, volume, etc.

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 34: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

64

10Kgσ = 1,5d K= g

%

( )1 % 95,5α− = ou seja; 2Z = 22.10 177,77 178

1,5n ⎛ ⎞= = ≅⎜ ⎟⎝ ⎠

peças

Com uma amostra aleatória simples de 178 peças, tem-se um erro máximo de 1,5Kg para o peso médio, com nível de confiança de 95,5%. 8.6 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA DE UMA POPULAÇÃO FINITA Procedimento: 1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar mais importante para o estudo. Se possível escolha mais do que uma variável. Calcule o tamanho para cada variável, escolhendo o maior . n 2º) Se a variável escolhida for intervalar e a população considerada finita você poderá determinar o tamanho da amostra pela fórmula:

2 2

2 2

. .( 1)

Z Nnd N Z

σ2σ

=− +

Onde: Z = Abscissa da normal padrão σ = Desvio padrão da população N =Tamanho da população d = Erro amostral n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 2: Suponha os mesmos dados do exemplo anterior e uma população finita de 600 peças.

10Kgσ = 1,5d K= g

(1 )% 95,5%α− = ou seja, 2Z = 600N =

Logo, temos:

2 2

2 2 2

2 .10 .600 137,10 1381,5 (600 1) 2 .10

n = =− +

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 35: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

65

Com uma amostra aleatória simples de 138 peças, tem-se um erro máximo de 1,5Kg para o peso médio, com nível de confiança de 95,5% considerando uma população de 600 peças. . 8.7 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA POPULAÇÃO INFINITA Se a variável escolhida for nominal ou ordinal e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula:

2

2

. .Z p qnd

=

Onde: Z = Abscissa da normal padrão p =Estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por

exemplo, se a variável escolhida for porte da empresa, poderá ser a estimativa da verdadeira proporção de grandes empresas do setor que está sendo estudado.

p

Será expresso em decimais. Assim, se 30%p = , teremos: 0,30p = . Caso não haja

estimativas prévias para p , admita 50%p = , obtendo assim o maior tamanho de amostra possível considerando constantes os valores de e d Z .

1q p= − ; d = Erro amostral expresso em decimais. O erro amostral nesse caso será a máxima diferença que o investigador admite suportar entre e p p , isto é: p p d− ≤ em que

é a verdadeira proporção e p p será a proporção (freqüência relativa) do evento a ser estudado com base na amostra. n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 3: Suponha que a variável escolhida em um estudo seja a proporção de eleitores favoráveis ao candidato X e que o investigador tenha elementos para suspeitar que essa porcentagem seja de 30%. Admita a população infinita, um nível de confiança de 99% e um erro amostral de 2% (ou seja: que a diferença entre a verdadeira proporção de eleitores do candidato X e a estimativa a ser calculada na amostra seja no máximo de 2%). Assim, temos: (1 )% 99%α− =

2,57Z =

30% 0,30p = =

1 30 0,70q = − = 2% 0,02d = =

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 36: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

66

2

2

(2,57) .(0,30).(0,70) 3.467,57 3.468(0,02)

n = = ≅

Ou seja, consultando, aleatoriamente, 3.468 eleitores, poderemos inferir sobre a verdadeira proporção de eleitores do candidato X, com erro máximo de 2%. 8.8 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA POPULAÇÃO FINITA. Se a variável escolhida for nominal ou ordinal e a população finita, temos:

2

2 2

. . .( 1) . .

Z p q Nnd N Z p q

=− +

Onde: N =Tamanho da amostra Z = Abscissa da normal padrão p =Estimativa da proporção

1q p= − ; d = Erro amostral n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 3: Suponha os mesmos dados do exemplo anterior e que a população de eleitores seja finita de 20.000 eleitores. Logo:

2

2 2(2,57) .(0,30).(0,70).(20.000) 2.955,33 2.956

(0,02) .(20.000 1) (2,57) (0,30).(0,70)n = =

− +≅

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 37: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

67

P(0 ≤ Z ≤ zc)

TABELA - Distribuição Normal Padrão Z~N(0,1)

zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 *0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 *0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,10 ou + 0,4999

NOTA: Para valores de Z acima de 3,09, use 0,4999 como área. * Use esses valores comuns resultantes de interpolação:

Escore z Área 1,645 0,4500 2,575 0,4950

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves

Page 38: Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. · ... (o eixo x) possui uma escala contínua, e os blocos são ... são plotados nos eixos horizontal (x) e vertical

68

EXERCÍCIOS PROPOSTOS 1) Dada a população (rendas em R$1.000,00)

29 6 34 12 15 31 34 20 8 308 15 24 22 35 31 25 26 20 1030 4 16 21 14 21 16 18 20 1231 20 12 18 12 25 26 13 10 513 19 30 17 25 29 25 28 32 1510 21 18 7 16 14 11 22 21 3632 17 15 13 8 12 23 25 13 215 12 32 21 10 30 30 10 14 1734 22 30 48 19 12 8 7 15 2026 25 22 30 33 14 17 13 10 9

a) calcule o tamanho da amostra para estimar a média, sendo , $2.000,00d R=

$7.000,00Rσ = e (1 )% 95,5%α− = ; b) retire uma mostra aleatória simples; considerando o tamanho amostral obtido em (a); c) agrupe os elementos da amostra em classes; d) calcule a média; e) calcule o desvio padrão amostral; f) calcule a media da população e verifique se x dμ − ≤

2) Calcule o tamanho da amostra de colegas desta faculdade, para estimar a proporção dos usuários de óculos. Admita três alternativas para o erro amostral e nível de confiança 95,5%. 3) Sendo , população infinita, 0,50p q= = 0,05d = e (1 )% 95,5%α− = , determine o tamanho amostral. 4) Sendo 0,50p q= = , população de 200.000, 0,05d = e Z = , determine o tamanho amostral. Compare com o resultado do exercício anterior. 5) Qual o tamanho da mostra que o Departamento de Trânsito de uma grande cidade deve tomar para estimar a porcentagem de semáforos defeituosos, se o objetivo é ter 95,5% de confiança em não errar em mais de 3%? 6) Estudos anteriores mostram que o desvio padrão da altura dos homens que cursam essa faculdade é de 10 cm. Querendo estimar a altura média de todos os homens desta faculdade, com tolerância de 3 cm e probabilidade de 0,9555,quantas observações deverão ser utilizadas?

Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves