estatistica aplicada unid i -...

69
Estatística Aplicada

Upload: vunguyet

Post on 13-Aug-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

Estatística Aplicada

Page 2: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

Professora conteudista: Angela Maria Pizzo

Page 3: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

SumárioEstatística AplicadaUnidade I

1 INTRODUÇÃO À ESTATÍSTICA .........................................................................................................................11.1 Introdução ..................................................................................................................................................11.2 Importância da estatística ...................................................................................................................21.3 Grandes áreas da estatística ...............................................................................................................21.4 Fases do método estatístico ................................................................................................................51.5 Dados estatísticos ..................................................................................................................................91.6 Formas iniciais de tratamento dos dados .................................................................................. 101.7 Notação por índices .............................................................................................................................11

1.7.1 Notação sigma (∑) ..................................................................................................................................111.8 Séries estatísticas – simples e compostas .................................................................................. 15

1.8.1 Tipos de séries estatísticas .................................................................................................................. 161.8.2 Tabelas de dupla entrada ..................................................................................................................... 18

1.9 Apresentação de dados - gráficos e tabelas ............................................................................. 202 MEDIDAS DE TENDÊNCIA CENTRAL: MÉDIA, MODA E MEDIANA PARA DADOS SIMPLES .................................................................................................................................................. 24

2.1 A média aritmética simples (µ,x) ................................................................................................... 252.2 A média aritmética ponderada ....................................................................................................... 282.3 A mediana ............................................................................................................................................... 292.4 A moda ..................................................................................................................................................... 31

3 MEDIDAS DE DISPERSÃO PARA DADOS SIMPLES .............................................................................. 333.1 Amplitude total ..................................................................................................................................... 373.2 Desvio médio absoluto ....................................................................................................................... 373.3 Variância .................................................................................................................................................. 393.4 Desvio padrão ........................................................................................................................................ 44

4 DISTRIBUIÇÃO DE FREQUÊNCIAS ............................................................................................................. 474.1 A construção de uma distribuição de frequências para dados contínuos .................... 484.2 A construção de uma distribuição de frequências para dados discretos ...................... 554.3 Representação gráfica de dados agrupados ............................................................................. 56

Unidade II

5 AS MEDIDAS DE POSIÇÃO E VARIABILIDADE NUMA DISTRIBUIÇÃO DE FREQUÊNCIA ...... 665.1 As medidas de posição ....................................................................................................................... 67

5.1.1 A média ....................................................................................................................................................... 675.1.2 A mediana .................................................................................................................................................. 695.1.3 A moda ........................................................................................................................................................ 70

Page 4: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

5.2 As medidas de dispersão numa distribuição de frequência .................................................715.2.1 O desvio médio ........................................................................................................................................ 715.2.2 Variância .................................................................................................................................................... 725.2.3 Desvio padrão ........................................................................................................................................... 74

6 INTRODUÇÃO À PROBABILIDADE ............................................................................................................. 786.1 Teoria dos conjuntos, espaço amostral e eventos ................................................................... 78

7 PROBABILIDADE: ORIGEM, MÉTODOS E PRINCIPAIS TEOREMAS ................................................ 907.1 Origens da probabilidade .................................................................................................................. 90

7.1.1 Métodos objetivos .................................................................................................................................. 917.1.2 Método subjetivo .................................................................................................................................... 96

7.2 Principais teoremas de probabilidade .......................................................................................... 978 REVISÃO ............................................................................................................................................................102

Page 5: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

1

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

1 INTRODUÇÃO À ESTATÍSTICA

1.1 Introdução

A palavra estatística lembra, à maioria das pessoas, recenseamentos. Os censos existem há milhares de anos e constituem um esforço imenso e caro feito pelos governos com o objetivo de conhecer seus habitantes, sua condição socioeconômica, sua cultura, religião, etc. Portanto, associar-se estatística a censo é perfeitamente correto do ponto de vista histórico, sendo interessante salientar que as palavras estatística e estado têm a mesma origem latina: status.

A estatística é também comumente associada às pesquisas de opinião pública, aos vários índices governamentais, aos gráficos e médias publicadas diariamente na imprensa. Na realidade, entretanto, a estatística engloba muitos outros aspectos, sendo fundamental na análise de dados provenientes de quaisquer processos em que exista variabilidade.

É possível distinguir duas concepções para a palavra estatística:

No plural (estatísticas), indica qualquer coleção de dados numéricos, reunidos com a finalidade de fornecer informações acerca de uma atividade qualquer. Assim, por exemplo, as estatísticas demográficas referem-se aos dados numéricos sobre nascimentos, falecimentos, matrimônios, desquites, etc. As estatísticas econômicas consistem em dados numéricos relacionados com emprego, produção, vendas e com outras

5

10

15

20

Unidade I

Page 6: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

2

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

atividades ligadas aos vários setores da vida econômica. No singular (estatística), indica a atividade humana especializada ou um corpo de técnicas, ou ainda uma metodologia desenvolvida para a coleta, a classificação, a apresentação, a análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões.

1.2 Importância da estatística

O mundo está repleto de problemas. Para resolvermos a maioria deles, necessitamos de informações. Mas que tipo de informações? Quantas? E após obtê-las, o que fazer com elas? A estatística lida com essas informações, associando os dados ao problema, descobrindo como e o que coletar e obtendo conclusões a partir de todas essas informações de tal forma que possam ser entendidas por outras pessoas.

Portanto, os métodos estatísticos auxiliam o cientista social, o economista, o engenheiro, o agrônomo e muitos outros profissionais a realizarem o seu trabalho com mais eficiência.

Vejamos alguns exemplos:

Os estatísticos do governo conduzem censos de população, moradia, produtos industriais, agricultura e outros. São feitas compilações sobre vendas, produção, inventário, folha de pagamento e outros dados das indústrias e empresas. Essas estatísticas informam ao administrador como a sua empresa está crescendo, seu crescimento em relação a outras empresas e como planejar ações futuras. A análise dos dados é muito importante para se fazer um planejamento adequado.

1.3 Grandes áreas da estatística

Para fins de apresentação, é usual dividir-se a estatística em três grandes áreas, embora não se trate de ramos isolados:

• amostragem, que é o mecanismo de coleta de dados;

• estatística descritiva, que se ocupa da organização, apresentação e sintetização de dados;

Estatística é um conjunto de técnicas e métodos que nos auxiliam no processo de tomada de decisão na presença de incerteza.

5

10

15

20

25

30

Page 7: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

3

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

• estatística inferencial, que constitui o conjunto de métodos para a tomada de decisões, nas situações em que existem incerteza e variação.

Amostragem

É o processo de escolha da amostra. É a parte inicial de qualquer estudo estatístico. Consiste na escolha criteriosa dos elementos a serem submetidos ao estudo.

Exemplo 1. Pesquisas sobre tendências de votação. Em épocas de eleição, é comum a realização de pesquisas com o objetivo de se conhecerem as tendências do eleitorado. Para que os resultados sejam, de fato, representativos, toma-se o cuidado de se entrevistar um conjunto de pessoas com características socioeconômicas, culturais, religiosas, etc. tão próximas quanto possível da população à qual os resultados da pesquisa serão estendidos. A escolha da amostra, a redação do questionário, a entrevista, a codificação dos dados, a apuração dos resultados são as etapas deste tipo de pesquisa.

População e amostra

O estudo de qualquer fenômeno, seja ele natural, social, econômico ou biológico, exige a coleta e a análise de dados estatísticos. A coleta de dados é, pois, a fase inicial de qualquer pesquisa.

População é a coleção de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma amostra da população. É sobre os dados da amostra que se desenvolvem os estudos, visando a fazer inferências sobre a população.

Exemplo 2. Avaliação de um programa de ensino. Toma-se certo número de pares de turmas: a um conjunto de turmas

5

10

15

20

25

30

Page 8: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

4

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

ensina-se um assunto por um novo método, e ao outro, pelo método clássico. Aplica-se uma prova a ambos os grupos. As notas observadas nesses conjuntos de turmas constituem a nossa amostra. Se os resultados do novo método forem melhores, iremos aplicá-lo a todas as turmas, isto é, à população. A partir da amostra, estabelecemos o que é conveniente para a população, ou seja, fazemos uma inferência sobre a população.

Exemplo 3. Renda média per capita em diversas regiões do país. Toma-se um conjunto de indivíduos em cada região, escolhidos ao acaso, e sobre esse grupo fazem-se os estudos. Os indivíduos assim escolhidos constituem a amostra, e os resultados nela observados serão estendidos à população.

Estatística descritiva

É a parte mais conhecida. Quem vê o noticiário, na televisão ou nos jornais, sabe o quão frequente é o uso de médias, índices e gráficos nas notícias.

Exemplo 4. INPC (Índice Nacional de Preços ao Consumidor). Sua construção envolve a sintetização, em um único número, dos aumentos dos produtos de uma cesta básica.

Exemplo 5. Anuário Estatístico Brasileiro. O IBGE publica a cada ano este anuário, apresentando, em várias tabelas, os mais diversos dados sobre o Brasil: educação, saúde, transporte, economia, cultura, etc. Embora simples, fáceis de serem entendidas, as tabelas são o produto de um processo demorado e extremamente dispendioso de coleta e apuração de dados.

Exemplo 6. Anuário Estatístico da Embratur. A Embratur publica este anuário apresentando, em várias tabelas e gráficos, os mais diversos dados sobre turismo interno e dados sobre entrada de turistas estrangeiros no Brasil.

5

10

15

20

25

30

Page 9: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

5

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Estatística inferencial (ou indutiva)

A tomada de decisões sobre a população, com base em estudos feitos sobre os dados da amostra, constitui o problema central da inferência estatística.

Exemplo 7. Análise financeira. Os analistas financeiros estudam dados sobre a situação da economia, visando a explicar tendências dos níveis de produção e de consumo, projetando-os para o futuro.

Exemplo 8. Ocorrência de terremotos. Os geólogos estão continuamente coletando dados sobre a ocorrência de terremotos. Gostariam de inferir quando e onde ocorrerão tremores, e qual a sua intensidade. Trata-se, sem dúvida, de uma questão complexa, que exige longa experiência geológica, além de cuidadosa aplicação de métodos estatísticos.

Probabilidade

O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A existência da incerteza deve-se ao fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados quanto a determinadas características comuns baseia-se em uma parcela do total das observações. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria da Probabilidade. Essa teoria procura quantificar a incerteza existente em determinada situação.

1.4 Fases do método estatístico

Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo.

Fica claro, assim, que as três áreas da estatística não são separadas ou distintas, mas tendem a se entrelaçar. A descrição e o resumo dos dados tende a ser a primeira fase da análise dos mesmos; já a teoria e os fundamentos da amostragem se baseiam na teoria da probabilidade, que nos leva a uma inferência ou a uma tomada de decisões baseada nas informações apresentadas.

5

10

15

20

25

30

Page 10: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

6

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

As fases principais são as seguintes:

• definição do problema;

• planejamento;

• coleta de dados;

• apuração dos dados;

• apresentação dos dados;

• análise e interpretação dos dados.

Descrevendo mais atentatamente cada fase:

Definição do problema

A primeira fase do trabalho consiste em uma definição ou formulação correta do problema a ser estudado. Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que se necessita pode, muitas vezes, ser encontrada nesses últimos.

Planejamento

O passo seguinte, após a definição do problema, compreende a fase do planejamento, que consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. É preciso planejar o trabalho a ser realizado, tendo em vista o objetivo que se pretende atingir. É nesta fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento:

• levantamento censitário – quando a contagem for completa, abrangendo todo o universo;

• levantamento por amostragem, quando a contagem for parcial.

Observe quais são as fases principais do método estatístico – compõem a organização de um projeto, sua execução e apresentação final.

5

10

15

20

25

Page 11: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

7

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Outros elementos importantes que devem ser tratados nessa mesma fase são:

• cronograma das atividades – através do qual são fixados os prazos para as várias fases;

• custos envolvidos;

• exame das informações disponíveis;

• delineamento da amostra, etc.

Coleta dos dados

O terceiro passo é essencialmente operacional, compreendendo a coleta das informações propriamente ditas. Nesta fase do método estatístico, é conveniente estabelecer uma distinção entre duas espécies de dados:

• dados primários – quando são publicados ou comunicados pela própria pessoa ou organização que os haja escolhido.

• dados secundários – quando são publicados ou comunicados por outra organização.

Um conjunto de dados é, pois, primário ou secundário em relação a alguém. As tabelas do censo demográfico são fontes primárias. Quando determinado jornal publica estatísticas extraídas de várias fontes e relacionadas com diversos setores industriais, os dados são secundários para quem desejar utilizar-se deles em alguma pesquisa que esteja desenvolvendo.

A coleta de dados pode ser realizada de duas maneiras:

• coleta direta – quando é obtida diretamente da fonte, como no caso da empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca;

5

10

15

20

25

Page 12: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

8

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

• coleta indireta – quando é inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão.

Apuração dos dados

Antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento prévio, a fim de torná-los mais expressivos. A quarta etapa do processo é, então, a da apuração ou sumarização, que consiste em resumir os dados através de sua contagem e agrupamento.

Apresentação dos dados

Há duas formas de apresentação ou exposição dos dados observados, que não se excluem mutualmente:

• apresentação tabular – é uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado, segundo algumas regras práticas adotadas pelos diversos sistemas estatísticos. As tabelas têm a vantagem de conseguir expor, sinteticamente e em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo que se pretende analisar;

• apresentação gráfica – constitui uma apresentação geométrica dos dados numéricos. Embora apresentação tabular seja de extrema importância, no sentido de facilitar a análise numérica de dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como conseguida através de um gráfico.

Análise e interpretação dos dados

Nesta última etapa, o interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema.

Observe em jornais e revistas que, normalmente, as informações gráficas têm uma assimilação mais rápida por parte dos leitores.

5

10

15

20

25

30

Page 13: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

9

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

A análise dos estatísticos está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam características particulares desse conjunto. O significado exato de cada um dos valores obtidos através do cálculo das várias medidas estatísticas disponíveis deve ser bem interpretado. É possível mesmo, nesta fase, arriscar algumas generalizações, as quais envolverão, como mencionado anteriormente, algum grau de incerteza, porque não se pode estar seguro de que o que foi constatado para aquele conjunto de dados (a amostra) se verificará igualmente para a população.

1.5 Dados estatísticos

Quando se trabalha com a observação, a mensuração, a análise e a interpretação de números, esses números nos conduzem a índices inflacionários, índices de desemprego, probabilidade de determinado candidato ganhar as eleições, etc. Tais números, portanto, serão chamados de dados estatísticos. Esses dados precisarão ser organizados e sumarizados para sua correta interpretação.

Dado bruto significa que os dados não estão numericamente organizados e processados. O processamento e a organização dos dados é que os transformam em informação, enfatizando seus aspectos mais importantes. A informação, portanto, é resultado de um tratamento dos dados.

Para organizar e processar os dados estatísticos, podemos utilizar resumos visuais e numéricos, através de gráficos, mapas, tabelas e modelos numéricos.

A mensuração ou a observação de itens como índices de preços, renda mensal per capita de um Estado, etc., dão origem aos dados estatísticos. Como esses itens originam valores que tendem a apresentar um certo grau de variabilidade quando são medidos sucessivas vezes, chamamos então de variáveis.

É importante identificar os quatro tipos de variáveis: variáveis contínuas, variáveis discretas, variáveis nominais e variáveis por posto.

5

10

15

20

25

30

Page 14: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

10

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

I. Variáveis contínuas: são as variáveis que podem assumir qualquer valor num intervalo contínuo (dado contínuo). Exemplos: altura, peso, velocidade, etc.

II. Variáveis discretas: em geral originam-se da contagem de itens e só podem assumir valores inteiros. Exemplos: número de alunos em sala de aula, número de professores que trabalham na escola, etc.

III. Variáveis nominais: são aquelas que existem com o objetivo de definir categorias, e as observações, mensurações e análises são feitas levando-se em conta essas mesmas categorias. Exemplos de categorias seriam: a separação por sexo, idade, nível de escolaridade, etc.

IV. Variáveis por posto: quando existe o desejo de dispor os elementos observados segundo uma ordem de preferência ou desempenho, atribuem-se valores relativos para indicar esta ordem. Exemplo: primeiro, segundo, terceiro.

As variáveis discretas e contínuas são ditas variáveis quantitativas porque envolvem dados numéricos. Já as variáveis nominais e por posto precisam ser transformadas em valores numéricos para serem objeto da análise estatística, e são ditas variáveis qualitativas.

1.6 Formas iniciais de tratamento dos dados

Em geral, quando nos propomos a buscar, construir informações a partir de dados, deparamo-nos, inicialmente, com um conjunto de dados brutos que pouco nos dizem. É preciso organizá-los minimamente para que eles comecem a fazer algum sentido, viabilizando sua análise.

Uma primeira forma de organização dos dados é o chamado rol. Obtemos o rol quando organizamos os dados brutos em ordem crescente ou decrescente de grandeza. A amplitude do

• variáveis discretas e contínuas = variáveis quantitativas;

• variáveis nominais e por posto = variáveis qualitativas.

5

10

15

20

25

Page 15: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

11

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

rol é obtida pela diferença entre o maior e o menor número do rol. Utiliza-se o rol quando o conjunto de dados for pequeno, ou seja, for inferior a 30 observações.

Por outro lado, quando se trata de um conjunto grande de dados, que seja superior a 30 observações, utilizamos a distribuição de frequências, que consiste em organizar os dados brutos em classes, a fim de identificar o número de itens pertencentes a cada classe, denominado frequência de classe. Os dados são assim organizados em intervalos de classes. Este assunto será estudado no módulo II.

1.7 Notação por índices

A notação por índices é bastante utilizada na estatística, sendo assim importante esclarecer seu significado. O símbolo xi

(onde se lê “x índice i”) irá representar qualquer um dos n valores assumidos pela variável x, x1,x2,x3,x4,...,xn. “n” é denominado índice e poderá assumir qualquer dos números entre 1, 2, 3, 4, ..., n.

1.7.1 Notação sigma (∑)

A maioria dos processos estatísticos vai exigir o cálculo da soma de um conjunto de números. A letra maiúscula grega sigma (∑) é utilizada para representar essas somas.

Assim, se uma determinada variável y tiver os valores 3, 5, 7, 9 e 11, o ∑y será:

∑y = 3+5+7+9+11

∑y = 35

Por outro lado, se o consumo semanal de arroz de x, durante um mês, foram 2kg,4kg, 3kg, 5kg, o total consumido por x no mês teria sido:

∑x = 2+4+3+5

∑x = 14; x teria consumido 14kg de arroz durante o mês referido.

• rol inferior a 30 observações;

• distribuição de frequências superior a 30 observações.

5

10

15

20

25

Page 16: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

12

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

A notação sigma possui algumas propriedades que precisamos desenvolver, para facilitar os conteúdos que estudaremos nesta disciplina.

a) x x xii

n = = ∑∑∑ =1 ; isso significa que devemos somar as n observações de x, começando com a primeira.

Por exemplo, num conjunto de dados em que xi={2,4,6,8,10,12}, onde n=6, temos:

x x

x

ii

nii

i

= =∑ ∑∑

= = + + + + +

=1 1

62 4 6 8 10 12

42

Por outro lado, é possível utilizar essa notação quando se pretende analisar a soma de apenas uma parte dos dados disponibilizados, podendo-se, portanto, abreviar a soma de um conjunto de dados. Desta forma, podemos ter:

I) x x x xii1 2 3 1

3+ + = =∑

II) x x x x xii8 9 10 11 8

11+ + + = =∑b) Se cada valor da variável x é multiplicado ou dividido por

uma constante, temos que isso será igual ao valor da constante multiplicado ou dividido pela somatória de x.

c x c x. .= ∑∑Assim,

4 4 4 4 4

4 4

1 2 3 41

4

1 2 3 41

4

x x x x x

x x x x x

ii

ii

= + + +

= + + + =

=

=

∑( )

5

10

15

20

Page 17: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

13

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Por exemplo: se xi={2,4,6,8,10,12}; onde n=6 e cada valor de x é multiplicado

pela constante c=2, temos:

cx c x

cx c xii

ii

=

= = + + + + + =

=

∑∑

∑ ∑= =1

6

1

6

2 2 2 4 2 6 2 8 2 10 2 12( ) ( ) ( ) ( ) ( ) ( )

22 2 4 6 8 10 12

2 2 2 42 841

6

1

6

( )

( )

+ + + + +

= = ===∑∑ x xi iii

c) O somatório de uma constante c será igual ao produto da constante pelo número de vezes (n) que ela se repete. Assim, temos:

c ncii i

n

==∑

Por exemplo, se numa determinada observação o conjunto de dados de xi={7,7,7,7,7,7}, onde n=6, temos que xi é uma constante c que se repete. Então temos:

x c

x c nc

i i

i iii

=

= = = + + + + + = ===∑∑

1

6

1

6

7 7 7 7 7 7 6 7 42( )

d) O somatório de uma soma ou de uma diferença de duas variáveis será igual à soma ou à diferença dos somatórios individuais das duas variáveis. Assim, temos:

( )

( )

x y x y

x y x y

i i i ii

n

i

n

i

n

i i i ii

n

i

n

i

n

+ = +

− = −

===

===

∑∑∑

∑∑∑111

111

5

10

15

20

Page 18: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

14

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Por exemplo:

i X Y (X-Y)

1 8 5 3

2 3 2 1

3 4 0 4

4 5 4 1

- - - -∑ 20 11 9

( )x y

x y

− =

− = − =∑∑ ∑

9

20 11 9

e) O somatório de um conjunto de dados xi ao quadrado nos obriga a elevar cada elemento de xi ao quadrado para efetuar a soma. Assim, temos:

x x x x xii

n

n2

112

22

32 2

=∑ = + + + +...

Por exemplo, se numa dada observação o conjunto de dados de xi={2,4,6,8,10}, onde n=5, temos:

xii

2

1

5

=∑ =2 +4 +6 +8 +10 =4+16+36+64+100=2202 2 2 2 2

f) O somatório ao quadrado de um conjunto de dados será obtido tomando-se a soma dos valores de xi e elevando-se ao quadrado. Assim, temos:

( ) ( ... )x x x x xii

n

n=∑ = + + + +

1

21 2 3

2

Por exemplo, se temos um mesmo conjunto xi={2,4,6,8,10}, onde n=5, tal qual no exemplo do item e, teremos um resultado distinto. Vejamos, neste caso:

( ) ( ) ( )xii=∑ = + + + + = =

1

52 2 22 4 6 8 10 30 900

Esta notação se encontra em livros de matemática. Busque outros exemplos.

5

10

15

Page 19: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

15

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

1.8 Séries estatísticas – simples e compostas

Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação: quantitativa. No sentido mais amplo, série é uma sucessão de números referidos a qualquer variável. Se os números expressarem dados estatísticos, a série será chamada de série estatística.

Em sentido mais estreito, pode-se dizer que uma série estatística é uma sucessão de dados estatísticos referidos a caracteres qualitativos, ao passo que uma sucessão de dados estatísticos referidos a caracteres quantitativos configurará uma serração. Em outros termos, a palavra série é usada normalmente para designar um conjunto de dados dispostos de acordo com um caráter variável, residindo a qualidade serial na disposição desses valores, e não em uma disposição temporal ou espacial de indivíduos. As tabelas servem para apresentar séries estatísticas; os três caracteres presentes na tabela que as apresenta são:

• a época (fator temporal ou cronológico) – a que se refere o fenômeno analisado;

• o local (fator espacial ou geográfico) – onde o fenômeno acontece;

• o fenômeno (espécie do fato ou fator especificativo) – que é descrito.

As séries são divididas em dois grupos:

• séries homógradas: aquelas em que a variável descrita apresenta variação discreta ou descontínua. São séries homógradas a série temporal, a série geográfica e a série específica.

• séries heterógradas: aquelas nas quais o fenômeno ou o fato apresenta gradações ou subdivisões. Embora

5

10

15

20

25

Page 20: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

16

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

fixo, o fenômeno varia em intensidade. A distribuição de frequências é uma série heterógrada.

1.8.1 Tipos de séries estatísticas

As séries estatísticas diferenciam-se de acordo com a variação de um dos três elementos: época, local e fenômeno.

Série temporal

Também chamada de série cronológica, série histórica, série evolutiva ou marcha, identifica-se pelo caráter variável do fator cronológico. Assim, deve-se ter:

• elemento variável: época

• elementos fixos: local e fenômeno

Exemplo:

Tabela 1.1Operadora WKX – Venda de bilhetes aéreos – Mercado

Interno - 1995

Meses Vendas ( em milhares de reais)Janeiro 2300

Fevereiro 1800

Março 2200

Abril 2210

Maio 2360

Junho 2600

Julho 2690

Agosto 3050

Setembro 3500

Outubro 3440

Novembro 3100

Dezembro 2760

TOTAL ANUAL 31510Fonte: Departamento de Análise de Mercado

5

10

Page 21: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

17

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Série geográfica

Também chamada de série territorial, série espacial ou série de localização, identifica-se pelo caráter variável do fator geográfico. Assim, deve-se ter:

• elementos variável: local;

• elementos fixos: época e fenômeno.

Exemplo:

Tabela 1.2Operadora WKX - Vendas por Unidade da Federação – 2008

Unidades da Federação Vendas (em milhares de reais)

Minas Gerais 4000Paraná 2230Rio Grande do Sul 6470Rio de Janeiro 8300São Paulo 10090Outros 420TOTAL BRASIL 31510

Fonte : Departamento de Análise de Mercado

Série específica

Também chamada de série categórica, série por categoria, identifica-se pelo caráter variável de fator especificativo. Assim, deve-se ter:

• elemento variável: fenômeno;

• elementos fixos: local e época.

Exemplos:

Tabela 1.3Operadora WKX - Venda de bilhetes aéreos por Linha – 2008

Linha do produto Vendas (em milhares de reais)Linha A 6450Linha B 9310Linha C 15750TODAS AS LINHAS 31510

Fonte : Departamento de Análise de Mercado

5

10

15

Page 22: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

18

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Tabela 1.4Número de empregados das várias classes de salários no estado

de São Paulo – 2008Classes de salários (R$) Número de empregados

Até 80 41.326

De 80 a 119 123.236

De 120 a 159 428.904

De 160 a 199 324.437

De 200 a 399 787.304

De 400 a 599 266.002

De 600 a 799 102.375

De 800 a 999 56.170

1000 e mais 103.788

TOTAL 2.233.542Fonte: Serviço de Estatística da Previdência e Trabalho – (dados alterados para

melhor compreensão)

1.8.2 Tabelas de dupla entrada

As tabelas apresentadas anteriormente são tabelas estatísticas simples, em que apenas uma série está representada. É comum, todavia, haver necessidade de apresentar, em uma única tabela, mais do que uma série. Quando as séries aparecem conjugadas, tem-se uma tabela de dupla entrada.

Exemplos:

A) Série específico-temporal.B) Série geográfico-temporal.

Tabela 1.5População economicamente ativa por setor de atividades – Brasil

SetorPopulação (1000 hab.)

1940 1950 1960

Primário 8.968 10.255 12.163

Secundário 1.414 2.347 2.962

Terciário 3.620 4.516 7.525Fonte : IPEA

5

10

Page 23: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

19

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Tabela 1.6População indígena brasileira

Unidade de produçãoProdução

1937 1938 1939

Acre 5.007 4.765 4.727

Amazonas 6.858 5.998 5.631

Pará 4.945 4.223 4.500

Mato Grosso 1.327 1.285 1.235

Outros estados 333 539 337Fonte : Anuário Estatístico do Brasil – IBGE (dados alterados para melhor

compreensão)

Observação:

Nem sempre uma tabela representa uma série estatística. Por vezes, os dados reunidos não revelam uniformidade, sendo meramente um aglomerado de informações gerais sobre determinado assunto, as quais, embora úteis, não apresentam a consistência necessária para se configurar uma série estatística.

Exemplo:

Tabela 1.7Situação dos espetáculos cinematográficos no Brasil – 1967

Especificação Dados numéricosNúmero de cinemas 2.488

Lotação dos cinemas 1.722.348

Sessões por dia 3.933

Filmes de longa metragem 131.330.488

Meia entrada 89.581.234 Fonte : Anuário Estatístico do Brasil – IBGE

5

10

Page 24: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

20

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

1.9 Apresentação de dados - gráficos e tabelas

A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico.

Diretrizes para a construção de um gráfico:

• o título do gráfico deve ser o mais claro e completo possível. Sendo necessário, acrescentem-se subtítulos;

• a orientação geral dos gráficos deve ser da esquerda para a direita;

• as quantidades devem ser representadas por grandezas lineares;

• sempre que possível, a escala vertical há de ser escolhida de modo a aparecer a linha 0 (zero);

• só devem ser inclusas no desenho as coordenadas indispensáveis para guiar a vista na leitura. Um tracejado muito cerrado dificulta o exame do gráfico;

• a escala horizontal deve ser lida da esquerda para a direita, e a vertical, de baixo para cima;

• os títulos e marcações do gráfico dispor-se-ão de maneira que sejam facilmente legíveis, partindo da margem horizontal inferior ou da margem esquerda.

5

10

15

20

Page 25: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

21

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Leitura e interpretação de um gráfico:

• declarar qual o fenômeno ou fenômenos representados, a região considerada, o período de tempo, a fonte dos dados, etc.;

• examinar o tipo de gráfico escolhido, verificar se é o mais adequado, criticar a sua execução, no conjunto e nos detalhes;

• analisar cada fenômeno separadamente, fazendo notar os pontos mais em evidência, o máximo e o mínimo, as mudanças mais bruscas;

• investigar se há uma “tendência geral” crescente ou decrescente ou, então, se o fato exposto é estacionário;

• procurar descobrir a existência de possíveis ciclos periódicos, qual o período aproximado, etc.

Eis os tipos mais comuns de gráficos:

Gráfico em linhas

500

400

300

200

100

01 2 3 4 5 6 7

Sequência 1 Sequência 2

Gráfico em colunas

100

80

60

40

20

01940 1950 1960 1970

População

População

5

10

15

Page 26: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

22

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Gráfico em barras

É semelhante ao gráfico em colunas, porém, os retângulos são dispostos horizontalmente.

1970

1960

1950

1940

0 20 40 60 80 100

Populaçãodo Brasil

População do Brasil

Gráfico em setores

Anos Receita (em R$ 1.000.000,00)

1975 90

1976 120

1977 150

Total 360Fonte: Departamento da Fazenda, Município X.

É a representação gráfica de uma série estatística, em círculo, por meio de setores . É utilizado principalmente quando se pretende comparar cada valor da série com o total.

Total __________360ºParte___________ xº

• Para 1975: 360 - 360º 90 - xº x = 90º

• Para 1976: 360 - 360º 120 - xº x = 120º

5

10

15

Page 27: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

23

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

• Para 1977: 360 - 360º 150 - xº x = 150º

1975 1976 1977

Receita do Município X

Gráfico polar

É a representação de uma série por meio de um polígono.

Movimento mensal de compras de uma agência em 1972

Meses Valores (R$1.000,00)

Janeiro 12Fevereiro 13Março 14Abril 12Maio 15Junho 19Julho 17Agosto 18Setembro 14Outubro 16Novembro 12Dezembro 18

20151050

JanDez

Nov

Out

Set

AgoJul

Jun

Mai

Abr

Mar

Fev

Sequência 1

Resumindo:• a estatística utiliza métodos

matemáticos para solucionar problemas reais de tomada de decisão quando há incerteza;

• em situações nas quais poderíamos contar unicamente com a sorte, temos um instrumento que nos possibilita aumentar as chances de tomar a melhor decisão;

• utiliza ferramentas matemáticas definidas. Mesmo lidando com um grande número de dados, essas ferramentas resumem a análise em tabelas ou gráficos;

• na prática, a estatística pode ser empregada como base conceitual e fundamental em várias outras ciências, inclusive em análises gerenciais.

5

Page 28: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

24

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

2 MEDIDAS DE TENDÊNCIA CENTRAL: MÉDIA, MODA E MEDIANA PARA DADOS SIMPLES

Na realização de qualquer estudo, quase nunca é possível examinar todos os elementos da população de interesse. Temos usualmente de trabalhar com uma amostra da população. A inferência estatística nos dá elementos para generalizar, de maneira segura, as conclusões obtidas da amostra para a população.

É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais precisos. Os erros de coleta e manuseio de um grande número de dados são maiores do que as imprecisões a que estamos sujeitos quando generalizamos, via inferência, as conclusões de uma amostra bem selecionada.

Em se tratando de amostra, a preocupação central é que ela seja representativa.

Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente dois problemas:

• definir cuidadosamente a população de interesse;

• selecionar a característica que iremos pesquisar.

Portanto, temos situações profissionais em que nos bastam poucos dados ou estatísticas de dados simples. Por outro lado, há também situações nas quais um número maior de elementos deve ser investigado e tratado como distribuições de frequência.

Quando estamos diante de um conjunto de dados, seja ele pequeno ou grande, em geral, buscamos medidas que possam ser usadas para indicar um valor que tende a representar melhor aquele determinado conjunto de números. E as medidas mais

5

10

15

20

25

Page 29: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

25

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

usadas neste sentido são as chamadas medidas de tendência eventual ou central, que são a média, mediana e moda.

Sabe-se que estes valores serão medidos de forma distinta conforme um grande conjunto de dados ou um pequeno conjunto de dados. Também o cálculo desses valores irá ser afetado caso as variáveis sejam discretas ou contínuas.

Distribuição por frequência é a tabela em que se resumem grandes quantidades de dados, determinando o número de vezes que cada dado ocorre (frequência) e a porcentagem com que aparece (frequência relativa).

ATENÇÃO: neste módulo, trataremos do cálculo destas estatísticas para os chamados dados simples ou conjuntos de dados com menos que 30 elementos.

2.1 A média aritmética simples (µ,x)

A média aritmética é um dos valores mais representativos de um conjunto de dados. Obtém-se o valor da média aritmética dividindo-se o somatório dos valores do conjunto de dados pelo número de valores total deste conjunto.

Assim, temos que:

média = x

n

ii

n

=∑

1

Para a população, calcula-se a média aritmética utilizando-se os seguintes parâmetros:

µ = =∑ Xi

Ni i

N

, onde

µ ⇒ Média aritmética da população (parâmetro)

N ⇒ Total de observações da população (total da

população)

Xi ⇒ Cada variável populacional

Em estatística a média é o valor médio de uma distribuição ou de um conjunto de dados, determinado segundo uma regra estabelecida a priori e que se utiliza para representar todos os valores da distribuição. Existem diversas formas de se calcular a média de um conjunto de números. Por exemplo, algumas delas são: aritmética, geométrica e harmônica.

5

10

15

20

Page 30: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

26

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Para a amostra, calcula-se o valor médio utilizando-se os seguintes parâmetros:

x

x

n

ii

n

= =∑

1 , onde

x ⇒ Média aritmética da amostra (estimativa)

n ⇒ Número de dados da amostra

xi ⇒ Cada variável da amostra

Vamos agora tomar um exemplo de média aritmética. Supondo um conjunto de dados xi = {2,4,6,8,10,12}, onde N=6, temos:

µ = = + + + + + ==∑ X

N

ii

N

1 2 4 6 8 10 126

7

Para simplificar o nosso estudo, padronizaremos a notação para o cálculo da média, e passaremos a utilizar sempre a notação utilizada para o cálculo da média aritmética simples em conjuntos de dados amostrais, como no exemplo abaixo:

Uma amostra das notas das provas de matemática dos estudantes da sétima série de uma grande escola de São Paulo: xi, onde xi = {87,42,64,58,90,90,85,63,47,74,100,94} e n=12, temos:

x

x

n

ii

n

= =∑

1 =87+42+64+58+90+90+85+63+47+74+100+94

12=74,5

A nota média na prova de matemática dos estudantes da sétima série desta escola de São Paulo, por amostragem, é 74,5.

São propriedades da média aritmética:

a) Em um conjunto de dados, é sempre possível o cálculo da média, independentemente de quais os elementos que compõem esse conjunto de dados.

Embora tenhamos destacado uma diferença na notação utilizada para o cálculo da média aritmética em uma amostra e numa população, a expressão para o cálculo da média é a mesma, tanto no cálculo da média de uma população quanto de uma amostra.

São as propriedades que a média aritmética simples possui que a fazem a medida de tendência central mais usada e mais importante de todas.

5

10

15

20

Page 31: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

27

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

b) Em um determinado conjunto de dados, o valor da média será único e corresponderá a uma constante.

c) Todos os valores de um determinado conjunto de dados irão afetar a média. Se um valor se modifica, a média aritmética também irá modificar-se.

d) Somando-se ou subtraindo-se uma determinada constante c a cada elemento de um determinado conjunto de dados xi = x1,x2,x3,...,xn, a média aritmética ficará aumentada ou diminuída desta constante c. Se, por outro lado, multiplicarmos cada elemento deste conjunto de dados por uma constante c, a nova média será também multiplicada por esta constante c; se dividirmos cada elemento do conjunto de dados por esta mesma constante c, a média será dividida por c.

Assim, se temos um conjunto xi = x1,x2,x3,...,xn, a média será:

x

x

ni

n

1

11= =

∑, logo

x

c x

nx

x

nncn

x x ci

i

n

ii

n

21

21

2 1=+

⇒ = + ⇒ = += =∑ ∑( )

e) A soma algébrica dos desvios dos números de um conjunto de dados em torno da média é zero. Isto pode ser representado da seguinte forma:

x xi − =∑ 0

Por exemplo, se temos um conjunto de dados xi = 2,4,6,8,10, onde n=5, temos que :

x

xii= = + + + + ==∑

1

5

52 4 6 8 10

56

5

10

15

20

Page 32: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

28

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Se aplicarmos a fórmula acima, temos:

x x x

x

i i

i

− =∑ ∑∑

-6=(2-6)+(4-6)+(6-6)+(8-6)+(10-6)

-x=-4-2+0+2+4

xxi-x=0∑2.2 A média aritmética ponderada

Num conjunto de dados em que cada elemento ou cada observação possua a mesma importância, o cálculo da média aritmética simples mostrará bem a população ou a amostra estudada. Mas se queremos atribuir pesos distintos ou importâncias distintas aos elementos de um conjunto de dados, a estatística a ser adotada é a média aritmética ponderada, em que a cada valor xi deverá ser atribuído um determinado peso wi. A expressão estatística para o cálculo da média ponderada é:

x

w x

wp

i ii

n

ii

n= =

=

∑1

1

Supondo que um estudante tenha que efetuar uma série de 4 exames para obter sua média final para passar de ano. Cada exame possui um peso diferente na composição desta média, conforme a tabela abaixo:

Exame Nota Peso

1 68 0,302 89 0,203 45 0,404 100 0,10

1,00

A média aritmética é a mais utilizada no nosso dia-a-dia. É obtida dividindo-se a soma das observações pelo número delas.

5

10

15

Page 33: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

29

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

x

w x

wp

i ii

n

ii

n= =

=

∑1

1

,logo

xp = + + ++ + +

( , ) ( , ) ( , ) , ( ), , , ,

0 30 68 0 20 89 0 40 45 0 10 1000 30 0 20 0 40 0 10

xxp = + + + =20 4 17 8 18 10 66 2, , ,

A nota média será então 66,2, resultado diferente do que seria obtido se utilizássemos a média aritmética simples.

Exemplificando média aritmética e ponderada:

• um aluno tirou as notas 5, 7, 9 e 10 em quatro provas. A sua média será (5 + 7 + 9 + 10) / 4 = 7,75;

• um aluno fez um teste (peso 1) e uma prova (peso 2), tirando 10 no teste e 4 na prova. A sua média (ponderada) será (10 + 2 x 4) / 3 = 6. Se o teste e a prova tivessem mesmo peso (e não importa qual o valor do peso, importa apenas a relação entre os pesos), a média seria 7.

2.3 A mediana

Uma outra medida importante de um conjunto de dados é a mediana.

A mediana divide um determinado conjunto de dados, que deverá estar ordenado, em dois grupos iguais, em que metade terá valores menores que a mediana e metade terá valores maiores que a mediana.

Antes de calcular a mediana, é preciso organizar os valores em um rol em ordem crescente, para então contar até a metade dos

Num conjunto de dados em que cada elemento ou cada observação possua importância diferente, utilizamos a média aritmética ponderada.

5

10

15

Page 34: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

30

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

valores para encontrar a mediana. Em geral, após organizarmos os dados em um rol, podemos calcular a posição da mediana com a fórmula abaixo:

posmedn= +( )1

2,

onde n é o número de dados observados.

Por exemplo, para um conjunto de dados xi = {6,9,3,5,2,9,5,5,8,7,1,7,2}, onde n=13, temos primeiro que organizar estes dados em um rol, depois encontrar a posição da mediana e então saber qual será a mediana. Vejamos:

rolxi = {1,2,2,3,5,5,5,6,7,7,8,9,9}

posição mediana = ( )n + = + =12

13 12

7

mediana = 5

Para um conjunto de dados xi={6,4,8,3,2,9,7,1}, onde n=8, temos, então:

rolxi = {1,2,3,4,6,7,8,9}

posição mediana = ( )

,n + = + =1

28 1

24 5

A mediana será o valor que está a meio caminho dos dois valores médios; neste caso, entre 4 e 6. Como fazer? Deve-se tirar a média entre os dois valores do meio para obter o valor da mediana. Assim, temos:

mediana = + =4 62

5

A mediana é outra medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. Em outras palavras, a mediana de um conjunto de valores, ordenados, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.

Obs.: - se o número de elementos for ímpar, então a mediana será exatamente o valor “do meio”;

- se o número de elementos for par, então a mediana será exatamente a média “dos dois valores do meio”.

Para determinar a mediana:

• organize o conjunto de dados em um rol;

• para um conjunto de dados cujo n = ímpar, a mediana será o valor do meio;

• para um conjunto de dados cujo n = par, a mediana será a média dos dois valores do meio.

5

10

15

20

Page 35: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

31

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Quando usamos a mediana?

Empregamos a mediana quando:

• desejamos obter o ponto que divide a distribuição em partes iguais;

• há valores extremos que afetam de uma maneira acentuada a média;

• a variável em estudo é salário.

2.4 A moda

Muitas vezes, em um conjunto de dados, existem valores que se repetem com uma frequência maior. A moda é justamente este valor ou estes valores que mais se repetem em um conjunto de dados. É possível haver estatísticas que não possuam moda ou que possuam mais de uma moda.

No exemplo que demos acima, para um conjunto de dados xi={1,2,3,4,6,7,8,9}, não existe moda e diz-se que o conjunto ou distribuição é amodal.

A moda é uma estatística muito mais descritiva, e sua importância cresce na medida em que um valor ou grupo de valores se repete mais que outros; neste sentido, a moda indicaria o valor “típico” daquele conjunto de dados com maior ocorrência.

Por exemplo, o conjunto de dados xi={2,2,7,9,9,9,10,10,11,12,18}tem moda igual a 9, porque o número 9 é aquele com maior frequência, repetindo-se três vezes.

Repetindo: denominamos moda, de um conjunto de dados, o valor (ou valores) que ocorre com maior frequência.

Então, em teoria da probabilidade e em estatística, a mediana é uma medida de tendência central, um número que caracteriza as observações de uma determinada variável de tal forma que este número (a mediana) de um grupo de dados ordenados separa a metade inferior da amostra, população ou probabilidade de distribuição, da metade superior. Mais concretamente, 1/2 da população terá valores inferiores ou iguais à mediana e 1/2 da população terá valores superiores ou iguais à mediana.

Em casos de populações (n) ímpares, a mediana será o elemento central (n+1)/2. Para os casos de populações (n) pares, a mediana será o resultado da média simples dos elementos n/2 e (n/2)+1.

Para a seguinte população: 1, 3, 5, 7, 9 – a mediana é 5 (igual à média); no entanto, para a população 1, 2, 4, 10, 13, a mediana é 4 (enquanto a média é 6). Para populações pares: 1, 2, 4, 7, 9, 10 – a mediana é (4+7)/2, que é 5,5.

5

10

15

20

25

Page 36: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

32

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Por exemplo: o salário modal dos empregados de uma indústria é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa indústria.

Exemplo:

Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, encontre a média, a moda e a mediana para a produção diária de leite desta vaca.

Média:

x

x

n

ii

n

= = + + + + + + = ==∑

1 10 14 13 15 16 18 127

987

14

Logo, x = 14 litros de leite em média por dia, que representa uma produção de 98 litros de leite em média por semana.

Obs.: a média pode ser um número diferente de todos os valores da amostra que ela representa.

Moda: como não existe um valor que aparece com maior frequência que os outros, não há valor de moda para este exemplo.

Mediana: ordenando os dados, temos:

10 12 13 14 15 16 18

Desta forma, o valor mediano é o valor central dos dados, ou seja, 14 litros de leite por dia.

Em estatística descritiva, a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes. A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem-definidas.

A moda de {maçã, maçã, banana, laranja, laranja, laranja, pêssego} é laranja.

A série {1, 3, 5, 5, 6, 6} apresenta duas modas (bimodal): 5 e 6.

A série {1, 3, 2, 5, 8, 7, 9} não apresenta moda.

5

10

15

20

Page 37: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

33

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

3 MEDIDAS DE DISPERSÃO PARA DADOS SIMPLES

Vimos que a moda, a mediana e a média podiam ser usadas para resumir, num único número, aquilo que é “médio” ou “típico” de um conjunto de dados. Mas a informação contida fornecida pelas medidas de posição necessita, em geral, ser complementada pelas medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o grau de variação existente no conjunto de valores. As medidas de dispersão que nos interessam são:

• a amplitude total;

• o desvio padrão;

• a variância;

• o coeficiente de variação.

Observe que: quanto maior as medidas de dispersão, mais heterogêneos são os dados, e ao contrário, quanto menor essas medidas, mais homogêneo o conjunto.

Para ilustrar a necessidade de conhecermos as medidas de dispersão de um conjunto de dados, iremos introduzir alguns exemplos.

Exemplo 1:

Sabe-se que em Honolulu (Havaí) e Houston (Texas) a temperatura média diária é quase a mesma, em torno de aproximadamente 23,9ºC. Pergunta-se: será que, por isso, podemos admitir que a temperatura é basicamente a mesma em ambas as localidades? Ou não será possível que enquanto uma cidade é melhor para natação a outra o seja para atividades externas?

5

10

15

20

25

Page 38: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

34

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Sabemos que a temperatura em Honolulu varia muito pouco ao longo do ano, oscilando, em geral, entre 21,1ºC e 26,7ºC. Por outro lado, a temperatura em Houston pode diferir sazonalmente (nas estações do ano), isto é, apresentar-se baixa em janeiro (cerca de 4,4ºC) e alta em julho e agosto (bem perto de 37,8ºC). Desnecessário dizer que as praias em Houston não estão abarrotadas de gente o ano todo!

Exemplo 2:

Suponham que, numa particular cidade, tanto ladrões quanto professores secundários tenham uma renda média mensal de R$ 900,00. Será que essa informação indica que as duas distribuições de renda são necessariamente semelhantes? Muito ao contrário, poder-se-ia descobrir que elas diferem, e muito, num outro aspecto importante, que é o fato de as rendas dos professores concentrarem-se ao redor de R$ 900,00 (serem constantes, homogêneas), enquanto que as dos ladrões espalham-se mais (são descontínuas, heterogêneas), o que reflete, portanto, maiores oportunidades para prisões, desemprego, pobreza e, em alguns casos, fortunas excepcionais.

Tais fatos demonstram que necessitamos, além de uma medida de tendência central, de um índice que indique o grau de dispersão dos dados em torno da média. Este “índice” é uma medida indicativa do que costumamos chamar de variabilidade (ou dispersão).

Voltando ao exemplo 1, poderíamos dizer que a distribuição de temperatura em Houston (Texas) tem maior variabilidade do que a distribuição de temperaturas em Honolulu (Havaí). Da mesma forma, podemos dizer que a distribuição de rendas entre professores apresenta menos variabilidade do que a distribuição de rendas entre ladrões.

5

10

15

20

25

30

Page 39: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

35

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Exemplo 3:

Considere os seguintes conjuntos de valores das variáveis X, Y e Z:

X: 70, 70, 70, 70, 70.Y: 68, 69, 70, 71, 72.Z: 5, 15, 50, 120, 160.

Calculando a média aritmética de cada um desses conjuntos, obtemos:

X = 70Y = 70Z = 70

Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70; entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. Para quantificar o quão heterogêneos os dados são, precisamos encontrar algumas medidas de posição.

Assim, quando se deseja entender, analisar e descrever de forma adequada um determinado conjunto de dados, faz-se necessário dispor não apenas de informações relativas às medidas de posição, vistas no módulo anterior. É preciso que se disponha de informações relativas à variabilidade (dispersão) daqueles números que compõem o referido conjunto de dados. Essas medidas de variabilidade ou dispersão indicam se os dados observados estão próximos ou separados uns dos outros.

Diferente das medidas de posição, as medidas de dispersão não são autoexplicativas; sua aplicabilidade depende da comparação de populações ou amostras do mesmo tamanho e mesmas características para que se obtenha alguma informação importante a partir daquela determinada variabilidade.

Medidas de dispersão não são autoexplicativas, dependem de suas aplicações em tratamentos comparativos de dados.

5

10

15

20

25

Page 40: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

36

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

As principais medidas de dispersão são a amplitude total (ou intervalo), o desvio médio, a variância e o desvio padrão. A média serve de referência para todas essas medidas, exceto para o intervalo (ou amplitude total). À proporção que essas medidas se elevam, isto representa um aumento da dispersão. Isso significa que se a medida for igual a zero, não existe dispersão.

As medidas de variabilidade que têm a média aritmética como ponto de referência são importantes porque nos permitem avaliar o grau de dispersão das observações em relação a esta mesma média, isto é, permitem-nos avaliar o quão distante os dados de um determinado grupo de observações estão da média calculada, dando-nos uma noção mais precisa da situação de determinada população ou amostra e condições de tirarmos conclusões e informações importantes daqueles dados disponíveis.

Exemplo 4:

Um estudante de Economia resolve fazer uma pesquisa sobre os salários médios dos funcionários de determinado setor industrial em São Paulo. Nesta pesquisa, o estudante conseguiu os seguintes dados em termos de salários mínimos mensais:

xi={1.0;1.5;2.0;2.0;2.0;2.5;3.0;3.0;80.0;85.0}

Ao calcular o salário médio deste setor, ele chegou ao valor médio de 18,2 salários mínimos por mês. Ora, mas este dado, sem o cálculo de sua dispersão em relação à média aritmética, pouco nos diz sobre a realidade desta população e acabamos por ter uma visão distorcida do padrão de vida da maior parte dos funcionários do setor analisado pelo estudante. As medidas de variabilidade ou dispersão nos permitem perceber essa distorção.

Temos, como principais medidas de dispersão, intervalo, desvio médio, variância e desvio padrão.

As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz quadrada, o desvio padrão; a amplitude total, a distância interquantílica e o desvio absoluto são mais alguns exemplos de medidas de dispersão.

5

10

15

20

25

30

Page 41: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

37

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

3.1 Amplitude total

O intervalo, ou amplitude total, de um determinado conjunto de dados é obtido pela diferença entre o maior e o menor valor neste conjunto de números. Indica, portanto, a distância entre a maior e a menor observação de um conjunto de dados. Assim, temos:

Amplitudetotal = Valormáximo ∼ Valormínimo

Por exemplo, em um conjunto de dados xi={2,3,3,5,5,5,8,10,12}, onde n=9, a amplitude total será:

Atotal = Vmáximo - Vmínimo ⇒ Atotal = 12-2 = 10

Em alguns casos, o intervalo ou amplitude total pode ser expresso simplesmente pela indicação do menor e do maior número do conjunto de dados. No caso do exemplo anterior, a amplitude total poderia ser expressa simplesmente pela identificação do menor e do maior número, indicada como sendo de 2 a 12 ou 2-12.

A grande vantagem da amplitude total é que ela

apresenta uma certa facilidade de ser calculada, mesmo quando o conjunto de dados observados é relativamente grande. No entanto, como a amplitude total apenas leva em conta os dois extremos do conjunto de números, em alguns casos, ela pode ser uma medida enganosa quanto à indicação da dispersão de um conjunto de números, tendo, portanto, uma utilidade limitada.

3.2 Desvio médio absoluto

O desvio médio absoluto inaugura o estudo das medidas de variabilidade que têm a média como ponto de referência.

O intervalo de um determinado conjunto de dados é obtido pela diferença entre o maior e o menor valor neste conjunto de números.

5

10

15

20

25

Page 42: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

38

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

O chamado “desvio” nada mais é que a diferença entre cada valor de um determinado conjunto de dados e a média deste mesmo conjunto de números (xi - x). O valor absoluto de um número será ele próprio, sem o sinal que lhe é associado, e é indicado por meio de duas linhas verticais que o enquadram. Assim, |-67|=67;|9|=9. É preciso calcular primeiro a média aritmética dos dados disponíveis, que, em geral, apresentam-se como dados amostrais.

O desvio médio absoluto será calculado pela média dos

desvios dos valores a contar da média, ignorando o sinal (+ ou -) do desvio, ou seja, convertendo os valores dos desvios em valores absolutos, considerando-os todos desvios positivos. Assim, temos:

DmédioD

x x

nmØdio

ii

n

=−

=∑

1 ,

onde n é o número de observações.

Vamos agora tomar um exemplo de desvio médio. Para um conjunto de dados amostrais xi=2,4,6,8,10,12, onde n=6, determine o desvio médio. Temos então:

Dmédio=x x

ni −∑

Precisamos primeiro calcular a média, para então passarmos ao cálculo do desvio médio. Relembrando a fórmula do cálculo da média aritmética, temos:

xx

nx xi= ⇒ = + + + + + = ⇒ =∑ 2 4 6 8 10 12

67 7

5

10

15

20

Page 43: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

39

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Agora podemos calcular os desvios para cada valor do conjunto de dados. Assim, temos:

xi - x

Dmédio=

Dmédio=

Dmédio=

=−∑ x x

ni

=-5 + -3 + -1+ 1+ 3 + 5

6

=5+3+1+1+3+5

6=3

3

2-7 -54-7 -36-7 -18-7 110-7 312-7 5

0

O valor encontrado acima representa a diferença média de cada observação e a média da distribuição. Mas também neste caso só seria possível obter mais informações a partir do desvio médio comparando com outras populações ou amostras de mesmas características.

Por exemplo, se um outro conjunto de dados, com as mesmas características e tamanho, apresentasse um desvio médio absoluto igual a 2,4, ou seja, menor que o desvio médio absoluto calculado no exemplo acima, poderíamos dizer que este segundo conjunto de valores é mais homogêneo do que o nosso exemplo, já que a diferença de cada um dos seus elementos em relação à média aritmética é menor. Teríamos, assim, uma dispersão menor.

3.3 Variância

Tanto para o cálculo do desvio médio como para o cálculo da variância precisaremos utilizar o desvio de cada elemento de um conjunto de dados em relação à média aritmética (xi - x). No entanto, ao invés de trabalharmos com os valores absolutos (em módulo), agora os desvios são elevados ao quadrado antes da soma. Para o caso de dados amostrais, ao invés de dividirmos por n, dividimos por n-1 (que é o total da amostra menos uma unidade).

O desvio é a diferença entre cada valor de um determinado conjunto de dados e a média deste mesmo conjunto de números.

5

10

15

20

Page 44: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

40

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

A variância irá nos dizer o grau de dispersão de um determinado grupo de dados com relação à média aritmética desses números.

Assim, a variância populacional poderá ser calculada da seguinte forma:

σµ2

2

=−∑ ( )x

Ni , onde

A variância amostral poderá ser calculada pela fórmula que se segue:

sx x

ni2

2

1=

−−

∑ ( ) , onde

Por exemplo, seja um determinado conjunto de dados xi = {1,3,5,7,9,11,13}, onde n=7. Calcule a variância deste conjunto de dados, supondo:

a) que este conjunto de dados representa toda uma população;

b) que este conjunto de dados representa uma amostra.

a) Para calcular a variância deste conjunto de dados, considerando que ele representa toda uma população, devemos utilizar a seguinte fórmula:

σµ2

2

=−∑ ( )x

Ni , onde devemos considerar n=N.

Ao invés de trabalharmos com os valores em módulo, agora os desvios são elevados ao quadrado antes da soma. Para o caso de dados amostrais, ao invés de dividirmos por n, dividimos por n-1.

5

10

15

Page 45: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

41

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Devemos passar ao cálculo da média deste conjunto de dados, para então proceder ao cálculo da variância. Sendo assim, temos:

µ µ

µ

= ⇒

=

∑ x

Ni =

1+3+5+7+9+11+137

=7

7

(média populacional)

Partindo da média, podemos agora calcular os desvios, e então partir para o cálculo da variância populacional, já que supomos que o conjunto de dados representava toda a população. Assim, temos:

µ xi - µ (xi - µ)2

7 7-1=6 62

7 7-3=4 42

7 7-5=2 22

7 7-7=0 0

7 7-9=-2 (-2)2

7 7-11=-4 (-4)2

7 7-13=-6 (-6)2

Σ� 0 112

σµ

σ

σ

22

2

2

=−

=

=

∑ ( )x

Ni

6 +4 +2 +(-2) +(-4) +(-6)7

36+16+4+4+16+

2 2 2 2 2 2

3367

=16

σ2 16=

Assim, a variância populacional desse conjunto de dados seria igual a 16.

b) Se, por outro lado, temos o mesmo conjunto de dados e supondo que ele represente apenas dados amostrais, devemos calcular a variância amostral de outra forma. Devemos partir do cálculo da média, para então calcularmos a variância.

5

10

15

Page 46: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

42

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Como vimos no módulo 2, a expressão para o cálculo da média aritmética em uma amostra é a mesma do cálculo da média para uma população, mas utilizaremos para as amostras uma outra notação. Vejamos:

xx

nxi= ⇒ =∑ 7

(média amostral)

Normalmente, a média amostral aproxima-se da média populacional quanto maior o tamanho da amostra, mas não se iguala a ela.

Passemos então ao cálculo da variância amostral. Utilizaremos os mesmos passos do cálculo da variância populacional.

Desta forma:

sx x

ni2

2

1=

−−

∑ ( )

x xi - x (xi - x)2

7 7-1=6 62

7 7-3=4 42

7 7-5=2 22

7 7-7=0 0

7 7-9=-2 (-2)2

7 7-11=-4 (-4)2

7 7-13=-6 (-6)2

Σ� 0 112

s =

s =6 +4 +2 +(-2) +(-4) +(-6)

7-1

s =36+16+4+4

2

22 2 2 2 2 2

2

( )x x

ni −−

∑ 2

1

++16+367-1

=112

6

s =18,666...2

A variância amostral deste conjunto de dados é igual a 18,666...

5

10

Page 47: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

43

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Como a média aritmética, a variância possui algumas propriedades importantes que devemos colocar em destaque e que facilitam o cálculo de alguns problemas mais complexos.

a) Somando-se ou subtraindo-se uma constante a cada elemento de um conjunto de dados, o valor da variância não se altera.

Por exemplo, um conjunto de dados xi={2,4,6,8}, onde n=4, e a média é igual a 5. A variância deste conjunto será dada como segue:

σ σ

σ

2 2

2

= ⇒ =

=

∑ (x -m)

N(2-5) +(4-5) +(6-5) +(8-5)

4

(-3) +(-1)

i2 2 2 2 2

2 2++1+34

=9+1+1+9

4=

204

=52

Se somarmos uma constante c=4 a cada um dos elementos do conjunto de dados, temos um novo conjunto de dados yi={6,8,10,12}, em que a média será igual a 9. A variância será então:

σµ

σ

22 2

22

=−

=

∑ ( )y

Ni

2 2 2 2 2

2

=(6-9) +(8-9) +(10-9) +(12-9)

4

(-3) +(-1)) +(1)+(3)4

=9+1+1+9

4=

204

=52 2

Sendo assim, demonstramos que σ σ222= , ou seja, ao

somarmos uma constante a cada elemento de um conjunto de dados, a variância permanece a mesma.

b) Ao multiplicarmos uma constante c a cada elemento de um conjunto de dados, temos uma nova variância ao multiplicarmos a variância do conjunto de dados original por c2.

5

10

15

20

25

Page 48: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

44

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Assim, a nova variância será representada da seguinte forma:

σ σ22 2

12= c .

c) Ao dividirmos cada elemento de um conjunto de dados por uma constante arbitrária c, obtém-se a nova variância dividindo-se a antiga variância por c2.

Assim, podemos apresentar a nova variância da seguinte forma:

σ σ22 1

2

2=c

d) A variância de uma constante é igual a zero.

Existe uma fórmula alternativa e reduzida para o cálculo da variância populacional, deduzida da fórmula original, que é:

σ µ22

2= −∑ x

Ni

Para a variância amostral também existe uma fórmula alternativa bastante utilizada e que não exige o cálculo da média, que decorre da fórmula acima:

sx x n

nxi i22 2

1=

−−

∑ ∑( )

3.4 Desvio padrão

Obtém-se o desvio padrão extraindo-se a raiz quadrada da variância. Assim como a variância e o desvio médio, o desvio padrão também representa uma medida de variabilidade absoluta e indica o desvio de cada um dos

Relembrando as propriedades de variância:

- ao somarmos uma constante a cada elemento de um conjunto de dados, a variância permanece a mesma;

- ao multiplicarmos uma constante c a cada elemento de um conjunto de dados, temos uma nova variância ao multiplicarmos a variância do conjunto de dados original por c2;

- ao dividirmos cada elemento de um conjunto de dados por uma constante arbitrária c, obtém-se a nova variância dividindo-se a antiga variância por c2;

- variância de uma constante é igual a zero.

5

10

15

20

Page 49: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

45

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

números xi de um dado conjunto de observações em relação à média µ. É também chamado por alguns autores de desvio da raiz média quadrática.

Matematicamente, o desvio padrão poderá ser representado da seguinte forma:

Desvio padrão populacional:

σµ

=−∑ ( )x

Ni

2

Desvio padrão amostral:

sx x

ni=−

−∑ ( )2

1

Por exemplo, um conjunto de dados amostrais xi = {2,4,6}, onde n=3 e a média é igual a 4. Vamos então calcular o desvio padrão para a amostra:

sx x

n

s

i=−

= − + − + −−

=

= − + + = = =

−∑ ( ) ( ) ( ) ( )

( )

2 2 2 2

2 2

12 4 4 4 6 4

3 1

2 0 22

82

4 2

Este conjunto de dados irá apresentar um desvio padrão igual a 2.

As propriedades da variância também são aplicáveis ao desvio padrão. Mas existem duas propriedades que serão distintas no caso do desvio padrão devido a sua característica de raiz quadrada média positiva da variância.

Assim, ao multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao antigo multiplicado pela constante. Temos então:

σ σ2 1= c.

5

10

15

20

Page 50: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

46

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Por outro lado, se dividirmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao anterior dividido pela constante c. Assim, temos então:

σ σ2

1=c

As demais propriedades da variância serão as mesmas para o desvio padrão.

Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de: 10, 14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio padrão (S), a variância (S2) e o coeficiente de variação (cv).

Solução

Amplitude:

R= 18 – 10 = 8 litros de leite,

ou seja, a maior variação do número de litros de leite produzidos por dia pela vaquinha A é de 8 litros.

Obs.: sabemos que a média para estes dados é x =14 litros de leite por dia.

Desvio padrão:

s=

(x -x)

n-1=

(x -x) +(x -x) +...+(x -x)n-1

=

=(10-14)

i2

i=1

n

12

22

n2

2

++(14-14) +(13-14) +(15-14) +(16-14) +(12-14) +7-1

=

=(-4) +

2 2 2 2 2

2 ((0) +(-1) +(1) +(2) +(4) +(-2)6

=16+0+1+1+4+16+4

6=

426

=

= 7

2 2 2 2 2 2

≅ 2,65 litros de leite por semana.

As propriedades da variância se aplicam ao desvio padrão, exceto:

• quando multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao antigo multiplicado pela constante;

• quando dividirmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao anterior dividido pela constante c.

Em Probabilidade e Estatística, o desvio padrão é a medida mais comum da dispersão estatística. O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:

1. seja um número não-negativo; 2. use as mesmas unidades de medida

que os nossos dados.

Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um subconjunto em amostra.

O termo desvio padrão foi introduzido na estatística por Karl Pearson, no seu livro de 1894: “Sobre a dissecção de curvas de frequência assimétricas”.

5

10

15

20

Page 51: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

47

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Variância:

S2 = (S)2=(2,65)2 ≅ 7(litros de leite)2

Coeficiente de variação:

cvS

x= = =2 65

140 1893

,, ou seja, existe uma variabilidade

de 18,93% dos dados em relação a média.

4 DISTRIBUIÇÃO DE FREQUÊNCIAS

Ao longo de nosso estudo, observamos que para extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta organização e sumarização destes dados; caso contrário, estes números não farão qualquer sentido.

Além disso, dependendo do tamanho do nosso conjunto de dados, podemos organizá-los em um rol de dados simples, ou seja, por ordem de grandeza (crescente ou decrescente), ou em rol (novamente ordenando o conjunto de dados) e, posteriormente, tabelando sua distribuição de frequências.

A distribuição de frequências é o modo de tratamento de dados utilizado quando é grande a quantidade de dados brutos, e passamos a agrupar os dados estatísticos em subconjuntos com características semelhantes – as classes ou categorias.

A distribuição de frequência é a organização de dados em classes ou intervalos, para determinar o número de observações ou a percentagem de observações de cada classe, chamada de frequência de classes.

Para apresentar esses dados, podemos utilizar gráficos e tabelas, bem como utilizar as medidas de posição e variabilidade para interpretá-los, mas não sem organizá-los previamente em

5

10

15

20

Page 52: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

48

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

uma distribuição, sem a qual ficaria impossível o cálculo de algumas das medidas necessárias, como média, variância, etc.

Tabela 4.1Idade de 100 estudantes formandos do curso de Gestão de

uma Universidade AB em dez/2006Idade Número de estudantes

20 a 22 8

22 a 24 10

24 a 26 12

26 a 28 20

28 a 30 17

30 a 32 15

32 a 34 9

34 a 36 5

36 a 38 3

38 a 40 1

Total = 100

A tabela acima é uma distribuição de frequências das idades dos estudantes que estão se formando no curso de Gestão de uma determinada Universidade fictícia AB. A primeira classe corresponderia ao grupo de estudantes formandos em Gestão no ano de 2006 e que possuem entre 20 e 22 anos, e é indicada pelo símbolo 20 |- 22. A frequência desta classe corresponde a 8 porque existem 8 estudantes cuja idade faz parte desta classe.

4.1 A construção de uma distribuição de frequências para dados contínuos

Para se construir uma determinada distribuição de frequências, é preciso, em primeiro lugar, definir o tipo de variável em questão, para depois definir os passos que devem ser seguidos para a construção desta distribuição. Vamos supor que o conjunto de dados abaixo seja referente às idades de

5

10

15

Page 53: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

49

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

uma amostra de 100 alunos formandos em Gestão de uma Universidade AB:

Tabela 4.2Dados das idades dos estudantes formandos de

Gestão da Universidade AB20 20,4 20,5 21 21 22 22 22 22,1 22,2

22,3 22,5 22,6 22,7 22,8 22,9 23 24 24,1 24,2

24,3 24,4 24,5 25 25 25,3 25,5 25,7 26 26

26,2 26,3 26,4 26,5 26,6 26,7 26,8 26,9 27 27

27,1 27,2 27,3 27,4 28 28 28 28 28 28

28,2 28,3 28,5 29 29 29 29 29,1 29,1 29,2

29,3 29,4 29,5 29,5 30 30 30 31 31 31

31 31,1 31,2 31,3 31,4 31,5 31,6 31,6 32 32

32 32 32,3 33 33 33 34 34 34 34

34 34,5 35 35 36 36 37 37,5 38 40

Como podemos observar, os dados já estão dispostos em ordem crescente de grandeza, em um rol, muito embora se trate de um conjunto de números superior a 30 observações. Esta amostra diz respeito às idades dos alunos de uma determinada Universidade fictícia AB que estão se formando no curso de Gestão. Estamos considerando, portanto, uma variável contínua.

Como vimos, tratar um conjunto de dados sob a forma de uma distribuição de frequências significa organizá-los em intervalos de classes. Precisamos, então, definir o número de classes, o tamanho destas classes, para, então, enquadrar os dados nas classes pela simples contagem desses dados amostrais.

A primeira coisa que devemos fazer ao nos depararmos com um conjunto de dados como este apresentado na tabela 4.2 é procurar calcular a amplitude total (ou intervalo). Neste caso, será muito mais fácil, já que os números já estão dispostos em um rol. Conforme vimos no módulo 3, a amplitude total ou intervalo poderá ser calculada da seguinte forma:

Atotal = Vmáximo - Vmínimo

Atotal = 40-20 = 20

Uma variável contínua é aquela que pode assumir qualquer valor num intervalo contínuo.

5

10

15

20

25

Page 54: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

50

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

No caso do nosso exemplo, a amplitude total será igual a 20. O valor da amplitude total será importante porque, juntamente com o número de classes, definirá a chamada “amplitude de classes”.

Mas como então estabelecer o número de classes? A teoria estatística tem se desenvolvido ao longo dos anos e chegou ao consenso de que é aconselhável estabelecer o número de classes entre um mínimo de 5 e um máximo de 20. Uma distribuição de frequências que possua mais de 20 classes torna a apresentação dos dados muito confusa e de mais difícil avaliação. Se estabelecemos um número de classes inferior a 5, podemos correr o risco de ocultar informações importantes sobre os dados disponíveis.

Quando se quer determinar o número de classes em função do conjunto de dados disponíveis, basta tirarmos a raiz quadrada de n, onde n corresponderia ao total de observações (seja da população ou da amostra). Sendo assim, temos:

Númeroclasses = n

No caso do exemplo apresentado acima, temos um total de observações n=100; portanto, o número de classes será igual a 10:

Nclasses = n

Nclasses = 100 10=

Uma vez estabelecido o número de classes, é preciso pensar qual será o tamanho de cada classe, ou, dito de outra forma, faz-se necessário determinar a amplitude de classe desta distribuição de frequências. Para isso, calculamos a amplitude total desta distribuição, a qual corresponde a uma medida absoluta de variabilidade.

A amplitude de classes será calculada, então, tomando-se o valor da amplitude total e dividindo-se pelo número de classes.

5

10

15

20

25

Page 55: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

51

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Assim, temos:

Seguindo o exemplo que estamos trabalhando (já fizemos o cálculo da amplitude total e do número de classes), podemos passar para o cálculo da amplitude de classes do exemplo. Temos, então:

A amplitude das classes da distribuição de frequências que estamos procurando construir em nosso exemplo será igual a dois. Isso representa o intervalo ou tamanho de cada classe, em que iremos dispor os nossos dados. É importante ressaltar que uma distribuição de frequência não obrigatoriamente apresenta uma única amplitude de classes, posto que mantenha a composição estrutural da distribuição.

Temos agora o número de classes, a amplitude de classes, podemos então calcular o intervalo de classes. O intervalo de classes é composto por um limite inferior (número menor) e por um limite superior (número maior). Os limites inferior e superior podem ou não estar inclusos no intervalo de classes, existindo uma simbologia própria dentro da estatística para se expressar isso. Vejamos exemplos possíveis a partir da tabela 4.1 acima:

a) 20 |–| 22: diz-se que é um intervalo fechado, pois tanto o 20 quanto o 22 participam do intervalo;

b) 22 –| 24: diz-se que é um intervalo aberto, já que o limite inferior, 22, não participa do intervalo, ao passo que o limite superior participa do intervalo;

5

10

15

20

Page 56: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

52

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

c) 20 |– 22: caso o exemplo se apresentasse assim, teríamos um intervalo de classe aberto, já que o limite inferior participa do intervalo, mas o limite superior não participa do intervalo;

d) 20 – 22: aqui teríamos um intervalo de classe aberto, em que nem o limite inferior nem o limite superior participam do intervalo.

Após o cálculo do número de classes e da amplitude de classes, devemos definir os limites inferior e superior de cada classe, começando com o menor valor, ou, no caso de dados fracionais, com um inteiro logo abaixo do menor valor. No nosso exemplo, podemos calcular as classes da seguinte forma:

Para a primeira classe:

Limite inferior: 20.Limite superior: 20 + amplitude de classe = 20 + 2 = 22.

Para a segunda classe:

Limite inferior: limite superior da classe anterior = 22.Limite superior: limite inferior da segunda classe + amplitude

de classes = 22 + 2 = 24.

E assim sucessivamente até a classe de número 10, no nosso exemplo, que terá como limite inferior 38 e como limite superior 40. É importante frisar que determinado valor não pode pertencer a mais de uma classe, mas, por outro lado, para cada valor deve haver uma classe, não permitindo a existência de lacunas na fixação destas mesmas classes.

Uma vez definido o número de classes e a amplitude total, a partir delas pudemos estabelecer a amplitude de classes, e pudemos também definir os limites superior e inferior de cada classe; resta agora confrontar as nossas classes com as observações de que dispomos na tabela 4.2.

5

10

15

20

25

30

Page 57: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

53

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Mediante contagem, devemos construir nossa distribuição de frequência, fixando cada observação numa classe determinada. Quando indicamos o número de observações existentes em um dado intervalo, temos a chamada frequência absoluta simples (ƒi).

É importante destacar que nenhuma classe poderá apresentar frequência absoluta igual a zero. Assim, uma primeira construção que podemos fazer nos leva à tabela 4.1, só que agora colocaremos a notação estatística trabalhada até agora. Então, temos:

Tabela 4.3Distribuição de frequência das idades

Classes Frequência absoluta simples

20 |— 22 8

22 |— 24 10

24 |— 26 12

26 |— 28 20

28 |— 30 17

30 |— 32 15

32 |— 34 9

34 |— 36 5

36 |— 38 3

38 |— 40 1

∑ 100

É importante ressaltar que na construção da distribuição de frequências acima, uma vez que determinado valor tenha sido incluso em determinado intervalo de classes, não deverá ser incluso em um outro. Daí a razão por que temos intervalos em que o limite inferior não está incluso, pois ele corresponde ao mesmo valor do limite superior da classe anterior; portanto, o referido valor, provavelmente, já deve ter sido alocado numa classe anterior. Por exemplo, na tabela

A frequência absoluta é o número de vezes que o dado aparece naquele determinado conjunto de números.

5

10

15

20

Page 58: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

54

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

4.2, temos a observação do dado “22”, que se repete três vezes, e que será incluso no primeiro intervalo de classes. Mas este valor não deverá ser incluso novamente no segundo intervalo de classes.

A seguir, devemos calcular as frequências absolutas simples acumuladas (ƒi , A).

Por exemplo, na terceira classe, teríamos 30 alunos com idade entre 20 e 26 anos se formando em Gestão. Vejamos como ficaria a nova tabela, incluindo a nova notação da frequência acumulada:

Tabela 4.4

ClassesFrequência absoluta

simples (ƒi )Frequência absoluta simples

acumulada (ƒi , A)

20 |— 22 8 8

22 |— 24 10 18

24 |— 26 12 30

26 |— 28 20 50

28 |— 30 17 67

30 |— 32 15 82

32 |— 34 9 91

34 |— 36 5 96

36 |— 38 3 99

38 |— 40 1 100

∑ 100

Um outro dado importante que podemos extrair da construção de uma distribuição de frequências é a frequência relativa simples (ƒi , R).

A soma das frequências relativas de todas as classes será igual a 1, se expressa em forma fracionária, ou a 100% se expressa em

Frequência absoluta simples acumulada indica o número de observações acumuladas até o limite superior de uma classe.

Frequência relativa simples nos mostra a participação relativa do número de observações em uma dada classe e deverá ser calculada da seguinte forma:

f Rf

fii

i, =

∑, geralmente expresso

em percentual.

5

10

15

Page 59: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

55

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

percentual. No caso da distribuição de frequências que estamos construindo, temos agora a seguinte tabela:

Tabela 4.5Classes ƒi ƒi , A ƒi , R

20 |— 22 8 8 0,08

22 |— 24 10 18 0,10

24 |— 26 12 30 0,12

26 |— 28 20 50 0,20

28 |— 30 17 67 0,17

30 |— 32 15 82 0,15

32 |— 34 9 91 0,09

34 |— 36 5 96 0,05

36 |— 38 3 99 0,03

38 |— 40 1 100 0,01

∑ 100 1

4.2 A construção de uma distribuição de frequências para dados discretos

Numa distribuição de frequência de dados contínuos, os valores individuais sofrem uma perda de identidade uma vez agrupados em classes, o que gera a perda de uma certa quantidade de informações. Isso ficará claro ao calcularmos a média aritmética em uma distribuição de frequência e compararmos o resultado ao obtido mediante o cálculo dos dados individualmente, até mesmo no exemplo que demos neste módulo. Os resultados não serão os mesmos, considerando essa perda de informação.

Dependendo do tipo de dados e dos objetivos do observador, este fenômeno pode ou não ocorrer numa distribuição de frequência com dados discretos. Quando não há perda de informação, é possível que os dados originais sejam reconstituídos a partir da tabela de distribuição de frequência com dados discretos. No caso de dados contínuos, isso não é possível.

5

10

15

Page 60: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

56

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Essencialmente, não existem diferenças substanciais entre uma distribuição de frequência com dados contínuos e uma com dados discretos. Os cálculos das frequências acumuladas e relativas são feitos da mesma forma, bem como os cálculos das medidas de posição e variabilidade.

4.3 Representação gráfica de dados agrupados

Como já mencionado no módulo 1, a confecção de gráficos permite melhor visualização dos dados, mostrando mais claramente as diferenças existentes. Os gráficos mais comuns são o gráfico de setor, de coluna ou de barra e o gráfico de curva. O tipo de gráfico a ser utilizado depende do que se deseja enfatizar. Assim, o gráfico de coluna ou de barra mostra diferenças entre os valores absolutos, e o gráfico de curva é utilizado quando se deseja mostrar variações ao longo do tempo; o gráfico de setor, também conhecido como “gráfico de pizza”, é utilizado quando se deseja ressaltar diferenças entre proporções. Esses gráficos podem ser facilmente feitos em planilhas eletrônicas, como, por exemplo, o Excel.

No caso de dados agrupados, ou de distribuições de frequência, a representação gráfica utilizada é o histograma ou, ainda, o polígono de frequência.

Reforçando os conceitos:

a) histograma: é a representação gráfica de uma distribuição de frequência por meio de retângulos justapostos em que a base colocada no eixo horizontal corresponde aos intervalos de classe e a altura é proporcional à frequência das classes;

b) polígono de frequências: é a representação gráfica de uma distribuição de frequência por meio de um polígono. Cada vértice do polígono tem como abscissa o ponto médio de classe e como ordenada proporcional à frequência dessa classe.

Distribuição de frequências é uma técnica para apresentar uma coleção de objetos classificados de modo a mostrar o número existente em cada classe. Mais ainda do que a técnica de apresentar cotações, é importante considerar a possibilidade de apresentar distribuições especiais, tal como no caso da distribuição de frequências de probabilidades e de frequências de amostragens.

5

10

15

20

25

30

Page 61: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

57

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Exemplo: salários de funcionários de uma determinada empresa:

Intervalos Salários Freq. Freq. acum.

15750 |-- 29000 29000 238 238

29000 |-- 42250 42250 144 382

42250 |-- 55500 55500 35 417

55500 |-- 68750 68750 29 446

68750 |-- 82000 82000 16 462

82000 |-- 95250 95250 6 468

95250 |-- 108500 108500 4 472

108500 |-- 121750 121750 1 473

121750 |-- 135000 135000 0 473

a) Histograma:

250

200

150

100

50

0

1575

0 |– 2

9000

2900

0 |– 4

2250

4225

0 |– 5

5500

5550

0 |– 6

8750

6875

0 |– 8

2000

8200

0 |– 9

5250

9525

0 |– 1

0850

0

1217

50 |–

1350

00

1085

00 |–

1217

50

b) Polígono de frequência:

15750|–

29000

250

200

150

100

50

029000

|–42250

42250|–

55500

55500|–

68750

68750|–

82000

82000|–

95250

95250|–

108500

108500|–

121750

121750|–

135000

Page 62: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

58

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Vamos ressaltar novamente:

Estatística descritiva é o nome dado ao conjunto de técnicas analíticas utilizado para resumir o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e gráficos. Ela envolve basicamente:

• distribuição de frequência: é o conjunto das frequências relativas observadas para um dado fenômeno estudado, sendo a sua representação gráfica o histograma (diagrama em que o eixo horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra, mais a distribuição de frequência tende para a distribuição de probabilidade.

50403020100

Freq

uênc

iare

lativ

a (%

)

Faixa da variável aleatóriaA B C D E

Histograma

• medidas da tendência central: são indicadores que permitem que se tenha uma primeira ideia, um resumo de como se distribuem os dados de um experimento, informando o valor (ou faixa de valores) da variável aleatória que ocorre mais tipicamente. Ao todo, são os seguintes três parâmetros:

- média: é a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo da distribuição como um todo;

- moda: é o evento ou categoria de eventos que ocorreu com maior frequência, indicando o valor ou categoria mais provável;

Page 63: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

59

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

- mediana: é o valor da variável aleatória a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo.

50403020100

Freq

uênc

iare

lativ

a (%

)

Faixa da variável aleatóriaA B C D E

Histograma

Tendênciacentral

• medidas de dispersão: são medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro padrão e o coeficiente de variação, cada um expressando diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório têm de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração, e vice-versa).

50403020100

Freq

uênc

iare

lativ

a (%

)

Faixa da variável aleatóriaA B C D E

Histograma

Dispersão

A ideia básica é a de se estabelecer uma descrição dos dados relativos a cada uma das variáveis, dados esses levantados através de uma amostra.

Page 64: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

60

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Desenvolvamos alguns exemplos, para tornar as definições e suas aplicações técnicas mais claras:

Exemplo 1: em uma pesquisa feita para detectar o número de filhos de empregados de uma multinacional, foram encontrados os seguintes valores:

1 4 2 5 3 2 0 3 2 15 4 2 5 0 3 2 4 2 32 3 2 1 4 2 1 3 4 2

Responda as questões abaixo, para x=2 e x=4.

Solução

Rol (dados em ordem crescente):

0 0 1 1 1 1 2 2 2 22 2 2 2 2 2 3 3 3 33 3 4 4 4 4 4 5 5 5

Tabela de distribuição de frequências:

X F fr f % F↓ F↑ F%↓ F%↑0 2 0,067 6,7 2 30 6,7 100

1 4 0,133 13,3 6 28 20 93,3

2 10 0,333 33,3 16 24 53,3 80

3 6 0,2 20 22 14 73,3 46,7

4 5 0,167 16,7 27 8 90 26,7

5 3 0,1 10 30 3 100 10

Total 30 1 100 - - - -

Algumas considerações ou conclusões:

a) Quantos empregados têm “x” filhos? A resposta é dada através de f (frequência absoluta simples).

b) Quantos empregados têm menos de “x” filhos? A resposta é dada através de F↓ (frequência absoluta acumulada “abaixo de”).

5

10

15

20

Page 65: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

61

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

c) Quantos empregados têm mais de “x” filhos? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”).

d) Quantos empregados têm “x” filhos ou menos? A resposta é dada através de F↓ (frequência absoluta acumulada “abaixo de”).

e) Quantos empregados têm “x” filhos ou mais? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”).

Exemplo 2: um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Os dados são os seguintes:

1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,831,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,461,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,491,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,401,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,441,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,831,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02

Solução

Rol (dados em ordem crescente):

1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,381,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,471,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,541,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,601,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,681,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,861,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34

5

10

15

20

25

30

Page 66: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

62

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

Amplitude total (dá uma ideia do campo de variação dos dados):

A = LS - LI = (2,34) - (1,08) = 1,26.

Analisando-se a quantidade de creatinina encontrada na urina dos 84 pacientes, verificou-se que ocorreu a variação de 1,26 no seu campo (de 1,08 a 2,34).

Estabelecer o número de classes (c):

c = 1 + (3,3333.....).log(n) = 1 + (3,3333....).log(84) = 7,414 c = 7.

Estabelecer o intervalo de classe (i):

i = A / c = (1,26) / 7 = 0,18

Construção da tabela:

Classes fi Pm fr f % f%↓ f%↑ F↓ F↑

1,08 |- 1,26 5 1,17 0,059 5,9 5,9 100 5 84

1,26 |- 1,44 13 1,35 0,155 15,5 21,4 94,1 18 79

1,44 |- 1,62 32 1,53 0,381 38,1 59,5 78,6 50 66

1,62 |- 1,80 18 1,71 0,214 21,4 80,9 40,5 68 34

1,80 |- 1,98 11 1,89 0,131 13,1 94,0 19,1 79 16

1,98 |- 2,16 2 2,07 0,024 2,4 96,4 6,0 81 5

2,16 |- 2,34 3 2,25 0,036 3,6 100 3,6 84 3

Total 84 - 1 100 - - - -

Observações:

(1) O melhor valor para representar cada classe é o ponto médio (Pm), o qual se obtém pela fórmula:

Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2.

(2) • fi : número de elementos de cada classe;

...• fr: mede o quanto cada valor significa e relação a unidade;

.. • f%: mede o quanto cada valor significa com relação a 100.

5

10

15

Page 67: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

63

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

(3) 1,08 |- 1,26, intervalo fechado à esquerda (pertencem à classe valores iguais ao extremo inferior) e aberto à direita (não pertencem à classe valores iguais ao extremo superior).

(4) Não necessariamente o último número será o limite superior da última classe, mas obrigatoriamente as classes devem conter todos os elementos.

Algumas considerações ou conclusões:

a) Quantos pacientes têm quantidade de creatinina no intervalo de “x”? A resposta é dada através de f (frequência absoluta simples). Ex.: Quantos pacientes têm quantidade de creatinina no intervalo [1,44; 1,62)? R.: 32 pacientes.

b) Quantos pacientes têm quantidade de creatinina inferior ao intervalo “x”? A resposta é dada através de F↓ (frequência absoluta acumulada “abaixo de”). Ex.: Quantos pacientes têm quantidade de creatinina inferior ao intervalo [1,80; 1,98)? R.: 68 pacientes.

c) Quantos pacientes têm quantidade de creatinina superior ao intervalo “x”? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”). Ex.: Quantos pacientes têm quantidade de creatinina superior ao intervalo [1,80; 1,98)? R.: 5 pacientes.

Atenção: para dados agrupados ou distribuição de frequências.

Elementos principais:

a) classe – é cada um dos intervalos em que os dados são agrupados;

5

10

15

20

25

Page 68: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

64

Unidade I

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

b) limites de classes - são os valores extremos de cada classe.

li = limite inferior de uma classe; Li = limite superior de uma classe;

c) amplitude – é a diferença entre o maior valor e o menor valor de certo conjunto de dados. Pode ser referida ao total de dados ou a uma das classes em particular:

• amplitude total (At) – é calculada pela seguinte expressão:At = Max. (rol) – Min.(rol).

• amplitude das classes (h) – é a relação entre a amplitude total e o número de classes, conforme mostra a expressão a seguir:

, onde n é o número de intervalos

de classe;

d) ponto médio de classe (xi) - é calculado pela seguinte expressão:

xL l

ii i= +2 ;

e) frequência absoluta (fi) - frequência absoluta de uma classe de ordem i é o número de dados que pertencem a essa classe;

f) frequência relativa (fri) - frequência relativa de uma classe de ordem i é o quociente da frequência absoluta dessa classe (fi) pelo total, ou seja,

ƒ ƒr

Totalii=

Obs.: a soma de todas as frequências absolutas é igual ao total;

5

10

15

20

25

Page 69: Estatistica Aplicada Unid I - rochagalvao.comrochagalvao.com/unip/tecnologico/material_estudo/estat_aplicada/... · 3.3 Variância ... 3.4 Desvio padrão ... 5.2 As medidas de dispersão

65

ESTATÍSTICA APLICADA

Diag

ram

ação

: Fab

io -

19/

11/0

8 -|

|- 1

a Co

rreç

ão: F

abio

/ Re

v: A

na 0

3/12

/08

g) frequência acumulada (Fi) - frequência acumulada de uma classe de ordem i é a soma das frequências até a classe de ordem i;

h) frequência relativa acumulada (Fri) - frequência relativa acumulada de uma classe de ordem i é a soma das frequências relativas até a classe de ordem i.