estatistica aplicada unidade i(1)

51
Autores: Prof. Edwin F. F. Silva Prof. Wesley Cândido de Melo Colaboradores: Prof. Santiago Valverde Prof. Jean Carlos Cavaleiro Prof. Daniel Scodeler Raimundo Estatística Aplicada

Upload: daniel-rua

Post on 26-Dec-2015

69 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Estatistica Aplicada Unidade I(1)

Autores: Prof. Edwin F. F. Silva Prof. Wesley Cândido de Melo Colaboradores: Prof. Santiago Valverde Prof. Jean Carlos Cavaleiro Prof. Daniel Scodeler Raimundo

Estatística Aplicada

Page 2: Estatistica Aplicada Unidade I(1)

Professores conteudistas: Edwin F. F. Silva e Wesley Cândido de Melo

Edwin F. F. Silva

Possui licenciatura em Física pela Universidade Católica de Brasília (2005); especialização em Higiene das radiações ionizantes (Senacap, 2011); em Metodologia do Ensino e Aprendizagem em Matemática (2009); pós-graduação em Transporte (em andamento) pela Universidade de Brasília. Atualmente, é professor da Faculdade Fortium, ministrando aulas de cálculo e estatística nos cursos de Sistema de Informações e Administração, e da Universidade Paulista, no curso de Engenharia. Atua em pesquisas relacionadas à poluição sonora, na área de polos geradores de viagens e também como corretor de questões dos cursos de graduação a distância da UNIP e como tutor do curso de RH da UNIP Interativa.

Wesley Cândido de Melo

Possui licenciatura em Física pela Universidade Católica de Brasília (2006); especialização em Matemática e Estatística pela FACITEC (2008); pós-graduação em Transporte (em andamento) pela Universidade de Brasília. Atualmente, é professor da Universidade Paulista, ministrando aulas para os cursos de Engenharia, Gestão de RH e Segurança Privada; da Faculdade JK, nos cursos de Administração e Radiologia. Atua também como corretor de questões dos cursos de graduação a distância da UNIP e como tutor do curso de RH da UNIP Interativa. É pesquisador vinculado ao grupo de pesquisa em Poluição sonora com ênfase em Ruídos aeronáuticos no curso de Física da Universidade Católica de Brasília.

© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista.

Dados Internacionais de Catalogação na Publicação (CIP)

S586e Silva, Edwin F.Estatística aplicada / Edwin F. Silva; Wesley Cândido de Melo. –

São Paulo: Editora Sol, 2012. 112 p., il.Nota: este volume está publicado nos Cadernos de Estudos e

Pesquisas da UNIP, Série Didática, ano XVII, n. 2-064/12, ISSN 1517-9230.

1. Estatística. 2. Distribuição de frequências. 3. Probabilidades. I. Título.

CDU 519.2

Page 3: Estatistica Aplicada Unidade I(1)

Prof. Dr. João Carlos Di GenioReitor

Prof. Fábio Romeu de CarvalhoVice-Reitor de Planejamento, Administração e Finanças

Profa. Melânia Dalla TorreVice-Reitora de Unidades Universitárias

Prof. Dr. Yugo OkidaVice-Reitor de Pós-Graduação e Pesquisa

Profa. Dra. Marília Ancona-LopezVice-Reitora de Graduação

Unip Interativa – EaD

Profa. Elisabete Brihy

Prof. Marcelo Souza

Prof. Dr. Luiz Felipe Scabar

Prof. Ivan Daliberto Frugoli

Material Didático – EaD

Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP)

Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos

Projeto gráfico: Prof. Alexandre Ponzetto

Revisão: Andréia Gomes Geraldo Teixeira Jr.

Page 4: Estatistica Aplicada Unidade I(1)
Page 5: Estatistica Aplicada Unidade I(1)

SumárioEstatística Aplicada

APRESENTAçãO ......................................................................................................................................................7INTRODUçãO ...........................................................................................................................................................7

Unidade I

1 HISTÓRIA DA ESTATÍSTICA ..............................................................................................................................91.1 Introdução à estatística ........................................................................................................................91.2 Importância da estatística .................................................................................................................111.3 Elementos fundamentais da estatística ...................................................................................... 12

1.3.1 População e amostra ............................................................................................................................. 121.4 Fases do método estatístico ............................................................................................................. 131.5 Dados estatísticos ................................................................................................................................ 131.6 Formas iniciais de tratamento dos dados................................................................................... 151.7 Notações por índices .......................................................................................................................... 16

1.7.1 Notação sigma (∑) ................................................................................................................................. 161.8 Séries estatísticas – simples e compostas .................................................................................. 19

2 APRESENTAçãO DE DADOS – GRáFICOS E TABELAS ........................................................................ 202.1 Elementos básicos das tabelas ........................................................................................................ 26

3 MEDIDAS DE TENDÊNCIA CENTRAL: MÉDIA, MODA E MEDIANA PARA DADOS SIMPLES .................................................................................................................................................. 26

3.1 A média aritmética simples (x) ....................................................................................................... 273.2 A média aritmética ponderada xp ................................................................................................. 293.3 A mediana (Md)..................................................................................................................................... 313.4 A moda ..................................................................................................................................................... 343.5 Posição relativa da média, moda e mediana ............................................................................. 36

4 MEDIDAS DE DISPERSãO PARA DADOS SIMPLES .............................................................................. 364.1 Amplitude total ..................................................................................................................................... 384.2 Desvio médio absoluto ....................................................................................................................... 394.3 Variância .................................................................................................................................................. 404.4 Desvio padrão ........................................................................................................................................ 454.5 Coeficiente de variação ..................................................................................................................... 46

Unidade II

5 DISTRIBUIçãO DE FREQUÊNCIAS ............................................................................................................. 525.1 A construção de uma distribuição de frequências para dados contínuos .................... 53

Page 6: Estatistica Aplicada Unidade I(1)

5.2 A construção de uma distribuição de frequências para dados discretos ...................... 595.3 Representações gráficas de dados agrupados ......................................................................... 60

6 AS MEDIDAS DE POSIçãO E VARIABILIDADE NUMA DISTRIBUIçãO DE FREQUÊNCIA ................................................................................................................................................... 69

6.1 As medidas de posição ....................................................................................................................... 706.1.1 A média ....................................................................................................................................................... 706.1.2 A mediana .................................................................................................................................................. 716.1.3 A moda ........................................................................................................................................................ 72

6.2 As medidas de dispersão numa distribuição de frequência ................................................ 736.2.1 O desvio médio ........................................................................................................................................ 736.2.2 Variância ..................................................................................................................................................... 746.2.3 Desvio padrão ........................................................................................................................................... 75

7 INTRODUçãO À PROBABILIDADE ............................................................................................................. 807.1 Teorias dos conjuntos, espaço amostral e eventos ................................................................. 81

8 PROBABILIDADE: ORIGEM, MÉTODOS E PRINCIPAIS TEOREMAS ................................................ 918.1 Origens da probabilidade .................................................................................................................. 92

8.1.1 Métodos objetivos .................................................................................................................................. 928.1.2 Método subjetivo .................................................................................................................................... 96

8.2 Principais teoremas de probabilidade .......................................................................................... 96

Page 7: Estatistica Aplicada Unidade I(1)

7

APrESEntAção

O objetivo deste material é fazer com que o aluno tenha condições de interpretar um conjunto de observações de forma clara e objetiva, a fim de distinguir as limitações e as vantagens do uso de amostras, assim como os métodos para sua obtenção; tenha habilidade para descrever e interpretar dados por meio de figuras (tabelas e gráficos), estimativas pontuais e de variabilidade; calcular o intervalo de confiança da proporção e média, assim como identificar sua aplicação; coletar e interpretar dados de forma sistematizada e imprimir credibilidade a análises quantitativas dos fenômenos de realidade investigada.

Assim, esperamos contribuir da melhor forma possível com seu aprendizado.

Com nossos cumprimentos,

Equipe organizadora.

Introdução

Desde a Antiguidade, a estatística faz parte da vida das pessoas, mesmo que de forma indireta, mas o certo é que essa ciência está presente na vida das pessoas o tempo todo. Quando abrimos um jornal, por exemplo, lá está uma série de gráficos e tabelas que nos auxiliam no entendimento de determinado tema, ou quando lemos uma reportagem que traz como tema a probabilidade de o mercado financeiro fechar em alta ou em baixa, ou, ainda, virando a página desse mesmo jornal, temos a manchete divulgando os dados do Censo 2010.

Diante desses fatos, nos perguntamos de que forma a estatística pode nos ajudar, seja no levantamento de dados para uma empresa saber como vão suas vendas, seja para saber os riscos de investir nas ações de uma empresa, ou, ainda, como o governo pode determinar as características dos vários aspectos, sociais, econômicos e ambientais dos estados e até mesmo de nosso país.

São perguntas como essas que a estatística nos ajuda a responder, e ainda não podemos pensar nessa ciência como se ela se limitasse a apenas compilar tabelas de dados e os ilustrar graficamente. Dessa forma, é de sua importância conhecer as inúmeras variáveis associadas a ela, pois em qualquer ramo da sociedade contemporânea estão presentes os processos estatísticos. E o estudante que não souber trabalhar com esses conceitos estará em desvantagem no mercado de trabalho.

Para tirar o máximo proveito da interpretação de um determinado fenômeno, deve-se seguir algumas etapas, como, por exemplo, planejar a obtenção de dados, interpretar e analisar os dados obtidos e apresentar os resultados de maneira a facilitar a tomada de decisões razoáveis.

É fundamental que o texto produzido neste material leve o aluno a pensar em situações do seu cotidiano e que dessa forma ele possa associar a teoria com a prática vivenciada em seu dia a dia. Pensando nisso, ele foi dividido em duas unidades, nas quais serão abordados, na primeira unidade: séries estatísticas, gráficos estatísticos, medidas de tendência central, medidas de dispersão, entre outros

Page 8: Estatistica Aplicada Unidade I(1)

8

temas; já na segunda unidade, serão apresentados: dados tabulares, distribuição de frequência, medidas de posição e variabilidade numa distribuição de frequência, probabilidade, bem como alguns de seus teoremas, entre outros temas.

Page 9: Estatistica Aplicada Unidade I(1)

9

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Unidade IComo a União realiza a distribuição de renda para os Estados, Municípios e o Distrito Federal? Como

saber quem deve receber mais ou menos verbas? Como saber se determinado trecho de uma via ou rodovia é ou não perigoso?

São a questões como essas que a disciplina Estatística procura responder.

1 HIStÓrIA dA EStAtÍStICA

Na história do desenvolvimento humano, a sociedade primitiva se deparou com os primeiros problemas para saber o tamanho da sua população, a quantidade de terras e suas riquezas, por isso teve a necessidade de contá-las. Em decorrência disso, os governantes das grandes civilizações antigas fizeram indiretamente um estudo estatístico para saber os bens que seu Estado possuía e como a população desse Estado estava distribuída.

No Antigo Egito, aproximadamente 3040 a.C., Heródoto pediu que fosse feito um estudo sobre a riqueza da população, com o objetivo de saber a quantidade de recursos econômicos e humanos para realizar a construção das pirâmides. Na China, aproximadamente 2238 a.C., o imperador Yao pediu que fosse feito um estudo da população, com objetivos industriais e comerciais.

A palavra “estatística” foi sugerida pelo alemão Gottifried Achemmel (1719/1772) e é associada à palavra latina status (Estado).

Essa ciência teve acelerado desenvolvimento a partir do século XVII, com os estudos de Bernoulli, Fermat, Laplace, Gauss e outros que estabeleceram suas características atuais.

Saiba mais

Para uma abordagem mais detalhada da história da estatística, ler o artigo: “Conceitos iniciais e breve histórico da estatística”, disponível em: <http://mundobr.pro.br/uneal/wp-content/uploads/2010/04/01.conceitos_inicias-historico-somatorio.pdf>. Acesso em: 12 jul. 2012.

1.1 Introdução à estatística

A todo instante, nos noticiários, em revistas, jornais, internet, ouvimos falar na palavra “estatística”, o que é possível perceber o quanto é importante conhecermos a fundo essa ciência. Algumas de

Page 10: Estatistica Aplicada Unidade I(1)

10

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

suas aplicabilidades podem ser observadas nas pesquisas de opinião pública e nos dados publicados diariamente na imprensa. Na realidade, a estatística contempla muitos outros aspectos, sendo de vital importância na interpretação de processos em que exista variabilidade.

De acordo com Dervalmar, é possível distinguir duas concepções para a palavra “estatística”. No plural, “estatísticas” indica qualquer coleção de dados quantitativos ou, ainda, ramo da matemática que trata da coleta, da análise, da interpretação e da apresentação de massa de dados numéricos. Assim, por exemplo, as estatísticas demográficas referem-se aos dados numéricos sobre o quantitativo de nascimentos, falecimentos, matrimônios, desquites etc. As estatísticas econômicas estão relacionadas aos dados numéricos como emprego, produção, vendas e com outras atividades ligadas aos vários setores da vida econômica.

No singular, “estatística” indica a atividade humana especializada, ou um corpo de técnicas, ou ainda uma metodologia desenvolvida para a coleta, a classificação, a apresentação, a análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões.

Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos.

Para fins didáticos, é comum os livros-textos apresentarem a estatística em duas grandes áreas, embora não se trate de áreas isoladas: estatística descritiva e estatística inferencial.

• estatística descritiva – é aquela que tem por objetivo descrever e analisar determinada população, utilizando métodos numéricos e gráficos, para se determinarem padrões, em um conjunto de dados, e assim apresentar a informação em uma forma conveniente.

Exemplo 1: O gráfico a seguir apresenta a participação relativa das bandeiras de cartões de crédito, no quarto trimestre de 2010.

Visa52,2%

Outras9,4%

Master Card38,4%

Figura 1 - Participação relativa das bandeiras (quantidade de transações)

Por meio do gráfico, é possível ver claramente que mais da metade das transações são feitas com a bandeira Visa e que aproximadamente 40% são feitas com a bandeira MasterCard. Como o gráfico descreve os tipos de bandeiras de cartões utilizadas em todas as transações do quarto trimestre de 2010, o gráfico é um exemplo de estatística descritiva.

Page 11: Estatistica Aplicada Unidade I(1)

11

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Exemplo 2: Índice Nacional de Preços ao Consumidor (INPC)

Sua apresentação envolve a sintetização, em um único dado, dos aumentos dos produtos de uma cesta básica.

Trata-se de um exemplo de estatística inferencial, que constitui o conjunto de métodos para a tomada de decisões, nas situações em que há incerteza, variações ou outras generalizações acerca de um conjunto maior de dados.

Exemplo 3: Análise de mercado

Quando uma empresa pretende lançar um produto, precisa conhecer as preferências dos consumidores no mercado de interesse. Faz-se necessária uma pesquisa de mercado.

Exemplo 4: Ocorrência de terremotos

Os geólogos estão continuamente coletando dados sobre a ocorrência de terremotos. Gostariam de inferir quando e onde ocorrerão tremores e qual a sua intensidade. Trata-se, sem dúvida, de uma questão complexa que exige longa experiência geológica, além de cuidadosa aplicação de métodos estatísticos.

1.2 Importância da estatística

Com o desenvolvimento humano e tecnológico, temos presenciado grandes descobertas na área da saúde, da engenharia, da economia etc.; por outro lado, também observamos os problemas que se espalham pelo mundo, por exemplo, a ameaça com a degradação do meio ambiente, as epidemias (H1N10) causando grandes preocupações para os governantes e para a população mundial. Como ajudar pesquisadores, cientistas, engenheiros etc. a se nortearem com o que deve ser feito tanto para criar novas possibilidades como também para solucionar os problemas existentes?

O método estatístico lida com informações, associando os dados ao problema, mostrando como e o que coletar para obter conclusões a partir de todos os dados, de tal forma que essas conclusões possam ser entendidas por outras pessoas. Assim, esse método auxilia os vários profissionais no planejamento e na tomada de decisões.

Saiba mais

O artigo “A elaboração de estatísticas de mortalidade segundo causas múltiplas” apresenta uma aplicação da estatística mostrando a sua importância para a tomada de decisões. Disponível em: <http://www.scielosp.org/pdf/rbepid/v3n1-3/03.pdf>. Acesso em: 15 jul. 2012.

Page 12: Estatistica Aplicada Unidade I(1)

12

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Vejamos alguns exemplos:

O governo anualmente divulga o censo sobre a dinâmica da população brasileira, apresentando seu crescimento demográfico, suas características e como vivem os brasileiros.

As grandes empresas fazem levantamentos sobre vendas, produção, inventário, folha de pagamento e outros dados, a fim de verificar se a empresa está crescendo, como seu crescimento está em relação a outras empresas e como tomar decisões futuras.

A análise dos dados é muito importante para fazer um planejamento adequado.

Saiba mais

Para mais informações sobre o Censo, acesse o site do IBGE: <http://www.ibge.gov.br>.

1.3 Elementos fundamentais da estatística

Amostra: é qualquer subconjunto não vazio de uma população.

Amostragem: é o meio de escolha da amostra e consiste na seleção criteriosa dos elementos a serem submetidos ao estudo.

1.3.1 População e amostra

Para o pesquisador, o estudo de qualquer fenômeno, seja ele natural, econômico, social ou biológico, necessita da coleta e da análise de dados estatísticos. A coleta de dados é parte inicial de qualquer pesquisa.

População: é o conjunto de todos os itens (pessoas, coisas e objetos) que interessam ao estudo de um fenômeno coletivo.

Parâmetro: é a denominação de uma característica numérica estabelecida para toda uma população.

Estimador: é a característica numérica estabelecida para toda a amostra.

Exemplo: pesquisas sobre tendências de votação.

Em épocas de eleição, é comum a realização de pesquisas com o objetivo de conhecer as tendências do eleitorado. Para que os resultados sejam, de fato, representativos, deve-se atentar para que as características da população à qual os resultados da pesquisa serão estendidos sejam tão próximas

Page 13: Estatistica Aplicada Unidade I(1)

13

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

quanto possível. A escolha da amostra, o questionário, a entrevista, a sintetização dos dados e a representação dos resultados são as etapas desse tipo de pesquisa.

População são todos

os eleitores habilitados do

município.

Fenômeno coletivo

(Eleições para Prefeitura de um município).

Amostra é um grupo numérico de eleitores

selecionado na população do município

Parâmetro é uma proporção de votos para o candidato A obtida na população

Estimador é uma proporção de votos para o candidato A obtida na amostra

Amostra

Figura 2

1.4 Fases do método estatístico

Em uma pesquisa, quando se deseja empreender um estudo estatístico completo, existem fases do trabalho que devem ser trabalhadas para se chegar aos resultados finais do estudo.

As principais fases são:

• definição do problema – delimitação do problema;

• planejamento – organização das ações que serão realizadas na pesquisa de campo;

• coleta de dados – ir a campo buscar as informações;

• apuração dos dados – organização das informações coletadas;

• apresentação dos dados – gráficos e tabelas;

• análise e interpretação dos dados – por meio da linguagem matemática (média, mediana, moda, desvio padrão, percentuais etc.).

Observe quais são as fases principais do método estatístico – compõem a organização de um projeto, sua execução e apresentação final.

1.5 dados estatísticos

Quando se trabalha com a observação, a mensuração, a análise e a interpretação de números, esses números nos conduzem a índices inflacionários, índices de desemprego, probabilidade de determinado candidato ganhar as eleições etc. Esses números, portanto, serão chamados de dados estatísticos, os quais precisarão ser organizados e sumarizados para sua correta interpretação.

O dado bruto significa que os dados não estão numericamente organizados e processados. É o processamento e a organização dos dados que os transformam em informação, enfatizando

Page 14: Estatistica Aplicada Unidade I(1)

14

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

seus aspectos mais importantes. A informação, portanto, é resultado de um tratamento dos dados.

Para organizar e processar os dados estatísticos, podem-se utilizar resumos visuais e numéricos, como gráficos, mapas, tabelas e modelos numéricos.

A mensuração ou a observação de itens como índices de preços, renda mensal per capita de um Estado etc. dão origem aos dados estatísticos. Como esses itens originam valores que tendem a apresentar certo grau de variabilidade quando são medidos sucessivas vezes, iremos chamá-los, então, de variáveis.

É importante identificar os quatro tipos de variáveis: variáveis contínuas, variáveis discretas, variáveis nominais e variáveis ordinais.

• Variáveis contínuas: podem assumir qualquer valor num intervalo contínuo (dado contínuo), ou seja, será um número real. Exemplos: altura, peso, velocidade etc.

• Variáveis discretas: em geral, originam-se da contagem de itens e só podem assumir valores inteiros. Exemplos: número de alunos em sala de aula, número de professores que trabalham na escola etc.

• Variáveis nominais: são aquelas que existem com o objetivo de definir categorias, e as observações, mensurações e análises são feitas levando-se em conta essas mesmas categorias. Exemplos de categoria seriam: separação por sexo, estado civil, esporte predileto, cor etc.

• Variáveis ordinais: quando existe o desejo de dispor os elementos observados segundo uma ordem de preferência ou desempenho, atribuem-se valores relativos para indicar essa ordem. Exemplo: primeiro, segundo, terceiro grau de escolaridade etc.

As variáveis discretas e contínuas são ditas variáveis quantitativas porque envolvem dados numéricos. Já as variáveis nominais e ordinais precisam ser transformadas em valores numéricos para serem objeto da análise estatística, e são ditas variáveis qualitativas. Por exemplo: em um departamento da empresa JJ, que tem 36 funcionários, fez-se uma pesquisa para verificar alguns dados. Classifique as variáveis, conforme os dados da tabela a seguir.

Tabela 1

Estado civil Grau de instrução Nº filhos Salário (X. min) Idade (anos-meses)

Solteiro Ensino Fundamental - 4,00 23 03

Casado Ensino Fundamental 1 4,56 32 10

Casado Ensino Superior 3 19,40 48 11

Solteiro Ensino Médio - 10,53 25 08

Solteiro Ensino Médio - 16,22 31 05

Page 15: Estatistica Aplicada Unidade I(1)

15

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Resolução

Variável qualitativa nominal: estado civil.

Variável qualitativa ordinal: grau de instrução.

Variável quantitativa discreta: número de filhos.

Variável quantitativa contínua: salário e idade.

Variáveis discretas e contínuas = variáveis quantitativas.

Variáveis nominais e ordinais = variáveis qualitativas.

E ainda:

Dados qualitativos: consistem em atribuir qualidade ou atributo à variável pesquisada.

Dados quantitativos: consistem em números que representam contagens ou medidas.

1.6 Formas iniciais de tratamento dos dados

Em geral, quando nos propomos a buscar ou construir informações a partir de dados, deparamo-nos, inicialmente, com um conjunto de dados brutos que pouco nos dizem. É preciso organizá-los minimamente para que comecem a fazer algum sentido, viabilizando sua análise.

Exemplo 1: a tabela a seguir apresenta as notas de 40 estudantes da disciplina de estatística.

Tabela 2

50 96 75 87 65 45 72 1032 54 25 69 72 30 81 2024 45 80 90 64 95 23 9080 35 96 47 65 70 73 6360 20 45 89 20 90 80 70

Essa tabela é chamada de tabela primitiva ou dados brutos, pois os dados coletados estão dispostos conforme a ordem da coleta e não na ordem de numeração.

Observando os dados anteriores, tabela primitiva, fica difícil visualizar em torno de que valor tendem a se concentrar as notas dos estudantes, qual a maior ou qual menor nota, e ainda quantos alunos se acham abaixo de uma dada nota.

Page 16: Estatistica Aplicada Unidade I(1)

16

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Uma primeira forma de organização dos dados brutos é o chamado rol. Obtemos o rol quando organizamos os dados brutos em ordem crescente ou decrescente de grandeza.

Ainda com respeito à tabela de nota dos 40 estudantes da disciplina de estatística, vejamos como fica:

Tabela 3

10 20 20 20 23 24 25 30

32 35 45 45 45 47 50 54

60 63 64 65 65 69 70 70

72 72 73 75 80 80 80 81

87 89 90 90 90 95 96 96

Agora, podemos saber, com relativa facilidade, qual a menor nota (10) e qual a maior nota (96). Para determinar a amplitude do rol, basta realizar a diferença entre o maior e o menor número do rol, ou seja, para o exemplo, a amplitude de variação foi de 96 – 10 = 86.

Exemplo 2: seja A = {10, 7, 3, 9, 1, 5, 10, 4, 2, 8} o conjunto das notas dos alunos, determine o rol e a amplitude do rol:

{10, 7, 3, 9, 1, 5, 10, 4, 2, 8} à dado bruto

{1, 2, 3, 4, 5, 7, 8, 9, 10, 10} à rol

Amplitude = {maior valor do rol – menor valor do rol}

à A = 10 – 1 = 9

Limites de classe: são os números extremos de cada classe; sendo assim, temos um limite inferior e um superior, que denominamos de amplitude de variação.

A = Lsup. - Linf.

1.7 notações por índices

A notação por índices é bastante utilizada na estatística, sendo importante esclarecer seu significado. O símbolo xi (lê-se “x índice i”) irá representar qualquer um dos n valores assumidos pela variável x, x1, x2, x3, x4, ..., x. “n” é denominado índice e poderá assumir qualquer dos números entre 1, 2, 3, 4,..., n.

1.7.1 Notação sigma (∑)

A maioria dos processos estatísticos vai exigir o cálculo da soma de um conjunto de números. A letra maiúscula grega sigma (∑) é utilizada para representar o somatório.

Page 17: Estatistica Aplicada Unidade I(1)

17

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Assim, se determinada variável y tiver os valores 3, 5, 7, 9 e 11, o ∑y será:

∑y = 3 + 5 + 7 + 9 + 11

∑y = 35

Por outro lado, se o consumo semanal de arroz por x, durante um mês, foi 2 kg, 4 kg, 3 kg, 5 kg, o total consumido por x no mês teria sido:

∑x = 2 + 4 + 3 + 5

∑x = 14, x teria consumido 14 kg de arroz durante o mês referido.

A notação sigma possui algumas propriedades que precisamos desenvolver para facilitar os conteúdos que estudaremos nesta disciplina.

A) x x xi

n

i11=

∑ ∑ ∑= = , isso significa que devemos somar as n observações de x, começando com

a primeira.

Por exemplo, num conjunto de dados x = {2, 4, 6, 8, 10, 12}, em que n = 6, temos:

x x

x

ii

n

ii

i

= =∑ ∑

= = + + + + +

=1 1

6

2 4 6 8 10 12

42

Por outro lado, é possível utilizar essa notação quando se pretende analisar a soma de apenas uma parte dos dados disponibilizados, podendo-se, portanto, abreviar a soma de um conjunto de dados. Dessa forma, podemos ter:

x x x xi1 2 31

3

+ + = ∑x x x x xi

i8 9 10 11

8

4

+ + + ==∑

B) Se cada valor da variável x é multiplicado ou dividido por uma constante, temos que isso será igual ao valor da constante multiplicado ou dividido pela somatória de x.

c x c x. .= ∑∑

Page 18: Estatistica Aplicada Unidade I(1)

18

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Assim,

4 4 4 4 4

4 4

1 2 3 41

4

1 2 3 41

4

x x x x x

x x x x x

ii

ii

= + + +

= + + + =

=

=

∑( )

Por exemplo: se xi = {2, 4, 6, 8, 10, 12}, n = 6, e cada valor de x é multiplicado pela constante c = 2, temos:

cx c x= ∑∑cx c xi

ii

i

= = + + + + =

= + + + += =∑ ∑

1

6

1

6

2 2 2 4 2 8 2 10 2 12

2 2 4 6 8 10

( ) ( ) ( ) ( ) ( )

( ++

= = ===∑∑

12

2 2 2 42 841

6

1

6

)

( )x xi iii

C) O somatório de uma constante c será igual ao produto da constante pelo número de vezes (n) que ela se repete. Assim, temos:

c ncii i

n

==∑Por exemplo, numa determinada observação, o conjunto de dados de xi = {7, 7, 7, 7, 7, 7}, n = 6,

temos que xi é uma constante c que se repete. Então, temos:

x c

xi c nc

i i

iii

=

= = = + + + + + = ===∑∑

1

6

1

6

7 7 7 7 7 7 6 7 42( )

D) O somatório de uma soma ou de uma diferença de duas variáveis será igual à soma ou diferença dos somatórios individuais das duas variáveis. Assim, temos:

( )

( )

x y x y

x y x y

i i i ii

n

i

n

i

n

i i i ii

n

i

n

i

n

+ = +

− = −

===

===

∑∑∑

∑∑∑111

111

Page 19: Estatistica Aplicada Unidade I(1)

19

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Por exemplo:

i X Y (X-Y)

( )x y

x y

− =

− = − =∑∑ ∑

9

20 11 9

1 8 5 3

2 3 2 1

3 4 0 4

4 5 4 1

- - - -

Σ 20 11 9

Figura 3

E) O somatório de um conjunto de dados x ao quadrado nos obriga a elevar cada elemento de xi ao quadrado para efetuar a soma. Assim, temos:

x x x x xii

n

n2

112

22

32 2

=∑ = + + + +...

Por exemplo, numa dada observação, o conjunto de dados de xi = {2, 4, 6, 8, 10}, n = 5; temos, então:

xii

2

1

52 2 2 2 22 4 6 8 10

4 16 36 64 100 220=∑ = + + + + =

= + + + + =

F) O somatório ao quadrado de um conjunto de dados será obtido tomando-se a soma dos valores de xi e elevando-se ao quadrado. Assim, temos:

( ) ( ... )x x x x xii

n

n=∑ = + + + +

1

21 2 3

2

Por exemplo, se temos um mesmo conjunto xi = {2, 4, 6, 8, 10}, n = 5, tal qual no exemplo do item E, teremos um resultado distinto. Vejamos, neste caso:

( ) ( ) ( )xii=∑ = + + + + = =

1

52 2 22 4 6 8 10 30 900

Não confunda xii

n2∑ com xi

i

n

2

, pois, conforme se observa no exemplo anterior, seus resultados serão diferentes.

1.8 Séries estatísticas – simples e compostas

Uma série estatística define-se como qualquer tabela na qual haja distribuição de um conjunto de dados estatísticos destinados a uma mesma ordem de classificação: quantitativa. Ou, ainda, no sentido

Page 20: Estatistica Aplicada Unidade I(1)

20

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

mais amplo, série é uma sucessão de números referidos a qualquer variável. Caso os números expressem dados estatísticos, a série será chamada de série estatística.

As tabelas são utilizadas para apresentar séries estatísticas. Os três caracteres presentes na tabela que as apresenta são:

• a época (fator temporal ou cronológico) – a que se refere o fenômeno estudado;

• o local (fator espacial ou geográfico) – onde o fenômeno acontece;

• o fenômeno (espécie de fato ou fator específico) – que é descrito de forma categórica. As séries são divididas em dois grupos:

As séries são divididas em dois grupos:

1. Séries homógradas: onde há variação discreta ou descontínua na variável descrita.

- Série temporalSéries homógradas: - Série geográfica - Série específica.

2. Séries heterógradas: são aquelas nas quais o fenômeno/fato apresentam gradações ou subdivisões.

Séries heterógradas: Distribuição de frequências

2 APrESEntAção dE dAdoS – gráFICoS E tAbElAS

A representação gráfica das séries estatísticas tem por finalidade sintetizar os resultados obtidos e, assim, chegar a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. O gráfico mais apropriado ficará a critério do pesquisador, respeitando os elementos de clareza, simplicidade e veracidade (NOGUEIRA, 2009).

Diretrizes para a construção de um gráfico:

• o título do gráfico deve ser o mais claro e completo possível, sendo necessário acrescentar subtítulos;

• a orientação geral dos gráficos deve ser da esquerda para a direita;

• as quantidades devem ser representadas por grandezas lineares;

• sempre que possível, a escala vertical há de ser escolhida de modo a aparecer a linha 0 (zero);

• só devem ser incluídas no desenho as coordenadas indispensáveis para guiar a vista na leitura, um tracejado muito cerrado dificulta o exame do gráfico;

• a escala horizontal deve ser lida da esquerda para a direita e a vertical de baixo para cima;

Page 21: Estatistica Aplicada Unidade I(1)

21

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

• os títulos e as marcações do gráfico dispor-se-ão de maneira que sejam facilmente legíveis, partindo da margem horizontal inferior ou da margem esquerda.

Leitura e interpretação de um gráfico:

• declarar qual o fenômeno ou fenômenos representados, a região considerada, o período de tempo, a fonte dos dados etc.;

• examinar o tipo de gráfico escolhido, verificar se é o mais adequado, criticar a sua execução, no conjunto e nos detalhes;

• analisar cada fenômeno separadamente, fazendo notar os pontos mais em evidência, o máximo e o mínimo, as mudanças mais bruscas;

• investigar se há uma “tendência geral” crescente ou decrescente ou, então, se o fato exposto é estacionário;

• procurar descobrir a existência de possíveis ciclos periódicos, qual o período aproximado etc.

Eis os tipos mais comuns de gráficos:

Gráfico em linha

1 2 3 4 5 6 7

500

400

300

200

100

0

Série 1

Série 2

Figura 4

Gráfico em colunas

População

1940 1950 1960 1970

100

80

60

40

20

0

População

Figura 5

Page 22: Estatistica Aplicada Unidade I(1)

22

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Gráfico em barras

É semelhante ao gráfico em colunas, porém os retângulos são dispostos horizontalmente.

População do Brasil

0 20 40 60 50 100

1970

1960

1950

1940

População do Brasil

Figura 6

Gráfico em setores

Anos Faturamento de uma empresa (em milhões)

2008 3

2009 4

2010 5

Total 12

Figura 7

É a representação gráfica de uma série estatística, em círculo, por meio de setores. É utilizado principalmente quando se pretende comparar cada valor da série com o total.

Total __________360ºParte___________ xº

• Para 2008: 12 - 360º3 - xºxº = 90º

• Para 2009: 12 - 360º4 - xºxº = 120º

• Para 2010: 12 - 360º5 - xºxº = 150º

Page 23: Estatistica Aplicada Unidade I(1)

23

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

2008

2009

2010

Figura 8

Gráfico polar

É a representação de uma série por meio de um polígono. Movimento mensal de compras de uma agência em 1972.

Tabela 4

Meses Valores (R$ 1.000,00)

Janeiro 12

Fevereiro 13

Março 14

Abril 12

Maio 15

Junho 19

Julho 17

Agosto 18

Setembro 14

Outubro 16

Novembro 12

Dezembro 18

JanFev

Mar

Abr

Mai

JunJul

Ago

Set

Out

Nov

Dez 20

15

10

5

0

Série 1

Figura 9

Page 24: Estatistica Aplicada Unidade I(1)

24

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Gráfico carta geográfica

É a representação gráfica de um mapa geográfico indicando um acontecimento, por exemplo, a previsão de tempo para determinado dia em determinado Estado ou país. A figura a seguir é um cartograma que informa a produção de petróleo segundo suas regiões geográficas.

Cartograma 1.2 – Produção de petróleo, segundo regiões geográficas (milhões b/d) – 2003

áfrica

Américas Central e do Sul

8,4

14,2

6,7

7,9

7,9

22,6

Oriente Médio

ásia-Pacífico

Europa e Ex-União Soviética

América do Norte

Figura 10

Nota: inclui óleo de xisto, óleo de areias betuminosas – o LGN, exceto para o Brasil.

Para o Brasil, inclui LGN e não inclui óleo de xisto e óleo de areias betuminosas.

Pictograma

É a representação gráfica mais utilizada na atualidade por jornais e revistas, pois é um gráfico de forma atraente e de fácil interpretação. Mostra o fenômeno estudado inserido com um gráfico de linha, coluna, barra ou de setor, conforme o exemplo a seguir, em que um outdoor aponta a verba gasta com publicidade junto com um gráfico de linha para mostrar seu desempenho anual.

Page 25: Estatistica Aplicada Unidade I(1)

25

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Figura 11

Publicidade em alta

Institucional De utilidade pública

Orçamento prevê aumento de 20% em gastos da administração direta

Valor da publicidadeEm R$ Milhões

2007 2008 2009 2010 2007 2008 2009 201080,1

120,2

158,1167 532,1

425,1

294,7

152,6

Figura 12

Saiba mais

Aplicação de gráficos de controle de Soma Acumulada (CUSUM) para monitoramento de um processo de usinagem. Disponível em: <http://dspace.universia.net/bitstream/2024/542/1/ArtigoXVISIMPEP2009.PDF>. Acesso em: 20 jul. 2012.

Page 26: Estatistica Aplicada Unidade I(1)

26

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

2.1 Elementos básicos das tabelas

Uma forma de sintetizar os valores que uma ou mais variáveis podem assumir é por meio de uma tabela.

Uma tabela é constituída dos seguintes elementos:

Quadro 1

Título É o conjunto de informações que precede a tabela e contém a indicação dos fatores: o quê? Quando? Onde?

Cabeçalho É a parte superior da tabela que especifica o conteúdo das colunas.

Corpo da tabela É o espaço que contém as informações sobre o fenômeno observado.

Fonte É a indicação da entidade responsável pelo levantamento dos dados.

Título Produção de petróleo em barris/dia

Estado e Região TotalBarris/dia Cabeçalho

Rio de Janeiro 1.597.387

Coluna indicadora

Espírito Santo 193.962

Amazonas 52.964

Bahia 49.472

Rio Grande do Norte 60.861

Sergipe 42.072

São Paulo 16.983

Alagoas 6.300

Ceará 7.530

Paraná (xisto) 3.393

Rodapé

Figura 13

3 MEdIdAS dE tEndÊnCIA CEntrAl: MÉdIA, ModA E MEdIAnA PArA dAdoS SIMPlES

No desenvolvimento de um estudo estatístico, muitas vezes é inviável examinar todos os elementos da população de interesse para tirar conclusões; pensando nisso, há medidas que possibilitam condensar as informações para esclarecer a fase analítica da estatística descritiva. A inferência estatística nos dá elementos para generalizar, de maneira segura, as conclusões obtidas da amostra para a população.

Quando se trata de amostra, a preocupação central é que ela seja representativa.

Page 27: Estatistica Aplicada Unidade I(1)

27

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Assim que decidimos extrair informações por meio de um levantamento amostral, temos imediatamente dois problemas:

• definir cautelosamente a população de interesse;

• selecionar a característica que iremos pesquisar.

Portanto, temos situações profissionais em que nos bastam poucos dados ou estatísticas de dados simples. Por outro lado, têm-se também situações em que um número maior de elementos deve ser investigado e tratado como distribuições de frequência.

Quando estamos diante de um conjunto de dados, seja ele pequeno ou grande, em geral buscamos medidas que possam ser usadas para indicar um valor que tende a representar melhor aquele determinado conjunto de números. E as medidas mais usadas nesse sentido são as chamadas medidas de tendência eventual ou central, que são a média, a mediana e a moda.

Sabe-se que esses valores serão medidos de forma distinta conforme um grande conjunto de dados ou um pequeno conjunto de dados. Também o cálculo desses valores será afetado caso as variáveis sejam discretas ou contínuas.

Em estatística, a média é o valor médio de uma distribuição ou de um conjunto de dados, determinado segundo uma regra estabelecida a priori e que se utiliza para representar todos os valores da distribuição. Existem diversas formas de calcular a média de um conjunto de números, por exemplo, algumas delas são: média aritmética, média aritmética ponderada, média geométrica e média harmônica.

observação

Neste módulo, trataremos do cálculo dessas estatísticas para os chamados dados simples ou conjuntos de dados com menos de 30 elementos.

3.1 A média aritmética simples (x)

A média aritmética é um dos valores mais representativos de um conjunto de dados. Obtém-se o valor da média aritmética dividindo-se o somatório dos valores do conjunto de dados pelo número de valores total desse conjunto.

Na média aritmética, temos como símbolo: x (lê-se “x traço” ou “x barra”).

Assim, temos que, para a amostra, se calcula o valor médio utilizando-se os seguintes parâmetros:

Page 28: Estatistica Aplicada Unidade I(1)

28

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

x

x

n

ii

n

= =∑

1, onde

x ⇒ Média aritmética da amostra (estimativa)

n ⇒ Número de dados da amostra

xi ⇒ Cada variável da amostra

Vamos, agora, tomar um exemplo de média aritmética. Supondo um conjunto de dados xi = {2, 4, 6, 8, 10,12}, onde n = 6, temos:

x

x

n

ii

n

= = + + + + + ==∑

1 2 4 6 8 10 126

7

Exemplo 1:

Uma amostra das notas das provas de matemática dos estudantes da 7ª série de uma grande escola de São Paulo xi, em que:

xi = {87, 42, 64, 58, 90, 90, 85, 63, 47, 74, 100, 94} e n = 12, temos:

x

x

n

ii

n

= = + + + + + + + + + + + ==∑

1 87 42 64 58 90 90 85 63 47 74 100 9412

74 5,

A nota média na prova de matemática dos estudantes da 7ª série dessa escola de São Paulo, por amostragem, é 74,5.

observação

São as propriedades que a média aritmética simples possui que a fazem a medida de tendência central mais usada e mais importante de todas.

São propriedades da média aritmética:

• em um conjunto de dados, é sempre possível o cálculo da média, independentemente de quais elementos compõem esse conjunto de dados;

• em um determinado conjunto de dados, o valor da média será único e corresponderá a uma constante;

• todos os valores de determinado conjunto de dados irão afetar a média, se um valor se modifica, a média aritmética também se modificará; somando-se ou subtraindo-se uma determinada constante c a cada elemento de um determinado conjunto de dados xi = x1, x2, x3, ..., xn, a média

Page 29: Estatistica Aplicada Unidade I(1)

29

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

aritmética ficará aumentada ou diminuída dessa constante c; se, por outro lado, multiplicarmos cada elemento desse conjunto de dados por uma constante c, a nova média será também multiplicada por essa constante c; se dividirmos cada elemento do conjunto de dados por essa mesma constante c, a média será dividida por c.

Assim, se temos um conjunto xi = x1, x2, x2, ..., xn, a média será:

x

x

ni

n

1

11= =

∑, logo:

x

c x

nx

x

nncn

x x ci

i

n

ii

n

21

21

2 1=+

⇒ = + ⇒ = += =∑ ∑( )

• a soma algébrica dos desvios dos números de um conjunto de dados em torno da média é zero, isso pode ser representado da seguinte forma:

x xi − =∑ 0

Por exemplo, se temos um conjunto de dados xi = (2, 4, 6, 8, 10), onde n = 5, temos que:

x

xii= = + + + + ==∑

1

5

52 4 6 8 10

56

Se aplicarmos a fórmula acima, temos:

x x xi i− = − = − + − + − + − + −∑ ∑ 6 2 6 4 6 6 6 8 6 10 6( ) ( ) ( ) ( ) ( )

x x

x x

i

i

∑∑

− = − − + + +

− =

4 2 0 2 4

0

observação

A média aritmética é a mais utilizada em nosso dia a dia. É obtida dividindo-se a soma das observações pelo número delas.

3.2 A média aritmética ponderada xp

Num conjunto de dados em que cada elemento ou cada observação possui a mesma importância, o cálculo da média aritmética simples mostrará bem a população ou a amostra estudada. No entanto, se queremos atribuir pesos distintos ou importâncias distintas aos elementos de um

Page 30: Estatistica Aplicada Unidade I(1)

30

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

conjunto de dados, a estatística a ser adotada é a média aritmética ponderada, em que a cada valor xi deverá ser atribuído um determinado peso pi. A expressão estatística para o cálculo da média ponderada é:

x

x p

pp

i ii

n

ii

n= =

=

∑1

1

Supondo que um estudante tenha de efetuar uma série de quatro exames para obter sua média final e passar de ano, cada exame possui um peso diferente na composição dessa média, conforme a tabela a seguir:

x

x p

p

x

p

i ii

n

ii

n

p

=

=+ + +

=

=

∑1

1

0 30 68 0 20 89 0 40 45 0 1

,

( , ) ( , ) ( , ) ,

logo

00 1000 30 0 20 0 40 0 10

20 4 17 8 18 10 66 2

( ), , , ,

, , ,

+ + += + + + =xp

Exame Nota Peso

1 68 0,30

2 89 0,20

3 45 0,40

4 100 0,10

1,00

Figura 14

A nota média será, então, 66,2, resultado diferente do que seria obtido se utilizássemos a média aritmética simples.

Num conjunto de dados, em que cada elemento ou cada observação possui importância diferente, utilizamos a média aritmética ponderada.

Exemplificando as médias aritmética e ponderada:

Média aritmética – exemplo: um aluno tirou as notas 5, 8 e 6 em três provas. A sua média aritmética será (5 + 8 + 6)/3 = 7,25.

Média ponderada – exemplo: um aluno fez um teste (peso 1) e duas provas prova (peso 2), tirando 8 no teste, 5 na primeira prova e 6 na segunda prova. A sua média (ponderada) será [(1 x 8) + (2 x 5) + (2 x 6) ]/3 = 6. Se o teste e a prova tivessem o mesmo peso (e não importa qual o valor do peso, importa apenas a relação entre os pesos), a média seria, aproximadamente, 6,33.

Distribuição por frequência é a tabela em que se organizam grandes quantidades de dados, determinando o número de vezes que cada dado ocorre – frequência (fi) – e a porcentagem com que aparece – frequência relativa (fr).

Page 31: Estatistica Aplicada Unidade I(1)

31

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

observação

∑fi = n número total de observações;

xi = valor da variável ou pontos médios de classes;

k = número de classes ou de valores individuais diferente da variável.

Exemplo: em uma turma, a nota atribuída a 30 alunos, referente a um teste de estatística, foi disposta em ordem crescente: 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 10.

Observando que algumas notas se repetem, podemos utilizar o número de observações ou frequência de cada um deles como o peso ou fator de ponderação.

Assim:

(4x4)+(7x5)+(5x6)+(5x7)+(4x8)+(2x9)+(1x10)x = ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- = 6,29 4+7+5+5+4+2+1

Utilizando uma tabela para representar a distribuição de frequência, temos:

Tabela 5

xi fi xi fi

∑ xi fi 176x = ------------------------------------ = --------------------------- = 6,29 n 28

4 4 4x4 = 16

5 7 5 x 7 = 35

6 5 6 x 5 = 30

7 5 7 x 5 = 35

8 4 8 x 4 = 32

9 2 9 x 2 = 18

10 1 10 x 1 = 10

∑ 28 176

3.3 A mediana (Md)

Outra medida importante de um conjunto de dados é a mediana. A mediana divide determinado conjunto de dados que deverá estar ordenado em dois grupos iguais, em que metade terá valores menores, e metade terá valores maiores que a mediana.

Antes de calcular a mediana, é preciso organizar os valores num rol em ordem crescente, para então contar até a metade dos valores e encontrar a mediana. Em geral, após organizarmos os dados em um rol, podemos calcular a posição da mediana com a fórmula a seguir:

Page 32: Estatistica Aplicada Unidade I(1)

32

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

(n+1)Md = ---------------------------- 2

Em que n é o número de dados observados. Por exemplo, para um conjunto de dados xi = {6, 9, 3, 5, 2, 9, 5, 5, 8, 7, 1, 7, 2}, em que n = 13, temos primeiro que organizar esses dados em um rol e depois encontrar a posição da mediana para então saber qual será a mediana. Senão, vejamos:

rolxi - {1, 2, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9}

(n+1) 13+1Md = ---------------------------- = ---------------------------- = 7 2 2

Md = 5

A mediana é outra medida de posição definida como o número do meio, quando as medidas são organizadas em ordem ascendente ou descendente. Em outras palavras, a mediana de um conjunto de termos ordenados é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.

observação

Se o número de elementos for ímpar, então a mediana será exatamente o valor “do meio”. Se o número de elementos for par, então a mediana será exatamente a média “dos dois valores do meio”.

Para determinar a mediana:

• organize o conjunto de dados em um rol;

• para um conjunto de dados cujo n = ímpar, a mediana será o valor do meio;

• para um conjunto de dados cujo n = par, a mediana será a média dos dois valores do meio.

Para um conjunto de dados xi = {6, 4, 8, 3, 2, 9, 7, 1}, em que n = 8, temos, então:

rolxi = {1, 2, 3, 4, 6, 7, 8, 9}

(n+1) 8+1Posição mediana = ---------------------------- = ---------------------------- = 4,5 2 2

A mediana será o valor que está a meio caminho dos dois valores médios; nesse caso, entre 4 e 6. Como fazer? Deve-se tirar a média entre os dois valores do meio para obter o valor da mediana.

Page 33: Estatistica Aplicada Unidade I(1)

33

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Assim, temos:

4 + 6Md = ---------------------------- = 5 2

observação

Quando usamos a mediana?

Empregamos a mediana quando:

• desejamos obter o ponto que divide a distribuição em partes iguais;

• há valores extremos que afetam de maneira acentuada a média;

• a variável em estudo é salário.

Em teoria da probabilidade e em estatística, a mediana é uma medida de tendência central, um número que representa as observações de determinada variável, de tal forma que esse número, a mediana, de um grupo de dados ordenados, separa a metade inferior da amostra, população ou probabilidade de distribuição, da metade superior. Mais concretamente, 1/2 da população terá valores inferiores ou iguais à mediana, e 1/2 da população terá valores superiores ou iguais à mediana.

Em casos de populações (n) ímpares, a mediana será o elemento de posição central n +

°12

.

Para os casos de populações (n) pares, a mediana será o resultado da média simples dos elementos de posição central

ne

n2

12

° +

° . Por exemplo, para as seguintes séries, temos:

Exemplo 1

1, 3, 5, 7, 9, o n da série é ímpar, temos:

n +

°

+

°

12

5 12

3º posição

A mediana é igual a 5, pois é a 3ª posição da série.

Page 34: Estatistica Aplicada Unidade I(1)

34

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Exemplo 2

1, 2, 4, 7, 9, 10, o n da série é par, temos:

n n

en

e

21

2

63

12

3 4

° +

°

° +

°

° °

e

3° e 4°

A média será a média entre o 3° e o 4° elemento da série, que será:

3° = 4

4° = 7

Md

Md

= +

=

4 72

5 5,Md = 5,5

3.4 A moda

Muitas vezes, em um conjunto de dados, existem valores que se repetem com frequência maior. A moda é justamente esse valor ou esses valores que mais se repetem em um conjunto de dados. É possível haver estatísticas que não possuam moda ou que possuam mais de uma moda.

No exemplo que demos anteriormente, para um conjunto de dados xi = {1, 2, 3, 4, 6, 7, 8, 9}, não existe moda, e diz-se que o conjunto ou distribuição é amodal.

A moda é uma estatística muito mais descritiva e sua importância cresce à medida que um valor ou grupo de valores se repete mais que outros, e nesse sentido a moda indicaria o valor típico daquele conjunto de dados com maior ocorrência. Por exemplo, o conjunto de dados xi = {2, 2, 7, 9, 9, 9, 10, 10, 11, 12, 18} tem moda igual a 9, porque o número 9 é aquele com maior frequência, repetindo-se três vezes.

Denominamos moda o valor ou valores de um conjunto de dados que aparecem com maior frequência em uma série. Por exemplo: o salário modal dos professores de uma escola é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa escola.

A moda pode apresentar mais de um valor, diferentemente da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.

A moda de {pera, pera, banana, limão, limão, limão, pêssego} é limão.

Page 35: Estatistica Aplicada Unidade I(1)

35

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

A série {1, 3, 4, 5, 5, 6, 6} apresenta duas modas (bimodal): 5 e 6.

A série {1, 3, 2, 5, 8, 7, 4, 9} não apresenta moda.

Exemplo

Sabendo-se que a produção leiteira diária de uma vaca, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, pede-se que se encontre a média, a moda e a mediana para a produção diária de leite dessa vaca.

Média

x

x

n

ii

n

= = + + + + + + = ==∑

1 10 14 13 15 16 18 127

987

14

Logo, x = 14 litros de leite em média por dia, o que significa uma produção de 98 litros de leite em média por semana.

observação

A média pode ser um número diferente de todos os valores da amostra que ela representa.

Moda

Como não possui um valor que aparece com maior frequência que os outros, não há valor de moda para esse exemplo.

Mediana

Ordenando os dados de forma crescente, temos: 10 - 12 - 13 - 14 - 15 – 16 – 18

Mdn

Md

Md

= +

°

= +

°

= °

12

7 12

4

Mediana será o 4° elemento da série, que é igual a 14 litros de leite por dia.

Page 36: Estatistica Aplicada Unidade I(1)

36

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

observação

Cada frequência acumulada é a soma das frequências anteriores à classe.

f1a = f1f2a = f1a + f2f3a = f2a + f3f4a = f3a + f4...........fna = f(n-1)a + fn

3.5 Posição relativa da média, moda e mediana

Em uma distribuição de frequências simétricas, as medidas de média, mediana e moda coincidem. Já quando a assimetria torna-se diferente, essa diferença é tanto maior quanto é a assimetria. Resumidamente, temos:

(a) (b) (c)

x = Md = Mo Mo Md x x Md Mo

Figura 15 - Distribuições: (a) simétrica, (b) assimétrica e (c) assimétrica negativa.

a) x = xmd = Mo à curva simétrica

b) Mo< xmd < x à curva assimétrica positiva

c) x < xmd < Mo à curva assimétrica negativa

4 MEdIdAS dE dISPErSão PArA dAdoS SIMPlES

Observamos que a moda, a mediana, e a média podem ser usadas para condensar, num único número, aquilo que é “médio” ou “típico” de um conjunto de dados. No entanto, a informação fornecida pelas medidas de posição necessita, em geral, ser complementada pelas medidas de dispersão. Essas medidas são usadas para indicar o quanto os dados se apresentam dispersos em torno da região central. Dessa forma, caracterizam o grau de variação existente no conjunto de valores. As medidas de dispersão mais utilizadas são:

• amplitude total;

Page 37: Estatistica Aplicada Unidade I(1)

37

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

• desvio padrão;

• variância;

• coeficiente de variação.

Note que, quanto maiores forem as medidas de dispersão, mais heterogêneos são os dados e, ao contrário, quanto menores forem essas medidas, mais homogêneo é o conjunto.

Vejamos a seguir alguns exemplos que mostram a necessidade de conhecermos as medidas de dispersão.

Exemplo 1

Sabe-se que em Honolulu (Havaí) e em Houston (Texas) a temperatura média diária é quase a mesma, em torno de 23,9 ºC. Pergunta-se: será que, por isso, podemos inferir que a temperatura seja basicamente a mesma em ambas as localidades? Ou não será possível que, enquanto uma cidade é melhor para natação, a outra o seja para atividades externas?

A temperatura em Honolulu varia muito pouco ao longo do ano, oscilando, em geral, entre 21,1 ºC e 26,7 ºC. Por outro lado, a temperatura em Houston pode diferir sazonalmente (nas estações do ano), isto é, apresentar-se baixa em janeiro (cerca de 4,4 ºC) e alta em julho e agosto (bem perto de 37,8 ºC). Logo, podemos perceber uma oscilação significativa. Desnecessário dizer que as praias em Houston não estão cheias de gente o ano todo.

Exemplo 2

Suponha que, numa particular cidade, tanto ladrões quanto professores secundários tenham uma renda média mensal de R$ 900,00. Será que essa informação indica que as duas distribuições de renda são, necessariamente, semelhantes? Muito ao contrário, poder-se-ia descobrir que elas diferem, e muito, num outro aspecto importante, que é o fato de as rendas dos professores concentrarem-se ao redor de R$ 900,00 (serem constantes, homogêneas), enquanto as dos ladrões espalham-se mais (são descontínuas, heterogêneas), o que reflete, portanto, maiores oportunidades para prisões, desemprego, pobreza e, em alguns casos, fortunas excepcionais.

Os fatos mostram que precisamos, além de uma medida de tendência central, de um índice que sinalize o grau de dispersão dos dados em torno da média. Esse índice é uma medida indicativa do que costumamos chamar de variabilidade ou dispersão.

Retornando ao exemplo 1, poderíamos concluir que a distribuição de temperatura em Houston (Texas) tem maior variabilidade do que a distribuição de temperaturas em Honolulu (Havaí). Da mesma forma, podemos dizer que a distribuição de rendas entre professores apresenta menos variabilidade do que a distribuição de rendas entre ladrões.

Assim, quando se deseja entender, analisar e descrever de forma adequada um determinado conjunto de dados, faz-se necessário dispor não apenas de informações relativas às medidas de posição. É preciso

Page 38: Estatistica Aplicada Unidade I(1)

38

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

que se disponha de informações relativas à variabilidade (dispersão) daqueles números que compõem o referido conjunto de dados. Essas medidas de variabilidade ou dispersão indicam se os dados observados estão próximos ou separados uns dos outros.

Diferente das medidas de posição, as medidas de dispersão não são autoexplicativas, sua aplicabilidade depende da comparação de populações ou de amostras do mesmo tamanho e da mesma característica para que se obtenha alguma informação importante a partir daquela determinada variabilidade.

As principais medidas de dispersão são: a amplitude total (ou intervalo), o desvio médio, a variância e o desvio padrão. A média serve de referência para todas essas medidas, exceto para o intervalo (ou amplitude total). À proporção que essas medidas se elevam, isso representa um aumento da dispersão, o que significa que, se a medida for igual a zero, não existe dispersão.

As medidas de variabilidade, que têm a média aritmética como ponto de referência, são importantes porque nos permitem avaliar o grau de dispersão das observações em relação a essa mesma média, isto é, permitem-nos avaliar o quão distante os dados de um determinado grupo de observações estão da média calculada, dando-nos uma noção mais precisa da situação de determinada população ou amostra, além de condições de tirar conclusões e informações importantes daqueles dados disponíveis.

Exemplo 3

Um estudante de economia resolve fazer uma pesquisa sobre os salários médios dos funcionários de determinado setor industrial em São Paulo. Nessa pesquisa, esse estudante conseguiu os seguintes dados em termos de salários mínimos mensais:

xi = {1.0; 1.5; 2.0; 2.0; 2.0; 2.5; 3.0; 3.0; 80.0; 85.0}

Ao calcular o salário médio desse setor, ele chegou ao valor médio de 18,2 salários mínimos por mês. Ora, mas esse dado, sem o cálculo de sua dispersão em relação à média aritmética, pouco nos diz sobre a realidade dessa população, e acabamos por ter uma visão distorcida do padrão de vida da maior parte dos funcionários desse setor analisado pelo estudante. As medidas de variabilidade ou dispersão nos permitem perceber essa distorção.

Temos, como principais medidas de dispersão, intervalo, desvio médio, variância e desvio padrão.

As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz quadrada e o desvio padrão. A amplitude total, a distância interquartílica e o desvio absoluto são mais alguns exemplos de medidas de dispersão.

4.1 Amplitude total

O intervalo ou amplitude total de determinado conjunto de dados é obtido pela diferença entre o maior e o menor valor nesse conjunto de números. Indica, portanto, a distância entre a maior e a menor observação de um conjunto de dados. Assim, temos:

Page 39: Estatistica Aplicada Unidade I(1)

39

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Amplitudetotal = Valormáximo - Valormínimo

Por exemplo, num conjunto de dados xi = {2, 3, 3, 5, 5, 5, 8, 10, 12}, em que n = 9, a amplitude total será:

Atotal = Vmáximo - Vmínimo = 12 - 2 = 10

Em alguns casos, o intervalo ou amplitude total pode ser expresso simplesmente pela indicação do menor e do maior número do conjunto de dados. No caso do exemplo anterior, a amplitude total poderia ser expressa simplesmente pela identificação do menor e do maior número, indicada como sendo de (2 a 12) ou (2 – 12).

A grande vantagem da amplitude total é que ela apresenta certa facilidade de ser calculada, mesmo quando o conjunto de dados observados é relativamente grande. No entanto, como a amplitude total apenas leva em conta os dois extremos do conjunto de números, em alguns casos ela pode ser uma medida enganosa quanto à indicação da dispersão de um conjunto de números, tendo, portanto, uma utilidade limitada.

O intervalo de determinado conjunto de dados é obtido pela diferença entre o maior e o menor valor nesse conjunto de números.

4.2 desvio médio absoluto

O desvio médio absoluto inaugura o estudo das medidas de variabilidade que têm a média como ponto de referência.

O chamado desvio nada mais é que a diferença entre cada valor de determinado conjunto de dados e a média desse mesmo conjunto de números (xi - x). O valor absoluto de um número será ele próprio, sem o sinal que lhe é associado, e é indicado por meio de duas linhas verticais que o enquadram.

Assim, |-67| = 67; |9| = 9.

É preciso calcular primeiro a média aritmética dos dados disponíveis, que em geral se apresentam como dados amostrais.

O desvio médio absoluto será calculado pela média dos desvios dos valores a contar da média, ignorando o sinal (+ ou -) do desvio, ou seja, convertendo os valores dos desvios em valores absolutos, considerando-os todos desvios positivos. Assim, temos:

Dmédio = x x

n

ii

n

−=∑

1

Page 40: Estatistica Aplicada Unidade I(1)

40

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Em que n é o número de observações.

Vamos, agora, tomar um exemplo de desvio médio. Num conjunto de dados amostrais xi = {2, 4, 6, 8, 10, 12}, em que n = 6, determine o desvio médio. Temos, então:

Dmédio =x x

ni −∑

Precisamos, primeiro, calcular a média, para então passarmos ao cálculo do desvio médio. Relembrando a fórmula do cálculo da média aritmética, temos:

xx

nx xi= ⇒ = + + + + + = ⇒ =∑ 2 4 6 8 10 12

67 7

Agora, podemos calcular os desvios para cada valor do conjunto de dados. Assim, temos:

xi - xDmédio = x x

n

i −=

− + − + − + + +∑ 5 3 1 1 3 5

6

Dmédio = 5 3 1 1 3 56

3+ + + + +

=

Dmédio = 3

2 – 7 - 5

4 – 7 - 3

6 – 7 - 1

8 – 7 1

10 – 7 3

12 – 7 5

Σ 0

Figura 16

O valor encontrado anteriormente representa a diferença média de cada observação e a média da distribuição, mas também nesse caso só seria possível obter mais informações a partir do desvio médio comparando com outras populações ou amostras de mesmas características. Por exemplo, se outro conjunto de dados, com as mesmas características e tamanho, apresentasse um desvio médio absoluto igual a 2,4, ou seja, menor que o desvio médio absoluto calculado no exemplo anterior, poder-se-ia dizer que esse segundo conjunto de valores é mais homogêneo do que o nosso exemplo, já que a diferença de cada um dos seus elementos em relação à média aritmética é menor. Teríamos, assim, uma dispersão menor.

O desvio é que a diferença entre cada valor de determinado conjunto de dados é a média desse mesmo conjunto de números.

4.3 Variância

Como no cálculo do desvio médio, para o cálculo da variância, precisaremos utilizar o desvio de cada elemento de um conjunto de dados em relação à média aritmética (xi - x). No entanto, ao invés de

Page 41: Estatistica Aplicada Unidade I(1)

41

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

trabalharmos com os valores absolutos (em módulo), agora os desvios são elevados ao quadrado antes da soma. Para o caso de dados amostrais, ao invés de dividirmos por n, dividimos por n – 1 (que é o total da amostra menos uma unidade).

A variância irá nos dizer o grau de dispersão de determinado grupo de dados com relação à média aritmética desses números. Assim, a variância populacional poderá ser calculada da seguinte forma:

σµ2

2

=−∑ ( )x

ni , onde

σ2: Variância populacional;xi: Cada observação do conjunto de dados populacional;µ: Média da população;n: Número de observações.

A variância amostral poderá ser calculada pela seguinte fórmula:

sx x

ni2

2

1=

−−

∑ ( ) , onde

s2: Variância da amostra;xi: Cada observação do conjunto amostral; x: Média da amostra;n: Número de observações da amostra.

Por exemplo, seja determinado conjunto de dados xi = {1, 3, 5, 7, 9, 11, 13}, em que n = 7. Calcule a variância desse conjunto de dados, supondo:

• que esse conjunto de dados representa toda uma população;

• que esse conjunto de dados representa uma amostra.

A) Para calcular a variância desse conjunto de dados, considerando que ele representa toda uma população, devemos utilizar a seguinte fórmula:

σµ2

2

=−∑ ( )x

ni

Devemos passar ao cálculo da média desse conjunto de dados para, então, proceder ao cálculo da variância. Sendo assim, temos:

µ µ

µ

= ⇒ =

= + + + + + + =

=

∑ x

ni

1 3 5 7 9 11 137

7

7

(média populacional)

Page 42: Estatistica Aplicada Unidade I(1)

42

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Partindo da média, podemos agora calcular os desvios e partir para o cálculo da variância populacional, já que supomos que o conjunto de dados representava toda a população. Assim, temos:

µ xi - µ (xi - µ)2

σµ

σ

σ

22

22 2 2 2 2 2

2

6 4 2 2 4 67

36 16 4 4 16

=−

=+ + + − + − + −

=+ + + + +

∑( )

( ) ( ) ( )

x

Ni

3367

16

162

=

7 7 – 1 = 6 62

7 7 – 3 = 4 42

7 7 – 5 = 2 22

7 7 – 7 = 0 0

7 7 – 9 = - 2 (-2)2

7 7 – 11 = - 4 (-4)2

7 7 – 13 = - 6 (-6)2

Σ 0 112

Figura 17

Desse modo, a variância populacional desse conjunto de dados seria igual a 16.

B) Se, por outro lado, temos o mesmo conjunto de dados e supondo que ele representa apenas dados amostrais, devemos calcular a variância amostral de outra forma, partindo do cálculo da média para, então, calcularmos a variância.

Como vimos no item 2, a expressão para o cálculo da média aritmética em uma amostra é a mesma do cálculo da média para uma população, mas utilizaremos para as amostras outra notação. Vejamos:

xx

nxi= ⇒ =∑ 7 (média amostral).

Normalmente, a média amostral aproxima-se da média populacional quanto maior o tamanho da amostra, mas não se iguala a ela.

Passemos, então, ao cálculo da variância amostral. Utilizaremos os mesmos passos do cálculo da variância populacional. Dessa forma:

sx x

ni2

2

1=

−−

∑ ( )

x xi - x (xi - x)2

Sx x

n

S

S

i22

22 2 2 2 2 2

2

1

6 4 2 2 4 67 1

36 16 4 4

=−

=+ + + − + − + −

=+ + +

∑( )

( ) ( ) ( )

++ +−

=

=

16 367 1

1126

18 6662S , ...

7 7 – 1 = 6 62

7 7 – 3 = 4 42

7 7 – 5 = 2 22

7 7 – 7 = 0 0

7 7 – 9 = - 2 (-2)2

7 7 – 11 = - 4 (-4)2

7 7 – 13 = - 6 (-6)2

Σ 0 112

Figura 18

Page 43: Estatistica Aplicada Unidade I(1)

43

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

A variância amostral desse conjunto de dados é igual a 18,666.

Como a média aritmética, a variância possui algumas propriedades importantes que devemos colocar em destaque e que facilitam o cálculo de alguns problemas mais complexos.

A) Somando-se ou subtraindo-se uma constante a cada elemento de um conjunto de dados, o valor da variância não se altera.

Por exemplo, um conjunto de dados xi = {2, 4, 6, 8}, em que n = 4, e a média é igual a 5. A variância desse conjunto será dada como segue:

σµ

σ

σ

22

22 2 2 2

22 2

2 5 4 5 6 5 8 54

3 1

=−

⇒ = − + − + − + −

=−( ) + −( )

∑ ( ) ( ) ( ) ( ) ( )x

ni

++ += + + + = =

1 3

49 1 1 9

4204

52 2

Se somarmos uma constante c = 4 a cada um dos elementos do conjunto de dados, temos um novo conjunto de dados yi = {6, 8, 10, 12}, em que a média será igual a 9. A variância será, então:

σµ

σ

22 2

2 2 2 2 2

22

2

6 9 8 9 10 9 12 9

4

3 1

=−

=−( ) + −( ) + −( ) + −( )

=−( ) + −(

∑ ( )y

ni

)) + ( ) + ( ) = + + + = =2 2 21 3

49 1 1 9

4204

5

Sendo assim, demonstramos que σ σ222 = =, ou seja, ao somarmos uma constante a cada elemento

de um conjunto de dados, a variância permanece a mesma.

B) Ao multiplicarmos uma constante c a cada elemento de um conjunto de dados, temos uma nova variância ao multiplicarmos a variância do conjunto de dados original por c2.

Assim, a nova variância será representada da seguinte forma:

σ σ22 2

12= c .

C) Ao dividirmos cada elemento de um conjunto de dados por uma constante arbitrária c, obtemos a nova variância dividindo-se a antiga variância por c2.

Assim, podemos apresentar a nova variância da seguinte forma:

σ σ22 1

2

2=c

D) A variância de uma constante é igual a zero.

Page 44: Estatistica Aplicada Unidade I(1)

44

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Existe uma fórmula alternativa e reduzida para o cálculo da variância populacional, deduzida da fórmula original, que é:

σ µ22

2= −∑ x

ni

Para a variância amostral, também existe uma fórmula alternativa bastante utilizada que não exige o cálculo da média e que decorre da fórmula anterior:

sx x n

nxi i22 2

1=

−−

∑ ∑( )

lembrete

Relembrando as propriedades de variância:

• ao somarmos uma constante a cada elemento de um conjunto de dados, a variância permanece a mesma;

• ao multiplicarmos uma constante c a cada elemento de um conjunto de dados, temos uma nova variância ao multiplicarmos a variância do conjunto de dados original por c2;

• ao dividirmos cada elemento de um conjunto de dados por uma constante arbitrária c, obtém-se a nova variância dividindo-se a antiga variância por c2;

• variância de uma constante é igual a zero.

Saiba mais

Para aprofundamento do tema desta unidade, seguem alguns links que podem auxiliá-lo:

“Métodos quantitativos e estatísticos para a tomada de decisão”. Disponível em: <http://www.santahelena.ueg.br/posgraduacao/mba/2007/download/metodosquantitativos/METODOS_QUANTITATIVOS_PARTE_I.pdf>. Acesso em: 25 jul. 2012.

“Estatística exploratória”. Disponível em: <http://www.cin.ufpe.br/~psb/EAD/Estatistica%20Exploratoria%20-%20Volume%201%20v11.pdf>. Acesso em: 25 jul. 2012.

Page 45: Estatistica Aplicada Unidade I(1)

45

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

4.4 desvio padrão

Obtém-se o desvio padrão extraindo-se a raiz quadrada da variância. Assim como a variância e o desvio médio, o desvio padrão também representa uma medida de variabilidade absoluta, e indica o desvio de cada um dos números xi de um dado conjunto de observações em relação à média μ. É também chamado por alguns autores de desvio da raiz média quadrática.

Matematicamente, o desvio padrão poderá ser representado da seguinte forma:

Desvio padrão populacional Desvio padrão amostral

σµ

=−∑ ( )x

ni

2

sx x

ni=−

−∑ ( )2

1

Por exemplo, um conjunto de dados amostrais xi = {2, 4, 6}, em que n = 3 e a média é igual a 4. Vamos, então, calcular o desvio padrão para a amostra:

sx x

n

s

i=−

−= − + − + −

−=

= − + + = = =

∑ ( ) ( ) ( ) ( )

( )

2 2 2 2

2 2

12 4 4 4 6 4

3 1

2 0 22

82

4 2

Esse conjunto de dados irá apresentar um desvio padrão igual a 2.

As propriedades da variância também são aplicáveis ao desvio padrão. No entanto, existem duas propriedades que serão distintas no caso do desvio padrão por causa de sua característica de raiz quadrada média positiva da variância.

Assim, ao multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao antigo multiplicado pela constante. Temos, então:

σ2 = c . σ1

Por outro lado, se dividirmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao anterior dividido pela constante c. Assim, temos:

σ σ2

1=c

As demais propriedades da variância serão as mesmas para o desvio padrão.

Page 46: Estatistica Aplicada Unidade I(1)

46

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

4.5 Coeficiente de variação

Em estatística descritiva, o coeficiente de variação serve para indicar se o desvio padrão é grande ou pequeno em relação à média aritmética da série que está sendo estudada; portanto, é uma comparação entre o desvio padrão e a média aritmética de uma pesquisa que vai determinar em porcentagem o quanto houve de desvio em relação à média. O coeficiente de variação é calculado por:

Cvsx

= , onde:

S = desvio padrão;

x = média aritmética, que pode ser de uma série populacional ou amostral.

Por exemplo, no item 3.4, foi determinado o desvio padrão de uma série amostral, portanto, vamos calcular o coeficiente de variação dessa série, que será:

CvSx

Cv

Cv

Cv

=

=

==

240 5

50

,

%

Nesse exemplo, o coeficiente de variação é grande, indica que a variabilidade foi a metade em relação à média dessa série.

As propriedades da variância se aplicam ao desvio padrão, exceto:

• quando multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao antigo multiplicado pela constante;

• quando dividirmos cada elemento de um conjunto de dados por uma constante c, o novo desvio padrão será igual ao anterior dividido pela constante c.

Em probabilidade e estatística, o desvio padrão é a medida mais usada da dispersão estatística. Não é senão como a raiz quadrada da variância, ou, ainda, é a raiz quadrada da média aritmética dos quadrados dos desvios, tomados a partir da média aritmética. É definido dessa forma de modo a dar-nos uma medida da dispersão que seja:

• um número que não seja negativo;

• use as mesmas unidades de medida que os nossos dados.

Page 47: Estatistica Aplicada Unidade I(1)

47

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Faz-se uma distinção entre o desvio padrão (sigma) do total de uma população ou de uma variável aleatória e o desvio padrão s de um subconjunto em amostra.

O termo desvio padrão foi introduzido na estatística por Karl Pearson, em seu livro Sobre a dissecção de curvas de frequência assimétricas, de 1894.

Exemplo

Utilizando-se o exemplo apresentado anteriormente, temos que a produção leiteira diária de uma vaca, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio padrão (S), a variância (S2) e 5 o coeficiente de variação (CV).

Solução

Amplitude

R = 18 – 10 = 8 litros de leite, ou seja, a maior variação do número de litros de leite produzido por dia pela vaca é de 8 litros.

observação

Sabemos que a média para esses dados é: x = 14 litros de leite por dia.

Desvio padrão

s

x x

n

x x x x xn x

ni

n

=−( )

−=

−( ) + −( ) + + −( )−

==∑ 1

2

1 12

22 2

1 1

...

10 14 14 14 13 14 15 14 16 14 18 14 12 12 2 2 2 2 2−( ) + −( ) + −( ) + −( ) + −( ) + −( ) + − 44

7 1

2( )−

=

−( ) + ( ) + −( ) + ( ) + ( ) + ( ) + −( ) += + + + + + + =

4 0 1 1 2 4 2

616 0 1 1 4 16 4

64

2 2 2 2 2 2 222

6=

7 ≅ 2,65 litros de leite por semana

Variância

S2 = (S)2 = (2,65)2 ≅ 7 (litros de leite)2

Coeficiente de variação

Page 48: Estatistica Aplicada Unidade I(1)

48

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

cvSx

= = =2 6514

0 1893,

, ou seja, existe uma variabilidade de 18,93% dos dados em relação à média.

Saiba mais

Dica de leitura:

“Análise do risco na avaliação de projetos de investimentos: uma aplicação do método de Monte Carlos”. Disponível em: <http://www.regeusp.com.br/arquivos/c6-Art7.pdf>. Acesso em: 18 jul. 2012.

resumo

Nesta unidade, vimos que a estatística utiliza métodos matemáticos para solucionar problemas reais de tomada de decisão quando há incerteza.

Em situações nas quais poderíamos contar unicamente com a sorte, temos um instrumento que nos possibilita aumentar as chances de tomar a melhor decisão.

Utiliza ferramentas matemáticas definidas e, mesmo lidando com grande número de dados, essas ferramentas resumem a análise em tabelas ou gráficos. Na prática, a estatística pode ser empregada como base conceitual e fundamental em várias outras ciências, inclusive em análises gerenciais.

Foram apresentados também os cálculos de medidas de tendência central (média, mediana, moda), as quais são utilizadas para representar a série pesquisada. Vimos que, por meio delas, podemos observar o comportamento da variável que as originou, isto é, nos dá uma ideia da tendência de todo um conjunto de dados. E, ainda, foram apresentadas de forma resumida as ideias de simetria e assimetria em função das medidas de tendência central.

Foram abordadas questões a respeito da distribuição de frequência e suas representações gráficas, estudo das medidas de dispersão e variabilidade; e, por fim, foi apresentado um estudo de introdução ao cálculo da probabilidade que nos ajuda a entender o significado de fenômenos aleatórios para o entendimento do que é provável e presumível e ainda os vários tipos de fenômenos em distribuição de probabilidade.

Page 49: Estatistica Aplicada Unidade I(1)

49

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Exercícios

Questão 1 (ENEM/2011 – adaptada). Uma equipe de especialistas do centro meteorológico de uma cidade mediu a temperatura do ambiente, sempre no mesmo horário, durante 15 dias intercalados, a partir do primeiro dia de um mês. Esse tipo de procedimento é frequente, uma vez que os dados coletados servem de referência para estudos e verificação de tendências climáticas ao longo dos meses e anos. As medições ocorridas nesse período estão indicadas a seguir:

Dia do mês Temperatura (em ºC)

1 15,5

3 14

5 13,5

7 18

9 19,5

11 20

13 13,5

15 13,5

17 18

19 20

21 18,5

23 13,5

25 21,5

27 20

29 16

Em relação à temperatura, os valores da média, mediana e moda são, respectivamente, iguais a:

A) 17oC, 17oC e 13,5oC.

B) 17oC, 18oC e 13,5oC.

C) 17oC, 13,5oC e 18oC.

D) 17oC, 18oC e 21,5oC.

E) 17oC, 13,5oC e 21,5oC

Resposta correta: Alternativa B.

Page 50: Estatistica Aplicada Unidade I(1)

50

Unidade I

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Análise das alternativas

Com os dados fornecidos, tem-se a seguinte tabela de frequências:

xi 13,5 14 15,5 16 18 18,5 19,5 20 21,5

fi 4 1 1 1 2 1 1 3 1

1) Para calcular a média tem-se:

X−

= + + + + + + + +13 5 4 14 1 15 5 1 16 1 18 2 18 5 2 19 5 1 20 3 215 14

, . . , . . . , . , . . , .++ + + + + + +

= =1 1 1 2 1 3 1

25515

17

A média é 17oC.

2) A mediana (valor do oitavo termo) é 18oC.

3) A moda é 13,5oC.

Sendo assim,

A) Alternativa incorreta.

Justificativa: de acordo com os cálculos.

B) Alternativa correta.

Justificativa: de acordo com os cálculos.

C) Alternativa incorreta.

Justificativa: de acordo com os cálculos.

D) Alternativa incorreta.

Justificativa: de acordo com os cálculos.

E) Alternativa incorreta.

Justificativa: de acordo com os cálculos.

Questão 2 (ENEM/2011). A participação dos estudantes na Olimpíada Brasileira de Matemática das Escolas Públicas (OBMEP) aumenta a cada ano. O quadro indica o percentual de medalhistas de ouro, por região, nas edições da OBMEP de 2005 a 2009.

Page 51: Estatistica Aplicada Unidade I(1)

51

Revi

são:

And

réia

Gom

es -

Dia

gram

ação

: Léo

- 0

1/08

/201

2

Estatística aplicada

Região 2005 2006 2007 2008 2009

Norte 2% 2% 1% 2% 1%

Nordeste 18% 19% 21% 15% 19%

Centro-Oeste 5% 6% 7% 8% 9%

Sudeste 55% 61% 58% 66% 60%

Sul 21% 12% 13% 9% 11%

Disponível em: http://www.obmep.org.br. Acesso em: abr. 2010 (adaptado).

Em relação às edições de 2005 a 2009 da OBMEP, qual o percentual médio de medalhistas de ouro da região Nordeste?

A) 14,6%.

B) 18,2%.

C) 18,4%.

D) 19,0%.

E) 21,0%.

Resolução desta questão na plataforma.