estatÍstica - apostila - uerj

102

Click here to load reader

Upload: brzil

Post on 13-Dec-2014

91 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: ESTATÍSTICA - Apostila - UERJ

Universidade do Estado do Rio de Janeiro - UERJ

Faculdade de Forma o de Professores - FFPçã

Departamento de Matem ticaá

Material de apoio ao aprendizado das disciplinas de

Estat stica e Bioestat sticaí í

Professora: Viviane C tia K hlerá ö

S o Gon alo-RJã ç

1

Page 2: ESTATÍSTICA - Apostila - UERJ

Introdução

A Estatística encontra-se presente em todas as áreas do conhecimento humano: ciências sociais, ciências humanas, ciências exatas, etc. Isso ocorre porque cresce cada vez mais a utilização de suas ferramentas com a finalidade de encontrar respostas a perguntas do tipo:

✔ Qual o consumo médio mensal de combustível de uma determinada região do Estado?

✔ Qual o índice de preços ao consumidor do mês de dezembro?

✔ Qual a proporção de peças defeituosas da linha de produção de uma empresa X?

✔ Será que o índice de reprovação foi reduzido com a introdução de novas técnicas de ensino?

✔ Que porcentagem de determinado elemento químico está presente numa amostra de dejetos da empresa X?

✔ Qual deverá ser o possível valor médio de retorno financeiro de um determinado evento?

✔ Qual a preferência do eleitorado em relação aos candidatos à Presidência da República?

O que é Estatística?

De acordo com o dicionário Aurélio, Estatística pode ser definida como:

“parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões ou predições com base nesses dados”.

O termo estatísticas, no plural, tem o significado de dados numéricos representativos de uma variável analisada, enquanto estatística, no singular, é o método utilizado na manipulação de dados, isto é, o método de coleta, de elaboração, de análise e de interpretação dos dados numéricos.

Apesar de sua simplicidade, essas definições nos permitem enxergar os vastos campos de ação da Estatística. Podemos dizer que não há praticamente nenhum ramo do conhecimento humano em que ela não tenha utilização. Estatística é uma ferramenta que nos ensina procedimentos lógicos de observação e de análise, necessários para aproveitar ao máximo os conhecimentos de outras ciências.

Com base nos conceitos de Estatística apresentados anteriormente, daremos, a seguir, a definição que será adotada como base para o seu aprendizado.

A Estatística consiste em um conjunto de métodos e processos quantitativos que nos auxiliam a coletar, analisar e interpretar dados de acontecimentos coletivos e tirar conclusões em situações em que a variação e a incerteza estão presentes.

2

Page 3: ESTATÍSTICA - Apostila - UERJ

Dados

Um trabalho estatístico envolve um levantamento e uma análise de dados. O que são dados?

Dados são informações obtidas através de observações, contagens ou respostas fornecidas por pessoas.

Exemplos:

• 25% dos eleitores da cidade do Rio de Janeiro votarão no candidato do partido XY.

Isso significa que, através de uma pergunta feita a eleitores da cidade do Rio de Janeiro, obteve-se a resposta de que 25% do total votaria no candidato do partido XY.

• Apenas 11% dos consumidores preferem consumir um produto de marca ou empresa que possui propaganda mais chamativa e envolvente. (Fonte: Instituto EM Data, julho de 2004)

Pode-se dizer que, a partir de um levantamento da opinião dos consumidores que foram entrevistados pelo Instituto EM Data, apenas 11% preferem adquirir um produto de marca ou empresa que possui propaganda mais chamativa.

Depois que os dados são coletados, devem passar por algum tratamento. Esse tratamento permite ordená-los, por exemplo, em ordem crescente, tornando-os mais fáceis de serem trabalhados. Os dados que não sofrem qualquer tratamento são denominados dados brutos.

Dados brutos são informações obtidas através de observações, contagens ou respostas fornecidas por pessoas, mas que não sofreram nenhum tratamento estatístico.

Exemplos:

• Será realizada uma pesquisa eleitoral com 2.400 eleitores da cidade de São Gonçalo. Os dados brutos são as respostas da preferência dos eleitores sem nenhum tratamento estatístico, ou seja, os dados de respostas não estão em ordem crescente nem organizados de acordo com as respostas dadas pelos entrevistados. Isto é, o que se tem são apenas as respostas dos eleitores entrevistados, mas não há nenhuma informação tratada sobre eles. Não se sabe quantos votarão no candidato X ou no candidatoY.

• Foi realizado um levantamento das idades de 1.000 estudantes do ensino médio em Niterói. Não foi determinado o número de alunos em cada idade. Tem-se apenas um número de alunos e valores referentes às idades, porém sem nenhum tratamento estatístico mais detalhado, ou seja, somente o resultado de uma contagem.

Etapas da Estatística

O estudo da Estatística pode ser conduzido dividindo-se todo o conteúdo em 4 etapas: determinação do objetivo, coleta de dados, análise dos dados e conclusões e inferências.

Determinação do objetivo

A determinação do objetivo é a etapa inicial de um trabalho estatístico. Pode-se dizer que é

3

Page 4: ESTATÍSTICA - Apostila - UERJ

uma das etapas mais importantes da Estatística, pois nela está concentrado todo o formato que a pesquisa deverá tomar. Se o objetivo da pesquisa estatística não estiver bem definido, de forma bem clara e detalhada, os dados coletados poderão não indicar as verdadeiras características daquilo que será analisado. Nesse caso, a coleta de dados estará comprometida, assim como o processo de análise de dados e, conseqüentemente, as conclusões que serão utilizadas para se fazer inferências.

A coleta de dados, etapa seguinte no processo estatístico, pode demandar muito tempo e, conseqüentemente, alto custo, caso o objetivo não tenha sido pré-definido. Essa coleta pode não ser útil ou ser insuficiente, por exemplo quando a determinação dos objetivos leva à definição de outros dados que devem ser coletados. O ideal é que se faça um levantamento de todos os fatores que poderão influenciar o trabalho de pesquisa para que este possa ser executado rapidamente e com o menor custo possível.

Os principais objetivos são, em geral, voltados para o desenvolvimento de novos produtos, investigação de problemas que porventura estejam atrapalhando o processo de produção de uma empresa, inspeção para a garantia da qualidade de um produto, avaliação do relacionamento existente entre alguns itens e melhoria dos resultados de um processo.

Exemplos:

✔ Objetivos de uma pesquisa eleitoral - determinar a região em que o candidato tem maior aceitação, a faixa de renda dos eleitores, bem como idade, nível de escolaridade, etc.

Após a determinação dos objetivos, poderemos fazer o levantamento de dados referentes a nível de escolaridade, taxa de renda, idade, etc.

✔ Objetivos de uma pesquisa de aceitação de um produto no mercado - determinar a faixa de renda do consumidor, região onde mora, ponto de venda do produto, o que o consumidor mais gosta e o que menos gosta no produto etc.

Após a definição dos objetivos, ficam mais fáceis a elaboração do questionário e a definição de quem serão os entrevistados. Ganha-se tempo para a coleta de informações.

Depois de definirmos os objetivos, passamos à etapa seguinte, que é a de coleta de dados.

Coleta de dados

Após a determinação do objetivo da pesquisa estatística, devem-se coletar os dados ou informações que serão necessárias para a análise. Para que os dados possam realmente representar o objetivo especificado, deve-se escolher o método de apresentação mais adequado, de forma que as conclusões obtidas possam apresentar um alto grau de confiabilidade.

O levantamento de dados pode ser realizado com todo o material coletado ou apenas com uma parte representativa dele. O conjunto de todos os dados é chamado de população e a parte que o representa é chamada de amostra.

População é o conjunto de todos os dados sobre os quais desejamos obter informações. É o conjunto de todos os itens produzidos, todas as pessoas de uma localidade, todas as peças analisadas, enfim, de tudo o que é objeto de uma pesquisa estatística. Pode também ser definida como o conjunto de elementos com determinadas características em comum.

Observe que população não é necessariamente formada por moradores de uma cidade e que a população em um problema depende da informação que queremos obter.

4

Page 5: ESTATÍSTICA - Apostila - UERJ

Se o objetivo de uma pesquisa é conhecer o nível social de cada um dos moradores de uma cidade do interior de Minas Gerais, então a coleta de dados será o levantamento dos rendimentos de todos os moradores da cidade. Essa coleta pode ser realizada através de questionários entregues à população, por telefone (o que tornaria o custo da pesquisa muito alto) ou através de pesquisadores que entrevistariam todos os moradores de casa em casa.

A população de dados dessa pesquisa seria a renda de todos os moradores, isto é, o conjunto de todos os dados da pesquisa.

Se o objetivo de uma pesquisa é determinar quantas peças produzidas por uma pequena empresa, em um dia, apresentaram defeito, a população será toda a produção de peças daquele dia.

Por exemplo, se a empresa produz 5.000 peças, por dia, então a população é de 5.000 peças.Se o objetivo de uma pesquisa é determinar quantos automóveis a cidade X possui circulando

em suas vias, a população é constituída de todos os automóveis da cidade X que estão em circulação.

Censo é a contagem de todos os elementos de uma população. O censo não se refere somente ao Censo realizado pelo IBGE, mas também a qualquer levantamento de todas as informações de uma população de dados. Por isso, o censo proporciona informações mais detalhadas sobre a população, mas, na maioria das vezes, é caro e difícil de ser realizado.

A população pode ser considerada finita e infinita. Vamos ver a diferença.

População finita: quando todos os itens de uma população são conhecidos e fixos, isto é, permanecem inalterados.

O Censo da população brasileira é realizado periodicamente pelo IBGE – Instituto Brasileiro de Geografia e Estatística. Os censos produzem informações imprescindíveis para a definição de políticas públicas estaduais e municipais e para a tomada de decisões de investimento, sejam eles provenientes da iniciativa privada ou de qualquer órgão do governo.

Exemplos:

•O número de peças de plástico de um automóvel da marca X.

•Uma sala de aula com 50 alunos.

• Um hotel da rede XYZ, que apresenta 100 unidades habitacionais.

Exemplos:

• As bolas de uma urna utilizada para sorteios.

Se elas são retiradas e repostas repetitivamente após cada sorteio, então as bolas podem ser retiradas infinitas vezes.

• Todas as peças possíveis de serem manufaturadas.

Nesse caso, tem-se uma população de peças que serão manufaturadas, mas é impossível obter

5

Page 6: ESTATÍSTICA - Apostila - UERJ

a lista de todas elas, pois a produção não tem fim.

• Todas as visitas possíveis de clientes a uma loja.

É impossível contabilizar a população de clientes, pois não se sabe quantos irão visitar tal loja.

EXERCÍCIO:

Elaborar um exemplo de pesquisa em que se descreve seu objetivo e se indique quais seriam os dados coletados.

Amostra

Na maior parte das situações, a população, mesmo finita, é grande demais para que seja prático levantar todos os dados. Por isso, utilizamos uma parte que represente a população. Essa parte é chamada de amostra.

Amostra: é uma parte representativa da população. Pode também ser definida como um subconjunto de uma população por meio do qual se estabelecem ou se estimam as propriedades e características dessa população.

A amostra é utilizada quando necessitamos de uma resposta mais rápida sobre a população ou quando a realização do levantamento de dados de uma população é muito dispendiosa. Por exemplo, é preferível pesquisar as respostas de uma parte representativa dos eleitores de uma cidade a ter que fazer o levantamento das respostas de todos os seus eleitores. Com isso, ganha-se tempo nos resultados obtidos e consegue-se um custo de pesquisa muito inferior ao que seria gasto com toda a população.

Exemplos:

• Uma fábrica possui 1.000.000 de peças em estoque. Se estamos interessados em analisar a espessura das peças, podemos, por exemplo, tomar uma amostra de apenas 500 peças.

A opção pela escolha da análise de uma amostra é melhor neste caso, pois ganha-se em tempo e em custo da pesquisa.

• Uma amostra da opinião de 2.000 moradores de uma cidade sobre a economia do país.

Observe a expressão “parte representativa da população” na definição de amostra. O que quer dizer?

Quer dizer que, se tomarmos uma parte muito pequena da população, o levantamento de dados pode ser muito diferente da população como um todo. Por exemplo, fazer uma pesquisa eleitoral com apenas 10 eleitores em uma cidade com 1.000.000 de eleitores não é representativo. Mas qual número ou percentual da população total é representativo?

Essa é uma questão um pouco mais complexa. Uma análise detalhada não consta dos objetivos desta disciplina. Os métodos e técnicas utilizados para se realizar uma amostragem serão analisados com maiores detalhes em Técnicas de Amostragem.

A opção por trabalhar com toda a população ocorre em virtude de se desejar obter informações sobre todo o universo objeto de pesquisa, que é o caso do censo demográfico, ou

6

Page 7: ESTATÍSTICA - Apostila - UERJ

quando a população é pequena (a população pode ser considerada pequena quando os custos e o tempo de análise das informações não são empecilho para tal realização).

EXERCÍCIO

1) Definir amostra.

2) Dar exemplos de amostra.

3) Em que situações é preferível trabalhar com uma amostra ao invés de com a população?

4) Determinar uma amostra para cada uma das populações mencionadas a seguir:

a) 25.000 é o total de peças produzidas pela empresa X;b) duas toneladas da substância XYZ estão infectando o solo de um lixão;c) todos os consumidores de cereais do país;d) os salários de todos os 1.000 funcionários de uma empresa.

5) Dadas as sentenças abaixo, indicar falso (F) ou verdadeiro (V).

( ) A amostra é um subconjunto da população.

( ) A população é uma parte representativa da amostra.

( ) A amostra é a melhor opção quando a análise de todos os dados da população toma muito tempo e é considerada de alto custo.

( ) A análise de todas as peças produzidas por uma pessoa, durante um dia, pode ser considerada uma amostra.

Análise dos Dados

Após determinar o método de levantamento de dados mais adequado, é necessário fazer uma análise dos dados, colhendo informações relativas ao objetivo especificado. Para uma melhor análise dos dados, é usual organizá-los sob a forma de tabelas e gráficos e, então, sintetizá-los através de medidas. Essa organização e resumo das informações em medidas é chamada Estatística Descritiva.

Estatística Descritiva: é a parte da Estatística que utiliza métodos gráficos e numéricos para organizar, resumir e simplificar as informações para que possam ser interpretadas e utilizadas com maior facilidade.

Estudaremos, nas próximas aulas, algumas ferramentas utilizadas pela Estatística Descritiva, tais como:

• Representações gráficas e tabulares da Distribuição de Freqüência;• Medidas de Posição;• Medidas de Dispersão;• Medidas de Assimetria.

Exemplos:

• A média de idade dos alunos que estão matriculados na disciplina de Estatística é de 34 anos.

• A média é uma das medidas de posição mais utilizadas para representação dos dados.

7

Page 8: ESTATÍSTICA - Apostila - UERJ

• 30% dos estados brasileiros estão sem verbas para educação e saúde.

A representação percentual é uma forma bastante utilizada para descrever os dados estatísticos.

• O desvio padrão das aplicações financeiras analisadas é muito alto.

O desvio padrão é uma medida de dispersão muito utilizada para descrever a variação dos dados estatísticos.

• O coeficiente de assimetria para a distribuição de freqüência dos pesos de uma peça é muito pequeno.

O coeficiente de assimetria é uma medida que nos informa sobre o formato, simétrico ou não, das curvas representativas de uma distribuição de freqüências.

Conclusões e Inferências

Essa é a parte final do processamento estatístico, em que os resultados obtidos nas análises são dispostos e avaliados com relação ao objetivo proposto no início da pesquisa. Essa parte da Estatística é chamada Estatística Indutiva ou Inferencial.

Estatística Indutiva ou Inferencial: é a parte da Estatística que interpreta os dados amostrais e faz generalizações sobre um experimento em estudo. Ela vai determinar, também, a precisão e a confiabilidade dos resultados obtidos.

Os resultados de uma estatística inferencial são induções ou estimativas sobre as variáveis obtidas da amostra. Elas podem ser conclusivas e podem levar o pesquisador a uma tomada de decisão sobre toda a população. Por exemplo, com base em uma amostra de 2.000 eleitores, o instituto de pesquisa pode generalizar o resultado obtido para todos os eleitores, isto é, se um candidato obteve 32% de escolha entre os 2.000 eleitores, pode-se dizer que 32% de todos os eleitores da cidade pesquisada votariam nesse candidato. Mas, como o resultado é baseado em uma amostra, a estimativa do resultado vem acompanhada de uma margem de erro. A margem de erro ocorre porque a pesquisa não foi realizada com todos os eleitores.

O cálculo exato da margem de erro é um assunto matematicamente complexo e foge dos objetivos deste curso.

A ferramenta básica no estudo da Estatística Inferencial é a probabilidade, pois lida com a incerteza.

Variáveis Quantitativas

Os principais tipos de variáveis e as séries estatísticas utilizadas na representação de dados estatísticos. As variáveis são classificadas em quantitativas e qualitativas, e as séries estatísticas são representações gráficas de acordo com o tipo de variável utilizada.

Variáveis Quantitativas: como a própria palavra diz, são variáveis que indicam uma quantidade. São o resultado de uma contagem de itens, dados ou informações sobre o objeto em questão.

8

Page 9: ESTATÍSTICA - Apostila - UERJ

As variáveis quantitativas se dividem em dois subgrupos: discretas e contínuas.

Variáveis Quantitativas Discretas: quando seus valores são, em geral, uma contagem do número de itens de uma determinada característica, isto é, assumem valores inteiros.

Exemplos:

• 25 funcionários trabalham no setor de compras de uma empresa.

• A inspeção da produção acusou que apenas 10 peças apresentaram algum defeito.

• 40 alunos fizeram matrícula em Geografia no semestre passado.

• 1.200 pessoas fizeram inscrição para o concurso público.

Em todos os exemplos apresentados tem-se apenas o resultado de uma contagem, ou seja, valores inteiros.

Variáveis Quantitativas Contínuas: quando seus valores podem assumir qualquer valor real dentro de um intervalo contínuo. Isto é, assumem todos os valores intermediários entre dois valores reais ou entre dois limites. As variáveis contínuas estão associadas a: altura, peso, comprimento, espessura, temperatura, pressão sanguínea, velocidade, tempo, etc.

As variáveis contínuas também podem ser consideradas como aquelas cujo valor somente poderá pertencer a um intervalo.

Exemplos:

• A temperatura prevista para a cidade de Belo Horizonte, durante um certo dia, variou de 25º C a 28º C.

• O paciente pesava entre 120 e 140 quilos.

• As peças inspecionadas na revisão têm espessuras que variam de 2 a 5 milímetros.

• A velocidade do automóvel utilizado na viagem de Belo Horizonte ao Rio de Janeiro variou de 10 a 110 quilômetros por hora.

• As pessoas presentes em um seminário têm alturas que variam de 1,60 metros a 1,92 metros

• A idade das pessoas presentes em um evento variou entre 40 e 45 anos.

A diferença entre variáveis quantitativas discretas e as contínuas é que numa variável discreta, todo valor é exato, enquanto a variável contínua assume um valor dentro de um intervalo contínuo, isto é, todo valor é aproximado.

Exemplos da diferença entre variável contínua e discreta:

9

Page 10: ESTATÍSTICA - Apostila - UERJ

1) Discreta: 10 pessoas com 25 anos. Contínua: o peso das 10 pessoas.

2) Discreta: 100 peças na cor preta. Contínua: as espessuras de 100 peças variam de 1,5 a 3,0 milímetros.

3) Discreta: 25 moradores de uma localidade. Contínua: cor de pele dos moradores.

4) Discreta: 200 tubulações de PVC. Contínua: os diâmetros das tubulações compradas pela empresa X variam de 1,5 a 10 polegadas.

Variáveis Qualitativas

Vimos que variáveis quantitativas expressam quantidades. No entanto, muitas vezes precisamos expressar atributos ou qualidades.

Variáveis Qualitativas: variáveis que indicam uma classificação, consistindo em atributos ou registros não-numéricos.

As variáveis qualitativas se dividem em dois subgrupos: ordinais e nominais.Variáveis Qualitativas Ordinais: variáveis que estão classificadas por uma ordem.

Exemplos:

• Os filmes listados a seguir estão classificados por ordem de preferência do público.

1º – Van Helsing2º – Tróia3º – Diário de uma motocicleta

A variável é a ordem de preferência.

• A equipe X terminou o campeonato em 4º lugar.• O 1º colocado do concurso.

A variável é a ordem de chegada.

• Os cinco primeiros colocados no campeonato de futebol estarão classificados para a próxima fase.

A colocação é a variável.

Os exemplos ilustram bem a ordem em que as variáveis analisadas estão dispostas. Fica bem claro que a variável ordinal tem a principal característica de indicar uma ordem ou seqüência.

Variáveis Qualitativas Nominais: variáveis que indicam uma classificação. Os dados podem ser classificados em categorias, grupos ou marcas.

10

Page 11: ESTATÍSTICA - Apostila - UERJ

Exemplos:

• Cores dos automóveis de certo modelo.• Marcas de refrigerante: Coca-Cola, Sprite, Fanta, Mate-Couro, etc.• Partidos políticos: PMDB, PSDB, PT, PV, PSTU, etc.• Classificação dos itens de um estoque: A, B, C, D, etc.

Estes exemplos mostram que os dados podem ser classificados sem a necessidade de um número, ou seja, podem simplesmente ser mencionados de acordo com uma classe ou categoria a que pertencem.

Atividades

1) Dados os exemplos a seguir, determinar a classificação de cada um deles de acordo com o tipo de variável quantitativa (discreta ou contínua) ou qualitativa (nominal ou ordinal).

a) Consumo dos refrigerantes da marca Coca-Cola e Pepsi;

b) 1500 eleitores;

c) Camisas tamanho P;

d) Descrição das classificações dos tenistas pelo ranking da ATP:

1º - Rogerio Federer2º - Guilhermo Gaudio3º - Andre Agassi

e) Temperatura em São Gonçalo para hoje: mínima de 28º C e máxima de 35º C;

f) 2.000 pessoas inscritas para as provas do concurso.

2) Elaborar alguns exemplos de variáveis quantitativas discretas e contínuas.

3) Elaborar alguns exemplos de variáveis qualitativas nominais e ordinais.

Planejamento de um estudo Estatístico

Para o planejamento de um estudo estatístico, é de extrema importância considerar os seguintes itens:

1 - OBJETIVO

É de grande importância a definição clara do objetivo para um levantamento estatístico, pois facilitará a análise dos resultados obtidos.

2 - POPULAÇÃO

É o todo para efeito de análise; é o universo de dados que será analisado. A população deverá ser especificada claramente pelo pesquisador. Quanto maior a quantidade de informações conhecidas sobre a população, mais fácil será o processo de amostragem.

11

Page 12: ESTATÍSTICA - Apostila - UERJ

3 - A COLETA DOS DADOS

Deve-se evitar a inclusão de dados desnecessários no processo de amostragem. Essa inclusão poderá atrapalhar a análise dos dados, o tempo gasto será maior e o resultado obtido não terá finalidade. Os dados ou informações coletadas fazem parte do que é chamado banco de dados, que é composto por características numéricas − as variáveis.

Um banco de dados de um levantamento estatístico terá, em geral, várias tabelas com múltiplas variáveis.

Banco de dados é uma coleção organizada e inter-relacionada de dados persistentes. É o registro de conceitos e informações organizado.Programas de computador são utilizados para gerenciar um banco de dados.

4 - GRAU DE PRECISÃO

Ao iniciar o processo de amostragem, deve-se especificar o grau de precisão desejado nos resultados. Deve-se considerar que elevar a precisão da pesquisa implica aumentar o tamanho da amostra, o que aumenta também o tempo e o custo. Quanto maior a amostra, maior a precisão do resultado, isto é, menor a margem de erro. Por exemplo, uma pesquisa realizada com 10.000 eleitores para determinar a preferência eleitoral em uma cidade apresenta resultado mais preciso do que outra realizada com apenas 1.000 eleitores.

5 - ANÁLISE DOS DADOS

A análise dos dados é realizada através de medidas estatísticas que descrevem o comportamento dos dados. É usual organizá-los, primeiramente, em gráficos e tabelas.

6 - CONCLUSÃO

A conclusão é a fase final do processo estatístico, em que os resultados são dispostos e avaliados com relação ao objetivo proposto. Os resultados são interpretados de acordo com o objetivo da pesquisa, e decisões são tomadas acerca das populações, utilizando-se a inferência estatística.

Técnicas de amostragemO grande problema encontrado para a escolha dos elementos da amostra dentro da população

está em determinar qual técnica de amostragem deverá ser utilizada. Isto é, qual técnica ou método será utilizado para se escolher quais elementos dentro da população serão selecionados para a amostra. Existem dois métodos para a seleção da amostra: métodos probabilísticos ou aleatórios e métodos não-probabilísticos.

Os métodos probabilísticos são aqueles nos quais todos os itens da população têm a mesma probabilidade de ser incluídos na amostra, independentemente da pessoa que realiza a pesquisa.

12

Page 13: ESTATÍSTICA - Apostila - UERJ

Já os métodos não-probabilísticos são aqueles em que todos os itens da população têm uma oportunidade conhecida de ser incluídos na amostragem. Esses métodos são muito utilizados quer pela sua simplicidade, quer pela impossibilidade de se usar os métodos probabilísticos. São também conhecidos como amostragem subjetiva ou amostragem por julgamento.

Se o tamanho da amostra é bem pequeno, com menos de 10 itens, por exemplo, a amostragem probabilística pode não dar resultados representativos da população, ao passo que uma pessoa com conhecimento mais profundo da população pode especificar os elementos que melhor representariam a população.

Exemplo: O proprietário de uma rede de 10 postos de gasolina deseja implementar um novo serviço de pagamento, com cartão fidelidade para a sua rede de postos. Problemas de custo podem fazer com que essa implementação seja experimentada em apenas 3 postos, talvez por apresentarem maior número de consumidores, melhor localização e maior faturamento. Em vez de utilizarmos uma técnica estatística para a escolha dos postos usados como teste para a implementação do serviço de pagamento, é melhor confiar no julgamento e conhecimento do proprietário para fazer a escolha.

Diante de situações como essa, a ênfase será dada aos tipos de amostragens probabilísticas, pois tem-se o conhecimento da probabilidade de todas as combinações possíveis e é possível fazer uma estimativa do erro da amostra.

Os métodos probabilísticos podem ser com reposição ou sem reposição.

Amostragem com reposição: cada elemento da população pode ser escolhido mais de uma vez na amostra.

Exemplos:

- Amostragem dos eleitores de uma cidade.- Amostragem dos consumidores de um determinado produto.- Amostragem dos moradores de um bairro.

Em todos esses exemplos de amostragem, as pessoas poderão ser entrevistadas novamente, ou seja, todos têm a mesma probabilidade de ser escolhidos novamente.

Amostragem sem reposição: cada elemento da população pode ser escolhido apenas uma vez na amostra.

Exemplos:

- Testes de balística. É um teste muito utilizado pela polícia. É um teste destrutivo.- Testes de resistência de um equipamento eletrônico.- Verificação da resistência de um copo de vidro.- Verificação da qualidade de um pára-brisa blindado.

Os itens destrutíveis podem ser escolhidos apenas uma vez, pois torna-se impossível a sua reposição.

É importante destacar que, em estudos estatísticos, em que o processo de amostragem apresenta um custo elevado, é aconselhável evitar o exame repetido dos elementos.

13

Page 14: ESTATÍSTICA - Apostila - UERJ

Quatro técnicas de amostragem probabilística serão abordadas:

a) amostragem aleatória simples; b) amostragem estratificada; c) amostragem por conglomerado;d) amostragem sistemática.

Essas técnicas se diferenciam pela maneira como a amostra é escolhida dentro da população.

Amostragem Aleatória Simples

Esta é a técnica mais comumente utilizada para a seleção de amostras. Os processos de amostragem aleatória podem ser realizados pela utilização de Tabelas de Números Aleatórios ou por sorteio.

Tabela de Números Aleatórios é uma tabela que contém todos os algarismos de 0 a 9 dispostos isoladamente ou em grupos; podem ser lidos de cima para baixo, na mesma coluna, ou da esquerda para a direita. A principal característica da tabela é que os algarismos estão dispostos aleatoriamente, isto é, não têm uma ordem ou seqüência de aparição.

Para a obtenção de amostras aleatórias utilizando as Tabelas de Números Aleatórios(TNA)2 adota-se a seguinte seqüência:

a) Enumeram-se os itens da população de 1 a N.

b) Seleciona-se aleatoriamente um ponto onde iniciar a linha e a coluna da tabela de números aleatórios com o mesmo número de algarismos quantos forem os de N.

c) Escolhe-se uma direção, por exemplo, na mesma coluna, de cima para baixo, ou na mesma linha, da esquerda para a direita, e anotam-se os números obtidos, descontando os números maiores do que N. Prossegue-se na direção escolhida até que se complete a amostra.

d) Se a amostragem for com reposição, registram-se as repetições; se for sem reposição, abandonam-se as repetições.

O exemplo a seguir ilustra a seleção de uma amostra utilizando uma tabela de números aleatórios.

Exemplo: Há 500 pessoas participando de um seminário sobre Administração de Negócios. Uma amostra de 20 participantes deverá ser selecionada para responder a algumas questões.

Solução:

- De acordo com a seqüência acima, devem-se enumerar todos os participantes do seminário de 1 a 500, o que pode ser feito através da distribuição de senhas para cada um.

- Deve-se, agora, escolher aleatoriamente um ponto na Tabela de Números Aleatórios onde iniciar a contagem dos 20 números que farão parte da amostra.

- O próximo passo é anotar os números de três algarismos (porque o maior número de

14

Page 15: ESTATÍSTICA - Apostila - UERJ

participantes é 500, isto é, apresenta três algarismos) que forem menores do que 500. A leitura dos números deve ser realizada de cima para baixo, da esquerda para a direita.

- A amostragem não será com reposição, pois a mesma pessoa não poderá responder ao mesmo questionário mais de uma vez. Portanto, os números que forem repetidos deverão ser descartados, assim como os números maiores do que 500.

Suponha que o lugar escolhido aleatoriamente na tabela tenha sido a linha 3, coluna 1. O número obtido foi o 582. Como não existe uma pessoa com a senha 582, esse número é, então, descartado e passa-se ao próximo, na linha imediatamente abaixo. O número 642 também não existe, nem 573 .... O primeiro número escolhido é o 347, o segundo é o 196.

O processo deverá continuar até que todos os 20 participantes sejam selecionados.

Acompanhe a escolha dos 20 números na tabela de Números Aleatórios abaixo:

893 964 947 369 482 587 856 599 617

940 983 628 998 504 083 295 538 421

582 029 022 132 059 193 876 829 600

642 788 787 347 197 306 466 051 514

573 839 569 413 053 345 018 757 998

962 321 451 807 903 573 305 269 102

347 094 672 434 526 648 484 880 950

196 543 307 103 980 243 496 958 835

914 858 766 581 106 386 300 587 490

429 358 059 011 836 405 516 152 484

244 491 061 181 615 372 524 884 762

048 558 743 360 179 586 270 682 234

034 050 200 713 238 039 562 510 134

904 115 097 965 315 753 150 385 593

780 267 433 206 038 568 380 210 111

871 887 982 521 239 209 122 247 780

046 890 074 929 895 174 405 899 497

588 025 444 041 776 785 704 693 233

347 359 725 317 149 796 838 208 545

966 278 274 615 596 414 727 128 406

680 033 223 664 596 469 770 976 981

316 822 520 177 873 567 801 336 665

818 143 839 906 067 276 648 676 961

073 926 758 366 355 831 059 087 227

768 504 733 678 531 024 653 489 120

15

Page 16: ESTATÍSTICA - Apostila - UERJ

455 231 232 136 542 723 954 290 929

137 955 235 659 752 864 986 774 530

488 342 017 718 957 968 651 743 791

095 481 572 088 631 562 909 456 436

656 094 681 647 161 050 113 977 797

252 554 383 520 287 621 948 327 992

317 347 250 597 127 523 458 717 425

125 609 094 627 370 228 578 600 762

597 039 980 114 989 907 456 550 767

181 938 680 761 416 722 336 348 694

010 541 515 694 281 873 936 621 911

002 605 333 155 824 486 541 393 356

273 587 952 261 273 470 276 026 489

786 587 952 261 273 470 276 026 489

786 879 421 623 217 108 073 414 707

Tem-se uma amostra de 20 participantes com os seguintes números: 347; 196; 429; 244; 048; 034; 046; 316; 073; 455; 137; 488; 095; 252; 317; 125; 181; 010; 002 e 273.

Repare que o número 347 aparece duas vezes e, na segunda vez, é descartado, pois já havia sido escolhido, e o processo de escolha não permite que o entrevistado responda ao mesmo questionário mais de uma vez.

EXERCÍCIO

1) Uma empresa possui 250 funcionários. Escolher uma amostra aleatória simples composta de 30 pessoas para fazer um levantamento e descrever os passos que serão adotados.

2) Descrever os passos para a escolha aleatória simples de 20 estudantes dentro de uma faculdade com 1.000 alunos.

Amostragem Aleatória por sorteio

Outra maneira de realizar uma amostragem simples é por sorteio.

Exemplo: Deseja-se fazer uma pesquisa de opinião com os eleitores de Salvador. Eles serão submetidos a um questionário sobre as propostas dos novos candidatos ao governo.

Torna-se impraticável entrevistar todos os eleitores de um bairro de Salvador sobre as propostas dos novos candidatos ao governo, pois a análise tomaria muito tempo e o custo dessa pesquisa seria altíssimo. Então, utiliza-se uma amostragem aleatória. Serão escolhidos, aleatoriamente, 500 eleitores para a pesquisa. Se o número de moradores do bairro é conhecido e todos podem ser listados, então, a escolha desses eleitores pode ser realizada por sorteio.

16

Page 17: ESTATÍSTICA - Apostila - UERJ

A amostragem aleatória por sorteio é mais simples. Todos os elementos da população deverão estar enumerados ou listados. Pode-se utilizar uma urna que contenha todos os números dos elementos e, então, iniciar o sorteio. Esse sorteio é realizado de forma semelhante à forma como são sorteados os números de jogos da Loteria Federal. Da mesma forma que o exemplo anterior, os moradores que já foram entrevistados não deverão participar novamente da pesquisa. Assim, diz-se que o processo foi realizado sem reposição, ou seja, todos os itens já escolhidos numa primeira amostragem serão descartados quando aparecerem pela segunda vez. Essa é bastante simples, não é mesmo?

Amostragem Estratificada

Esta técnica de amostragem é utilizada quando é necessário que haja um representante de cada segmento da população incluído na amostra. Por exemplo, para coletar uma amostra dos moradores de uma cidade, podem-se dividir as residências por níveis socioeconômicos e depois escolher, aleatoriamente, uma amostra dos moradores. É importante que uma característica comum seja escolhida para a coleta das informações amostrais. No caso do exemplo, a característica é o nível socioeconômico. Dependendo do objetivo da pesquisa, os elementos da população podem ser divididos em subgrupos maiores com características similares, como idade, peso, nível social, localização geográfica, raça, etc.

Portanto, uma amostragem estratificada é obtida separando-se a população em subgrupos com características homogêneas ou similares e selecionando-se, independentemente, uma amostra aleatória simples em cada um desses subgrupos.

Existem dois tipos de amostragem estratificada:

a) as que têm o mesmo tamanho;

b) as proporcionais.

Na amostragem estratificada de mesmo tamanho sorteia-se um número igual de elementos em cada subgrupo. Esse processo é utilizado quando o número de elementos por subgrupo for igual ou aproximadamente o mesmo.

Quando cada subgrupo apresenta números diferentes de elementos utiliza-se, então, a amostragem estratificada proporcional, em que o número de elementos que devem ser escolhidos em cada grupo é proporcional ao número de elementos do grupo. O processo de amostragem é realizado da seguinte maneira:

S - é o número de subgrupos;

Ni - é o número de elementos de amostragem no subgrupo i;

N - é o número de elementos da população;

n - é o número de elementos da amostra.

17

Page 18: ESTATÍSTICA - Apostila - UERJ

Cada subgrupo possui características similares.

Com isso, têm: N = N1 + N2 + N3 + ... + NS

Determina-se a fração de amostragem f dada por: f =nN

Fração de amostragem é a razão entre o número de elementos da amostra e o número total de elementos da população.

O número de elementos sorteados em cada subgrupo é definido pelo produto deste fator f e do número de elementos de amostragem em cada subgrupo:

N1.f, N2.f, ... NS.f

Exemplo:

Deseja-se obter uma amostra de 20 participantes de um seminário, para aplicação de um questionário sobre o tema abordado nas palestras da série “Violência nas Grandes Cidades”. Sabe-se que a informação que as pessoas prestam está relacionada à região onde moram. O seminário possui participantes de 4 Estados brasileiros, sendo assim compostos:

50 do Rio de Janeiro;100 de São Paulo;30 de Minas Gerais e20 da Bahia.

Como deverá ser realizada a amostragem para se escolher os participantes do seminário?Solução:

Deve-se utilizar a técnica de amostragem estratificada, pois é importante que se tenham representantes de todos os 4 Estados em número proporcional ao número de representantes de cada Estado.

O primeiro passo é separar os participantes em subgrupos de Estados. Depois, deve-se fazer a amostragem dentro de cada subgrupo.

A população do seminário em questão é de 200 participantes.

18

Page 19: ESTATÍSTICA - Apostila - UERJ

Os subgrupos serão:

Rio de Janeiro: N1 50 participantes

São Paulo: N2 100 participantes

Minas Gerais: N3 30 participantes

Bahia: N4 20 participantes.

O tamanho da população é:

N = N1 + N2 + N3 + N4N = 50 + 100 + 30 + 20 = 200 participantes

A fração de amostragem será: f =nN=

20200

=0,10

O número de elementos sorteados em cada subgrupo será definido pelo produto desse fator de amostragem f pelo número de elementos de amostragem em cada subgrupo.

N1 . f = 50 . 0,10 = 5 participantes escolhidos aleatoriamente no subgrupo 1.N2 . f = 100 . 0,10 = 10 participantes escolhidos aleatoriamente no subgrupo 2.N3 . f = 30 . 0,10 = 3 participantes escolhidos aleatoriamente no subgrupo 3.N4 . f = 20 . 0,10 = 2 participantes escolhidos aleatoriamente no subgrupo 4.

O total de participantes escolhidos por amostragem estratificada foi de 20, sendo 5 do Rio de Janeiro, 10 de São Paulo, 3 de Minas Gerais e 2 da Bahia.

Exemplos:

Deseja-se realizar uma amostra de 1.000 moradores de uma certa cidade para a aplicação de um questionário sobre consumo. É necessário que sejam entrevistadas pessoas com rendas baixa, média e alta. A cidade possui 2 milhões de habitantes divididos da seguinte maneira:

Renda baixa: 1.400.00 habitantesRenda média: 500.000 habitantesRenda alta: 100.000 habitantes

Como deverá ser o plano de amostragem para esta pesquisa?

Solução:

Deve-se utilizar a técnica de amostragem estratificada, pois é importante que se obtenham respostas dos três níveis de renda. Como o número de pessoas em cada nível de renda é diferente, utiliza-se a amostragem estratificada proporcional.

O primeiro passo é separar as pessoas em subgrupos de nível de renda e, então, fazer a amostragem dentro de cada subgrupo.

A população do cidade é de 2.000.000 de pessoas.

O subgrupos são divididos da seguinte forma:

Renda baixa: N1 = 1.400.000 pessoasRenda média: N2 = 500.000 pessoasRenda alta: N3 = 100.000 pessoas

19

Page 20: ESTATÍSTICA - Apostila - UERJ

O tamanho da população:

N = N1 + N2 + N3 N = 1.400.000 + 500.000 + 100.000 = 2.000.000 pessoas

A fração de amostragem será: f =nN=

1.0002.000.000

=0,0005

O número de elementos sorteados em cada subgrupo será definido pelo produto do fator de amostragem f pelo número de elementos de amostragem em cada subgrupo. Tem-se:

N1 . f = 1.400.000 . 0,0005 = 700 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de baixa renda.

N2 . f = 500.000 . 0,0005 = 250 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de renda média.

N3 . f = 100.000 . 0,0005 = 50 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de renda alta.

O total de pessoas escolhidas nesta amostragem estratificada é de 1.000, sendo 700 de baixa renda, 250 de renda média e apenas 50 de renda alta. Viu que não é difícil entender essa história de amostragem estratificada proporcional? Agora é só usar sempre que você precisar.

Amostragem por conglomerado

A amostragem por conglomerado é uma amostra aleatória simples em que cada unidade de amostragem é um subgrupo com características heterogêneas, ou um conglomerado de elementos representativos da população. São minipopulações. Geralmente são grupos que se acham ligados por um pequeno contato físico. Ex.: casas, quarteirões, bairros, etc.

Primeiramente, devem-se especificar adequadamente os conglomerados. O número de elementos num conglomerado deverá ser pequeno em relação ao tamanho da população, e o número de conglomerados deverá ser razoavelmente grande.

Neste tipo de amostragem, a população é dividida em subgrupos com características heterogêneas, e são selecionadas amostras aleatórias simples de subgrupos. Com isso, todos os elementos dos subgrupos (conglomerados) selecionados farão parte da amostra.

A amostragem por conglomerado pode ser utilizada quando não se tem uma lista com todos os elementos da população ou quando a obtenção dessa listagem é uma tarefa muito longa e cara.

Exemplo 1:

Deseja-se fazer uma pesquisa com os moradores de um bairro da cidade. O objetivo é saber a opinião deles sobre a construção de um grande centro de compras.

Como o bairro é grande e não se tem a listagem completa de todos os moradores e sua obtenção tornaria a pesquisa muito cara e demorada, utiliza-se uma amostragem por conglomerados. Para a realização da amostragem por conglomerados, deve-se separar o bairro em subgrupos de características heterogêneas, como, por exemplo, quarteirões. Nos quarteirões tem-se uma representação da população de moradores do bairro. O quarteirão pode ser considerado uma mini população, pois os moradores de cada quarteirão têm as mesmas características dos moradores do bairro.

20

Page 21: ESTATÍSTICA - Apostila - UERJ

Área do bairro

01 02 03 04 05

06 07 08 09 10

11 12 13 14 15

Essa imagem mostra a área do bairro, composta por 15 quarteirões. Para a escolha dos quarteirões, utiliza-se uma amostragem aleatória, e todos os moradores selecionados são entrevistados.

Uma amostragem de 4 quarteirões pode ser realizada por sorteio. Colocam-se todos os números correspondentes a cada quarteirão dentro de uma urna, de onde serão tirados apenas 4.

Suponha que tenham sido escolhidos os quarteirões 3, 7, 9 e 15. A todos os moradores desses quarteirões serão aplicados os questionários sobre a construção do centro de compras.

Exemplo 2:

O prefeito de uma cidade deseja realizar uma pesquisa sobre as despesas familiares de seus habitantes.

Uma forma de extrair uma amostra nesta situação consiste em dividir a área total da cidade em diversas áreas menores, como quarteirões ou bairros. Selecionam-se, então, aleatoriamente, alguns desses quarteirões, com a amostra final constituída de todas as famílias residentes em alguns deles.

Nesse tipo de amostragem, torna-se muito menos dispendioso, em termos de custo e tempo, trabalhar com uma amostra em que as famílias estão mais próximas, em conglomerados, do que com famílias selecionadas aleatoriamente sobre toda a área de uma cidade.

Se a amostra aleatória fosse realizada em toda a cidade, o custo e o tempo de análise das respostas seriam muito maiores, pois os pesquisadores teriam que rodar distâncias mais longas para realizar as entrevistas com as famílias.

Diante dos conceitos e características apresentados sobre amostragem por conglomerados, é a sua vez de colocar em prática o que aprendeu.

EXERCÍCIO

1) Suponha que uma pesquisa seja realizada na cidade de Petrópolis-RJ. O objetivo é determinar as principais marcas de preferência de consumo de determinado produto pelos moradores de cada bairro. Elaborar um plano de amostragem dos moradores dos bairros por conglomerados.

21

Page 22: ESTATÍSTICA - Apostila - UERJ

Amostragem sistemática

A amostragem sistemática consiste em escolher os elementos da população de forma periódica, isto é, os elementos da população serão escolhidos em intervalos regulares. Esses intervalos serão determinados pela fórmula que definiremos a seguir.

É utilizado um sistema de seleção semelhante ao da amostragem aleatória simples. A diferença entre a amostragem aleatória simples e a amostragem sistemática é que esta última utiliza um fator periódico para a escolha dos elementos, enquanto a aleatória simples não utiliza critério algum.

Não é aconselhável a utilização deste método nos casos em que os itens estão agrupados ou listados em caráter periódico, pois a amostra poderá apresentar características tendenciosas, contendo apenas elementos com características semelhantes.

Para obter uma amostragem sistemática é necessário:

1) obter uma lista da população e numerá-la de 1 a N;

2) calcular k=Nn

, onde N é o tamanho da população e n é o tamanho da amostra. O k é

chamado de passo da escolha;

3) dividir a população em grupos de k elementos;

4) escolher aleatoriamente um número na TNA para determinar onde começar. Os elementos seguintes serão escolhidos somando-se ou subtraindo-se k ao número anterior.

Exemplo 1: A tabela a seguir apresenta os lucros líquidos, em reais, obtidos por uma empresa de eventos na realização de 30 apresentações de uma mesma banda. Queremos obter uma amostra sistemática de 5 valores de lucros líquidos, em reais.

01 02 03 04 05 06 07 08 09 10

20.000 17.500 12.000 10.000 8.000 12.500 11.000 14.000 18.000 15.200

11 12 13 14 15 16 17 18 19 20

16.200 15.000 11.000 19.000 28.000 16.800 17.000 11.200 19.600 14.800

21 22 23 24 25 26 27 28 29 30

10.000 15.000 14.000 10.000 9.000 11.500 14.000 13.000 15.000 19.200

Solução:

• A lista de todos os lucros obtidos na realização dos 30 eventos já está na tabela exibida.

• Deve-se escolher o passo que será utilizado para a escolha dos valores de lucro. O fator passo será:

k=Nn=

305=6

• Então, devem ser escolhidos os lucros com passos de 6 em 6.

• Escolher, na TNA, um número aleatório de apenas um algarismo.

• Suponha que o número escolhido tenha sido o 3; então, o primeiro elemento da amostra de lucro

22

Page 23: ESTATÍSTICA - Apostila - UERJ

líquido é o 3. Somando-se k = 6 a esse número obtido na tabela, tem-se uma amostra de 5 itens.

3º + 6 = 9º + 6 = 15º + 6 = 21º + 6 = 27º

01 02 03 04 05 06 07 08 09 10

20.000 17.500 12.000 10.000 8.000 12.500 11.000 14.000 18.000 15.200

11 12 13 14 15 16 17 18 19 20

16.200 15.000 11.000 19.000 28.000 16.800 17.000 11.200 19.600 14.800

21 22 23 24 25 26 27 28 29 30

10.000 15.000 14.000 10.000 9.000 11.500 14.000 13.000 15.000 19.200

Então, os valores de lucro escolhidos pela amostragem sistemática são:

12.000; 18.000; 28.000; 10.000 e 14.000

EXERCÍCIO: Deseja-se selecionar uma amostra sistemática de 10 aparelhos, de um total de 200, que estão guardados no estoque. Qual seria o plano de amostragem adotado?

Casos em que uma Amostragem não se justifica

Existem três ocasiões em que é preferível analisar todos os itens de uma população.

1 - Quando a população é muito pequena. Uma população pode ser considerada pequena quando o custo e o tempo de análise dos dados são pouco maiores do que seriam para a realização de uma amostra.

Exemplo: A análise dos dados dos 10 funcionários de uma empresa.

Neste caso, como a população é pequena, torna-se desnecessária a aplicação de uma técnica de amostragem. A análise dos dados obtidos de 10 funcionários toma muito pouco tempo e tem baixo custo.

2 - Quando há uma grande variação entre as respostas obtidas. A amostra deverá ser muito grande para ser representativa da população; uma amostragem pequena pode levar a erros de interpretação dos resultados.

Exemplo: Se as respostas dadas a um questionário aplicado a 2.000 moradores de um bairro forem muito diferentes umas das outras, é essencial que se trabalhe com uma amostragem muito alta. Essa amostragem pode estar próxima do tamanho da população. Nesse caso, opta-se por trabalhar com toda a população, pois obtém-se um resultado mais confiável.

3 - Quando é necessária uma precisão muito alta. Nesse caso, a análise da população é a opção mais adequada.

Exemplo: Censo demográfico

23

Page 24: ESTATÍSTICA - Apostila - UERJ

EXERCÍCIO

1) Dar exemplos de amostragem aleatória simples e de amostragem sistemática.

2) Quais são as diferenças que você pode notar entre as amostragens aleatória simples e a sistemática?

3) Em que situações é preferível adotar o levantamento e a análise de toda a população, ao invés de utilizar uma técnica de amostragem?

4) Uma empresa possui 400 funcionários. Determinar um plano de amostragem aleatória para a escolha de 40 funcionários.

5) Você é responsável por determinar a opinião dos profissionais graduados em Administração de Empresas e que atuam no mercado de trabalho de uma determinada cidade, sobre a produção industrial. Identificar a técnica de amostragem que deverá ser utilizada para cada uma das amostras representadas nos itens a, b e c, a seguir.

a) Selecionar aleatoriamente uma empresa e aplicar o questionário aos administradores que nela trabalham.

b) Dividir a população de administradores em relação ao ramo de atividade da empresa, realizar uma amostra aleatória dos profissionais e fazer perguntas a alguns administradores de cada ramo.

c) Listar o nome de todos os profissionais e escolher, aleatoriamente, um certo número deles. Os administradores escolhidos serão entrevistados no que diz respeito à produção industrial.

Séries Estatísticas

Não é conveniente apresentar os dados para uma análise exatamente da forma como são coletados. Um dos objetivos da Estatística é resumir os dados de forma clara para se ter uma visão global das características das variáveis. O principal objetivo desta nossa aula é mostrar as formas de apresentação de dados mais utilizadas, de acordo com a variável de interesse.

Após a coleta dos dados, torna-se necessária a disposição deles em tabelas ou gráficos, para que haja um melhor entendimento. Na maioria das vezes, eles se encontram na forma bruta, isto é, sem qualquer ordenação ou classificação. Portanto, é necessário colocá-los em ordem crescente ou decrescente, ou até mesmo classificá-los de acordo com as variáveis que os representam.

Exemplo: Uma amostra da altura de 122 pessoas presentes em um evento.

Os valores referentes às alturas podem ser colocados em ordem crescente e estar associados a um grupo de pessoas que apresentam a mesma altura. Isto é, os valores de alturas estarão posicionados em ordem crescente, como apresentado na tabela abaixo.

Alturas, em centímetros Nº de pessoas

150 ├── 160 5

160 ├── 170 25

170 ├── 180 48

180 ├── 190 32

190 ├── 200 10

200 ├── 210 2

Total 122

24

Page 25: ESTATÍSTICA - Apostila - UERJ

A forma como essa tabela é construída será estudada com maiores detalhes em Distribuição de Freqüência.

A disposição dos dados em tabelas evita uma análise errônea, principalmente se os dados e informações coletados forem muito extensos.

Com a utilização de tabelas e gráficos, é possível fornecer informações rápidas sobre as variáveis em estudo. A tabela é uma apresentação numérica de dados coletados e ordenados de forma bem clara; o gráfico é uma apresentação geométrica mais rápida e mais clara de ser visualizada. Veja o exemplo de representação gráfica da tabela das alturas, mostrada anteriormente.

Observe que toda representação tabular usa um dos 3 fatores seguintes:

• Fator cronológico ou temporal - determina a época ou o período do tempo em que ocorre.• Fator espacial ou geográfico - determina o local onde ocorre.

• Fator Especificativo ou a espécie do fato - tem somente a espécie do fato ou a categoria.

De maneira geral, as representações tabulares são chamadas Séries Estatísticas.

A Série Estatística é um agrupamento dos dados referentes a uma mesma ordem de classificação.

Assim, as séries estatísticas podem ser classificadas em:

- Série Temporal

- Série Geográfica

- Série Específica

Vamos aos exemplos de cada um desses 3 tipos de série.

1. Série Temporal

Apresenta somente o fator cronológico ou temporal como variável de análise.

25

Page 26: ESTATÍSTICA - Apostila - UERJ

Exemplo: Produção Brasileira de Motos 1996-1998 Ano Produção (unidades) 1996 288.073 1997 426.547 1998 476.655 Fonte: Revista ISTO É – no1546 Apresentação do tempo: • Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus

períodos inicial e final ligados por um hífen (-). Exemplos: 1991 – 1995 apresenta dados numéricos para os anos de 1991, 1992, 1993, 1994, 1995; Out 1991 – Mar 1992 apresenta dados numéricos para os meses de outubro, novembro e dezembro de 1991 e janeiro, fevereiro e março de 1992.

• Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por seus períodos inicial e final ligados por barra (/). Ex: 1991/1995 apresenta dados para os anos entre 1991 e 1995, deixando de apresentar dados numéricos para algum (ns) dos anos desta série.

Série Geográfica: usada para apresentar dados de diferentes regiões geográficas, em determinado tempo. Exemplo: Vacinação contra a Poliomielite 1993 Regiões Quantidade Norte 211.209 Nordeste 631.040 Sudeste 1.119.708 Sul 418.785 Centro-Oeste 185.823 Fonte: Ministério da Saúde

26

Page 27: ESTATÍSTICA - Apostila - UERJ

Série Categórica: usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local. Exemplo: Avicultura Brasileira 1992 Espécies Número

(1.000 cabeças)

Galinhas 204.160 Galos, frangos, frangas e pintos 435.465 Codornas 2.488 Fonte: IBGE Séries Mistas ou Conjugadas (tabela de dupla entrada): quando são feitas combinações de duas ou mais séries. Exemplo: Exportação Brasileira 1985/1995

Importadores 1985 1990 1995 América Latina 13,0 13,4 25,6 EUA e Canadá 28,2 26,3 22,2 Europa 33,9 35,2 20,7 Ásia e Oceania 10,9 17,7 15,4 África e Oriente Médio 14,0 8,8 5,5 Fontes: MIC e SECEX Nota: Valores em percentagem REPRESENTAÇÃO GRÁFICA DAS SÉRIES ESTATÍSTICAS Os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Requisitos Fundamentais na Representação Gráfica: • O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno

em estudo; • Todo gráfico deve ter título e escala, para que possa ser interpretado sem que

haja necessidade de esclarecimentos adicionais no texto; • O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE

escreve o título acima do gráfico;

27

Page 28: ESTATÍSTICA - Apostila - UERJ

• As variáveis devem ser claramente identificadas; • A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os

valores iniciais dos dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do zero;

• O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do gráfico que se pretende evidenciar;

• Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o gráfico é feito dentro de um retângulo.

Principais Tipos de Gráficos: •••• Diagramas •••• Cartogramas •••• Pictogramas Cartogramas: São representações através de mapas (cartas geográficas). Este gráfico é empregado quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas ou políticas. Pictogramas: É a representação gráfica através de figuras. Por se tratar de uma apresentação atraente, é um gráfico que desperta muito a atenção do leitor. Diagramas: São gráficos geométricos construídos, em geral, no sistema cartesiano. Principais Diagramas: Gráfico em Linha, Gráfico em Colunas, Gráfico em Barras, Gráfico em Colunas ou em Barras Múltiplas e Gráfico em Setores. Gráfico em Linha: Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada par de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta. Exemplo: Tabela 1 PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995 ANOS PRODUÇÃO (1.000 t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007 FONTE: IBGE

28

Page 29: ESTATÍSTICA - Apostila - UERJ

PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995

0

500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

1991 1992 1993 1994 1995

ANOS

PR

OD

ÃO

(1.

000t

)

Regras para a elaboração de um gráfico em linhas: • Fixe a largura (l) do gráfico; • Determine a altura máxima e a altura mínima de acordo com as normas a

seguir: hmín = 60% da largura e hmáx = 80% da largura

• Determine os limites da escala, dividindo o maior valor a representar pela altura máxima e pela altura mínima;

• Determine a escala, escolhendo um valor, de preferência inteiro, entre os valores encontrados para limites;

• Trace um sistema de coordenadas cartesianas; • Determine, graficamente, todos os pontos da série; • Ligue esses pontos, dois a dois, por segmentos de reta; • Identifique, claramente, as variáveis nos dois eixos; • Acrescente o Título, a Fonte e a Legenda (quando necessária). Gráfico em Colunas: Usado para representar as séries cronológicas, geográficas e categóricas. Representado por meio de retângulos de mesma base, dispostos verticalmente (em colunas). Exemplo:

29

Page 30: ESTATÍSTICA - Apostila - UERJ

Tabela 1 PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995 ANOS PRODUÇÃO (1.000 t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007

FONTE: IBGE

PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995

0

500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

1991 1992 1993 1994 1995

ANOS

PR

OD

ÃO

(1.

000t

)

Gráfico em Barras: Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos dispostos horizontalmente (em barras). Exemplo:

30

Page 31: ESTATÍSTICA - Apostila - UERJ

Tabela 2 EXPORTAÇÕES BRASILEIRAS MARÇO – 1995 ESTADOS VALOR (US$ milhões) São Paulo 1.344 Minas Gerais 542 Rio Grande do Sul 332 Espírito Santo 285 Paraná 250 Santa Catarina 202 FONTE: SECEX

E X P O R T A Ç Õ E S B R A S I L E I R A S M A R Ç O - 1 9 9 5

0 5 0 0 1 . 0 0 0 1 . 5 0 0

S ã o P a u l o

M i n a s G e r a i s

R i o G r a n d e d o S u l

E s p í r i t o S a n t o

P a r a n á

S a n t a C a t a r i n a

V a l o r ( U S $ m i l h õ e s )

OBSERVAÇÕES: 1) O procedimento para a construção de um gráfico em colunas (ou barras) é

análogo ao do gráfico em linhas, observando que no gráfico em barras deve-se fazer a inversão nos eixos cartesianos (o eixo x corresponde a altura e o eixo y corresponde a largura).

2) Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras (séries geográficas e específicas).

Gráfico em Colunas ou em Barras Múltiplas: Usado para representar as séries conjugadas. Exemplo:

31

Page 32: ESTATÍSTICA - Apostila - UERJ

Tabela 3 BALANÇA COMERCIAL DO BRASIL 1989 – 1993 ESPECIFICAÇÕES VALOR (US$ 1.000.000)

1989 1990 1991 1992 1993 Exportação (FOB) 34.383 31.414 31.620 35.793 38.783 Importação 18.263 20.661 21.041 20.554 25.711 FONTE: Ministério da Fazenda

BALANÇA COMERCIAL DO BRASIL 1989-1993

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

1989 1990 1991 1992 1993

Val

or

(us$

1.0

00.0

00)

Exportação (FOB) Importação

Gráfico em Setores: Construído com base em um círculo, este gráfico é usado para comparar proporções. Exemplo:

32

Page 33: ESTATÍSTICA - Apostila - UERJ

Tabela 4 REBANHO SUINO DO SUDESTE DO BRASIL 1992 ESTADOS QUANTIDADE (mil cabeças) Minas Gerais 3.363,7 Espírito Santo 430,4 Rio de Janeiro 308,5 São Paulo 2.035,9 Total 6.138,5 FONTE: IBGE

REBANHO SUÍNO DO SUDESTE DO BRASIL 1992

55%

33%

5%7%

Minas Gerais Espírito Santo Rio de Janeiro São Paulo

Regras para a elaboração de um gráfico em setores: • Trace uma circunferência. A área do círculo representa o total, isto é, 100%,

devendo ser dividida em tantos setores quantas sejam as partes. • Lembre-se de que uma circunferência tem 360°. Então, se ao total

correspondem 360°, a cada parte corresponderá um setor cujo ângulo x é dado

por: TOTAL

PARTEx

360×=

• Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores.

• Para facilitar a distinção, faça um tracejado diferente em cada setor. • Coloque título e legenda no gráfico. OBS.: Para clareza dos dados, deve-se usar no máximo sete setores.

33

Page 34: ESTATÍSTICA - Apostila - UERJ

DISTRIBUIÇÃO DE FREQUÊNCIAS

Freqüentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas freqüências. Esta tabela recebe o nome de Distribuição de Freqüências.

De acordo com a disposição dos dados têm-se dois tipos de distribuição:

Distribuição de Freqüências Simples (dados não agrupados ou não tabulados em classes de valores)

É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os números de suas repetições (freqüências).

Esse tipo de distribuição é normalmente usado para representar variáveis

discretas.

Exemplo:

Tabela 1

Número de Acidentes Registrados na ponte Rio-Niteroi em Janeiro de 2009

Nº de Acidentes Nº de Dias 0 18 1 5 2 2 3 2 4 3 5 1

Total 31 FONTE: Dados Hipotéticos

Distribuição de Freqüências por Classes (dados agrupados ou tabulados em classes de valores)

Quando a variável analisada apresenta um grande número de valores torna-se

mais vantajoso o agrupamento destes em classes de freqüência, evitando assim grande extensão da tabela e facilitando a visualização do fenômeno como um todo.

34

Page 35: ESTATÍSTICA - Apostila - UERJ

A distribuição de freqüências por classes é uma tabela onde os valores observados são agrupados em classes, isto é, em intervalos de variações da variável em questão.

Esse tipo de distribuição é normalmente usado para representar variáveis contínuas. É utilizada também para representar variáveis discretas em um grande número de valores observados. Exemplo:

Tabela 2

Salários dos funcionários da UERJSalários (R$) Nº de funcionários

1000 1200 2 1200 1400 6 1400 1600 10 1600 1800 5 1800 2000 2

Total 25 FONTE: Dados Hipotéticos A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas séries. Dados Brutos

É a apresentação dos dados observados na seqüência em que foram coletados, isto é, sem nenhuma ordenação numérica. Exemplo: O número de peças defeituosas obtidas da produção de uma máquina durante vinte dias foi: 2 – 4 – 2 – 1 – 2 – 3 – 1 – 0 – 5 – 1 – 0 – 1 – 1 – 2 – 0 – 1 – 3 – 0 – 1 – 2 Rol É a organização dos dados brutos em ordem crescente ou decrescente. Exemplo: O rol do exemplo anterior é: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 2 – 2 – 3 – 3 – 4 – 5

35

Page 36: ESTATÍSTICA - Apostila - UERJ

Amplitude Total (AT) É a diferença entre o maior valor e o menor valor da seqüência dos dados observados.

AT = valor máximo – valor mínimo

Exemplo: A amplitude total do rol apresentado é: AT = 5 – 0 = 5 Freqüência Absoluta Simples (ou simplesmente freqüência) Denotada por Fi, a freqüência indica o número de ocorrências de cada valor ou o número de valores pertencentes a uma classe. Na Tabela 1: F6 = F(5) = 1

Na Tabela 2: F2 = 6

a) Escreve-se, ordenadamente, os dados observados na coluna indicadora. b) Obtém-se as freqüências absolutas simples dos dados (Fi). Essas freqüências

constituem o corpo da tabela. Exemplo: Sejam os dados abaixo representativos de uma pesquisa sobre o número de irmãos de 20 alunos da Turma Biologia/Geografia. Dados Brutos: 1 – 3 – 0 – 5 – 2 – 1 – 1 – 0 – 0 – 1 – 4 – 3 – 1 – 0 – 1 – 2 – 2 – 1 – 3 – 1 Rol: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 3 – 3 – 3 – 4 – 5 A distribuição de freqüências do rol apresentado é:

Regras para a elaboração de uma Distribuição de Freqüências Simples

36

Page 37: ESTATÍSTICA - Apostila - UERJ

Tabela 3

Número de Irmãos de 20 alunos da Turma Geo/Bio i Número de Irmãos (xi) Repetições (Fi) 1 0 4 2 1 8 3 2 3 4 3 3 5 4 1 6 5 1 Total � Fi = 20

1ª Coluna (i) – número de ordem dos valores distintos da variável número de irmãos. 2ª Coluna (xi) – valores distintos da variável número de irmãos. 3ª Coluna (Fi) – número de repetições dos valores distintos da variável número de

irmãos.

Nota: k

i

i 1

F n=

=� , onde n é igual ao número de dados observados (n = 20)

Observa-se que neste tipo de tabela não há perda de informação, podendo os dados originais serem reconstituídos a partir da distribuição elaborada. 1.6.4 Tipos de Freqüências Para a interpretação dos resultados de uma pesquisa, conforme os tipos de informações requeridas utilizam-se diversos tipos de freqüências de dados. A seguir serão apresentados os tipos de freqüências, derivados da distribuição de freqüências absolutas, bastante úteis na interpretação de dados. Freqüência Total É a soma de todas as freqüências absolutas simples em uma tabela.

k

i

i 1

F n=

=�

37

Page 38: ESTATÍSTICA - Apostila - UERJ

A freqüência total de uma distribuição de freqüências é igual ao número total de observações (n). Exemplo: Na Tabela 3, temos:

6

i 1 2 3 4 5 6

i 1

F F F F F F F 4 8 3 3 1 1 20=

= + + + + + = + + + + + =�

Freqüência Relativa Simples, ou simplesmente, Freqüência Relativa

Simbolizada por fi, a freqüência relativa simples fornece a proporção de cada valor ou de casos ocorridos em cada classe, em relação ao número total de observações. Portanto, é um número relativo. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da ordem em questão pelo número de observações.

n

Ff i

i =

As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada valor ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja:

ii

Ff 100

n= ×

Nota: k

i

i 1

f 1=

=� ou 100%

Exemplo: Na Tabela 3, temos:

11

F 4f 0,20 100 20

20 20= = = × = %

22

F 8f 0,40 100

20 20= = = × = 40%

33

F 3f 0,15 100 15

20 20= = = × = %

38

Page 39: ESTATÍSTICA - Apostila - UERJ

44

F 3f 0,15 100 15

20 20= = = × = %

55

F 1f 0,05 100 5

20 20= = = × = %

66

F 1f 0,05 100 5

20 20= = = × = %

Freqüência Absoluta Acumulada Denotada por Faci, a freqüência absoluta acumulada fornece a informação de quantos elementos se situam até determinado valor. A freqüência acumulada do i-ésimo valor ou i-ésima classe (freqüência acumulada de ordem i) é obtida somando-se a freqüência desse valor ou classe com as freqüências anteriores, ou seja, é a soma de todas as freqüências de ordens menores ou igual a da ordem em questão. Exemplo:

Fac3 = 3

i 1=

� Fi = F1 + F2 + F3

Fac4 = 4

i 1=

� Fi = F1 + F2 + F3 + F4

Exemplo: Na tabela 3, temos: Fac1 = F1 = 4 Fac4 = F1 + F2 + F3 + F4 = 15 + 3 = 18

Fac2 = F1 + F2 = 4 + 8 = 12

Fac5 = F1 + F2 + F3 + F4 + F5 = 18 + 1 = 19

Fac3 = F1 + F2 + F3 = 12 + 3 = 15 Fac6 = F1 + F2 + F3 + F4 + F5 + F6 = 19 + 1 = 20 Freqüência Acumulada Relativa

Denotada por faci, fornece a proporção de elementos situados até determinado valor. Consiste na soma da freqüência relativa de cada valor ou classe com as freqüências relativas dos valores ou classes anteriores, ou seja, é a soma das freqüências simples relativas de ordens menores ou iguais a da ordem em questão.

.

39

Page 40: ESTATÍSTICA - Apostila - UERJ

Exemplo:

fac3 = 3

i 1=

� fi = f1 + f2 + f3

Exemplo: Na tabela 3, temos: fac1 = f1 = 0,20 = 20% fac2 = f1 + f2 = 0,20 + 0,40 = 0,60 = 60% fac3 = f1 + f2 + f3 = 0,60 + 0,15 = 0,75 = 75% fac4 = f1 + f2 + f3 + f4 = 0,75 + 0,15 = 0,90 = 90% fac5 = f1 + f2 + f3 + f4 + f5 = 0,90 + 0,05 = 0,95 = 95% fac6 = f1 + f2 + f3 + f4 + f5 + f6 = 0,95 + 0,05 = 1 = 100% A freqüência relativa acumulada de ordem i pode ser também calculada através do quociente:

= �

������

Exemplo:

3

15fac 0,75 75

20= = = %

Com relação à Tabela 3, utilizando todos os tipos de freqüências definidas anteriormente, podemos construir a seguinte distribuição de freqüências: Tabela 4

Número de Irmãos de 20 alunos da Turma Geo/Bio i xi Fi fi fi (%) Faci faci faci(%) 1 0 4 0,20 20 4 0,20 20 2 1 8 0,40 40 12 0,40 40 3 2 3 0,15 15 15 0,75 75 4 3 3 0,15 15 15 0,90 90 5 4 1 0,05 5 5 0,95 95 6 5 1 0,05 5 5 1,00 100

Total 20 1,00 100 − − − FONTE: Dados Fictícios

40

Page 41: ESTATÍSTICA - Apostila - UERJ

Interpretação: • f3 = 0,15; 15% dos alunos responderam que têm 2 irmãos. • F2 = 8; 8 alunos responderam que têm 1 irmão; • fac3 = 0,75; 75% dos alunos responderam que têm entre 0 e 2 irmãos. Representação Gráfica de uma Distribuição de Freqüências Simples

A distribuição de Freqüências Simples é representada graficamente por um Gráfico em Hastes, um diagrama onde as freqüências são representadas por segmentos de retas perpendiculares ao eixo das abcissas. Cada segmento é determinado pelos pontos (xi,Fi) e (xi,0). Exemplo: Representação gráfica da Tabela 3. EXERCÍCIOS COMPLEMENTARES 1. Considere a seguinte distribuição de freqüências correspondente aos diferentes

preços de um determinado produto pesquisados em 20 lojas.

Preços do Produto A i Preço (R$) Número de Lojas 1 50 2 2 51 5 3 52 6 4 53 6 5 54 1

Total 20 FONTE: Dados Fictícios

0 1 2 3 4 5 xi (numero de irmãos)

Fi

1

3

4

8

41

Page 42: ESTATÍSTICA - Apostila - UERJ

a) Quantas lojas apresentam preços de R$ 52,00? b) Determine as freqüências relativas simples e as freqüências absolutas

acumuladas. c) Quantas lojas apresentaram um preço de até R$ 52,00 (inclusive)? d) Qual é a percentagem de lojas com preços de até R$ 53,00 (inclusive)? 2. A distribuição de freqüências a seguir apresenta o número de acidentes por dia,

durante 40 dias, em determinado cruzamento.

Número de Acidentes no Cruzamento X i Nº de Acidentes por dia

(xi) Número de Dias

(Fi) 1 0 30 2 1 5 3 2 3 4 3 1 5 4 1

Total 40 FONTE: Dados Fictícios

a) Determine as freqüências absolutas acumuladas, as freqüências simples

relativas e as freqüências acumuladas relativas. b) Após ter determinado as freqüências acima, interprete todos os resultados da 3ª

linha da distribuição de freqüências. 3. Em uma amostra de 30 milheiros de telhas recebidas pela Construtora ABC

Ltda, constatou-se os seguintes números de unidades defeituosas por milheiro: 5 – 20 – 10 – 5 – 40 – 30 – 20 – 5 – 10 – 15 – 10 – 30 – 40 – 10 – 50 – 10 – 30 – 15 − 20 – 40 – 10 – 20 – 20 – 50 – 10 – 40 – 30 – 20 – 0 – 30

a) Agrupar estes dados em uma distribuição de freqüências simples. b) Representá-la através de um gráfico conveniente. c) Calcular todos os tipos de freqüências conhecidos. d) Qual a percentagem de milheiros com mais de 30 telhas defeituosas? e) Quantos milheiros tiveram menos de 10 telhas defeituosas? f) Qual a proporção de milheiros com menos de 20 telhas defeituosas?

42

Page 43: ESTATÍSTICA - Apostila - UERJ

4. Dada a distribuição de freqüências:

Indústria de Equipamentos Eletrônicos – IEE Número de Falhas em Componentes durante o período

de garantia Janeiro de 2009

i Nº de Falhas (xi)

Número de Equipamentos (Fi)

1 0 148 2 1 52 3 2 34 4 3 26 5 4 13 6 5 7 Total 280

FONTE: Dados Fictícios a) Determinar as freqüências relativas percentuais, as freqüências acumuladas e as

freqüências relativas acumuladas percentuais. b) Através das freqüências calculadas, responder qual a porcentagem de: b.1) equipamentos que não apresentaram falha em seus componentes; b.2) equipamentos que apresentaram pelo menos uma falha em seus componentes; b.3) equipamentos trocados, sabendo-se que a indústria se compromete a trocar o

equipamento que apresente 4 ou mais falhas em seus componentes. 5. Considere os seguintes números. 1 3 5 7 9 2 4 6 8 10 15 20 25 0 1 2 3 4 5 6 7 8 9 9 8 7 8 6 5 4 3 2 1 0 10 15 20 25 12 8 11 6 4 2 1 3 5 7 9 11 a) Construa a distribuição de freqüências simples. b) Representá-la através de um gráfico conveniente. c) Calcular todos os tipos de freqüências conhecidos.

43

Page 44: ESTATÍSTICA - Apostila - UERJ

Intervalo de Classe ou Classe Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice i) O número de classes de uma distribuição de freqüências será denotado por k. A notação indica intervalo fechado à esquerda. Assim, na Tabela 2, um funcionário que apresentou salário de R$ 1400,00 pertence à classe 1400 1600, ou terceira classe (i = 3). Existem diversas maneiras de expressar as classes: a) a b compreende todos os valores entre a e b, incluindo a e b b) a b compreende todos os valores entre a e b, excluindo a c) a b compreende todos os valores entre a e b, excluindo b d) a b compreende todos os valores entre a e b, excluindo a e b Em nosso curso usaremos a forma expressa em “c)”. Limites de Classe São os valores extremos de cada classe. O menor valor denomina-se limite inferior da classe i (li) e o maior, limite superior da classe i (Li). Assim, na quarta classe da Tabela 2 tem-se l4 = 1600 e L4 = 1800. Amplitude do Intervalo de Classe (h) A amplitude do intervalo de classe é o comprimento da classe, sendo definida como a diferença entre o limite superior e o limite inferior da classe.

hi = Li − li

Exemplo: Na Tabela 2, temos: h1 = 1200 – 1000 = 200 h2 = 1400 – 1200 = 200

44

Page 45: ESTATÍSTICA - Apostila - UERJ

Em geral h1 = h2 = h3 = ... = h k = h, e determina-se a amplitude do intervalo fazendo:

TAh

k=

Exemplo: Dados: AT = 64 e k = 7. Temos: h = 64

7 = 9,14 ≈ 10

Nota: Sugere-se sempre aproximar o valor encontrado para o inteiro superior. Número de Classes (k) Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo da distribuição de freqüências é facilitar a compreensão dos dados, é importante que a distribuição contenha um número adequado de classes. Se este número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída da tabela. Se por outro lado forem utilizadas várias classes, haverá algumas com freqüências nulas ou muito pequenas e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno como um todo. Na prática esse número não deve ser superior a 20 nem inferior a 5. Se a quantidade de dados for pequena não se justifica a construção de uma tabela, e se for grande, mais de 20 classes dificulta a análise. Em função do total de observações existem vários métodos que orientam a escolha de um número de classes conveniente. Seguem-se os dois mais utilizados: a) Regra da Raiz Quadrada

k = 5 para n ≤ 25 k = n para n > 25, onde n é o número de observações.

Exemplo: Para n = 30, o número de classes será 48,530 = ≈ 5. b) Regra de Sturges

k = 1 + 3,3 log n,

onde: n = número de observações. Exemplo: Para n = 30, tem-se: k = 1 + 3,3 log 30 ≈ 6.

45

Page 46: ESTATÍSTICA - Apostila - UERJ

Para n = 30 os resultados obtidos pelos dois critérios são bastante próximos. O mesmo não acontece para valores grandes de n onde a regra de Sturges tem o inconveniente de prever um número relativamente pequeno de classes e o procedimento da raiz quadrada, um número relativamente grande. Neste caso deve prevalecer o bom senso do analista. Ponto Médio da Classe (xi) Considerando que os valores de uma classe estão distribuídos uniformemente, o ponto médio ou valor médio de uma classe é o valor que melhor a representa para efeito de cálculo de certas medidas.

O ponto médio de uma classe i é definido por: i ii

l Lx

2

+=

Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe. Na Tabela 2, o ponto médio da classe 1200 1400 é:

3

1200 1400x 1300

2

+= = , ou 3

200x 1200 1300

2= + = .

Regras para a elaboração de uma Distribuição de Freqüências por Classes a) Determinar o rol (opcional). b) Determinar a amplitude total (AT) dos dados:

AT = valor máximo – valor mínimo c) Determinar o número conveniente de classes (k), de acordo com um dos

critérios citados anteriormente. d) Determinar a amplitude de cada classe (h) dividindo a amplitude total pelo

número de classes. AT

hk

=

Muitas vezes ao efetuar esta divisão, pode-se chegar a um resultado não muito

conveniente sob o aspecto de montagens das classes. Neste caso sugere-se que o

46

Page 47: ESTATÍSTICA - Apostila - UERJ

valor encontrado seja aproximado para o maior inteiro, caso contrário algum dado excederia o limite superior da última classe prevista. e) Determinar os limites das classes, escolhendo-se, preferencialmente, números

inteiros. O limite inferior da primeira classe e o limite superior da última, não precisam, necessariamente, pertencer ao conjunto.

f) Construir a tabela de freqüências, contando o número de ocorrência de cada

classe. Exemplo: Os dados a seguir representam as notas de 50 alunos.

33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60 60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77 78 80 81 84 85 85 88 89 91 94 97

Vamos agrupar estes elementos em uma distribuição de freqüências por classes a) Amplitude Total: AT = 97 – 33 = 64

b) Número de Classes: k = 50 ≈ 7 ou k = 1 + 3,3 log 50 = 1 + 3,3 x 1,7 ≈ 7

c) Amplitude das Classes (h): TA 64h 9,14 10

k 7= = = ≅ (aproximar para o maior

inteiro) d) Limites das Classes

30 40 40 50 50 60 60 70 70 80 80 90 90 100

e) Distribuição de Freqüências por Classes

Ponto inicial = 30 (o ponto inicial deve ser sempre menor ou igual ao menor valor observado)

Ponto final = 100 (o ponto final deve ser sempre maior que o maior valor observado)

47

Page 48: ESTATÍSTICA - Apostila - UERJ

Notas de 50 alunos Classes Notas Fi fi fi(%) Faci faci faci(%) xi

1 30 |--- 40 4 0,08 8 4 0,08 8 35 2 40 |--- 50 6 0,12 12 10 0,20 20 45 3 50 |--- 60 8 0,16 16 18 0,36 36 55 4 60 |--- 70 13 0,26 26 31 0,62 62 65 5 70 |--- 80 9 0,18 18 40 0,80 80 75 6 80 |--- 90 7 0,14 14 47 0,94 94 85 7 90 |--- 100 3 0,06 6 50 1,00 100 95

Total 50 1,00 100 − − − − FONTE: Dados Hipotéticos Interpretação:

F3 = 8 → 8 alunos obtiveram nota igual ou superior a 50 e inferior a 60.

f4 = 26% → 26% dos alunos obtiveram notas entre 60 (inclusive) e 70 (exclusive). Fac6 = 47 → 47 alunos obtiveram notas inferiores a 90. fac5 = 80% → 80% dos alunos obtiveram notas inferiores a 80.

Distribuição de Freqüências com Intervalos de Classes Desiguais

Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais, como, por exemplo, as idades dos atletas de acordo com a categoria a que pertencem. Exemplo: Tabela 5

Categoria de Atletas por Idade Classes Idades Fi

1 2 |--- 13 12 2 13 |--- 15 5 3 15 |--- 18 8 4 18 |--- 30 30 5 30 |--- 40 12 6 40 |--- 60 10 7 60 |--- 90 2

Total 79

48

Page 49: ESTATÍSTICA - Apostila - UERJ

Gráficos de uma Distribuição de Freqüências por Classes Histograma

É um tipo de gráfico apropriado para representar dados agrupados em classes. Consiste de colunas justapostas cujas bases representam as classes e as alturas correspondem às freqüências das classes.

Polígono de Freqüências

Trata-se da representação de uma distribuição de freqüências por classes, através de um polígono.

O eixo das abcissas constitui a base do polígono. Os vértices são os pontos (xi,Fi) onde xi é o ponto médio e Fi é a freqüência da classe.

O fechamento da poligonal com a base é feito unindo o primeiro vértice ao ponto médio de uma classe anterior à primeira, e o último vértice ao ponto médio de uma classe posterior à última.

Esse gráfico é adequado também para a representação de freqüências relativas e percentuais.

Polígono de Freqüências Acumuladas ou Ogiva de Galton

Utilizado para representar as freqüências acumuladas. Os vértices são os pontos (Li, Faci). Pode ser usado também para representar as freqüências acumuladas relativas percentuais. O fechamento é feito unindo o primeiro vértice ao limite inferior da primeira classe.

Esse gráfico será útil para a determinação das medidas separatrizes que serão tratadas posteriormente.

Exemplo: Dada a distribuição de freqüências:

Notas dos alunos da turma PEST Notas Fi Fac Fi xi

30 |--- 40 4 4 0,08 35 40 |--- 50 6 10 0,12 45 50 |--- 60 8 18 0,16 55 60 |--- 70 13 31 0,26 65 70 |--- 80 9 40 0,18 75 80 |--- 90 7 47 0,14 85 90 |--- 100 3 50 0,06 95

Total 50 − 1,00 −

49

Page 50: ESTATÍSTICA - Apostila - UERJ

Os gráficos representativos dessa distribuição são: HISTOGRAMA E POLÍGONO DE FREQUÊNCIAS

POLÍGONO DE FREQUÊNCIAS ACUMULADAS

EXERCÍCIOS COMPLEMENTARES 1. Os dados a seguir referem-se às notas de 50 alunos:

60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 71 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89

3

4

6

7

8

9

13

Fi

30 40 50 60 70 80 90 100 classe

Polígono de freqüência

10

4

18

47

31

40

50

Fac

30 40 50 60 70 80 90 100 classe

50

Page 51: ESTATÍSTICA - Apostila - UERJ

Pede-se: a) A amplitude total da amostra. b) O número de classes. c) A amplitude das classes. d) As classes (valor inicial = 30). e) As freqüências absolutas das classes. f) As freqüências relativas. g) Os pontos médios das classes. h) As freqüências acumuladas das classes. i) O histograma. j) O polígono de freqüências. k) O polígono de freqüências acumuladas.

2. A tabela abaixo apresenta os salários de 90 funcionários da UERJ

Salários dos Funcionários da UERJ

Classes Salários Mínimos

Fi

1 1 |--- 3 40 2 3 |--- 5 30 3 5 |--- 7 10 4 7 |--- 9 5 5 9 |--- 11 5

Total 90

a) Determine as freqüências simples relativas, as freqüências absolutas

acumuladas e as freqüências relativas acumuladas. b) Quantos funcionários ganham menos de 3 salários mínimos? c) Quantos ganham mais de salários mínimos? d) Qual a percentagem de operários com salário entre 5 e 7 salários mínimos? e) Qual a percentagem de operários com salário inferior a 7 salários mínimos? f) Construa o histograma e o polígono de freqüência.

3. Complete a tabela abaixo:

i Classes xi Fi Faci fi 1 0 |--- 2 1 4 0,04 2 2 |--- 4 8 3 4 |--- 6 5 30 0,18 4 |--- 7 27 0,27 5 8 |--- 10 15 72 6 10 |--- 12 83 7 |--- 13 10 93 0,10 8 14 |--- 16 0,07 − Total −

51

Page 52: ESTATÍSTICA - Apostila - UERJ

4. A tabela abaixo apresenta uma distribuição de freqüência das áreas de 400 lotes:

i Áreas (m2) Nº de Lotes 1 300 |--- 400 14 2 400 |--- 500 46 3 500 |--- 600 58 4 600 |--- 700 76 5 700 |--- 800 68 6 800 |--- 900 62 7 900 |--- 1000 48 8 1000 |--- 1100 22 9 1100 |--- 1200 6

Com referência a essa tabela determine: a) A amplitude total. b) O limite superior da 5ª classe. c) A freqüência acumulada da 4ª classe. d) O número de lotes cuja área não atinge 700 m2. e) O número de lotes cuja área é superior ou igual a 800 m2. f) A classe do 72º lote. 5. Responda as seguintes questões: a) O que é freqüência simples absoluta de uma classe? b) O que é freqüência simples relativa de uma classe? c) O que é freqüência acumulada absoluta de uma classe? d) O que é freqüência acumulada relativa de uma classe? e) O que é limite inferior de uma classe? f) O que é ponto médio de uma classe? 6. Os pesos de 40 alunos estão relacionados a seguir:

69 57 72 54 93 68 72 58 64 62 65 76 60 49 74 59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 67 68 53 53 65 58 80 60 63 53

a) Agrupar estes dados em classes de valores (Dado log 40 = 1,6). b) Determine as freqüências relativas, as freqüências acumuladas e as freqüências

relativas acumuladas. c) Determine os pontos médios das classes. d) Interprete todos os resultados da 3ª linha da tabela. e) Construa o histograma, o polígono de freqüências e o polígono de freqüências

acumuladas da distribuição.

52

Page 53: ESTATÍSTICA - Apostila - UERJ

7. Os dados abaixo referem-se ao consumo mensal de energia elétrica em kwh da conta nº 001.161157-1 da Ligth Rio, no período de 1997 a 1999.

142 – 178 – 164 – 190 – 146 – 131 – 119 – 131 – 187 – 158 – 168 – 111 – 96 – 118 – 182 – 116 – 188 – 207 – 229 – 180 – 181 – 175 – 205 – 179 – 184 – 227 – 210 – 210 – 213 – 190 – 240 – 215 – 226 – 188 – 190 – 205 –

a) Sintetizar esses dados através de uma distribuição de freqüências por classes. b) Calcular todos os tipos de freqüências que você conhece. c) Com base nas freqüências calculadas, apresentar os seguintes percentuais: c.1) de meses com consumo inferior a 150 kwh. c.2) de meses com consumo superior a 200 kwh. d) Representar a distribuição elaborada através de um histograma e de um

polígono de freqüências. e) Representar a distribuição de freqüências acumuladas através de uma Ogiva. 8. Dada a amostra:

28 33 27 30 31 30 33 30 33 29 27 33 31 27 31 28 27 29 31 24 31 33 30 32 30 33 27 33 31 33 23 29 30 24 28 34 39 30 18 17 18 15 16 17 17 18 19 19 20 29

a) Agrupar os elementos em classes (inicie pelo 15 e use h = 5). b) Calcule as freqüências absolutas, as freqüências acumuladas e os pontos médios

das classes. c) Interprete todos os resultados da 4ª linha da tabela. d) Construa o histograma, o polígono de freqüências e o polígono de freqüências

acumuladas da distribuição. 9. Abaixo temos a distribuição dos aluguéis de 65 casas. Aluguel (centenas de $) 1,5 |-- 3,5 3,5 |-- 5,5 5,5 |-- 7,5 7,5 |-- 9,5 9,5 |-- 11,5 Nº de casas 12 18 20 10 5 Com referência a essa tabela determine: a) A amplitude total. b) O limite superior da 5ª classe. c) A freqüência acumulada da 4ª classe. d) O número de aluguéis cujo valor atinge, no máximo, R$ 550,00.

53

Page 54: ESTATÍSTICA - Apostila - UERJ

e) O número de aluguéis cujo valor é superior ou igual a R$ 750,00. f) A classe do 50º aluguel. 10. A distribuição de freqüência abaixo representa o consumo por nota de 54 notas

fiscais emitidas durante um dia em uma loja de departamentos.

Consumo por nota (R$) nº de notas 0 |------ 50 10

50 |------ 100 28 100 |------ 150 12 150 |------ 200 2 200 |------ 250 1 250 |------ 300 1

a) Interprete todos os resultados da 4ª linha da tabela. b) Construa o histograma e o polígono de freqüências.

54

Page 55: ESTATÍSTICA - Apostila - UERJ

MEDIDAS DE POSIÇÃO

As medidas de posição são valores que representam o conjunto de dados observados ou então promovem uma partição sobre este conjunto. Entre as medidas de posição destacam-se as medidas de tendência central e as separatrizes.

MEDIDAS DE TENDÊNCIA CENTRAL

A maneira mais simples de resumirmos as informações contidas em um conjunto de dados observados é estabelecer um ponto central em torno do qual os dados se distribuem. Tais medidas orientam quanto à posição do conjunto no eixo dos números reais e possibilitam comparações de séries de dados entre si pelo confronto destes números. São chamadas Medidas de Tendência Central, pois representam os fenômenos pelos seus valores médios em torno dos quais tendem a se concentrar os dados.

2.1.1 MÉDIA ARITMÉTICA ( x ) a) Média aritmética para dados não agrupados Sejam x1, x2, ..., xn, n valores da variável X. A média aritmética simples, denotada por x , é definida por:

n

i

i 1

xx

n==�

,

onde n é o número de valores observados da variável X. Exemplo: Determinar a média aritmética simples dos valores: 7,0; 3,0; 5,5; 6,5; 8,0.

5

i

i 1

x7,0 3,0 5,5 6,5 8,0

x 6,05 5

=+ + + +

= = =�

55

Page 56: ESTATÍSTICA - Apostila - UERJ

b) Média aritmética para dados agrupados

Neste caso, usamos a média aritmética dos valores x1, x2, ..., xk, ponderada pelas suas respectivas freqüências absolutas F1, F2, F3, ... , Fk. Desta forma, temos:

k

i i

i 1

x Fx

n==�

,

onde n = F1 + F2 + ... + Fk = k

i

i 1

F=

Observação: Quando se tratar de uma distribuição de freqüência por classe, xi

corresponde ao ponto médio da classe, ou seja, i ii

l Lx

2

+= .

Exemplos: 1. Determinar a média aritmética da distribuição a seguir.

NÚMERO DE IRMÃOS DE ALUNOS DA TURMA BIO/GEO i xi Fi

1 0 4 2 1 8 3 2 3 4 3 3 5 4 1 6 5 1

TOTAL 20 Fonte: Dados Hipotéticos

Solução: Para determinar a média acrescentaremos a coluna com o cálculo de xiFi NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA BIO/GEO i xi Fi XIFI

1 0 4 0 2 1 8 8 3 2 3 6 4 3 3 9 5 4 1 4 6 5 1 5

56

Page 57: ESTATÍSTICA - Apostila - UERJ

TOTAL 20 32 Fonte: Dados Hipotéticos

k 6

i i i i

i 1 i 1

x F x F32

x 1,6n 20 20

= == = = =� �

2. Dada a distribuição:

Renda Familiar de 40 Famílias

i Salários (R$ 1.000)

Fi

1 2 |--- 4 5 2 4 |--- 6 10 3 6 |--- 8 14 4 8 |--- 10 8 5 10 |--- 12 3

TOTAL 40 Fonte: Dados Hipotéticos Determinar a renda média familiar destas 40 famílias. Solução: Acrescentamos as colunas com os cálculos de xi e xiFi ,

Renda Familiar de 40 Famílias

i Salários (R$ 1.000)

Fi xi xiFi

1 2 |--- 4 5 3 15 2 4 |--- 6 10 5 50 3 6 |--- 8 14 7 98 4 8 |--- 10 8 9 72 5 10 |--- 12 3 11 33

TOTAL 40 − 268 Fonte: Dados Hipotéticos

e utilizamos a fórmula: k 5

i i i i

i 1 i 1

x F x F268

x 6,7n 40 40

= == = = =� �

Assim, cada família possui, em média, uma renda de R$6.700,00. Assim, cada família possui, em média, uma renda de R$6.700,00.

57

Page 58: ESTATÍSTICA - Apostila - UERJ

MEDIANA (Md)

A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados.

50% 50% Md a) Mediana para dados não agrupados

i) Se n é ímpar – o rol admite apenas um termo central que ocupa a posição n 1

2

+.

O valor do elemento que ocupa esta posição é a mediana.

Exemplo: Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2.

Rol: 2; 8; 12; 12; 20; 20; 23. n = 7 (n é ímpar)

O rol admite somente um termo central que ocupa a posição 7 1

2

+, ou seja, a 4ª

posição. Portanto Md = x4 = 12.

Interpretação: 50% dos valores da série são menores ou iguais a 12 e 50% dos valores são maiores ou iguais a 12.

ii) Se n é par – neste caso o rol admite dois termos centrais que ocupam as

posições n

2 e

n1

2+ .

Neste caso a mediana é definida como a média aritmética destes dois termos centrais. Exemplo: Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 13.

Rol: 7; 8; 9; 10; 13; 13; 15; 21. n = 8 (n é par)

A série admite dois termos centrais que ocupam as posições 8

2 e

81

2+ , ou seja, a

4ª posição e a 5ª posição. Portanto,

58

Page 59: ESTATÍSTICA - Apostila - UERJ

4 5x x 10 13Md 11,5

2 2

+ += = = .

Interpretação: 50% dos valores do rol são menores ou iguais a 11,5 e 50% dos

valores são maiores ou iguais a 11,5. b) Mediana para dados agrupados sem intervalos de classes

O procedimento para o cálculo da mediana para dados agrupados sem intervalos de classes é o mesmo utilizado para dados não agrupados, ou seja:

• Se n for ímpar, a mediana será o termo central, isto é, o termo de ordem n 1

2

+.

• Se n for par, a mediana será a média aritmética entre os elementos centrais, isto

é, os elementos de ordem n

2 e

n1

2+ .

Exemplo 1: Determinar a mediana da distribuição abaixo.

i xi Fi Faci

1 2 1 1 2 5 4 5 3 8 10 15 4 10 6 21 5 12 2 23

TOTAL 23 − n = 23 (n é ímpar)

A distribuição admite apenas um termo central que ocupa a posição 23 1

2

+, ou

seja, a 12ª posição. Através das freqüências acumuladas podemos observar que: o 1º elemento é o 2; o 2º, o 3º, o 4º e o 5º elementos são iguais a 5; o 6º, o 7º, ... , o 15º elementos são iguais a 8; e assim sucessivamente. Portanto o 12º elemento é o 8. Logo, Md = x12 = 8.

59

Page 60: ESTATÍSTICA - Apostila - UERJ

Exemplo 2: Determinar a mediana da distribuição

i xi Fi Faci

1 0 3 3 2 1 5 8 3 2 8 16 4 3 10 26 5 5 6 32

TOTAL 32 − n = 32 (n é par).

A série admite dois termos centrais que ocupam as posições 32

2 e

321

2+ , ou seja,

o 16º e o 17º elementos. Observando as freqüências acumuladas, temos: O 1º, o 2º e o 3º elementos são iguais a 0; O 4º, o 5º, o 6º, o 7º e o 8º são iguais a 1; O 9º, o 10º, ... , o 16º são iguais a 2; O 17º, o 18º, ... , o 26º são iguais a 3; O 27º, o 28º, ..., o 32º são iguais a 5. Portanto o 16º termo é igual a 2 e o 17º termo é igual a 3.

Logo, 16 17x x 2 3Md 2,5

2 2

+ += = =

c) Mediana para dados agrupados com intervalos de classes

• Calcula-se n

2, independente de n ser par ou ímpar;

• Localiza-se, através das freqüências acumuladas, a classe mediana, ou seja, a

classe que contém o termo de ordem n

2;

• Aplica-se a fórmula:

ant

Md

Md

nFac

2Md l hF

= + × ,

onde: lMd = limite inferior da classe mediana; Facant = freqüência acumulada da classe anterior à classe mediana; h = amplitude da classe mediana; FMd = freqüência absoluta da classe mediana.

60

Page 61: ESTATÍSTICA - Apostila - UERJ

Exemplo 1 Determinar a mediana da distribuição.

i Altura(cm) Fi Faci

1 150 |--- 154 4 4 2 154 |--- 158 9 13 3 158 |--- 162 11 24 → classe mediana 4 162 |--- 166 8 32 5 166 |--- 170 5 37 6 170 |--- 174 3 40

TOTAL 40 −

• Calcula-se n

2 →

4020

2=

• Localiza-se a classe mediana (a classe que contém o termo de ordem n

2)

Classe mediana = 3ª classe

• Aplica-se a fórmula: ant

Md

Md

nFac

2Md l hF

= + ×

lMd = 158

Facant= 13 20 13

Md 158 4 160,5511

−= + × =

h = 4 FMd = 11

Interpretação: 50% das pessoas têm altura inferior a 160,55 cm. Exemplo 2 Consideremos a distribuição de freqüência por classes das notas dos 50 alunos da turma PEST e vamos calcular a sua mediana.

Notas de 50 alunos da turma PEST Classes Notas Fi Faci

1 30 |--- 40 4 4 2 40 |--- 50 6 10 3 50 |--- 60 8 18 4 60 |--- 70 13 31 →→→→ classe mediana 5 70 |--- 80 9 40 6 80 |--- 90 7 47 7 90 |--- 100 3 50

Total 50 ---- Fonte: Dados Hipotéticos

61

Page 62: ESTATÍSTICA - Apostila - UERJ

• Calcula-se n

2 →

5025

2=

• Localiza-se a classe mediana (a classe que contém o termo de ordem 2

n )

Classe mediana = 4ª classe

• Aplica-se a fórmula: ant

Md

Md

nFac

2Md l hF

= + ×

lMd = 60

Facant= 18 25 18

Md 60 10 65,3813

−= + × =

h = 10 FMd = 13

Interpretação: 50% das notas foram inferiores a 65,38. EXERCÍCIOS COMPLEMENTARES: 1. Determinar a média e a mediana das séries: a) 2; 5; 8; 10; 12; 8; 5; 12 b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8 2. Determinar a média e a mediana das distribuições: a)

xi 2 3 4 5 7 Fi 3 5 8 4 2

b)

xi 73 75 77 79 81 Fi 2 10 12 5 2

c)

Classes 1 |---

3 3 |---

5 5 |---

7 7 |---

9 9 |---

11 11 |---

13

Fi 3 5 8 6 4 3 d)

Classes 22 |---

25 25 |---

28 28 |---

31 31 |---

34

Fi 3 5 8 6

62

Page 63: ESTATÍSTICA - Apostila - UERJ

MODA (Mo) A moda é o valor mais freqüente do conjunto de dados observados. a) Moda para dados não agrupados Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m). Exemplo: Determinar a moda dos conjuntos de dados abaixo: a) 2; 8; 3; 5; 4; 5; 3; 5; 1

O elemento que mais se repete é o 5. Portanto: Mo = 5 (seqüência unimodal). b) 6; 10; 5; 6; 10; 2

Neste conjunto de dados o elemento 6 e o elemento 10 se repetem mais vezes que os demais. Portanto: Mo1 = 6 e Mo2 = 10 (seqüência bimodal).

c) 2; 2; 8; 8; 5; 5; 6; 6

Não há nenhum elemento que se destaque por possuir maior freqüência. Portanto, a série não possui moda e é dita amodal.

Observação: A moda só é considerada medida de tendência central no caso unimodal. Nos demais casos é uma medida estatística de análise. b) Moda para dados agrupados sem intervalos de classes Neste caso, basta identificar o(s) elemento(s) de maior freqüência. Exemplo: Determinar a moda das distribuições: a)

i xi Fi

1 0 2 2 2 5 3 3 8 4 4 3 5 5 1

Total

Mo = 3 (Distribuição Unimodal)

63

Page 64: ESTATÍSTICA - Apostila - UERJ

b)

i xi Fi

1 1 2 2 2 5 3 3 4 4 4 5 5 5 1

Total

Mo1 = 2 e Mo2 = 4 (Distribuição Bimodal)

c) i xi Fi

1 4 5 2 5 5 3 8 5 4 10 5

Total

Não há moda (Distribuição Amodal) c) Moda para dados agrupados com intervalos de classes Neste caso, há diversos processos para o cálculo da moda. i) Fórmula de Czuber • Identifica-se a classe modal (a que possui maior freqüência); • Aplica-se a fórmula:

1Mo

1 2

Mo l h∆

= + ⋅∆ + ∆

,

onde:

lMo = limite inferior da classe modal. ∆1 = diferença entre a freqüência absoluta da classe modal e a freqüência

absoluta da classe anterior à classe modal. ∆2 = diferença entre a freqüência absoluta da classe modal e a freqüência

absoluta da classe posterior à classe modal. h = amplitude da classe modal.

64

Page 65: ESTATÍSTICA - Apostila - UERJ

Exemplo 1 Determinar a moda da distribuição:

i classes Fi

1 0 |--- 1 3 2 1 |--- 2 10 3 2 |--- 3 17 → Classe Modal 4 3 |--- 4 8 5 4 |--- 5 5

TOTAL 43 • Identifica-se a classe modal: 3ª classe (maior freqüência = 17) • Aplica-se a fórmula:

1Mo

1 2

Mo l h∆

= + ⋅∆ + ∆

,

onde: lMo = 2; ∆1 = 17 – 10 = 7; ∆2 = 17 – 8 = 9; h = 3 – 2 = 1

Logo: 7

Mo 2 1 2,447 9

= + ⋅ =+

Exemplo 2 Considere a distribuição abaixo.

Salários dos Empregados da Empresa PEST

Classes Salários (classes) Fi (nº funcionários) 1 800 |- 1800 70 2 1800 |- 2500 140 3 2500 |- 3000 140 4 3000 |- 5000 60 Total 410 Fonte: Dados Hipotéticos

Como as amplitudes das classes não são iguais, vamos utilizar as densidades das

classes i

i

F

h para identificar a classe modal (aquela com a maior densidade)

65

Page 66: ESTATÍSTICA - Apostila - UERJ

Salários dos Empregados da Empresa PEST

Classes Salários (classes)

xi (pto médio)

Fi (nº funcionários)

Fi/hi (densidade)

1 800 |- 1800 1300 70 0,07 2 1800 |- 2500 2150 140 0,20 3 2500 |- 3000 2750 140 0.28 4 3000 |- 5000 4000 60 0,03 Total 410 Fonte: Dados Hipotéticos

• Identifica-se a classe modal: 3ª classe (maior densidade = 0,28) • Aplica-se a fórmula:

1Mo

1 2

Mo l h∆

= + ⋅∆ + ∆

,

onde: lMo = 2500; ∆1 = 0,28 – 0,20 = 0,08; ∆2 = 0,28 – 0,03 = 0,25; h = 500

Logo: 0,08

Mo 2500 500 2500 0,24 500 2621,210,08 0,25

= + ⋅ = + ⋅ =+

Assim, R$ 2621,21 é o salário mais freqüente entre os 410 funcionários dessa empresa. ii) Fórmula de Pearson

Mo 3Md 2x≅ −

Na fórmula de Pearson a moda é aproximadamente igual a diferença entre o triplo da mediana e o dobro da média. Esta fórmula dá uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. Observação: Para calcular a moda de uma variável, precisamos apenas da distribuição de freqüência. Para a mediana necessitamos minimamente ordenar os valores atribuídos à variável. A média só pode ser calculada para variáveis quantitativas. Assim, para as variáveis nominais somente podemos trabalhar com a mediana, além da moda.

66

Page 67: ESTATÍSTICA - Apostila - UERJ

EXERCÍCIOS COMPLEMENTARES: 1. Para cada distribuição, determine a média, a mediana e a moda: a)

xi 72 75 78 80 Fi 8 18 28 38

b)

Classes 7 |--- 10 10 |--- 13 13 |--- 16 16 |--- 19 19 |--- 22 Fi 6 10 15 10 5

MEDIDAS SEPARATRIZES As medidas separatrizes são valores que dividem o conjunto de dados observados em um determinado número de partes, contendo cada uma a mesma quantidade de elementos. São elas: • Mediana É considerada também uma medida separatriz. • Quartis São valores que dividem o rol em quatro partes iguais, cada uma com 25% dos elementos. Ao todo tem-se 3 quartis: Q1 (1º quartil), Q2 (2º quartil) e Q3 (3º quartil). 25% 25% 25% 25% Q1 Q2=Md Q3 Observe que: o Abaixo do 1º quartil tem-se 25% dos elementos; o Abaixo do 2º quartil tem-se 50% dos elementos; o Abaixo do 3º quartil tem-se 75% dos elementos; • Decis São valores que dividem o rol em dez partes iguais, cada uma com 10% dos elementos. Ao todo tem-se 9 decis: D1 (1º decil), D2 (2º decil), ... , D9 (9º decil).

67

Page 68: ESTATÍSTICA - Apostila - UERJ

10% 10% 10% 10% 10% 10% 10% 10% 10% 10% D1 D2 D3 D4 D5 D6 D7 D8 D9 Observe que: • Abaixo do 1º decil tem-se 10% dos elementos; • Abaixo do 2º decil tem-se 20% dos elementos; • Abaixo do 3º decil tem-se 30% dos elementos; e assim sucessivamente. • Centis ou Percentis Dividem o rol em cem partes iguais, cada uma com 1% dos elementos. Ao todo tem-se 99 centis: P1 (1º centil), P2 (2º centil), ... , P99 (99º centil). 1% 1% 1% 1% ... 1% ... 1% ... 1% P1 P2 P3 P4 P50 P51 P80 P81 P99 Observe que: • Abaixo do 1º centil tem-se 1% dos elementos; • Abaixo do 2º centil tem-se 2% dos elementos; • Abaixo do 3º centil tem-se 3% dos elementos; • Abaixo do 4º centil tem-se 4% dos elementos; e assim sucessivamente. Cálculo das medidas separatrizes: a) Separatrizes para dados não agrupados

Devemos ordenar os elementos, identificar a medida que queremos obter (quartil, decil ou centil), localizar a posição da medida desejada e identificar o elemento que ocupa esta posição, de acordo com o esquema a seguir:

Quartil i: i n

pos ,i 1,2,34

⋅= =

Decil i: i n

pos ,i 1,2,...,910

⋅= =

Centil i: i n

pos ,i 1,2,...,99100

⋅= =

68

Page 69: ESTATÍSTICA - Apostila - UERJ

Observe que: • Se pos for um número inteiro, então a medida procurada corresponde ao

elemento do rol que ocupa esta posição. • Se pos não for um número inteiro, então a medida procurada é um elemento

intermediário entre os elementos que ocupam as posições aproximadas por falta e por excesso do valor pos. Neste caso, a separatriz corresponde à média aritmética dos valores que ocupam estas posições.

Exemplos: 1. Calcule o primeiro quartil da seqüência: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15. Rol: 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15.

i n 1 12pos 3

4 4

⋅ ⋅= = =

Logo, Q1= x3 = 5. 2. Calcule o P60 da seqüência: 2; 8; 7,5; 6; 10; 12; 2; 9. Rol: 2; 2; 6; 7,5; 8; 9; 10; 12.

i n 60 8pos 4,8

100 100

⋅ ⋅= = =

Como este valor não é inteiro, o P60 é um valor situado entre o 4º e o 5º elemento

da seqüência. Logo, 4 560

x x 7,5 8P 7,75

2 2

+ += = =

b) Separatrizes para dados agrupados sem intervalos de classes Neste caso, como os dados já estão ordenados, utilizamos a freqüência acumulada da série para localizar o elemento que ocupa a posição da separatriz desejada, conforme citado no item anterior. Exemplo: Calcular o quarto decil da distribuição:

69

Page 70: ESTATÍSTICA - Apostila - UERJ

i xi Fi Faci

1 2 3 3 2 4 5 8 3 5 8 16 4 7 6 22 5 10 2 24 Total 24 −−−−

i n 4 24

pos 9,610 10

⋅ ⋅= = =

Como este valor não é inteiro, o D4 é um valor situado entre o 9º e o 10º elemento da distribuição.

Logo, 9 104

x x 5 5D 5

2 2

+ += = =

c) Separatrizes para dados agrupados com intervalos de classes Neste caso, aplica-se a fórmula:

antpos FacSep l h

F

−= + × ,

onde: Sep = medida separatriz a ser determinada (Mediana, Quartil, Decil ou Centil); l = limite inferior da classe separatriz (a classe que contém a separatriz a ser

determinada); Facant = freqüência acumulada da classe anterior à classe separatriz; F = freqüência absoluta simples da classe separatriz; h = amplitude da classe separatriz; pos = é a posição da separatriz, sendo dada por:

Mediana: n

pos2

=

Quartil i: i n

pos ,i 1,2,34

⋅= =

Decil i: i n

pos ,i 1,2,...,910

⋅= =

Centil i: i n

pos ,i 1,2,...,99100

⋅= =

70

Page 71: ESTATÍSTICA - Apostila - UERJ

Exemplo: Calcular o 1º quartil, o 4º decil e o 70º centil da distribuição.

i Altura (cm) Fi Faci

1 150 |--- 154 4 4 2 154 |--- 158 9 13 → classe que contém o 1º quartil 3 158 |--- 162 11 24 → classe que contém o 4º decil 4 162 |--- 166 8 32 → classe que contém o 70º centil 5 166 |--- 170 5 37 6 170 |--- 174 3 40

TOTAL 40 − Cálculo do 1º quartil:

• Calcula-se pos = n

4 →

4010

4=

• Localiza-se a classe que contém o 10º termo (2ª classe)

• Aplica-se a fórmula: 1

1

ant1 Q

Q

pos FacQ l h

F

−= + ×

1Ql = 154

Facant= 4 1

10 4Q 154 4 156,67

9

−= + × =

h = 4

1QF = 9

Interpretação: 25% das pessoas têm altura inferior a 156,67 cm.

Cálculo do 4º decil:

• Calcula-se pos =4 n

10

⋅ →

4 4016

10

⋅=

• Localiza-se a classe que contém o 16º termo (3ª classe)

• Aplica-se a fórmula: 4

4

ant4 D

D

pos FacD l h

F

−= + ×

4Dl = 158

Facant= 13 4

16 13D 158 4 159,09

11

−= + × =

h = 4 e 4DF = 11

71

Page 72: ESTATÍSTICA - Apostila - UERJ

Interpretação: 40% das pessoas têm altura inferior a 159,09 cm. Cálculo do 70º centil:

• Calcula-se pos = 70 n

100

⋅ →

70 4028

100

⋅=

• Localiza-se a classe que contém o 28º termo (4ª classe)

• Aplica-se a fórmula: 70

70

ant70 C

C

pos FacC l h

F

−= + ×

70Cl = 162

Facant= 24 70

28 24C 162 4 164

8

−= + × =

h = 4

70CF = 8

Interpretação: 70% das pessoas têm altura inferior a 164 cm. EXERCÍCIOS COMPLEMENTARES: 1. Para a distribuição:

Classes 4 |--- 6 6 |--- 8 8 |--- 10 10 |--- 12 Fi 4 11 15 5

Calcule Q1, D6 e P65. Interprete os resultados obtidos. 2. Para a distribuição abaixo calcule Q3, D2 e P45. Interprete os resultados obtidos.

Classes 20 |--- 30 30 |--- 40 40 |--- 50 50 |--- 60 60 |--- 70 Fi 3 8 18 22 24

3. O departamento de recursos humanos de uma empresa, tendo em vista o

aumento de produtividade de seus vendedores, resolveu , premiar com um aumento de 5% no salário, a metade e seus vendedores mais eficientes. Para isto, fez um levantamento de vendas semanais, por vendedor, obtendo a tabela:

72

Page 73: ESTATÍSTICA - Apostila - UERJ

Vendas (R$) Nº DE VENDEDORES 0 |---- 10.000 1

10.000 |---- 20.000 12 20.000 |---- 30.000 27 30.000 |---- 40.000 31 40.000 |---- 50.000 10

Total A partir de qual volume de vendas o vendedor será premiado? 4. Se, no problema anterior, o gerente resolver premiar somente os 25% dos

vendedores mais eficientes, a partir de qual volume de vendas o vendedor será premiado?

5. A distribuição de freqüência abaixo representa o consumo por nota de 54 notas

fiscais emitidas durante um dia em uma loja de departamentos.

Consumo por nota fiscal (R$)

Nº DE NOTAS

0 |---- 50 10 50 |---- 100 28

100 |---- 150 12 150 |---- 200 2 200 |---- 250 1 250 |---- 300 1

Total O gerente desta loja de departamentos decidiu premiar a nível promocional com um brinde, 10% dos fregueses que mais consumirem, nos próximos 30 dias. A partir de qual valor de consumo da nota fiscal os clientes seriam premiados?

73

Page 74: ESTATÍSTICA - Apostila - UERJ

MEDIDAS DE DISPERSÃO, MEDIDAS DE ASSIMETRIA

MEDIDAS DE DISPERSÃO

As medidas de dispersão são medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Servem para medir a representatividade da média. Essa avaliação é necessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, como a média aritmética, deve-se ter uma idéia retrospectiva de como se apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de posição.

Se observarmos as seqüências

X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10 Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13 Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13

concluiremos que todas possuem a mesma média 13. No entanto, são seqüências completamente distintas do ponto de vista da variabilidade de dados.

Na seqüência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série.

Na seqüência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13.

Na seqüência X existem muitos elementos bastante diferenciados da média 13.

Concluímos que a média 13 representa otimamente a seqüência Z, representa bem a seqüência Y, mas não representa bem a seqüência X.

Chamando de dispersão, ou variabilidade, a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto Z apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade menor que o conjunto X.

E MEDIDAS DE CURTOSE E MEDIDAS DE CURTOSE

74

Page 75: ESTATÍSTICA - Apostila - UERJ

Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão.

Estudaremos as principais medidas de dispersão absolutas que são: amplitude total, desvio médio, variância e desvio-padrão e a principal medida de dispersão relativa que é o coeficiente de variação.

AMPLITUDE TOTAL (AT) A amplitude total é a diferença entre o maior valor e o menor valor da seqüência dos dados observados.

AT = valor máximo – valor mínimo a) Amplitude total para dados não agrupados Basta identificar o maior e o menor valor da seqüência e efetuar a diferença entre esses valores. Exemplo: Determine a amplitude total da seqüência: 11, 12, 9, 10, 10, 15. Solução: O maior valor desta seqüência é 15 e o menor valor é 9. Portanto, AT = 15 – 9 = 6 unidades. b) Amplitude total para dados agrupados sem intervalos de classes Como os valores já se encontram ordenados, a amplitude total é a diferença entre o último e o primeiro elemento da série. Exemplo: Determine a amplitude total da série:

NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA BIO/GEO i Xi Fi

1 0 4 2 1 8 3 2 3 4 3 3 5 4 2

TOTAL 20 Fonte: Dados Hipotéticos

Solução: O maior valor da série é 4 e o menor valor da série é 0.

75

Page 76: ESTATÍSTICA - Apostila - UERJ

Portanto, AT = 4 – 0 = 4. c) Amplitude total para dados agrupados com intervalos de classes

Nesta situação, a amplitude total da série é a diferença entre o limite superior da última classe e o limite inferior da primeira classe.

Exemplo: Dada a distribuição abaixo encontre sua amplitude total:

Renda Familiar de 40 Famílias

i Salários (R$ 1.000)

Fi

1 2 |--- 4 5 2 4 |--- 6 10 3 6 |--- 8 14 4 8 |--- 10 8 5 10 |--- 12 3

TOTAL 40 Fonte: Dados Hipotéticos Solução: Como o limite superior da última classe é L5 = 12 e o limite inferior da primeira classe é l1 = 2, a amplitude total é: AT = 12 – 2 = 10.

Quando dizemos que a amplitude total dos valores é 10, estamos afirmando alguma coisa do grau de sua concentração. É evidente que, quanto maior a amplitude total, maior a dispersão ou variabilidade dos valores da variável.

Apesar da facilidade de obtenção da amplitude total, esta medida apresenta a inconveniência de depender apenas de dois valores da série. É possível modificar completamente a dispersão ou a concentração dos elementos em torno da média, sem alterar a amplitude total da série. É uma medida que tem pouca sensibilidade estatística.

Observação: Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido. Também a usamos quando a compreensão popular é mais importante que a exatidão e a estabilidade.

DESVIO MÉDIO (DM)

Desde que se deseja medir a dispersão dos dados em relação à média parece interessante fazermos a análise dos desvios em torno da média: di = (xi − x ).

76

Page 77: ESTATÍSTICA - Apostila - UERJ

Mas a soma de todos os desvios é igual a zero, Isto é: i id (x x) 0= − =� � .

Utilizando o conceito matemático de distância (módulo de número real),

encontramos uma maneira de trabalhar com os desvios sem que a soma dê zero e, por isso, o conceito estatístico de desvio corresponde ao conceito matemático de distância. a) Desvio Médio para dados não agrupados

Calculamos inicialmente a média da seqüência. Em seguida, identificamos a distância de cada elemento da seqüência para sua média. Finalmente, calculamos a média destas distâncias. Dessa forma define-se desvio médio como:

i i

M

d x xD

n n

−= =� �

Veja que os desvios foram considerados em módulo, evitando-se assim que a soma fosse nula. Exemplo: Calcule o desvio médio para a seqüência: 2, 8, 5, 6. Solução: Determinamos inicialmente a média da série

ix 2 8 5 6x 5,25

n 4

+ + += = =� .

Em seguida, determinamos as distâncias de cada elemento da série para a média da série

1x x 2 5,25 3,25− = − =

2x x 8 5,25 2,75− = − =

3x x 5 5,25 0,25− = − =

4x x 6 5,25 0,25− = − =

O DM é a média aritmética simples destes valores:

M

3,25 2,75 0,25 0,75 7D 1,75

4 4

+ + += = = .

77

Page 78: ESTATÍSTICA - Apostila - UERJ

Interpretação: Em média, cada elemento da seqüência está afastado do valor 5,25 por 1,75 unidades. b) Desvio Médio para dados agrupados sem intervalos de classes

No caso da apresentação de uma variável discreta, lembramos que a freqüência absoluta simples de cada elemento representa o número de vezes que este valor figura na série. Conseqüentemente, haverá repetições de distâncias iguais de cada elemento distinto da série para a média da série. Assim, a média indicada para estas distâncias é uma média aritmética ponderada:

i i i

M

d Fi x x FD

n n

⋅ − ⋅= =� �

Exemplo: Determine o desvio médio (DM) para a série:

i xi Fi

1 1 2 2 3 5 3 4 2 4 5 1 TOTAL 10

Solução: A média da série é: i ix F

xn

=� e o DM é dado por

i i

M

x x FD

n

−=� .

Por isso, incluiremos as colunas xi Fi e

i ix x F− na tabela para efetuar os

cálculos acima.

xi Fi xiFi i ix x F− ⋅

1 2 2 4 3 5 15 0 4 2 8 2 5 1 5 2 TOTAL 10 30 8

Logo, a média é

i ix F 30x 3

n 10= = =�

e o desvio médio é

78

Page 79: ESTATÍSTICA - Apostila - UERJ

i i

M

x x F 8D 0,8

n 10

−= = =� .

Interpretação: Em média, cada elemento da série está afastado do valor 3 por 0,8 unidades. c) Desvio Médio para dados agrupados com intervalos de classes Nesta situação, por desconhecer os valores individuais dos elementos componentes da série, substituiremos estes valores xi , pelos pontos médios das classes. Desta forma, o desvio médio tem por cálculo a fórmula:

i i

M

x x FD

n

− ⋅=� ,

onde xi é o ponto médio da classe i. Exemplo: Determine o desvio médio (DM ) para a série:

i classes Fi

1 2 |--- 4 5 2 4 |--- 6 10 3 6 |--- 8 4 4 8 |--- 10 1

TOTAL 20 Solução: Incluiremos as colunas xi , xi Fi e

i ix x F− na tabela para efetuarmos

os cálculos desejados.

i classes Fi xi xi Fi

i ix x F−

1 2 |--- 4 5 3 15 10,5 2 4 |--- 6 10 5 50 1,0 3 6 |--- 8 4 7 28 7,6 4 8 |--- 10 1 9 9 3,9

TOTAL 20 − 102 23,0

A média da série é: i ix F 102

x 5,1n 20

= = =� .

79

Page 80: ESTATÍSTICA - Apostila - UERJ

O desvio médio é: i i

M

x x F 23D 1,15

n 20

−= = =� .

Interpretação: Em média, cada elemento da série está afastado de 5,1 por 1,15

unidades.

O desvio médio depende de cada componente da série. Se mudarmos o valor de um único elemento da série, mudamos também o DM. Portanto, o desvio médio tem perfeita sensibilidade estatística. A maior dificuldade desta medida é envolver módulos, cujas propriedades, em geral não são suficientemente conhecidas pelos alunos que normalmente desenvolvem estes cálculos. EXERCÍCIOS: 3. Determinar a amplitude total e o desvio médio das séries:

a) 2; 5; 8; 10; 12; 8; 5; 12

b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8 4. Determinar a amplitude total e o desvio médio das distribuições: a)

xi 2 3 4 5 7 Fi 3 5 8 4 2

b)

xi 73 75 77 79 81 Fi 2 10 12 5 2

c)

Classes 1 |--- 3 3 |--- 5 5 |--- 7 7 |--- 9 9 |--- 11 11 |--- 13 Fi 3 5 8 6 4 3

d)

Classes 22 |--- 25 25 |--- 28 28 |--- 31 31 |--- 34 Fi 3 5 8 6

80

Page 81: ESTATÍSTICA - Apostila - UERJ

VARIÂNCIA (S2) e DESVIO PADRÃO (S)

Como vimos, a amplitude total é instável, por se deixar influenciar pelos valores extremos da série, que são, na sua maioria, devidos ao acaso. Também observamos que a dificuldade em se operar com o desvio médio se deve à presença do módulo, para que as diferenças xi − x possam ser interpretadas como distâncias.

A variância e o desvio padrão são medidas que fogem a essas falhas, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.

A variância baseia-se nos desvios em torno da média aritmética, porém, para conseguir que as diferenças xi − x se tornem sempre positivas ou nulas vamos considerar o quadrado destas diferenças, isto é (xi − x )2. Se substituirmos, nas

fórmulas do desvio médio a expressão ix x− por (xi − x )2, obteremos essa nova

medida de dispersão chamada variância.

O desvio padrão é a raiz quadrada positiva da variância.

Em particular, para estas medidas levaremos em consideração o fato de a seqüência de dados representar toda uma população ou apenas uma amostra de uma população. No final desta seção justificaremos esta necessidade.

Quando a seqüência de dados representa uma população a variância será denotada por 2

σ e o desvio padrão correspondente por σ . Quando a seqüência de dados representa uma amostra, a variância será denotada por s2 e o desvio padrão correspondente por s. a) Variância e desvio padrão para dados não agrupados • Se a seqüência representa uma população, a variância é calculada pela fórmula:

2

i2(x x)

n

−σ =� ,

e o desvio padrão é 2σ = σ .

81

Page 82: ESTATÍSTICA - Apostila - UERJ

• Se a seqüência representa uma amostra, a variância é calculada pela fórmula:

2

i2(x x)

sn 1

−=

� ,

e o desvio padrão é 2s s= . Exemplo: Calcule a variância e o desvio padrão da seqüência: 4, 5, 8, 5.

a) no caso em que esta seqüência representa uma população; b) no caso em que esta seqüência representa uma amostra.

Solução: A média da seqüência é: ix 22

x 5,5n 4

= = =�

Os quadrados das diferenças (xi − x )2 valem: (x1 − x )2 = (4 – 5,5)2 = 2,25 (x2 − x )2 = (5 – 5,5)2 = 0,25 (x3 − x )2 = (8 – 5,5)2 = 6,25 (x4 − x )2 = (5 – 5,5)2 = 0,25

Somando-se estes valores obtém-se: 2

i(x x)−� = 9.

a) No caso em quem a seqüência representa uma população substituímos esses valores na fórmula da variância populacional e obtemos:

2

i2(x x) 9

2,25.n 4

−σ = = =�

Como o desvio padrão é a raiz quadrada positiva da variância,

2 2,25 1,5σ = σ = = . b) Se a seqüência 4, 5, 8, 5, representar uma amostra, a única diferença entre a fórmula de 2

σ e s2 é o denominador. Assim, 2

i2(x x) 9

s 3n 1 3

−= = =

e o desvio padrão é s = 3 = 1,73. b) Variância e desvio padrão para dados agrupados sem intervalos de classes

82

Page 83: ESTATÍSTICA - Apostila - UERJ

Como há repetições de elementos na série, definimos a variância como sendo uma média aritmética ponderada dos quadrados dos desvios dos elementos da série para a média da série. • Se a variável discreta é representativa de uma população, então a variância é

dada por:

2

i i2(x x) F

n

− ⋅σ =� .

• Se a variável discreta é representativa de uma amostra, então a variância é dada por:

2

i i2(x x) F

sn 1

− ⋅=

Como você pode ter notado, as diferenças entre as fórmulas são: para o caso da variância populacional 2

σ , utiliza-se a média populacional tendo como denominador o tamanho da população. Para o cálculo da variância amostral s2, utiliza-se a média amostral, tendo como denominador o tamanho da amostra menos um.

Fórmulas práticas para os cálculos das variâncias, obtidas por transformações nas respectivas fórmulas originais são:

( )2

i i2 2

i i

x F1x F

n n

� �� �σ = ⋅ −� �� �� �

��

ou

( )2

i i2 2

i i

x F1s x F

n 1 n

� �� �= ⋅ −� �−� �� �

��

Exemplo: Calcule a variância e o desvio padrão da série abaixo, representativa de uma população:

i xi Fi

1 2 3 2 3 5 3 4 8 4 5 4

Total 20

83

Page 84: ESTATÍSTICA - Apostila - UERJ

Solução: Utilizando a fórmula prática para o cálculo da variância, calculamos xiFi e xi

2 Fi.

i xi Fi xiFi xi

2Fi

1 2 3 6 12 2 3 5 15 45 3 4 8 32 128 4 5 4 20 100

Total 20 73 285

Substituindo os valores na fórmula da variância, obtemos:

( ) ( )2

2i i2 2

i i

x F 731 1x F 285

n n 20 20

� �� �� �σ = ⋅ − = ⋅ −� �� � � �� �� �� �

�� =

= [ ]1 5329 1

285 285 266,4520 20 20

� �⋅ − = ⋅ −� �� �

=

= [ ]1

18,55 0,927520

⋅ =

e o desvio padrão correspondente é 0,9275 0,963σ = = .

Observe que se a variável fosse representativa de uma amostra, a variância seria indicada por s2 e calculada por:

( )[ ]

2

i i2 2

i i

x F1 1s x F 18,55

n 1 n 19

� �� �= ⋅ − =� �−� �� �

�� = 0,9763

e o desvio padrão seria calculado por s = 0,9763 = 0,988.

c) Variância e desvio padrão para dados agrupados com intervalos de classes

Novamente, por desconhecer os particulares valores xi da série, substituiremos nas fórmulas anteriores estes valores pelos pontos médios das classes. Exemplo: Determinar a variância e o desvio padrão da distribuição:

i Classes Fi

1 0 |--- 4 1 2 4 |--- 8 3 3 8 |--- 12 5 4 12 |--- 16 1

TOTAL 10

84

Page 85: ESTATÍSTICA - Apostila - UERJ

Solução: Ampliaremos a tabela com o cálculo de xi Fi e de xi2 Fi:

i Classes Fi xi xiFi xi

2Fi

1 0 |--- 4 1 2 2 4 2 4 |--- 8 3 6 18 108 3 8 |--- 12 5 10 50 500 4 12 |--- 16 1 14 14 196

TOTAL 10 − 84 808 A variância é:

( )2

2i i2 2

i i

x F1 1 84x F 808

n n 10 10

� �� �� �σ = ⋅ − = ⋅ −� �� � � �

� �� �

��

= [ ]1 7056 1

808 808 705,610 10 10

� �⋅ − = ⋅ −� �� �

= [ ]1

102,4 10,2410

⋅ =

e o desvio padrão: 10,24 3,2σ = = .

No caso da distribuição representar uma amostra, a variância seria:

[ ] [ ]2 1 1s 102,4 102,4 11,38

10 1 19= ⋅ = =

e o desvio padrão correspondente s = 11,38 3,373= .

Observe que no cálculo da variância, a unidade de medida da série fica elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Em algumas situações, a unidade de medida da variância nem faz sentido. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Exatamente para suprir esta deficiência da variância é que se define o desvio padrão.

Para justificar que o denominador da variância amostral deve ser n – 1 e não n, usaremos o seguinte argumento: O modelo matemático que calcula a variância de uma amostra não pode ser

2

i2(x x)

n

−σ =� ,

pois, caso isto fosse verdadeiro, este modelo deveria determinar a variância para qualquer tamanho de amostra, inclusive para uma amostra constituída de um único elemento x1. Mas para uma amostra constituída de um único elemento x1 o valor médio da amostra também será x1. Calculando a variância pelo modelo acima, teremos:

2

i i2(x x )

n

−σ =� = 0.

85

Page 86: ESTATÍSTICA - Apostila - UERJ

Seríamos induzidos a afirmar que a dispersão da população de onde provém a amostra é zero, isto é, a população é constituída em sua totalidade por elementos idênticos. O que é, em geral, uma afirmação falsa.

Para corrigir o modelo matemático, basta colocar no denominador o valor n – 1. O modelo é escrito então por

2

i2(x x)

sn 1

−=

� .

Observe que agora o modelo é coerente. Mesmo quando a amostra tiver apenas

um elemento x1, o cálculo de s2 leva-nos a uma indeterminação do tipo 0

0 . O que

significa que a variância existe, mas não está determinada. Significa também que as amostras de apenas um elemento não nos fornecem informações sobre a variância da série. EXERCÍCIOS COMPLEMENTARES: 1. Para cada distribuição, determine a variância e o desvio padrão: a)

xi 72 75 78 80 Fi 8 18 28 38

b)

Classes 7 |--- 10 10 |--- 13 13 |--- 16 16 |--- 19 19 |--- 22 Fi 6 10 15 10 5

c)

Classes 4 |--- 6 6 |--- 8 8 |--- 10 10 |--- 12 Fi 4 11 15 5

d)

Classes 20 |--- 30 30 |--- 40 40 |--- 50 50 |--- 60 60 |--- 70 Fi 3 8 18 22 24

86

Page 87: ESTATÍSTICA - Apostila - UERJ

COEFICIENTE DE VARIAÇÃO (CV)

Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas.

O desvio padrão por si só não nos diz muita coisa. Assim, se uma série X apresenta x = 10 e )x(σ =2 e uma série Y apresenta y = 100 e )y(σ = 5, do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.

Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio através do coeficiente de variação:

CV 100x

σ= ⋅ ou

sCV .100

x=

que é expresso em porcentagens.

Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o coeficiente der até 10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar 20%.

Alguns analistas consideram: Baixa dispersão: CV ≤ 15% Média dispersão: 15% < CV < 30% Alta dispersão: CV ≥ 30%

Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00 com desvio padrão de R$1.200,00. Então:

para os homens CV 100x

σ= ⋅ =

1.500100 37,5%

4.000⋅ =

para as mulheres CV 100x

σ= ⋅ =

1.200100 40%

3.000⋅ =

Logo, podemos concluir que os salários das mulheres apresentam maior

dispersão relativa que os dos homens.

87

Page 88: ESTATÍSTICA - Apostila - UERJ

EXERCÍCIOS COMPLEMENTARES: 1. A distribuição abaixo possui desvio padrão igual a 3,02. Determine o valor do coeficiente de variação.

Classes 0 |--- 4 4 |--- 8 8 |--- 12 Fi 2 3 2

2. Um fabricante de caixas de cartolina fabrica três tipos de caixa. Testa-se a resistência de cada caixa, tomando-se uma amostra de 100 caixas e determinando-se a pressão necessária para romper cada caixa. São os seguintes os resultados dos testes:

Tipos de caixas A B C

Pressão média de ruptura (bária) 150 200 300 Desvio padrão das pressões (bária) 40 50 60

a) que tipo de caixa apresenta a menor variação absoluta na pressão de ruptura? b) que tipo de caixa apresenta a maior variação relativa na pressão de ruptura? 3. Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio padrão 0,80. Em Estatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão?

88

Page 89: ESTATÍSTICA - Apostila - UERJ

MEDIDAS DE ASSIMETRIA (AS)

Para conceituar assimetria, obviamente precisamos conceituar simetria. Diremos que uma distribuição é simétrica quando x = Md = Mo. Se isto de fato ocorrer, a curva de freqüência tem a seguinte característica gráfica:

Denomina-se assimetria o grau de afastamento de uma distribuição da unidade de simetria. Se uma distribuição não for simétrica, será classificada como assimétrica. Existem duas alternativas para uma distribuição assimétrica.

No caso a) a distribuição é classificada de assimétrica positiva. No caso b) a distribuição é classificada de assimétrica negativa.

eixo de simetria

x = Md = Mo xi

Mo Md x

a)

x Md Mo

b)

89

Page 90: ESTATÍSTICA - Apostila - UERJ

Existem várias fórmulas para o cálculo do coeficiente de assimetria. Dentre elas temos o coeficiente de assimetria de Pearson dado por:

S

x MoA

−=

σ ou S

x MoA

s

−=

Se AS = 0 então a distribuição é simétrica. Se AS < 0 então a distribuição é assimétrica negativa. Se AS > 0 então a distribuição é assimétrica positiva.

MEDIDAS DE CURTOSE (C)

Denominamos curtose o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade).

Uma distribuição nem chata, nem delgada, ou seja, normal, chama-se mesocúrtica. Quando a distribuição é delgada (mais aguda em sua parte superior), ela é chamada de leptocúrtica. E, quando a distribuição apresenta uma curva de freqüência mais aberta que a normal (ou mais achatada na sua parte superior), ela é chamada platicúrtica.

Para medir o grau de curtose utilizaremos o coeficiente percentílico de curtose dado por:

3 1

90 10

Q QC

2(P P )

−=

−.

Relativamente à curva normal, temos: � Se C = 0,263, diz-se que a curva correspondente à distribuição de freqüência

é mesocúrtica.

xi xi

xi mesocúrtica

leptocúrtica platicúrtica

90

Page 91: ESTATÍSTICA - Apostila - UERJ

� Se C > 0,263, diz-se que a curva correspondente à distribuição de freqüência é platicúrtica.

� Se C < 0,263, diz-se que a curva correspondente à distribuição de freqüência é leptocúrtica.

Exemplo: Sabendo-se que uma distribuição apresenta as seguintes medidas Q1 = 24,4 cm, Q3 = 41,2 cm, P10 = 20,2 cm e P90 = 49,5 cm, temos que

41,2 24,4 16,8C 0,2866 C 0,287

2(49,5 20,2) 58,6

−= = = � =

−.

Como 0,287>0,263, concluímos que a distribuição é platicúrtica, em relação à

normal. EXERCÍCIOS COMPLEMENTARES

Calcular os coeficientes de assimetria e os coeficientes de curtose das listas de exercícios anteriores.

91

Page 92: ESTATÍSTICA - Apostila - UERJ

92

Probabilidade

1 . Introdução

Chama-se experimento aleatório àquele cujo resultado é imprevisível, porém pertence necessariamente a um conjunto de resultados possíveis denominado espaço amostral.

Qualquer subconjunto desse espaço amostral é denominado evento.

Se este subconjunto possuir apenas um elemento, o denominamos evento elementar.

Por exemplo, no lançamento de um dado, o nosso espaço amostral seria:

U = {1, 2, 3, 4, 5, 6}. Exemplos de eventos no espaço amostral U: A: sair número maior do que 4: A = {5, 6} B: sair um número primo e par: B = {2} C: sair um número ímpar: C = {1, 3, 5} Nota: O espaço amostral é também denominado espaço de prova.

Trataremos aqui dos espaços amostrais equiprováveis, ou seja, aqueles onde os eventos elementares possuem a mesma chance de ocorrerem.

� Por exemplo, no lançamento do dado acima, supõe-se que sendo o dado perfeito, as chances de sair qualquer número de 1 a 6 são iguais. Temos então um espaço equiprovável.

Em oposição aos fenômenos aleatórios, existem os fenômenos determinísticos, que são aqueles cujos resultados são previsíveis, ou seja, temos certeza dos resultados a serem obtidos.

Normalmente existem diversas possibilidades possíveis de ocorrência de um fenômeno aleatório, sendo a medida numérica da ocorrência de cada uma dessas possibilidades, denominada Probabilidade.

Consideremos uma urna que contenha 49 bolas azuis e 1 bola branca. Para uma retirada, teremos duas possibilidades: bola azul ou bola branca. Percebemos, entretanto que será muito mais freqüente obtermos numa retirada, uma bola azul, resultando daí, podermos afirmar que o evento "sair bola azul" tem maior probabilidade de ocorrer, do que o evento "sair bola branca".

Material de apoio ao aprendizado de EstatísticaProfessora: Viviane Köhler

Page 93: ESTATÍSTICA - Apostila - UERJ

93

2. Conceito de Probabilidade

Seja U um espaço amostral finito e equiprovável e A um determinado evento, ou seja, um subconjunto de U. A probabilidade p(A) de ocorrência do evento A será calculada pela fórmula

)(

)()(

Un

AnAP =

onde: n (A) = número de elementos de A e n (U) = número de elementos do espaço de prova U.

Vamos utilizar a fórmula simples acima, para resolver os seguintes exercícios

introdutórios:

2.1 - Considere o lançamento de um dado. Calcule a probabilidade de:

a) sair o número 3: Temos U = {1, 2, 3, 4, 5, 6} [n(U) = 6] e A = {3} [n(A) = 1]. Portanto, a probabilidade procurada será igual a

6

1)( =AP

b) sair um número par: agora o evento é A = {2, 4, 6} com 3 elementos; logo a probabilidade procurada será

2

1

6

3)( ==AP

c) sair um múltiplo de 3: agora o evento A = {3, 6} com 2 elementos; logo a probabilidade procurada será

3

1

6

2)( ==AP

d) sair um número menor do que 3: agora, o evento A = {1, 2} com dois elementos. Portanto:

3

1

6

2)( ==AP

e) sair um quadrado perfeito: agora o evento A = {1,4} com dois elementos. Portanto:

3

1

6

2)( ==AP

Page 94: ESTATÍSTICA - Apostila - UERJ

94

2.2 - Considere o lançamento de dois dados. Calcule a probabilidade de:

a) Sair a soma 8 Observe que neste caso, o espaço amostral U é constituído pelos pares ordenados (i, j), onde i = número no dado 1 e j = número no dado 2. É evidente que teremos 36 pares ordenados possíveis do tipo (i, j) onde i = 1, 2, 3, 4, 5, ou 6, o mesmo ocorrendo com j. As somas iguais a 8, ocorrerão nos casos: (2,6), (3,5), (4,4), (5,3) e (6,2).

Portanto, o evento "soma igual a 8" possui 5 elementos. Logo, a probabilidade procurada será igual a:

36

5)( =AP

b) Sair a soma 12 Neste caso, a única possibilidade é o par (6,6).Portanto, a probabilidade procurada será igual a:

36

1)( =AP

2.3 – Uma urna possui 6 bolas azuis, 10 bolas vermelhas e 4 bolas amarelas. Tirando-

se uma bola com reposição, calcule as probabilidades seguintes:

a) sair bola azul

%3030,010

3

20

6)( ====AP

b) sair bola vermelha

%5050,02

1

20

10)( ====AP

c) sair bola amarela

%2020,05

1

20

4)( ====AP

Vemos no exemplo acima, que as probabilidades podem ser expressas como porcentagem. Esta forma é conveniente, pois permite a estimativa do número de ocorrências para um número elevado de experimentos.

Por exemplo, se o experimento acima for repetido diversas vezes, podemos afirmar que em aproximadamente 30% dos casos, sairá bola azul, 50% dos casos sairá bola vermelha e 20% dos casos sairá bola amarela. Quanto maior a quantidade de experimentos, tanto mais a distribuição do número de ocorrências se aproximará dos percentuais indicados.

Page 95: ESTATÍSTICA - Apostila - UERJ

95

3. Propriedades

• P1: A probabilidade do evento impossível é nula. Com efeito, sendo o evento impossível o conjunto vazio (Ø), teremos: P(Ø) = n (Ø)/n (U) = 0 /n (U) = 0 Por exemplo, se numa urna só existem bolas brancas, a probabilidade de se retirar uma bola verde (evento impossível, neste caso) é nula.

• P2: A probabilidade do evento certo é igual à unidade. Com efeito, P(A) = n(U)/n(U) = 1 Por exemplo, se numa urna só existem bolas vermelhas, a probabilidade de se retirar uma bola vermelha (evento certo, neste caso) é igual a 1.

• P3: A probabilidade de um evento qualquer é um número real situado no intervalo real [0, 1]. Esta propriedade, decorre das propriedades 1 e 2 acima.

• P4: A soma das probabilidades de um evento e do seu evento complementar é igual a unidade. Seja o evento A e o seu complementar A'. Sabemos que A U A' = U. n(A U A') = n(U) e, portanto, n(A) + n(A') = n(U). Dividindo ambos os membros por n(U), vem: n(A)/n(U) + n(A')/n(U) = n(U)/n(U), de onde se conclui:

P(A) + P(A') = 1

Nota: esta propriedade simples, é muito importante pois facilita a solução de muitos problemas aparentemente complicados. Em muitos casos, é mais fácil calcular a probabilidade do evento complementar e, pela propriedade acima, fica fácil determinar a probabilidade do evento.

• P5: Sendo A e B dois eventos, podemos escrever: (Adição de Probabilidades) P(A U B) = P(A) + P(B) – P(A∩B) Observe que se A∩B= Ø (ou seja, a interseção entre os conjuntos A e B é o conjunto vazio), então P(A U B) = P(A) + P(B).

Com efeito, já sabemos da Teoria dos Conjuntos que n(A U B) = n(A) + n(B) – n(A∩B) Dividindo ambos os membros por n(U) e aplicando a definição de probabilidade, concluímos rapidamente a veracidade da fórmula acima.

Exemplo: Em uma certa comunidade existem dois jornais J e P. Sabe-se que 5000 pessoas são assinantes do jornal J, 4000 são assinantes de P, 1200 são assinantes de ambos e 800 não lêem jornal. Qual a probabilidade de que uma pessoa escolhida ao acaso seja assinante de ambos os jornais?

Page 96: ESTATÍSTICA - Apostila - UERJ

96

SOLUÇÃO: Precisamos calcular o número de pessoas do conjunto universo, ou seja, nosso espaço amostral.

Teremos: n(U) = n(J U P) + N.º de pessoas que não lêem jornais. n(U) = n(J) + n(P) – n(J∩ P) + 800 n(U) = 5000 + 4000 – 1200 + 800 n(U) = 8600 Portanto, a probabilidade procurada será igual a: P = 1200/8600 = 12/86 = 6/43. Logo, P = 6/43 = 0,1395 = 13,95%.

A interpretação do resultado é a seguinte: escolhendo-se ao acaso uma pessoa da comunidade, a probabilidade de que ela seja assinante de ambos os jornais é de aproximadamente 14%.(contra 86% de probabilidade de não ser).

4. Probabilidade condicional

Considere que desejamos calcular a probabilidade da ocorrência de um evento A, sabendo-se de antemão que ocorreu um certo evento B. Pela definição de probabilidade vista anteriormente, sabemos que a probabilidade de A deverá ser calculada, dividindo-se o número de elementos de elementos de A que também pertencem a B, pelo número de elementos de B. A probabilidade de ocorrer A, sabendo-se que já ocorreu B, é denominada Probabilidade condicional e é indicada por P (A / B) – probabilidade de ocorrer A sabendo-se que já ocorreu B – daí, o nome de probabilidade condicional.

Teremos então: P(A/B) = n(A∩B)/n(B) onde A∩B = interseção dos conjuntos A e B. ou seja:

Se A e B são dois eventos de um espaço amostral (U), com P(B) ≠ 0, então a probabilidade condicional do evento A, tendo ocorrido B, é indicada por P(A/B) é definida pela relação

( )( / ) , se ( ) 0

( )

P A BP A B P B

P B

∩= ≠

Esta fórmula é denominada Lei das Probabilidades Compostas. Esta importante fórmula, permite calcular a probabilidade da ocorrência simultânea dos eventos A e B, sabendo-se que já ocorreu o evento B.

Page 97: ESTATÍSTICA - Apostila - UERJ

97

1) Um dado foi jogado. Qual a probabilidade de ocorrer face 5, sabendo que ocorreu face com número ímpar?

3Evento B Probabilidade de ocorrer face impar = ( )

61

Evento A A Probabilidade de ocorrer face 5 = ( )6

1( ) 16( / ) = = 0,3 = 33,33% 3( ) 3

6

P B

P A B

P A BP A B

P B

→ =

→ ∩ =

∩= =

5. Probabilidade Independente e a Regra do Produto

Se a ocorrência do evento B, não mudar a probabilidade da ocorrência do evento A, então p(A/B) = p(A) ou p(B/A) = p(B) e, neste caso, os eventos são ditos independentes, e a fórmula acima fica:

P(A∩B) = P(B) . P(A/B) ou P(A∩B) = P(A) . P(B/A)

Podemos então afirmar, que a probabilidade de ocorrência simultânea de eventos independentes, é igual ao produto das probabilidades dos eventos considerados. Daí vem a regra do produto que pode ser expressa da seguinte forma:

P(A∩B) = P(A) . P(B)

Ou seja, se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A, multiplicada pela probabilidade de ocorrer B.

Exemplo: 1) Uma urna possui cinco bolas vermelhas e duas bolas brancas.Calcule as probabilidades de:

a) em duas retiradas, sem reposição da primeira bola retirada, sair uma bola vermelha (V) e depois uma bola branca (B). P(V ∩ B) = P(V) . P(B/V) P(V) = 5/7 (5 bolas vermelhas de um total de 7). Supondo que saiu bola vermelha na primeira retirada, ficaram 6 bolas na urna. Logo: P(B/V) = 2/6 = 1/3 Da lei das probabilidades compostas, vem finalmente que: P(V ∩ B) = 5/7 . 1/3 = 5/21 = 0,2380 = 23,8%

b) em duas retiradas, com reposição da primeira bola retirada, sair uma bola vermelha e depois uma bola branca.

Com a reposição da primeira bola retirada, os eventos ficam independentes. Neste caso, a probabilidade buscada poderá ser calculada como: P(V ∩ B) = P (V) . (B) = 5/7 . 2/7 = 10/49 = 0,2041 = 20,41%

Page 98: ESTATÍSTICA - Apostila - UERJ

98

EXERCÍCIOS

1. Um número é escolhido entre 20 inteiros ao acaso, de 1 a 20. qual a probabilidade de o número escolhido:

a) ser par? b) Ser ímpar? c) Ser primo? d) Quadrado perfeito?

R: a) 1/2 b) 1/2 c) 2/5 d) 1/5

2. Uma urna contém 20 bolas numeradas de 1 a 20. seja o experimento retirada de uma bola, e considere os eventos:

A = { a bola retirada possui um múltiplo de 2} B = {a bola retirada possui um múltiplo de 5} Determine a probabilidade do evento A∪B

R: 4/13 3. Dois dados, um verde e um vermelho, são lançados e observados os números das

faces de cima: a) Qual a probabilidade de ocorrerem números iguais? b) Qual a probabilidde de ocorrerem números diferentes? c) Qual a probabilidade de a soma dos números ser 7? d) Qual a probabilidade de a soma dos números ser 12? e) Qual a probabilidade de a soma dos números ser menor ou igual a 12? f) Qual a probabilidade de aparecer um número 3 em ao menos um dado?

R: a) 1/6 b) 5/6 c) 1/6 d) 1/36 e) 1 f) 11/36

4. Um dado é lançado e o número da face de cima é observado. a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou

igual a cinco? b) Se o número obtido for maior ou igual a cinco, qual a probabilidade de

ele ser par? c) Se o resultado obtido for ímpar, qual a probabilidade de ele ser menor

que 3? d) Se o resultado for menor que 3, qual a probabilidade de ele ser ímpar?

R: a) 1/3 b) ½ c) 1/3 d) ½

5. Um número é escolhido aleatoriamente dentre os números 1, 2, 3, 4, 5, . . . , 50. Qual é a probabilidade de :

a) O número ser divisível por 5? b) O número terminar em 3? c) O número ser primo? d) O número ser divisível por 6 ou por 8?

R: a) 1/5 b) 1/10 c) 3/10 d) 6/25

6. Qual é a probabilidade de sair um Rei ou uma carta de Copas, quando retiramos uma carta de um baralho?

R: 4/13

Page 99: ESTATÍSTICA - Apostila - UERJ

99

7. Dois dados são lançados simultaneamente. Qual é a probabilidade de: a) A soma ser menor que 4? b) A soma ser 9? c) O primeiro resultado ser maior do que o segundo?

R: a) 1/12 b) 1/9 c) 5/12

8. Um lote é formado por 10 peças boas, quatro com defeitos e duas com defeitos graves. Uma peça é escolhida ao acaso. Calcule a probabilidade de que:

a) Ela não tenha defeitos graves; b) Ela não tenha defeitos; c) Ela seja boa, ou tenha defeitos graves;

R: a) 7/8 b) 5/8 c) ¾

9. Considere o mesmo lote anterior. Retiram-se duas peças ao acaso. Qual a probabilidade de que;

a) Ambas sejam perfeitas? b) Pelo menos uma seja perfeita? c) Nenhuma tenha defeito grave? d) Nenhuma seja perfeita?

R: 3/8 b) 7/8 c) 91/120 d) 1/8

10. Uma urna contém cinco bolas brancas e seis pretas. Três bolas são retiradas. Calcular a probabilidade de:

a) Serem todas pretas; b) Ser exatamente uma branca; c) Ser ao menos uma preta.

R: a)4/33 b) 5/11 c) 31/33

11. Um grupo de 50 moças é classificado de acordo com a cor dos cabelos, e dos olhos de cada moça, segundo a tabela

Olhos Cabelos azuis castanhos Loira 17 9 Morena 4 14 Ruiva 3 3

Se você marca um encontro com uma dessas garotas, escolhida ao acaso, qual a probabilidade de ela ser:

a) Loira? b) Morena de olhos azuis? c) Morena ou ter olhos azuis? d) Está chovendo quando você encontra a garota. Seus cabelos estão

completamente cobertos, mas você percebe que ela tem olhos castanhos. Qual a probabilidade de que ela seja morena?

R: a) 25

13 b)

25

2 c)

25

19 d)

13

7

Page 100: ESTATÍSTICA - Apostila - UERJ

100

12. A probabilidade de três jogadores marcarem um pênalti são respectivamente:

10

7

5

4,

3

2e

Se cada um “cobrar” uma única vez, qual a probabilidade de: a) Todos acertarem? b) Apenas uma acertar? c) Todos errarem?

R: a) 28/75 b) 1/6 c) 1/50

13. A e B jogam 120 partidas de xadrez, das quais A ganha 60, B ganha 40 e 20 terminam empatadas. A e B concordam em jogar 3 partidas. Determinar a probabilidade de:

a) A ganhar todas as três; b) Duas partidas terminarem empatadas; c) A e B ganharem alternadamente.

R: a) 1/8 b) 5/72 c) 5/36

14. A probabilidade de uma mulher estar viva daqui 30 anos é de 4

3 e de seu

marido, 5

3. Calcular a probabilidade de:

a) Apenas o homem estar vivo; b) Somente a mulher estar viva; c) Ambos estarem vivos.

R: a) 3/20 b) 3/10 c) 9/20

15. Num período de um mês, 100 pacientes sofrendo de determinada doença foram internados em um hospital. Informações sobre o método de tratamento aplicado em cada paciente e o resultado obtido estão abaixo,

Tratamento Resultado

A B Soma

Cura total 24 16 40 Cura parcial 24 16 40

Morte 12 8 20 Soma 60 40 100

a) Sorteando aleatoriamente um desses pacientes, determinar a probabilidade de o paciente escolhido:

a1) ter sido submetido ao tratamento A; a2) ter sido totalemente curado; a3) ter sido submetido ao tratamento A e ter sido parcialmente curado; a4) ter sido submetido ao tratamento A ou ter sido parcialmente curado.

b) Os eventos “morte”e “tratamento A” são independentes? Justifique. c) Sorteando dois pacientes, qual a probabilidade de que:

c1) tenham recebido tratamentos diferentes? c2) pelo menos um deles tenha sido curado totalmente?

R: a1) 0,6 a2) 0,4 a3) 0,24 a4) 0,76 c1) 0,48 c2) 0,64

Page 101: ESTATÍSTICA - Apostila - UERJ

101

16. Um casal heterozigoto com pigmentação normal teve como primeiro

descendente uma criança Albina. Responda: a) Qual a probabilidade de que seus próximos dois filhos sejam albinos? b) Qual a probabilidade de que seus próximos dois filhos tenham

pigmentação normal? c) Qual a probabilidade de, pelo menos, um de seus próximos dois filhos

ser albino e menino? R: a) 6,2% b) 56% c) 21%

17. Num cruzamento Aa X Aa, sabemos que as condições AA, Aa, aA, aa são

igualmente prováveis, cada uma com probabilidade 1

4. Sabemos também que

Aa e aA não podem ser distinguidas biologicamente. Qual a probabilidade de ocorrer Aa ou aA?

R: 1

2

18. Numa população humana a probabilidade de ser mudo é estimada em 0,005, a probabilidade de ser cego é 0,0085 e a probabilidade de ser cego e mudo é de 0,0006. Qual a probabilidade de um indivíduo, tomado ao acaso, seja mudo ou cego?

R: 0,0129 19. João e sua esposa Maria têm pigmentação normal. João é filho de um homem

normal e mulher Albina; Maria é filha de uma mulher normal e pai albino. Qual a probabilidade de João e Maria terem uma criança Albina do sexo masculino?

R: 12,5% 20. A Queratose (anomalia da pele) é devida a um gene dominante Q. Uma mulher

com queratose, cujo pai é normal, casa-se com um homem com queratose, cuja a mãe era normal. Se esse casal tiver 2 filhos, qual a probabilidade de os dois apresentarem queratose?

Page 102: ESTATÍSTICA - Apostila - UERJ

102

BIBLIOGRAFIA

BEIGUELMAN, B. Curso Prático de Bioestatística. Editora FUNPEC, 5ª edição, 2002. BUSSAB, W. O.;MORETTIN, P.A. Estatística Aplicada. Editora Saraiva, 5ª edição, 2002. DOWNING, D.; CLARK, J. Estatística Aplicada. Editora Saraiva, 2ª edição, 2002. LEVINE, D.D. M.; BERENSON, M.L.; STEPHAN, D. Estatística, Teoria e aplicações. Editora ABPDEA, 2000. MORETTIN, L.G. Estatística Básica-Probabilidade. Editora McGraw-Hill, 4ª edição, 1992. V. 1 MORETTIN, L.G. Estatística Básica-Inferência . Editora McGraw-Hill, 4ª edição, 1992. V. 2 MARTINS, G.A. Estatística Geral e Aplicada. Editora Atlas, 2ª edição, 2002. MEYER, P. L. Probabilidade – Aplicações à Estatística. Livros Técnicos e Científicos Editora, 2ª edição, 1983. NETO, P. L. O. Estatística. Editora Edgard Blucher, 2ª edição, 2002. VIEIRA, S. Introdução à Bioestatística. Editora Campus, 3ª edição, 1980