apostila de estatistica da unicamp

90
Apostila ST 211 Estatística

Upload: vicente-giglio

Post on 09-Aug-2015

224 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Apostila de Estatistica Da Unicamp

Apostila

ST 211 Estatística

UNIVERSIDADE ESTADUAL DE CAMPINASCENTRO SUPERIOR DE EDUCAÇÃO TECNOLÓGICA

Missão/CESET: Formar e aperfeiçoar cidadãos e prestar serviços atendendo às necessidades tecnológicas da sociedade com agilidade, dinâmica e qualidade.

Page 2: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

A ESTATÍSTICA preocupa-se com a organização, a descrição, a análise e a interpretação de dados experimentais.

Estatística descritiva: é a 1a etapa de análise: organizar e descrever os dadosInferência estatística: analisa e interpreta os dados: gera conclusões

Alguns conceitos básicos: população e amostra

População: um conjunto de elementos com uma característica comum, que delimita quais os elementos que pertencem ou não à população.Exemplos de população: conjunto de pessoas com mais de 30 anos

conjunto de cidades com mais de 50.000 habitantes

conjunto de insetos que possuem 2 pares de asasconjunto de estudantes não repetentes

Amostra: é qualquer subconjunto da população. É necessariamente finita pois todos os seus elementos são examinados de acordo com aquela estatística.

Exemplos:1. População: os artigos produzidos por uma máquina em dado dia

Amostra: 10 desses artigos escolhidos para inspeção2. População: as alturas dos alunos do CBTA

Amostra: as alturas de 50 alunos selecionados3. Problema: estudar os salários dos 600 funcionários de uma fábrica

População: os salários correspondentes aos 600 funcionários da fábricaAmostra: os 36 salários dos funcionários selecionados

4. Problema: estudar a proporção de indivíduos na cidade que é favorável a um certo projeto municipal.

População: todos os moradores da cidadeAmostra: 200 pessoas selecionadas

5. Problema: investigar a duração de vida de um novo tipo de lâmpada, pois acredita-se que ela tenha uma duração maior do que as fabricadas atualmente. Cem lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada é registrada.

População: todas as lâmpadas fabricadas ou que venham a ser fabricadas nesta fábrica.

Amostra: as 100 lâmpadas selecionadas.Processo: cem lâmpadas do novo tipo são deixadas acesas até queimarem. A duração

em horas de cada lâmpada é registrada.

Neste caso não se pode observar a população, ou seja, a distribuição da duração de vida das lâmpadas na população, pois corresponderia a queimar todas as lâmpadas. Assim, em alguns casos, não podemos observar a população toda, pois isso corresponderia a danificar todos os elementos da população. Esse problema geralmente é contornado, atribuindo-se um modelo teórico para a distribuição da variável.

2

Page 3: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

AMOSTRAGEM

Ao estudar a distribuição da variável da amostra, espera-se que a mesma reflita a distribuição dos elementos da população (mas a amostra deve ter sido colhida com cuidado).

Objetivo da inferência estatística: tirar conclusões sobre a população de interesse com base nos resultados observados na amostra extraída desta população.

Ao induzir, ou inferir, com base na amostra, estamos sujeito a um erro. Com que probabilidade se comete este erro? Quanto maior é a amostra, em relação à população da qual foi extraída, mais precisa ou melhor é a inferência. O melhor, mas quase nunca viável, é o exame completo dos elementos da população.

Como escolher a amostra?

As observações colhidas numa amostra são tanto mais informativas sobre a população quanto mais conhecemos esta mesma população. Ex: análise da quantidade de glóbulos brancos no corpo humano (distribuição homogênea - amostra representativa).

Basicamente existem dois métodos para composição da amostra: probabilística e não probabilística ou intencional:

· amostragem probabilística: técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra.

· amostragem não-probabilística: demais procedimentos, tais como: amostras intencionais (elementos selecionados com auxílio de especialistas) e amostras de voluntários (testes sobre novos remédios).

I) Métodos probabilísticos

A utilização da amostragem probabilística é a melhor recomendação que se deve fazer no sentido de se garantir a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra. Ex: amostragem aleatória simples.

a) Amostragem aleatória simplesÉ o processo mais elementar e freqüentemente utilizado. A maneira mais fácil

de selecionarmos uma amostra é atribuir a cada elemento da população a mesma probabilidade de seleção, e repor o elemento sorteado na população, antes do próximo sorteio.

· utilização de sorteio dos elementos da população · sorteio dos elementos, numerados, através de uma tabela de números

aleatórios

3

Page 4: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

b) Amostragem sistemáticaTrata-se de uma variação da amostragem aleatória simples, conveniente quando

a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas, ...

c) Amostragem estratificadaNo caso de população heterogênea em que se podem distinguir subpopulações

mais ou menos homogêneas, denominadas estratos, é possível utilizar o processo de amostragem estratificada.

Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação (estrato).

As variáveis de estratificação mais comuns são classe social, idade, sexo, profissão, ...

d) Amostragem por conglomeradosAlgumas populações não permitem ou tornam extremamente difícil que se

identifiquem seus elementos. No entanto pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses sugrupos pode ser colhida e uma contagem completa deve ser feita para o conglomerado sorteado. Exemplos: quarteirões, famílias, organizações, agências, edifícios, ...

II) Métodos não probabilísticos

a) Amostragem acidentalTrata-se de uma amostra formada por aqueles elementos que vão aparecendo,

que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utiliza-se em pesquisa de opinião, em que os entrevistados são acidentalmente escolhidos.

b) Amostragem intencionalDe acordo com um determinado critério, é escolhido intencionalmente um grupo

de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Por exemplo, numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram.

c) Amostragem por quotasBastante utilizada em levantamento de mercados e em prévias eleitorais. Ela

abrange três fases:a classificação da população em termos de propriedades que se sabe, ou presume,

serem relevantes para a característica a ser estudada;b determinação da proporção da população para cada característica, com base na

constituição conhecida, presumida ou estimada da população;c fixação de quotas para cada entrevistador a quem tocará a responsabilidade de

selecionar interlocutores de modo que a amostra total entrevistada contenha a proporção de cada classe tal como determinada em (2).

4

Page 5: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

VARIÁVEIS

Vejamos como as variáveis se classificam:

· Qualitativa:· nominal : não existe ordem. Ex: tipo sangüíneo, estado civil, procedência,

sexo, raça, cor dos cabelos.· ordinal : existe ordem. Ex: nível de instrução, classe social.

· Quantitativa:· discreta : os possíveis valores da variável formam um conjunto finito ou um

conjunto enumerável. Ex: no de células em uma determinada área microscópica, no de filhos, idade, no de funcionários, no de alunos.

· contínua : os possíveis valores formam um intervalo de números reais; geralmente são provenientes de mensurados. Ex: medidas lineares, de superfície ou de volume, medidas de peso, tempo e temperatura.

Þ Examine os dados solicitados na tabela abaixo e classifique as variáveis em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas):

Sexo Idade Altura Estado Civil experiênciana área do

curso(anos)

Cidade onde reside

Avaliação do ensino médio

(bom, regular, ruim)

Qualitativa nominal:

Qualitativa ordinal:

Quantitativa discreta:

Quantitativa contínua:

Dê mais seis exemplos de variáveis e classifique-as.

5

Page 6: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

TABELAS

Elementos essenciais:

I) Título: designação do fato observado, local e época.II) Corpo da tabela: linhas e colunas. O cruzamento de uma linha e coluna, chama-se

casa ou casela. Não se deve deixar em branco, use um sinal “-” caso necessário.III) Cabeçalho: especifica o conteúdo da tabela e é localizado na parte superior da

mesma.IV) Linha ou Coluna indicadora: especifica o conteúdo de caselas assinaladas pelas

linhas e colunas.

Elementos complementares:

1. Fonte: entidade responsável pelo fornecimento de dados.2. Notas: informações de natureza geral para esclarecer o conteúdo da tabela, caso

sejam necessárias.3. Chamada: informações de natureza específica, sobre determinada parte da tabela.

São indicadas no corpo da tabela, por algarismo entre parêntesis ou por “*”.

A tabela deve ser uma forma objetiva de se apresentar o comportamento de variáveis; o que se deve buscar são representações simples que possibilitem ao leitor a compreensão do fenômeno sem muito esforço.

Em uma tabela sempre deve estar claro: o que ocorreu; onde ocorreu; quando ocorreu.

Þ Monte uma tabela para apresentar o sexo dos alunos da sua turma.Þ Monte uma tabela para apresentar o estado civil dos alunos da sua turma.

As tabelas podem representar diversos tipos de séries:

a Série cronológica, temporal, evolutiva ou história: aquela em que os dados são observados segundo a época de ocorrência.

b Série geográfica ou de localização: aquela em que os dados são observados segundo a localização de ocorrência.

c Série específica: aquela em que os dados são agrupados segundo a modalidade de ocorrência.

d Distribuição de freqüências: aquela em que os dados são agrupados com suas respectivas freqüências.

6

Page 7: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

REPRESENTAÇÃO GRÁFICA

Para o problema de interpretação de dados numéricos, a organização de tabelas constitui um grande passo no sentido de facilitar a análise dos números, mas sentimos ainda a necessidade de nova construção que nos possa fornecer uma compreensão rápida, clara e fácil dos informes estatísticos.

Os dados podem ser representados graficamente. A função principal do gráfico é apresentar dados numéricos em forma visual. Ele constitui um instrumento essencial para economistas, administradores, educadores, biólogos, médicos, engenheiros, sociólogos e profissionais de quase todos os demais ramos de atividade.

A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos, permitindo chegar a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. Não há uma única maneira de representar graficamente uma série estatística. A escolha do gráfico mais apropriado fica a critério do analista.

Os principais tipos de gráficos são:

1. Gráficos de linha: representam alterações quantitativas sob a forma de uma linha. As flutuações da linha proporcionam rápida percepção visual da tendência dos dados ou da sua mutação em certo período de tempo. Nos gráficos de linha é comum, em geral, unir os pontos através de segmentos de reta. Com isso pretende-se apenas proporcionar uma melhor visualização de propriedades, sobretudo as relativas a crescimento e decrescimento.

2. Gráficos de colunas: confrontam quantidades por meio de colunas cuja largura é constante, enquanto a altura varia em função da magnitude dos valores. Os retângulos se apresentam horizontalmente.

3. Gráficos de barras: também confrontam quantidades por meio de colunas cuja altura é constante. Neste caso os retângulos se apresentam horizontalmente. Este tipo de gráfico deve ser utilizado principalmente quando o elemento tempo está envolvido.

Obs: os gráficos de colunas e barras são formas eficientes de representação para um número limitado de valores ou para comparar quantidades discriminadas por lugares, tipos ou espécies. Nestes gráficos é possível aparecer mais de uma coluna ou barra para cada variável, com legendas para diferenciar as informações.

4. Gráficos de setores: são círculos cuja área se divide em segmentos representativos das partes proporcionais de um todo. Eles constituem um tipo de gráfico de componentes e prestam-se para confrontar as partes integrantes de um total. Para apresentar dados por meio deste tipo de gráfico empregamos valores relativos e não absolutos.Para construir este tipo de gráfico é necessário calcular a proporção do círculo que deve representar cada categoria e dividir o círculo de acordo com as proporções.

Mais adiante vamos abordar as representações gráficas das distribuições de freqüências.

7

Page 8: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

CONSTRUÇÃO DE GRÁFICOS

Construir gráficos que ilustrem os dados apresentados a seguir:

1. ESTADO CIVIL DOS ALUNOS DA TURMA Estado civil Freqüência %

casadosolteirooutroTotal

2. Construir outro tipo de gráfico para representar o estado civil dos alunos da turma, CBTA, 2004.

3.O Salário Mínimo ao longo dos anos no Brasil

Ano 1950 1960 1970 1980 1990 2000SM 50 220 130 110 55 70(*)

(*) valor referente a outubro de 1999.SM: salário mínimo (em dólares)

4. A Vasp tem cerca de 11000 funcionários que se orgulham de trabalhar na empresa. Veja uma característica desse grupo:

34% têm até 6 anos de casa;44% estão na companhia de 6 a 18 anos;22% trabalham há mais de 18 anos na empresa.

5. Recentemente o Journal of Consumer Affairs publicou uma pesquisa sobre os fatores que pesam no calote do pagamento de hipotecas. Veja por que os consumidores deixam de pagar essa dívida em diferentes situações no decorrer da vida:

54% se há queda na renda26% em caso de divórcio6% na chegada de cada novo membro da família – depois dos dois primeiros

filhos

8

Page 9: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

CONSTRUÇÃO E ANÁLISE DE GRÁFICOS

Construir gráficos que ilustrem os dados apresentados a seguir e analisá-los:

1. O guia Exame 2003 apresenta as dez melhores empresas para se trabalhar. A Tigre aparece em sexto lugar. De acordo com o guia, o fato da empresa permanecer entre as 10 melhores há seis anos consecutivos mostra a consistência de sua gestão de pessoas. O guia indica porque as pessoas ficam na empresa: 20% desenvolvimento profissional, 33% equilíbrio entre vida pessoal e profissional, 32% remuneração e benefícios, 15% estabilidade de emprego.

2. A empresa de consultoria Towers Perrin fez uma pesquisa com 225 empresas com operações no Brasil, ao longo do ano de 2000, para descobrir as situações em que elas concedem empréstimos a seus funcionários. Veja o tipo de pedido que costuma ser aprovado no RH:

Emergências pessoais: 81%Despesas médicas: 63%Auxílio-educação: 29%Aquisição da casa própria: 37%Reforma da casa: 35%Outras: 39%

3. O instituto americano iLogos Research tem pesquisado o recrutamento online feito pelas 500 maiores empresas do mundo, listadas pela revista Fortune, Veja a evolução desse processo na tabela abaixo:

Ano Recrutamento pelo site

(em %)

Empresas sem site para recrutar (em %)

Empresas sem site (em %)

1998 29 57 141999 60 31 92000 79 21 02001 88 12 02002 91 9 0

9

Page 10: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

a Ajudar a comunidade garante uma dose extra de satisfação pessoal. Essa é uma das conclusões da Pesquisa de Ação Social das Empresas feita pelo Instituto de Pesquisa Econômica Aplicada (Ipea). Foram entrevistados executivos e funcionários de quase 700 mil companhias nas regiões Nordeste, Sul e Sudeste. A pesquisa aponta o aumento da satisfação pessoal e espiritual dos principais executivos: no Sudeste, 61%; no Nordeste, 72%; e no Sul, 58%. Em relação à melhora do compromisso do funcionário com a empresa a pesquisa aponta: 24% no Sudeste, 12% no Nordeste e 25% no Sul.

b No final do ano 2002 começaram a ser divulgados pelo IBGE (Instituto Brasileiro de Geografia e Estatística) os dados referentes ao de censo 2000. Em relação ao salário dos brasileiros a pesquisa indicou:

SM*Sexo

até 0,5 de 0,5 a 1 de 1 a 2 de 2 a 3 de 3 a 5

de 5 a 10 de 10 a 15

de 15 a 20 de 20 a 30 mais de 30

Homens (%) 2,6 11,5 13,6 7,5 8,7 8 2,1 1,3 0,9 1,2Mulheres(%) 2,8 13,7 10,5 4,7 4,3 4,1 1 0,6 0,3 0,3

· o salário mínimo em 2000 era de 151 reais

6. A International Stress Management Associaion (Isma-BR), associação especializada no estudo do estresse, entrevistou 759 homens e mulheres economicamente ativos, de Janeiro a agosto de 2003. O resultado mostra o que deixa o brasileiro mais estressado:

68% violência59% medo do desemprego42% situação econômica34% falta de tempo28% relacionamentos interpessoais17% longa jornada de trabalho

7. Dos 3,9 milhões de empresários do estado de São Paulo, 72% atuam na informalidade. Os dados são de uma pesquisa do Sebrae de São Paulo, que aponta também o nível de escolaridade desses profissionais: 56% possuem curso primário completo (ou incompleto) enquanto 5% têm nível superior.

10

Page 11: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

DISTRIBUIÇÃO DE FREQÜÊNCIAS

O maior interesse ao estudar uma variável é conhecer a distribuição da mesma através de seus valores. Isto se faz através do que chamamos de distribuição de freqüências.

Podemos definir três tipos de freqüência:

ni freqüência absoluta da casela “i”

fi = ni/N freqüência relativa da casela “i” onde N é o total de observações, ou seja, N=å ni

Porcentagem = 100.fi

Exemplo 1:Distribuição dos alunos da turma em relação a sexo

Sexo ni fi %femininomasculino

Total

Obs: A freqüência relativa fi representa uma proporção em relação ao número de elementos total: N. Logo: 0 £ fi £1 e å fi = 1

Quando a variável em questão não for discreta, ou seja, for contínua, temos que agrupar os dados amostrais em classes de mesmo intervalo, estabelecidas arbitrariamente. Para tanto, precisamos saber qual é a amplitude da variação dos dados amostrais, isto é, a diferença entre o maior e o menor valor amostral. Dividimos, então, a amplitude pelo número de classes em que queremos agrupar os dados, e obtemos o valor dos intervalos de classe.

Exemplo 2: Distribuição dos alunos da turma em relação a faixa etária

Faixa etária

ni fi Porcentagem

Total

11

Page 12: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQÜÊNCIAS

Para representarmos graficamente as distribuições de freqüência de uma variável, basta colocar os dados fornecidos na tabela em um gráfico.

1. VARIÁVEL QUALITATIVANeste caso podemos construir um gráfico de barras, um gráfico de colunas, ou

um gráfico de áreas (gráfico de setor, por exemplo).Exemplo: Construir um gráfico de barras e um de setores para a tabela do Exemplo 1 (Distribuição dos

alunos da turma em relação ao sexo).

2. VARIÁVEL QUANTITATIVANeste caso podemos fazer um histograma, um polígono de freqüência ou uma

curva de acumulação de freqüências:

2.1. HISTOGRAMA: é um gráfico de colunas justapostas em número igual ao de classes de distribuição. Cada classe é representada por uma coluna de altura correspondente à sua freqüência.

No histograma tem-se:- no eixo x: os valores da variável em questão, representados em classes- no eixo y: as freqüências correspondentes às classes

Obs: os traços do interior do histograma podem ser apagados e as colunas podem ter a mesma cor.

Exemplo: Construir o histograma para a tabela do Exemplo 2 (Distribuição dos alunos da turma em relação à faixa etária).

2.2. POLÍGONO DE FREQÜÊNCIA: é semelhante ao gráfico de linha que estudamos.

No polígono de freqüência tem-se:- no eixo x: os pontos médios das classes- no eixo y: as freqüências correspondentes às classes

Exemplo: Construir o polígono de freqüência para a tabela do Exemplo 2 (Distribuição dos alunos da turma em relação à faixa etária).

12

Page 13: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

2.3. CURVA DE ACUMULAÇÃO DE FREQÜÊNCIAS ou OGIVA:

Na curva de acumulação de freqüências, também chamada ogiva, tem-se:- no eixo x: os valores da variável em questão, representados em classes- no eixo y: as freqüências acumuladas correspondentes às classes

Tipos de freqüências acumuladas:

Fi = å nj freqüência acumulada absoluta j £ i

r Fi = Fi /N freqüência acumulada relativa

A freqüência acumulada absoluta representa o número de elementos contido desde a primeira casela até a casela “i”. A freqüência acumulada relativa, rFi, é F em proporção (em relação a N).

Exemplo: Construir as curvas de acumulação de freqüências do Exemplo 2 (Distribuição dos alunos da turma em relação à faixa etária). Para construí-las é necessário completar a tabela com as freqüências acumuladas:

Faixa etária

ni fi Porcentagem Fi rFi

Total

Obs: ao traçar o gráfico da curva de acumulação de freqüência ao invés de unir os pontos com segmentos de reta, pode-se unir os pontos com “curvas”.

13

Page 14: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Exercícios:

1. Estudou-se 961 empresas que possuem dois ou mais funcionários da área de Logística. Os dados estão apresentados na tabela abaixo, que você deve completar.

Distribuição de 961 empresas com pelo menos dois funcionários na área de Logística

Funcionários na área de Log.

ni fi Porcentagem

2 653 1094 1325 1326 1407 1108 1089 6710 6111 1812 1313 414 115 1

Total

Considerando os dados da tabela, construa um gráfico de colunas para representar graficamente a distribuição de freqüências.

2. Complete a tabela abaixo e construa um gráfico de setor para representar graficamente a distribuição de freqüências:

Distribuição de 100 empresas segundo o número deacidentes de trabalho ocorridos nos últimos 60 dias

Número acidentes de trabalho nos últimos

60 dias

Número de empresas

ni

fi Porcentagem

0 101 152 133 274 155 106 10

Total

14

Page 15: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

3. Considerando a tabela abaixo, construa um histograma, um polígono de freqüência e as curvas de acumulação de freqüências.

Obs: para tanto, você terá, primeiramente, que completar a tabela com as freqüências relativas e as freqüências acumuladas.

Número de problemas em vôos comerciais nos EUA

Ano No de colisõesni

1992 ÷¾ 1993 2191993 ÷¾ 1994 2271994 ÷¾ 1995 3201995 ÷¾ 1996 420

4. Um clube da cidade realizou uma pesquisa no final de semana a fim de saber a idade de seus freqüentadores. Os dados obtidos são apresentados na tabela abaixo:

Faixa etária

ni

0 ÷¾ 15 7015 ÷¾ 30 5030 ÷¾ 45 4045 ÷¾ 60 3060 ÷¾ 75 10

Total

Construa um histograma, um polígono de freqüência e as curvas de acumulação de freqüências. Para tanto, você terá, primeiramente, que completar a tabela.

De acordo com sua análise dos dados, em quais das áreas mencionadas abaixo você acha que o clube deve investir mais? Justifique sua resposta.

i) playgrounds infantilii) piscinas, restaurante e programações sociais (bailes e festas)iii) programas voltados para a 3a idade

15

Page 16: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

MEDIDAS DE TENDÊNCIA CENTRAL

As medidas de tendência central representam os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados. O cálculo dessas medidas possibilita representar um conjunto de dados relativos à observação de determinado fenômeno de forma resumida. Vamos considerar a média, a mediana e a moda.

1. MÉDIA: é denotada por x

a) 1 o caso : å

n

i

i

n

nxx

1

i.

Exemplo 1:

Número de filhos de 20 casais entrevistados:

no filhos ni

0 41 52 73 34 1

Total 20

obs: se ni = 1 para todo i tem-se xx

ni

n

å i

1

b) 2 o caso : os dados estão agrupados em classes: å

n

i

ii

n

nxx

1

.

onde xi: é o ponto médio da i-ésima classe (que é a soma dos extremos dividido por 2)

Exemplo 2:

Salário (em termos de S.M.) de 36 funcionários de uma mesma empresa:

Salário ni xi

4 ÷¾ 8 10 6 8 ÷¾ 12 12 1012 ÷¾ 16 8 1416 ÷¾ 20 5 1820 ÷¾ 24 1 22

Total 36 ¾

16

Page 17: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

2. MEDIANA: é o termo central de uma seqüência de números colocados em ordem (crescente ou decrescente).

Exemplo 3:

Encontrar a mediana de 21 pesos de sacas de arroz dados por:

30 27 33 22 31 30 28 27 33 26 26 32 40 23 29 29 30 30 34 36 37

1o passo: colocar os dados em ordem crescente:

Dentre os 21 elementos, o termo central será o 11o

÷

n 1

2, contado a partir dos

extremos. Logo, a mediana, neste caso, será o número 30.

obs: Se tivemos um número par de termos, não havendo, portanto, um elemento central, a mediana será a média aritmética entre os dois centras (a soma do dois termos dividida por dois). Se tivermos um número ímpar de elementos o termo

central será o

÷

n 1

2o termo.

3. MODA: é o valor mais freqüente observado na distribuição de freqüências.

Assim, a moda do exemplo 1 é o 2, cuja freqüência é 7. A moda do exemplo 3 é o 30, que aparece 4 vezes.

Observações:

a no caso e haver mais de um número com a mesma freqüência, teremos 2 ou 3 modas, donde se diz que a distribuição dos valores é bimodal, trimodal, etc.

b no caso de não haver um termo mais freqüente, a distribuição se denominará amodal.

c classe modal é a classe mais freqüente, ou seja, que possui maior freqüência. No exemplo 2 a classe modal é a 8 ÷¾ 12.

17

Page 18: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Exercícios:

1 Numa pesquisa feita entre os alunos de uma escola para saber da existência de irmãos mais novos, obtiveram-se os dados mostrados na tabela abaixo.

no de irmãos mais novos

freqüência

6 45 64 103 122 221 310 18

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

2. Temos abaixo a distribuição do número de acidentes por dia, durante 53 dias, em certa rodovia.

no de acidentes

no de dias

0 201 152 103 54 3

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

3. Uma amostragem de 24 latas de um certo produto apresentou os seguintes volumes:

16 21 11 17 7 15 9 15 18 23 9 915 5 5 7 14 15 10 10 5 6 7 5

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

18

Page 19: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

a Considere os valores dos pesos de 32 alunos de uma classe apresentados abaixo:

64 68 63 67 65 64 67 64 66 67 70 67 67 66 69 6670 62 71 64 69 65 71 66 63 70 68 69 71 68 68 68

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

5. A tabela abaixo mostra a distribuição, em toneladas, de cargas máximas suportadas por certos cabos fabricados por uma companhia.

Carga Máxima(toneladas)

No de cabos

9,3 ÷¾ 9,7 2 9,8 ÷¾ 10,2 510,3 ÷¾ 10,7 1210,8 ÷¾ 11,2 1711,3 ÷¾ 11,7 1411,8 ÷¾ 12,2 612,3 ÷¾ 12,7 312,8 ÷¾ 13,2 1

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

6. Considerando o exercício 2 da página 14 (Distribuição de 100 empresas segundo o número de acidentes de trabalho ocorridos nos últimos 60 dias)

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

7. Considerando o exercício 5 da página 15 (pesquisa feita pelo clube)

Determinar: a) a média e interpretar o significado dessa medidab) a mediana c) a moda e interpretar o significado dessa medida

19

Page 20: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

CARACTERIZAÇÃO DAS DISTRIBUIÇÕES PELAS MEDIDAS DE TENDÊNCIA CENTRAL

Em uma distribuição simétrica observa-se que a Média = Mediana = Moda.A curva abaixo, em formato de sino, é chamada curva normal.

______________________________ x =med=moda

Em uma distribuição assimétrica positiva, observa-se que Média > Mediana > Moda.

______________________________ x med moda

Em uma distribuição assimétrica negativa, observa-se que Média < Mediana < Moda.

______________________________

x med moda

20

Page 21: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

MEDIDAS DE DISPERSÃO

São medidas que fornecem informações sobre a variabilidade dos dados. Geralmente mede-se a variabilidade em torno da média. Vamos considerar a variância e o desvio padrão.

1. VARIÂNCIA:

A variância é calculada a partir das diferenças entre cada elemento e a média do conjunto. No caso de tabelas de freqüências o cálculo da variância deve levar em consideração a freqüência de cada observação.

A variância pode ser calculada a partir dos seguintes passos:

1) Encontrar a média dos elementos da seqüência;

2) Encontrar as diferenças entre a média e cada elemento da seqüência = completar a coluna xi - x ;

3) Elevar ao quadrado essas diferenças = completar a coluna (xi - x )2;

4) Multiplicar as diferenças ao quadrado pela freqüência (quando for uma tabela de freqüências)

= completar a coluna ii nxx .)( 2

4) Efetuar a soma = completar total de (xi - x )2 ou ii nxx .)( 2

5) Dividir o resultado da soma pelo número de elementos do conjunto.

Esta seqüência de passos se resume na seguinte fórmula:

variância = ( )x x

n

i

i

n

å 2

1ou variância =

n

nxxn

iiiå

1

2.)(

no caso de tabelas de distribuições de freqüências

O número calculado para a variância é uma medida direta da dispersão do conjunto, no sentido de que o conjunto com os dados mais dispersos terá a maior variância.

21

Page 22: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Exemplo 1:

Calcular a variância da tabela de freqüência abaixo que apresenta a distribuição do número de acidentes por dia, durante 53 dias, em certa rodovia.

no de acidentes

no de dias (ni)

xi - x (xi - x )2ii nxx .)( 2

0 201 152 103 54 3

Exemplo 2:

Calcular a variância do conjunto de dados abaixo que corresponde aos volumes de 20 latas de um certo produto.

501 499 498 497 499 502 499 499 500 501502 497 501 499 502 500 501 499 500 499

Sugestão: organize os dados em uma tabela de freqüências.

22

Page 23: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

2. DESVIO PADRÃO:

O desvio padrão é obtido através da extração da raiz quadrada da variância.

Quando calculamos o desvio padrão dos dados de uma população podemos identificá-lo pela letra grega minúscula sigma (s).

Assim: s = desvio padrão e s2 = variância

s = ( )x x

n

i

i

n

å 2

1 ou

n

nxxn

iiiå

1

2 .)(

no caso de tabelas de distribuições de freqüências

O desvio padrão serve para dimensionar a dispersão dos dados, assim como a variância. Veremos mais à frente que existe uma relação importante entre o desvio padrão e a curva normal.

Determine: a) o desvio padrão do exemplo 1: b) o desvio padrão do exemplo 2:

Exemplo 1. Considere 4 conjuntos de dados abaixo:

A: 6 6 6 6 6B: 6 4 8 4 8C: 7 3 3 8 9D: 8 6 2 6 8

Calcule a variância e o desvio padrão de cada conjunto de dados e indique o que tem maior dispersão.

23

Page 24: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Exemplo 2. Calcular a variância e o desvio padrão dos seguintes dados:

no de acidentes

(xi)

no de dias(ni)

xi - x (xi - x )2 (xi - x )2 . ni

0 71 32 13 44 25 3

Total

Com relação ao desvio padrão, o mesmo se aplica para conjuntos de variáveis contínuas:

Exemplo 3. Calcular o desvio padrão dos seguintes dados:

Intervalo Ponto médio

(xi)

Freqüência(ni)

xi - x (xi - x )2 (xi - x )2 . ni

160 ÷¾ 165 2165 ÷¾ 170 4170 ÷¾ 175 12175 ÷¾ 180 10180 ÷¾ 185 5

Total

Existe ainda outra forma de calcular o desvio padrão, sem precisar calcular a média e as diferenças:

s = n x

n

n x

n

i i

i

n

i i

i

n

. .2

1 1

2

å å

÷÷÷÷÷÷÷

24

Page 25: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Exercícios:

1. Calcular a variância e o desvio padrão dos dados apresentados na tabela abaixo:

Distribuição de 100 empresas segundo o número deacidentes de trabalho ocorridos nos últimos 60 dias

Número acidentes de trabalho nos últimos

60 dias (xi)

Número de empresas

(ni)0 021 232 133 274 155 106 10

Total

2. São dados, a seguir, os pesos de 32 alunos de uma determinada classe:

64 68 63 67 65 64 67 64 66 67 70 67 67 66 69 6670 62 71 64 69 65 71 66 63 70 68 69 71 68 68 68

a) Construa uma tabela de distribuição de freqüências para estes dados classificando-os em intervalos de 2 kg cada

b) Calcule a médiac) Calcule a variância e o desvio padrão

3. Abaixo são dadas as alturas de 50 pessoas entrevistadas. Classifique-as em intervalos de 10 cm e calcule a variância e o desvio padrão.

150 155 161 165 168 170 172 176 177 179151 157 162 166 168 170 172 176 177 182153 161 164 167 169 170 173 176 178 183155 161 165 168 169 171 175 176 178 185155 162 165 168 169 171 175 177 178 190

25

Page 26: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

PROBABILIDADE

Experimentos ou fenômenos aleatórios são aqueles que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. Exemplos: lançamento de uma moeda honesta, lançamento de um dado, retirada de uma carta de um baralho completo de 52 cartas, determinação da vida útil de um componente eletrônico.

Espaço amostral, denotado por S, é o conjunto dos resultados possíveis de um experimento aleatório.Exemplos: espaço amostral do lançamento de uma moeda, espaço amostral do lançamento de um dado, espaço amostral do lançamento de duas moedas.

Evento, denotado por E, é qualquer subconjunto do espaço amostral S de um experimento aleatório.

Evento certo: quando E = S.Evento impossível: quando E = ÆEvento elementar: quando E Ì S e E é um conjunto unitário.

Exemplo: eventos no lançamento de um dado: E1: obter um número par na face superior; E2: obter um número menor ou igual a 6 na face superior; E3: obter o número 4 na face superior; E4: obter um número maior que 6 na face superior.

Probabilidade

A probabilidade de um evento E (EÌ S), P(E), acontecer é igual à razão entre o número de casos favoráveis e o número de casos possíveis de ocorrer, sendo todos

igualmente prováveis. Assim, )(

)()(

Sn

EnEP

onde n(E) é o número de elementos de E e n(S) é o número de elementos de S.A probabilidade é, então, sempre um número entre 0 e 1, sendo 0 a

probabilidade de um evento impossível e 1 a probabilidade de um evento certo. Exemplos:

a a probabilidade de obter cara, na face superior, no lançamento de uma moeda.b a probabilidade de obter um número par, na face superior, no lançamento de um

dado (E1).c a probabilidade de obter um número menor ou igual a 6, na face superior, no

lançamento de um dado (E2).d a probabilidade de obter o número 4, na face superior, no lançamento de um dado

(E3).e a probabilidade de obter um número maior que 6, na face superior, no lançamento

de um dado (E4).

26

Page 27: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Evento reunião: de dois eventos A e B é o evento A È B, formado por todos os elementos de A e de B.

Evento intersecção: de dois eventos A e B é o evento A Ç B, formado apenas pelos elementos comuns a A e a B.

Evento complementar: de A em relação a B (B-A) é o evento formado pelos elementos de B que não pertencem a A. Analogamente, tem-se o complementar de B em relação a A.

Um evento pode ocorrer ou não. Se p é a probabilidade de que ele ocorra (sucesso) e q é a probabilidade de que ele não ocorra (fracasso), para um mesmo evento existe a relação: p + q = 1 Þ q = 1 – p

Exemplo: sabendo que a probabilidade de tirar o 4 no lançamento de um dado é 1/6, determinar a probabilidade de não tirar o 4 no lançamento de um dado.

Probabilidade condicional

A probabilidade condicional de um evento A em relação a um evento B, é a

probabilidade de ocorrer A, tendo ocorrido B. Assim: )(

)()(

Bn

BAnBAP

Ç .

Exemplo: a probabilidade de sair rei em uma carta de baralho sabendo que já foi retirada uma carta de espadas?

Eventos independentes

Dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa.

No lançamento de dois dados, por exemplo, o resultado obtido em um deles independe do resultado obtido no outro. O mesmo acontece no lançamento de duas ou mais moedas.

Eventos mutuamente exclusivos

Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s).

No lançamento de uma moeda, o evento tirar cara e o evento tirar coroa são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza.

27

Page 28: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Teorema da soma

A probabilidade de ocorrer um evento A ou um evento B, ou ambos, é igual à soma das probabilidades dos eventos ocorrerem separadamente menos a probabilidade de ocorrerem simultaneamente: P(A È B) = P(A)+P(B)-P(A Ç B)

Exemplo: a probabilidade de ocorrer dama ou espadas ao retirar uma carta de um baralho.

Se os eventos forem mutuamente exclusivos, então P(A Ç B)=0 e a probabilidade de que um ou outro evento se realize é: P(A È B) = P(A)+P(B). O mesmo vale para três ou mais eventos mutuamente exclusivos.

Exemplo: a probabilidade de tirar o 2 ou um número ímpar no lançamento de um dado.

Teorema do produto

A probabilidade de dois eventos A e B ocorrerem simultaneamente é igual à probabilidade de um, multiplicada pela probabilidade condicional do outro em relação ao primeiro: P(A Ç B)=P(A). P(B/A)

Se os eventos forem independentes, a probabilidade de ocorrerem simultaneamente é igual ao produto das probabilidades de os eventos ocorrerem separadamente. Isto porque a probabilidade condicional de um em relação ao outro é igual à probabilidade do evento ocorrer isoladamente.Assim: P(A Ç B)=P(A). P(B). O mesmo vale para três ou mais eventos independentes.

Exemplo: a probabilidade de tirar 1 e 5 nas faces superiores no lançamento de dois dados.

28

Page 29: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosProbabilidade

1) Lançam-se 3 moedas. Enumerar o espaço amostral e os eventos:a) faces iguais;b) cara na 1a moeda;c) coroa na 2a e 3a moedas.

d) Considere a experiência que consiste em pesquisar famílias com três filhos, em relação ao sexo das mesmas, segundo a ordem de nascimento. Enumerar os eventos:

e) ocorrência de dois filhos do sexo masculino;f) ocorrência de pelo menos um filho do sexo masculino;g) ocorrência de, no máximo, duas crianças do sexo feminino.

h) Uma moeda é lançada três vezes. Ache a probabilidade de se obterem:i) três caras;j) duas caras e uma coroa;k) uma cara;l) pelo menos uma coroa;m) nenhuma cara.

4) São lançados dois dados. Qual a probabilidade de:a) obter-se um par de pontos iguais;b) um par de pontos diferentes;c) um par em que o primeiro seja menor que o segundo;d) a soma dos pontos ser um número par;e) obter-se soma 7, se o par de pontos é diferente;f) obter-se soma 6, dado que o par de pontos é igual;g) a soma ser 14.

5) Determine a probabilidade de cada evento:a) duas copas aparecem ao retirarem-se duas cartas de um baralho;b) uma carta de copas e uma de ouro aparecem ao extrairem-se duas cartas de um baralho.

n) No lançamento de um dado, qual a probabilidade de sair o número 5 ou um número par?

7) Qual a probabilidade de sair um rei ou uma carta de copas, quando retiramos uma carta de um baralho?

8) Dois dados são lançados simultaneamente. Qual a probabilidade de:o) a soma ser menor que 4;p) a soma ser 9;q) o primeiro resultado ser maior do que o segundo.

29

Page 30: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosProbabilidade

r) Sabe-se que em determinados bairros carentes a probabilidade de contaminação por falta de saneamento básico é de 5/17. Calcule a probabilidade de não haver a contaminação. R: 12/17

s) Um juiz de futebol possui três cartões no bolso. Um é todo vermelho, outro é todo amarelo e o terceiro é vermelho de um lado e amarelo do outro. Num determinado lance, o juiz retira, ao acaso, um cartão do bolso e mostra a um jogador. Qual a probabilidade de a face que o juiz vê ser vermelha e a outra, mostrada ao jogador, ser amarela? R: 1/4

t) De um baralho de 52 cartas são retiradas três cartas ao acaso. Qual a probabilidade de se obter:

a) três figuras; R: 11/1105b) três cartas de espadas; R: 11/850c) um ás e duas figuras. R: 66/16575

u) Duas cartas são retiradas de um baralho, bem embaralhado, de 52 cartas. Determine a probabilidade de ambas serem ases se a primeira carta for:

a) recolocada; R: 1/169b) não recolocada. R: 1/221

v) Três cartas vão ser retiradas de um baralho de 52 cartas. Calcular a probabilidade de que todas as três sejam paus. R: 11/850

w) Uma bola é retirada ao acaso de uma urna que contém 6 bolas vermelhas, 4 brancas e 5 azuis. Determinar a probabilidade de ela:

a) ser vermelha; R: 6/15b) ser branca; R: 4/15x) ser azul; R: 1/3y) não ser vermelha; R: 3/5z) ser vermelha ou branca. R: 2/3

aa) Um dado é lançado duas vezes. Determinar a probabilidade de ocorrer 4, 5 ou 6 no primeiro lance e 1, 2, 3 ou 4 no segundo lance.R: 1/3

bb) Duas bolas vão ser retiradas de uma urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a probabilidade de que ambas:

a) sejam verdes; R: 1/6b) sejam da mesma cor. R: 5/18

30

Page 31: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS

Uma variável aleatória é denominada discreta quando assume um número finito de valores em um intervalo finito. Geralmente ela é identificada quando seus valores são obtidos por mensuração, isto é, através de medidas. Exemplos: a distribuição dos pontos referentes ao lançamento de dois dados; a distribuição do número de peças defeituosas produzidas semanalmente por uma fábrica, a distribuição do número de crianças do sexo masculino em famílias com três filhos.

Exemplo de distribuição de probabilidades: lançam-se três moedas. Seja X: número de ocorrências da face cara. Determinar a distribuição de probabilidade de X.

Existem várias distribuições de probabilidades para variáveis aleatórias discretas. Vamos considerar duas delas: a distribuição de Bernoulli e a distribuição binomial.

Distribuição de Bernoulli

Consideremos uma única tentativa de um experimento aleatório. Podemos ter sucesso ou fracasso nessa tentativa.

Seja p a probabilidade de sucesso e q a probabilidade de fracasso, com p+q =1.Seja X: número de sucessos em uma única tentativa do experimento. X assume o valor 0 que corresponde ao fracasso, com probabilidade q, ou o valor 1,

que corresponde ao sucesso, com probabilidade p. X = 0 fracasso; X = 1 sucesso com P(0) = q e P(1) = p.Nestas condições a variável aleatória X tem distribuição de Bernoulli, e sua função de

probabilidade é dada por:P(X)=pX.q1-X

Média e variância: média = m = p variância = s2 = p.q

Exemplo: Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X: número de bolas verdes. Calcular a média, a variância, e determinar P(X).

Distribuição Binomial

Consideremos n tentativas independentes de um mesmo experimento aleatório. Cada tentativa admite apenas dois resultados: fracasso com probabilidades q e sucesso com probabilidade p, p+q = 1. As probabilidades de sucesso e fracasso são as mesmas para cada tentativa.

Seja X: número de sucessos em n tentativas.

Então, P(x), que é a função de probabilidades da variável X, é P(X) = ÷÷

X

n pX.qn-

X

Média e variância: média = m = n.p variância = s2 = n.p.q

Exemplo 1: Qual a probabilidade de obter exatamente 2 caras em 10 lançamentos de uma moeda não viciada?

Exemplo 2: A probabilidade de um estudante, que ingressa em um determinado curso de uma universidade estadual, de graduar-se é de 0,5. Determine a probabilidade de, entre 10 estudantes: a) nenhum; b)um; c) pelo menos 1 graduar-se.

31

Page 32: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosDistribuições de Probabilidades - Variáveis aleatórias discretas

Distribuição Binomial

1. Numa criação de coelhos, 40% são machos. Qual a probabilidade de que nasçam pelo menos 2 coelhos machos num dia em que nasceram 20 coelhos?

2. Uma prova tipo teste tem 20 questões independentes. Cada questão tem 5 alternativas. Apenas uma das alternativas é correta. Se um aluno resolve a prova respondendo a esmo as questões, qual a probabilidade de tirar nota 5?

3. Uma urna tem 20 bolas pretas e 30 brancas. Retiram-se 25 bolas com reposição. Qual a probabilidade de que:

a) 2 sejam pretas?b) pelo menos 3 sejam pretas?

4. Um lote de aparelhos de TV é recebido por uma firma. 20 aparelhos são inspecionados. O lote é rejeitado se pelo menos 4 forem defeituosos. Sabendo-se que 1% dos aparelhos é defeituoso, determinar a probabilidade de a firma rejeitar todo o lote.

5. Sabe-se que 20% dos animais submetidos a um certo tratamento não sobrevivem. Se esse tratamento foi aplicado em 20 animais e se X é o número de não-sobreviventes:

a) calcular P(2 < X £ 4)b) calcular P(X ³ 2)

6. Um técnico visita os clientes que compraram assinatura de um canal de TV para verificar o decodificador. Sabe-se, por experiência, que 90% desses aparelhos não apresentam defeitos. Determinar a probabilidade de que em 20 aparelhos pelo menos 17 não apresentem defeitos.

7. Se 20% dos computadores vendidos por uma empresa apresentam problemas, determine a probabilidade de, entre 10 máquinas escolhidas ao acaso:

a) somente uma apresente problema;b) nenhuma apresente problemas;c) no máximo 2 apresentem problemas.

32

Page 33: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Distribuição de Poisson

Consideremos a probabilidade de ocorrência de sucessos em um determinado intervalo.A probabilidade da ocorrência de um sucesso no intervalo é proporcional ao intervalo. A probabilidade de mais de um sucesso nesse intervalo é bastante pequena com relação à probabilidade de um sucesso.Seja X o número de sucessos no intervalo, então:

!

.

k

ekXP

k onde λ é a média.

A variável X assim definida tem distribuição de Poisson.

Esse tipo de distribuição é muito utilizada na distribuição do número de:

f Carros que passam por um cruzamento por minuto, durante uma certa hora do dia;

g Erros tipográficos por página, em um material impresso;h Defeitos por unidade (m2, m3, m, etc) por peça fabricada;i Colônias de bactérias numa dada cultura por 0,01 mm2 , numa plaqueta de

microscópio;j Mortes por ataque de coração por ano, numa cidade.k Problemas de filas de espera, em geral.

Exemplos:

1) Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade de que uma página contenha pelo menos três erros?

2) Numa central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de que:

l num minuto não haja nenhum chamadob) em dois minutos haja dois chamados

33

Page 34: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosDistribuições de Probabilidades - Variáveis aleatórias discretas

Distribuição de Poisson

1. Numa estrada há 2 acidentes para cada 100 km. Qual a probabilidade de que em:

a 250 km ocorram pelo menos 3 acidentes?b 300 km ocorram 5 acidentes?

2. A experiência mostra que de cada 400 lâmpadas, 2 se queimam ao serem ligadas. Qual a probabilidade de que numa instalação de:

a. 600 lâmpadas, no mínimo 3 se queimem?b. 900 lâmpadas, exatamente 8se queimem?

3. Numa linha adutora de água, de 60 km de extensão, ocorrem 30 vazamentos no período de um mês. Qual a probabilidade de ocorrer, durante o mês, pelo menos 3 vazamentos num certo setor de 3 km de extensão?

4. O número de mortes por afogamento em fins de semana, numa cidade praiana, é de 2 para cada 50.000 habitantes. Qual a probabilidade de que em:

a. 200.000 habitantes ocorram 5afogamentos?b. 112.500 habitantes ocorram pelo menos 3 afogamentos?

5. Numa fita de som, há um defeito em cada 200 cm. Qual a probabilidade de que:

a. em 500 cm não aconteça defeito?b. em 800 cm ocorram pelo menos 3 defeitos?

6. Uma firma recebe 720 mensagens em seu fax em 8 horas de funcionamento. Qual a probabilidade de que:

a. em 6minutos receba pelo menos 4 mensagens?b. em 4 minutos não receba nenhuma mensagem?

34

Page 35: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

7. Na fabricação de peças de determinado tecido aparecem defeitos ao acaso, um a cada 250 m. Supondo-se a distribuição de Poisson para os defeitos, qual a probabilidade de que na produção de 1000 m:

a. não haja defeitob. aconteçam pelo menos 3 defeitos

Num período de 80 dias de trabalho a produção diária é de 625 m.Em quantos dias haverá uma produção sem defeito?

8. O Departamento de RH de uma firma entrevista 150 candidatos a emprego por hora. Qual a probabilidade de entrevistar:

a. no máximo 3 candidatos em 2 minutos?b. exatamente 8 candidatos em 4 minutos?

9. De acordo com a divisão de estatística vital do departamento de saúde dos EUA, a média anual de afogamentos acidentais no país é de 3 por 100.000 indivíduos. Determinar a probabilidade de que em uma cidade com 300.000 habitantes se verifiquem:

a. nenhum afogamentob. no máximo 2 afogamentosc. mais de 4 e menos de 8 afogamentos

10. Em teste com um motor, há falhas em 2 componentes, a cada 5 horas. Qual a probabilidade de que:

a. em 10 horas de testes nenhum componente falheb. em 7 ½ horas de testes ocorram no máximo falhas em 3 componentes

35

Page 36: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Uma variável aleatória é denominada contínua quando pode assumir infinitos valores num intervalo finito. Consideremos, por exemplo, a variável altura de pessoas: no intervalo de 1,60 m a 1,90 m existe uma infinidade de valores da variável, ou seja, o espaço amostral da variável possui infinitos elementos.

Note que neste caso não é possível associar uma probabilidade a cada valor da variável, pois se A é um evento aleatório, então P(A) seria:

0)(

)(

)()(

An

Sn

AnAP

Não se pode, então, constituir uma distribuição de probabilidade para variável contínua à semelhança da variável discreta, mas podemos estender todas as definições de variáveis aleatórias discretas para variáveis contínuas.

Consideremos um polígono de freqüência relativa de uma amostra. À medida que cresce o tamanho da amostra, a parte superior do histograma, que é a freqüência relativa da amostra, vai se estabilizando de modo que se aproxime de uma curva contínua e simétrica.Essa curva é uma função, denominada função de distribuição, através da qual se associa a probabilidade aos diversos valores da variável.Assim, a função de distribuição de uma variável X no ponto a é a probabilidade

desse valor X ser menor que a.Existem vários tipos de distribuições de probabilidades para variáveis aleatórias contínuas. Vamos considerar apenas a distribuição normal, uma das mais importantes.

Distribuição Normal

A função matemática que define a curva normal é: 2

2

2

)(

.2

1)( s

m

s

x

exp

Onde ;14,3 718,2e ; médiam ; ãodesviopadrs .

As principais características desta função são:

a) O ponto de máximo de p(x) é o ponto X = mb) Os pontos de inflexão são X = m + s e X = m - s, isto é, o desvio padrão dá a extensão de espalhamento dos dados.c) A curva é simétrica em relação a m, isto é, a média centra a curvad) E(X) = m e VAR (X) = s2

É possível demonstrar que a área total limitada pela curva e pelo eixo dos X é igual a 1; portanto a área sob a curva, compreendida entre as duas coordenadas x = a e x = b, onde que a< b, representa a probabilidade de X estar entre a e b, representada por P(a £ X £ b).Para o cálculo da área sob a curva poderíamos utilizar o cálculo integral que apresenta um grau relativo de dificuldade. Então fazemos algumas transformações para facilitar. Vamos considerar a distribuição normal padrão.

36

O gráfico de p(x) é:

Page 37: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Distribuição Normal Padrão

Considerando que o perfil de uma curva normal é determinado pelo desvio-padrão da distribuição, pode-se reduzir qualquer curva normal a uma curva normal padrão, através da qual, poderemos fazer os cálculos de probabilidade com o auxílio de uma tabela.

Deste modo, a variável X da distribuição é transformada numa variável Z, que constitui uma distribuição normal padrão ou reduzida.

Seja a distribuição normal da variável X. Se fizermos X - m, ou seja, subtrairmos a média de cada valor da variável, a curva desloca-se para a esquerda, centrando em zero.Essa nova variável (X - m) tem média m = 0 e o mesmo desvio-padrão da variável X. Mas se dividirmos todos os valores da variável (x - m) por s (o desvio-padrão), a nova variável, denominada Z, terá média m = 0 e desvio-padrão s = 1.

Assim a variável reduzida sm

x

z tem parâmetros m = 0 e s = 1.

Com isso a área sob a curva depende exclusivamente de Z, cuja tabela dá as proporções das áreas desejadas; pois sendo m e s valores constantes, as áreas, sob a curva normal padrão, podem ser tabeladas.

Alguns problemas de distribuição binomial podem ser feitos aproximando-a da distribuição normal. Isto geralmente é feito quando o número de tentativas é grande. Essa aproximação é considerada boa quando n.p>5 e n.q>5. Exemplos de distribuição normal padrão:

1. Um fabricante de baterias sabe, por experiência passada, que as baterias de sua fabricação têm vida média de 600 dias e desvio-padrão de 100 dias, sendo que a duração tem aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse período. Fabrica 1000 baterias mensalmente. Quantas deverá trocar pelo uso da garantia, mensalmente?

2. Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média de 150.000 km e desvio-padrão de 5.000km. Qual a probabilidade de que um carro, escolhido ao acaso, dos fabricados por esta firma tenha um motor que dure:a) menos de 170.000 km

37

Page 38: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

b) entre 140.000 km e 165.000 kmd) se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser esta garantia para que a porcentagem de motores substituídos seja inferior a 0,2%?

38

Page 39: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosDistribuições de Probabilidades - Variáveis aleatórias contínuas

1. Os salários dos diretores das empresas de uma cidade grande do país distribuem-se normalmente com média de R$ 8000,00 e desvio padrão de R$ 500,00. Qual a porcentagem de diretores que recebem:

a) menos de R$ 6470,00?b) entre R$ 8920,00 e R$ 9380,00?

2. Foi feito um estudo sobre a altura dos alunos de uma faculdade, observando-se que ela se distribuía normalmente com média de 1,72 m e desvio-padrão de 5 cm. Qual a porcentagem dos alunos com altura:

a) entre 1,57m e 1,87m?b) acima de 1,90m?

3. O volume de correspondência recebido por uma firma quinzenalmente tem distribuição normal com média de 4000 cartas e desvio padrão de 200 cartas. Qual a porcentagem de quinzenas em que a firma recebe:

a) entre 3600 e 4250?b) menos de 3400 cartas?c) mais de 4636 cartas?

4. Uma fábrica de pneumáticos fez um teste para medir o desgaste de seus pneus e verificou que ele obedecia a uma distribuição normal, de média 48.000 km e desvio-padrão 2.000 km. Calcular a probabilidade de um pneu escolhido ao acaso:

a) dure mais que 46.000 kmb) dure entre 45.000 e 50.000 km.

39

Page 40: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

ESTIMAÇÃO

Geralmente é impraticável observar toda uma população, seja pelo custo elevado, seja por dificuldades diversas. Examina-se, então, uma amostra. Se essa amostra for bastante representativa, os resultados obtidos poderão ser generalizados para toda a população.

Será possível levantar hipóteses das possibilidades das generalizações dos resultados aos experimentos semelhantes. Tais hipóteses deverão ser testadas e poderão ser rejeitadas.

Há dois tipos fundamentais de estimação: por ponto e por intervalo.

Na estimação por ponto, a partir das observações, calcula-se uma estimativa, usando o estimador ou “estatística”. Esta estimação não possui uma medida do possível erro cometido na estimação.

Uma maneira de expressar a precisão da estimação é estabelecer limites que, com certa probabilidade, incluam o verdadeiro valor do parâmetro da população. Esses limites são chamados “limites de confiança” : determinam um intervalo de confiança, no qual deverá estar o verdadeiro valor do parâmetro.Logo, a estimação por intervalo consiste na fixação de dois valores tais que a seja a probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do parâmetro.

Estimação por intervalo: Intervalos de confiança

A partir das condições em que se realiza um experimento ou um teste estatístico, podemos esperar um resultado ou outro. Se estivermos preparando um teste de controle de qualidade na produção de um componente eletrônico à base de um único material e fabricado com máquinas de alta precisão, poderemos esperar que algo como 99% deles saiam em perfeitas condições e 1% não seja aprovado no controle. Em outros casos, como na fabricação de um tipo de biscoito com cobertura e recheio, por exemplo, a existência de diversos ingredientes, desde a farinha até o chocolate da cobertura, causará maior variação no produto final, de modo que, se estivermos controlando o peso dificilmente conseguiremos mais de 95% dos pacotes com peso dentro do limite estipulado por lei, que é de 1% acima ou abaixo do valor marcado na embalagem.

Cabe ao estatístico prever os percentuais de erros possíveis no teste ou na estimativa de fenômenos quantitativos que ele estiver preparando, tentando, é claro, diminuí-los e, assim, aumentar a certeza das previsões.

40

Page 41: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Como mencionado, devido à existência de um erro de estimação, surge a idéia de se construir um intervalo em torno da estimativa por ponto, de modo que a esse intervalo tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. O intervalo que, com probabilidade conhecida, deverá conter o valor real do parâmetro, chama-se intervalo de confiança. Os percentuais fixados para o controle da variável são chamados níveis de confiança.

O intervalo de confiança para a média quando a variância é conhecida é dado por:

I C = [ x - z.s , x + z.s ]

Os níveis de confiança variam de acordo com o experimento que estiver sendo realizado, mas os mais comuns são 90%, 95% e 99%, que correspondem, segundo a tabela, a z=1,65, z = 1,96 e z = 2,58.

Exemplo: Uma indústria metalúrgica fabrica rolamentos com diâmetro médio de 1,0 polegada e desvio padrão 0,051. Determinar os limites do intervalo de confiança de 95%.

41

Page 42: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosIntervalos de confiança

1. A duração da vida de uma peça de equipamentos é tal que o desvio padrão é de 5 horas. Foram amostradas peças obtendo-se a média de 500 horas. Deseja-se construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95%.

2. Foram retiradas peças da produção diária de uma máquina, encontrando-se para uma medida uma média de 5,2 mm. Sabendo-se que as medidas têm distribuição normal com s = 1,2 mm, construir intervalos de confiança para a média aos níveis de:a) 90 % b) 95% c) 99%

3. O Instituto Nacional de Pesos e Medidas fixa uma variação de apenas 1% no peso declarado dos alimentos industrializados. Assim, uma lata de leite em pó de 500g, por exemplo, deve ter o seu peso real variável apenas de 495 a 505g e, sendo encontradas embalagens com pesos inferiores ao limite mínimo, a fábrica é multada. Qual deve ser o desvio padrão limite para o acompanhamento estatístico da produção do leite em pó se a fábrica fixar um nível de confiança de 99%?

4. Uma produção de manteiga embalada em pacotes de 150 g não pode ter seu peso fora do intervalo [148,5; 151,5]. Calcule o valor limite do desvio padrão para um intervalo de confiança de:a) 90 % b) 95% c) 99%

5. Um determinado teste de produção de um elemento de valor pesquisado igual a 100 pode variar 2% acima ou abaixo desse valor. Estabeleceu-se um nível de confiança de 98% e encontrou-se, após o teste, desvio padrão igual a 4,5. Deseja-se saber se, com esse valor de desvio, as condições inicialmente fixadas serão ou não atendidas.

6. A distribuição de idades dos estudantes de uma universidade tem desvio padrão 3. Uma amostra desses estudantes apresentou média de 28 anos. Determinar os intervalos de confiança aos níveis de:

m 90% b) 95%

7. O Instituto Nacional de Pesos e Medidas fixa uma variação de apenas 1% no peso declarado dos alimentos industrializados. Assim, uma lata de achocolatado em pó de 400g, por exemplo, deve ter o seu peso real variável apenas de 396 a 404g e, sendo encontradas embalagens com pesos inferiores ao limite mínimo, a fábrica é multada. Qual deve ser o desvio padrão limite para o acompanhamento estatístico da produção do achocolatado em pó se a fábrica fixar um nível de confiança de 99%?

8. Um fabricante sabe que a vida útil das lâmpadas que fabrica tem distribuição aproximadamente normal com desvio padrão de 100 horas. Para estimar a vida

42

Page 43: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

média das lâmpadas, tomou uma amostra delas, obtendo vida média de 1000 horas. Construir um IC para a vida média das lâmpadas ao nível de 99%.

43

Page 44: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

TESTES DE HIPÓTESES

Suponhamos que uma certa distribuição dependa de um parâmetro q e que não se conheça q ou, então, há razões para acreditar que o q variou, seja pelo passar do tempo ou, então, pela introdução de novas técnicas de produção, por exemplo.

Podemos utilizar um processo de análise denominado “Teste de Hipóteses”, que permite se decidir por um valor do parâmetro q ou por sua modificação com um grau de risco conhecido.

Um teste de hipóteses é uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com base nos elementos amostrais. A hipótese é uma suposição quanto ao valor de um parâmetro populacional.

Formulamos duas hipóteses básicas:H0: hipótese nula ? a hipótese a ser testada (igualdade)H1: hipótese alternativa (desigualdade)

Testamos hipóteses para tomarmos uma decisão entre duas alternativas. Por essa razão o “Teste de hipóteses” é um processo de decisão estatística.

Exemplos: a os chips da marca A têm vida média m=m0; b o nível de inteligência de uma população de universitários é m=m0.

Podemos apresentar as hipóteses genéricas que englobam a maioria dos casos:

1. H0: q = q0 para testes bilaterais (bicaudais) H1: q ¹ q0

2. H0: q = q0 para testes unilaterais à direita H1: q > q0

3. H0: q = q0 para testes unilaterais à esquerda H1: q < q0

4. H0: q = q0 para testes aplicados a valores do parâmetro obtidos após H1: q = q0 a decisão tomada em um dos três testes anteriores

Procedimento padrão para a realização do teste de hipóteses:

44

Page 45: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

a Definem-se as hipóteses do teste: nula e alternativa;b Fixa-se um nível de significância a;c Levanta-se uma amostra de tamanho n e calcula-se uma estimativa q0 do parâmetro

q;d Usa-se para cada tipo de teste uma variável cuja distribuição amostral do estimador

do parâmetro seja a mais concentrada em torno do verdadeiro valor do parâmetro;

e Calcula-se com o valor do parâmetro q0, dado por H0, o valor crítico, o valor observado na amostra ou valor calculado (Vcalc);

f Fixam-se duas regiões: uma de não rejeição de H0 (RNR) e uma de rejeição de H0 ou crítica (RC) para o valor calculado, ao nível de risco dado;

g Se o valor observado Vcalc Î Região de Não Rejeição, a decisão é a de não rejeitar H0;

h Se Vcalc Î Região Crítica, a decisão é a de rejeitar H0.

Obs: quando se fixa a, determinamos para os testes bilaterais, por exemplo, valores críticos (tabelados) Va , tais que:

P(ú Vcalcú < Va )= 1 - a ® RNRP(ú Vcalcú = Va )= a ® RC

Existem dois tipos de erros:

- rejeitar uma hipótese verdadeira erro tipo I (E I) P(EI) = α- aceitar uma hipótese falsa erro tipo II (E II) P(EII) = β

Exemplos:

a De uma população normal com variância 36, toma-se uma amostra casual de tamanho 16, obtendo-se x = 43. Ao nível de 10%, testar as hipóteses:

H0: m = 45 H1: m ¹ 45

b Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X apresenta-se abaixo de 26mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 24.Sabe-se que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância 5,36mg2. Pode-se aceitar a afirmação do fabricante, ao nível de 5%?

c Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita que aumentará a resistência média, que é de 206kg. A resistência das lajotas tem distribuição normal com desvio padrão de 12kg. Retira-se uma amostra de 30 lajotas, obtendo-se x =210kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas lajotas tenha aumentado?

45

Page 46: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosTestes de hipóteses

1. Uma fábrica de automóveis anuncia que seus carros consomem,em média 11 litros por 100km, com desvio padrão de 0,8 litro. Uma revista decide testar essa afirmação e analisa 35 carros dessa marca, obtendo 11,4 litros por 100km, como consumo médio. Admitindo que o consumo tenha distribuição normal, ao nível de 10% o que a revista concluirá sobre o anúncio da fábrica?

2. A altura dos adultos de uma certa cidade tem distribuição normal com média de 164cm e desvio padrão de 5,82cm. Deseja-se saber se as condições sociais desfavoráveis vigentes na parte pobre dessa cidade causam retardamento no crescimento dessa população. Para isso, levantou-se uma amostra de 144 alunos dessa parte da cidade, obtendo-se a média de 162cm. Pode esse resultado indicar que os adultos residentes na área são em média mais baixos que os demais habitantes da cidade ao nível de 5%?

3. A duração em horas de trabalho de 5 tratores foi 9420, 8200, 9810, 9290 e 7030 horas. Sabe-se que a duração dos tratores dessa marca é normal com desvio padrão de 55 horas. Ao nível de 3%, testar:

a. H0: m = 8700 H1: m ¹ 8700

b. H0: m = 8700 H1: m > 8700

c. H0: m = 8700 H1: m < 8700

4. O salário dos empregados das indústrias siderúrgicas tem distribuição normal, com média de 4,5 salários mínimos, com desvio padrão de 0,5 salário mínimo. Uma indústria emprega 49 empregados, com um salário médio de 4,3 salários mínimos. Ao nível de 5% podemos afirmar que essa indústria paga salários inferiores à média?

46

Page 47: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

CORRELAÇÃO E REGRESSÃO

Constata-se, freqüentemente, a existência de uma relação entre duas (ou mais) variáveis. Se tal relação é de natureza quantitativa, a correlação é o instrumento adequado para descobrir e medir essa relação. Então, caracterizada a relação, procuramos descreve-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros dessa função.

Coleta-se dados exibindo os valores correspondentes das variáveis. Faz-se o gráfico dos pontos em sistema de coordenadas retangulares. O conjunto resultante é chamado Diagrama de Dispersão.

Exemplo: X e Y representam, respectivamente, a altura e o peso de adultos do sexo feminino. Uma amostra de n indivíduos acusaria alturas X1, X2, ..., Xn, e os correspondentes pesos Y1, Y2, ..., Yn, . Os pontos a serem marcados no gráfico seriam, então (X1,Y1), (X2,Y2), ..., (Xn,Yn).

Pelo diagrama de dispersão, muitas vezes, se pode visualizar uma curva aproximativa dos dados. Quando os dados parecem bem aproximados por uma reta, dizemos que há uma correlação linear entre as variáveis (Figuras 1 e 2). Quando existe um relacionamento entre as variáveis e tal relacionamento não é linear, diz-se, então, que há uma correlação não-linear entre as variáveis (Figura 3). Finalmente, há os casos em que o diagrama não sugere nenhum tipo de correlação entre as variáveis; neste caso diz-se que não há correlação linear (Figura 4).

Exemplos:

Figura 1 Figura 2

Figura 3 Figura 4

47

Page 48: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Coeficiente de correlação

O coeficiente de correlação linear é o instrumento empregado para a medida da correlação linear, indicando o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação (positivo – Figura 1 ou negativo – Figura 2).

Pode ser utilizado o coeficiente de correlação de Pearson:

å åå åå å å

2222 ... iiii

iiii

yynxxn

yxyxnr

onde n é o número de observações.

Os valores limites de r (coeficiente de correlação) são –1 e +1, isto é, o valor de r pertence ao intervalo [-1,1]. Assim:

a se a correlação entre duas variáveis é perfeita e positiva, então r = 1;b se a correlação é perfeita e negativa, então r = -1;c se não há correlação entre as variáveis, r = 0.

Exemplo:

Calcular o coeficiente de correlação relativo à tabela abaixo que apresenta as notas de Cálculo e Estatística de dez alunos (n=10)

Cálculo (xi) Estatística (yi) xi .yi xi2 yi

2

5 68 97 810 106 57 79 83 48 62 2

48

Page 49: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Regressão

O problema de se determinar equações de curvas que se ajustem a determinados conjuntos de dados observados é chamado ajustamento de curvas. Na prática, o próprio diagrama de dispersão geralmente sugere o tipo de curva a ser adotada. Assim, para as Figuras 1 e 2 poderíamos usar a reta (Y = aX + b) enquanto que, para a Figura 3, tentaríamos uma parábola (Y = aX2 + bX + c). Às vezes é útil construir o diagrama em termos de variáveis transformadas. Assim, por exemplo, se log Y versus X conduz a uma reta, experimentaríamos log Y = a + bX como equação aproximadora.

Um dos principais objetivos do ajustamento é estimar uma das variáveis (a variável dependente) em função da outra (variável independente). Tal processo de estimação é denominado regressão. Se Y for estimado em função de X por meio de uma equação, tal equação é denominada equação de regressão de Y sobre X e a curva ajustada é a curva de regressão de Y sobre X.

Vamos considerar a regressão linear simples, utilizada quando uma reta representa de maneira satisfatória a relação entre as variáveis, ou seja, Y = aX + b é a equação de regressão de Y sobre X.

O método mais simples utilizado para a determinação de a e b é o método dos mínimos quadrados. Após diversas simplificações é possível chegar a:

å

å

÷

ú

÷

2_

_

xx

yxx

a

i

ii

e xayb

sendo _

x a média aritmética dos x; e _

y a média aritmética dos y.

Outra forma de se calcular o a é através da fórmula: å åå å å

22. ii

iiii

xxn

yxyxna

Exemplo:

A tabela abaixo apresenta as variações de quantidades de um certo produto em relação ao custo:

Quantidade (X) 10 11 12 13 14 15Custos (Y) 100 112 119 130 139 142

Utilizando os dados acima:a construa o diagrama de dispersão;b ajuste uma reta aos dados;c trace a reta no diagrama de dispersão;d determine o custo para 16 unidades do artigo.

49

Page 50: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

Lista de ExercíciosCorrelação e Regressão

1. A tabela abaixo apresenta os dados referentes à variação da demanda de um produto produzido (yi) em relação à variação do preço da venda (xi):

xi 40 45 52 58 65 70 85 90 100 120yi 320 305 290 280 275 270 250 245 230 210

a construa o diagrama de dispersão;b ajuste uma reta aos dados, ou seja, estabeleça a equação de regressão de y sobre x;c trace a reta no diagrama de dispersão;d determine y quando x = 80 e y quando x = 130.

2. Calcule o coeficiente de correlação relativo à tabela abaixo que apresenta as notas de Cálculo e Estatística de catorze alunos (n=14) e:

Cálculo (xi) 8 7 4 9 6 4 7 6 5 8 2 7 3 6Estatística (yi) 7 9 4 7 5 6 9 6 8 9 4 6 2 7

a construa o diagrama de dispersão;b estabeleça a equação de regressão de y sobre x;c trace a reta no diagrama de dispersão;

3. A tabela abaixo apresenta os dados referentes à variação do preço de venda do seu produto (yi) em função do preço de custo (xi):

xi 40 50 70 75 80 95 110 120yi 130 140 145 160 160 170 180 200

a construa o diagrama de dispersão;b estabeleça a equação de regressão de y sobre x;c trace a reta no diagrama de dispersão;d determine x quando y = 165 e x quando y = 190.

4. A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura:

Temperat. (graus C) 10 15 20 25 30Comprim/o (mm) 1003 1005 1010 1011 1014

a determine o coeficiente de correlação;b estabeleça a equação de regressão de y sobre x;c o valor estimado do comprimento da barra para a temperatura de 18 graus C e

para a temperatura de 35 graus C.

50

Page 51: Apostila de Estatistica Da Unicamp

ST 211 - Estatística

5. A tabela abaixo representa os pesos respectivos x e y de uma amostra de 12 pais e deus filhos mais velhos. Calcule o coeficiente de correlação e estime a linha de regressão de y para x .

xi 65 63 67 64 68 62 70 66 68 67 69 71yi 68 66 68 65 69 66 68 65 71 67 68 70

6. Num determinado país, na última década, o aumento (xi) percentual do nível de preços e a expansão percentual dos meios de pagamentos (yi), de determinado produto de exportação, verificaram-se conforme a tabela abaixo:

ano 1990 91 92 93 94 95 96 97 98 99xi 13 9 20 35 40 22 18 35 38 43yi 18 12 17 47 32 25 20 40 52 38

a Estabeleça a equação de regressão de y sobre x;b Determine o coeficiente de correlaçãoc Esboce o diagrama de dispersão.

51