apostila de estatística indutiva

32
ESTATÍSTICA INDUTIVA PROFA. MS DANIELA BRASSOLATTI

Upload: diego

Post on 21-Feb-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Estatistica

TRANSCRIPT

Page 1: Apostila de Estatística Indutiva

ESTATÍSTICA

INDUTIVA PROFA. MS DANIELA BRASSOLATTI

Page 2: Apostila de Estatística Indutiva

2

“ ESTATÍSTICA É A ARTE DE TORTURAR OS DADOS ATÉ QUE ELES CONFESSEM”

Inferência estatística

Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informação de uma amostra.

Princípios de estimação

Utilizamos estimativas de uma amostra como nosso ``melhor chute'' para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão amostral, a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros.

Note que estatísticas são usualmente representadas por letras Romanas,enquanto que parâmetros são usualmente representados por letras Gregas.

É claro que à medida que a amostra aumenta, mais informação nós teremos acerca da população de interesse, e portanto mais precisa serão as estimativas dos parâmetros de interesse.

Obtendo uma amostra

Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Na prática não existe forma de garantir isto sem ter informação da população inteira para comparar com a amostra. E em tais circunstâncias não haveria necessidade de amostragem!

Ao invés disso, podemos assegurar que não existem vícios sistemáticos em nossa amostra através de uma seleção aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal forma que

1. todos os membros da população têm a mesma chance de serem selecionados; 2. cada combinação possível de um dado número de membros tem a mesma chance de ser

selecionada.

Em princípio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma lista de todos os membros da população, dar a todos um número digamos de 1 a N, e então escolher aleatoriamente n números de 1 a N para definir a amostra. É claro que na prática isto não é viável, especialmente quando a população é infinita.

Na maioria dos casos é difícil obter amostras aleatórias. Considere o seguinte diagrama que mostra a `população' de círculos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes círculos é mm.

AMOSTRAGEM - CONCEITOS BÁSICOS

Page 3: Apostila de Estatística Indutiva

3

Suponha que selecionemos uma amostra de 5 destes círculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido 5 círculos. Qual é o diâmetro médio de nossos 5 círculos? O valor está perto de mm?

No exemplo acima, o esquema amostral causou um vício. Um vício similar seria obtido por exemplo na amostragem de um particular tipo de animal - pode ser que os animais que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou ao usar uma armadinha, você pode amostrar somente os animais mais famintos, etc.

Sempre que uma amostra é obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferências retiradas acerca da população pode avaliadas à luz da estratégia amostral.

Geralmente as pesquisas são realizadas através de estudos dos elementos que compõem uma amostra

extraída da população que se pretende analisar.

População: Conjunto de indivíduos ou objetos que apresentam em comum determinadas

características definidas para o estudo.

Amostra: Redução da população à dimensões menores sem perda das características essenciais.

É compreensível que o estudo de todos os elementos da população possibilita preciso

conhecimento das variáveis que estão sendo pesquisadas; todavia, nem sempre é possível obter as

Page 4: Apostila de Estatística Indutiva

4

informações de todos os elementos da população. Limitações de tempo, custo e vantagens do uso

de técnicas de inferência justifica o uso de amostras. Torna-se claro que a representatividade da

amostra dependerá do seu tamanho e da forma como é coletada visando obter uma amostra

significativa que de fato represente toda a população.

Se uma população for muito grande , o pesquisador poderá ter um trabalho astronômico para

estudá-la e em alguns casos os resultados serão sempre falhos. É só pensar por exemplo no número

de nascimentos e mortes diários, isto é , na entrada e saída de informações, para avaliar a

dificuldade e a imprecisão do trabalho.

A análise de dados é o fornecimento de respostas claras a questões específicas sobre um cenário

amplo demais para que seja completamente detalhado. “ Será que os consumidores brasileiros

estão desejando gastar menos?”, Que anúncio de TV venderá mais pasta de dente?”, “ Se os

universitários experimentarem pepsi e coca sem que haja identificação da bebida, será que a

maioria vai preferir a primeira” ?

Censo: Pesquisa de todos os elementos da população. É usada quando

- População é pequena

- Variáveis fáceis de serem medidas ou observadas

- Necessitamos de resultados exatos

Amostragem : é o processo de coletar amostras. É usada quando:

- População é grande

- As observações ou mensurações tem alto custo

- Há necessidades de rapidez

- Quando o processo de pesquisa é destrutivo.

- Redução de custo

Exemplo: População de Fósforos:

Se quisermos avaliar na população de fósforos a porcentagem de falhas, temos dois caminhos:

Page 5: Apostila de Estatística Indutiva

5

1) Riscar um por um e ao cabo de algum tempo concluir que a falha é da ordem de 2% por

exemplo, o que significa queimar todo estoque.

2) Colher uma amostra com critério, riscar um por um da amostra e ao cabo de algum

tempo concluir que a falha é por exemplo da ordem de 1,8% ou 2,2%

A aparente diferença de 0,2% para mais ou para menos fica compensada pelo fato de que o

estoque de fósforos foi preservado bem como o bolso.

COMO RETIRAR UMA AMOSTRA:

O plano de uma amostra refere-se ao método utilizado para escolhe-la a começar da população.

Planos ineficazes de amostra podem resultar em conclusões enganosas. Devemos levar em conta

duas questões importantes na retirada de uma amostra: Representatividade e Imparcialidade.

REPRESENTATIVIDADE: Uma amostra para ser boa tem que ser representativa, ou seja, deve conter

em proporção tudo o que a população possui.

IMPARCIALIDADE: Todos os elementos da população devem ter igual oportunidade de fazer parte

da amostra.

Representatividade: Análise da população para ver se seus elementos

distribuem-se homogeneamente ou se formam grupos com características

peculiares. Se for esse caso temos que respeitar as proporções com que esses

grupos integram a população.

Imparcialidade: Devemos fazer um sorteio usando a tábua de números

aleatórios ou utilizar um dos critérios de amostragem que será visto

posteriormente.

DELINEAMENTO DA AMOSTRA – TIPOS DE AMOSTRAGENS:

Existem dois métodos para composição de uma amostra: probabilístico e não-probabilístico

Métodos Probabilísticos: Cada elemento da população tem a mesma chance de ser selecionado. Trata-

se do método que garante cientificamente a aplicação de técnicas estatísticas. Somente com base em

amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir

do conhecimento de uma amostra.Existem alguns tipos de amostragens probabilísticas que garantem a

imparcialidade acima discutida:

Page 6: Apostila de Estatística Indutiva

6

Amostragem Aleatória Simples: Atribui-se a cada elemento da população um

número distinto. Efetuam-se sucessivos sorteios até completar o tamanho da amostra

n. Para realizar o sorteio, utilizar a tábua de números aleatórios (anexo) que consistem

em tabelas que apresentam dígitos de 0 à 9 distribuídos aleatoriamente.

Amostragem Sistemática: Conveniente quando a população está ordenada

segundo algum critério como fichas, lista telefônica.

Exemplo:

Se N = 5.000 tamanho da população e precisamos de uma amostra de n = 250,

dividimos N/n = 20. Selecionamos ao acaso um número de 1 à 20. Suponha que saiu o

número 7:

- 1a unidade a ser selecionada 7

a

- 2a unidade à ser selecionada 20 + 7 = 27

a

- 3a unidade à ser selecionada 27 + 20 = 47

a

- 67a , 87

a , ..., 4987

a dando um total de 250 unidades

Amostragem Estratificada:No caso da população em que se podem distinguir sub-

populações mais ou menos homogêneas denominadas estratos. Após a determinação

dos estratos, seleciona-se uma amostra aleatória simples de cada estrato.As varáveis

de estratificação mais comuns são: classe social, idade, sexo, profissão.

Amostragem Estratificada Proporcional: A proporcionalidade do tamanho de cada

estrato da população é mantida na amostra. Exemplo: Se um estrato abrange 20% da

população, ele também deve abranger 20% da amostra.

Amostragem por conglomerados: Há subdivisão da área à ser pesquisada por

bairros, quarteirões, domicílios, famílias que serão sorteados para composição dos

elementos da amostra e a pesquisa será realizada de forma sistemática ou simples.

Cuidados com as pesquisas por amostragem:

A sub-representação: ocorre quando alguns grupos da população são excluídos do processo de seleção

da amostra. Ex: Uma pesquisa feita por telefone exclui domicílios que não tem telefones

A não-resposta: ocorre quando um indivíduo escolhido para entrar na amostra não pode ser contatado

ou se recusa a cooperar.

Page 7: Apostila de Estatística Indutiva

7

Métodos Não - Probabilísticos: São amostragens em que há uma escolha deliberada dos elementos da

amostra. Não é possível generalizar os resultados da pesquisa para a população, pois as amostras não-

probabilísticas não garantem a representatividade da população.

Amostragem Acidental: Os entrevistados são acidentalmente escolhidos.

Exemplo: Para pessoas no supermercado e colher opiniões; Programa de TV ao vivo,

registrando automaticamente opiniões contra ou favor de uma situação.

Amostragem Intencional: O investigador se dirige intencionalmente a um grupo de

elementos dos quais deseja saber opinião.

Exemplo: Numa pesquisa sobre preferência por determinado cosmético, o

pesquisador se dirige a um salão de beleza e entrevista as pessoas que ali se

encontram.

Amostragem por Quotas: Amplamente utilizada em pesquisa de mercado e em

pesquisa de opinião política em que tempo e dinheiro são escassos.

Exemplo: Admita-se que se deseja pesquisar o “trabalho das mulheres”. A primeira

tarefa é descobrir uma proporção de características na população. Imagine que haja

47% de homens e 53% de mulheres na população. Logo uma amostra de 50 pessoas

deverá ter 23 homens e 27 mulheres. Então o pesquisador receberá uma quota para

entrevistar 27 mulheres.

DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE

Page 8: Apostila de Estatística Indutiva

8

DEFINIÇÃO:

Quando a variável aleatória pode assumir qualquer valor dentro do conjunto dos números

Reais, é denominada como variável aleatória contínua.

Exemplos: preços de carros usados, salário, rentabilidades mensais das ações.

A distribuição de uma variável aleatória contínua é dada por uma curva contínua e não por

pontos discretos. Essa curva é denominada função distribuição de probabilidade (f.d.p)

Exemplo: Considere a distribuição da variável aleatória X:

X P(X)

1 0.1

2 0.2

3 0.4

4 0.2

5 0.1

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

1 2 3 4 5

X

P(X

)

Perceba que as áreas dos retângulos do gráfico são:

A1= b1 x h1 = 0,1= P(X =1)

A2 = b2 x h2 = 0,2 = P(X =2)

A3 = b3 x h3 = 0,4 = P(X=3)

A4 = b4 x h4 = 0,2 = P(X=4)

A5 = b5 x h5 = 0,1 = P(X=5)

Page 9: Apostila de Estatística Indutiva

9

Como a soma das probabilidades é igual a 1 temos que a soma das áreas é igual à 1. Para calcularmos

P(1 X 3) basta calcular a soma das áreas A1+A2+A3 = 0,1 + 0,2 + 0,4 = 0,7 Se representarmos a distribuição de probabilidade acima por uma curva , teremos X variável aleatória contínua.

DISTRIBUIÇÃO NORMAL:

Astrônomos e outros cientistas observaram que mensurações repetidas de uma mesma quantidade

tendiam a variar e quando se coletava grande número de mensurações dispondo-as numa distribuição

de freqüências , elas se apresentavam com a forma:

Constatou-se que a distribuição podia ser bem aproximada por uma distribuição matemática como a

figura suavizada acima, chamada Distribuição Gaussiana ou Distribuição Normal (1777 – 1855).

Pelo fato de tantos fenômenos terem essa característica , pesquisadores de diferentes campos tem feito

uso extensivo da curva Normal, aplicando-a aos dados que coletam e analisam.

Um fenômeno é Normal quando os valores da variável que o exprimem encontram abrigo sob a curva

Normal.

Exemplos:

- Altura: A maioria dos brasileiros se encontram em torno de um média de 152 à 183 cm,

poucos apresentam muito mais ou muito menos que isso.Não há pessoa por baixa ou alta

que não se abriga sob a curva Normal.

- QI: A maioria se encontra em torno de 90 à 110. Poucos apresentam mais que 140 ou

menos que 60.

CARACTERÍSTICAS DA NORMAL:

Page 10: Apostila de Estatística Indutiva

10

Se assemelha a um sino

Suave, unimodal e simétrica em relação à média

f(x) tende a zero quando x tende ao infinito positivo ou negativo

É completamente especificada pelos parâmetros média e desvio-padrão

Existe uma única distribuição Normal para combinação de cada média e desvio-padrão

E(X) = e V(X) = 2

A curva é simétrica ao redor da média e a área total sob a curva é definida como 100%, logo

cada metade da curva tem 50% da área total

É uma das mais importantes distribuições de freqüência e apresenta a seguinte função:

2x

2

1

e2

1)x(f

Onde = média , = desvio-padrão e = 3,1415...

Felizmente, você não tem que memorizar esta equação. O importante é que você entenda como a curva é afetada pelos valores numéricos de µ e σ.

INFLUÊNCIA DOS PARÂMETROS NA FORMA NORMAL:

Os parâmetros da distribuição Normal são a média e o desvio-padrão. Conhecendo esses dois valores

temos a oportunidade de calcular qualquer probabilidade de uma variável aleatória cuja distribuição é

Normal ou Gaussiana. Conforme o valor da média e do desvio-padrão a distribuição pode assumir uma

forma mais alongada ou achatada ou ainda pode ter sua posição deslocada pois a média informa onde a

distribuição está centrada e o desvio-padrão mostra a dispersão.

A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento de curva. A distribuição normal é simétrica em torno da média o que implica que e média, a mediana e a moda são todas coincidentes.

Exemplo:

- Se média = 40 e desvio-padrão menor que 10 (8 por exemplo) , a distribuição se estreita na

base e aumenta a altura de seu pico.

- Se média = 40 e desvio-padrão igual a 10, a distribuição não é nem muito estreita e nem

muito achatada.

Page 11: Apostila de Estatística Indutiva

11

- Se média = 40 e desvio-padrão maior que 10 (15 por exemplo) , a distribuição se alonga na

base e diminui a altura de seu pico.

Média 40 e DP 8 Média 40 e DP 10 Média 40 e DP 15

0

10

20

30

40

50

20 30 40 50 60

0

10

20

30

40

20 30 40 50 60 0

10

20

30

40

10 20 30 40 50 60 70

- Se desvio-padrão = 10 e média maior que 40 (50 por exemplo), a distribuição se desloca

para direita

- Se desvio-padrão = 10 e média igual a 40, a distribuição está centrada em 40.

- Se desvio-padrão = 10 e média menor que 40 (30 por exemplo), a distribuição se desloca

para esquerda

0

10

20

30

40

50

60

10 20 30 40 50 60 70

A decisão de que uma variável tem distribuição Normal envolve a opinião pessoal. Você deve se

perguntar se fosse desenhado a distribuição de probabilidades de uma variável analisada, ela teria

forma de sino?

COMO APLICAR A DISTRIBUIÇÃO NORMAL:

Exemplo : A vida média de uma bateria de determinada marca é de 20 horas com desvio-padrão de 0,5

horas. Quero calcular a probabilidade da bateria durar menos do que 21 horas.

Page 12: Apostila de Estatística Indutiva

12

Chamamos de X a vida da bateria e entendemos X como uma variável aleatória com distribuição Normal

pois algumas baterias irão durar mais do que 20 horas, outras menos do que 20 horas. Algumas poucas

irão durar muito mais ou muito menos do que a média.

Para calcular essa probabilidade temos duas possibilidades:

Integral - Ferramenta do cálculo que calcula a área sob a curva Normal

Usar tabelas que já estão prontas

PROBLEMA: Como vimos a forma da distribuição pode mudar de acordo com o valor de média e desvio-

padrão obtidos e então serão necessárias tabelas para todas as combinações de média e desvio-padrão,

o que cobre um enorme intervalo de X e para o cálculo da integral, podemos cair em integrais muito

complicadas.

SOLUÇÃO: Distribuição Normal Padronizada: Consiste em fornecer uma tabela para uma única

combinação de média e desvio-padrão, isto é, para média zero e desvio-padrão 1, fazendo com que a

variável aleatória X tenha que sofrer uma conversão de X para Z, onde

padrãodesvio

médiaXZ

É como transformar minutos em horas mas no caso traduzimos o valor em quantidades de desvios-

padrão da média.

Exemplos:

1) Se x = 6, média = 3 e desvio-padrão = 2

Fazendo ( X – média) = 6 está 3 unidades acima da média

Dividindo essa distância pelo DP = (3/2) = 1.5 o que significa que 6 está à 1,5 desvios-padrão

acima da média

2) Para o exemplo anterior:

Exemplo : A vida média de uma bateria de determinada marca é de 20 horas com desvio-

padrão de 0,5 horas. Quero calcular a probabilidade da bateria durar menos do que 21 horas.

Se X = 21, média =20 e desvio-padrão = 0,5 então Z = 2 e queremos calcular P(Z 2), ou seja ,

queremos calcular a área abaixo:

X Z

Page 13: Apostila de Estatística Indutiva

13

10 15 20 25 30

-10 -5 0 5 10

P(X 21) P(Z 2)

Transformação

O desenho de Z tem a mesma forma e área que o desenho de X pois é uma transformação de variáveis

ou mudança de valores do eixo X para o eixo Z. As infinitas distribuições Normais reduzem-se apenas à

distribuição Normal com média zero e desvio-padrão 1 .

Para Z várias Bibliografias disponibilizam uma tabela que nos dá a probabilidade desejada, ou seja, o

valor da área ou a porcentagem de lâmpadas que durarão menos que 21 horas (para o exemplo citado).

Em anexo temos a tabela Z que fornece P(Z a) , que indica a probabilidade de Z ser menor ou igual a

determinado valor a.

PROCEDIMENTO DE CÁLCULO DE PROBABILIDADE:

P(Z a) Valor direto na tabela

P(Z a) 1 – P(Z a)

P(Z -a) 1-P(Z a)

P(Z -a) P(Z a)

P(a Z b) P(Z b) – P(Z a)

Para o exemplo:

a) P(X 21) = P(Z 2) = 0,9772 ou 97,72%

b) P(X ≥ 21)

c) P(X 19)

d) P(19 X 20,85)

d) P( X 22)

Outros Exemplos

Page 14: Apostila de Estatística Indutiva

14

1) Os depósitos mensais na caderneta de poupança tem distribuição Normal com média 500 reais

e desvio-padrão 150 reais. Se um depositante realiza um depósito, pede-se calcular a

probabilidade que esse depósito seja:

a) menor ou igual a 650 reais

b) maior ou igual a 650 reais

c) Esteja entre 250 e 650 reais

2) Um fabricante de baterias sabe por longa experiência que as baterias de sua fabricação tem

vida média de 600 dias e desvio-padrão de 100 dias sendo que a duração tem

aproximadamente distribuição Normal. Oferece uma garantia de 312 dias, isto é, troca as

baterias que apresentarem falha nesse período. Fabrica 10.000 baterias mensalmente.

a) Quantas deverá trocar pelo uso da garantia mensal?

b) Qual deve ser a garantia para que a porcentagem de baterias substituídas seja inferior

a 0,1%?

3) Uma fábrica de carros sabe que os motores de sua fabricação tem duração Normal com média

150.000 Km e devio-padrão de 5.000 Km. Qual a probabilidade de que um carro, escolhido ao

acaso, dos fabricados por essa firma, tenha um motor que dure:

a) Menos que 170.000 Km

b) Entre 140.000 e 165.000 Km.

c) Se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser

esta garantia para que a porcentagem de motores substituídos seja inferior à 0,2%?

4) No ano passado o vendedor Jota de uma grande empresa de alimentos conseguiu vender $

1.350.000,00. O vendedor afirma que com essa venda, ele está entre os 5% dos vendedores da

empresa que mais venderam no ano passado. Se as vendas realizadas por todos os vendedores

tem distribuição Normal com média $ 1.250.000,00 e desvio-padrão $ 100.000,00, pede-se

verificar se a afirmação do vendedor é correta.

Page 15: Apostila de Estatística Indutiva

15

TABELA NORMAL PADRÃO P(Z≤ a)

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359

0,10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753

0,20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141

0,30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517

0,40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0,50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224

0,60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549

0,70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852

0,80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133

0,90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1,00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621

1,10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830

1,20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015

1,30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177

1,40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1,50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441

1,60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545

1,70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633

1,80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706

1,90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2,00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817

2,10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857

2,20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890

2,30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916

2,40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2,50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952

2,60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964

2,70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974

2,80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981

2,90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3,00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

3,10 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993

3,20 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995

3,30 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997

3,40 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

3,50 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

3,60 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

3,70 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

3,80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

3,90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

4,00 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Page 16: Apostila de Estatística Indutiva

16

A idéia básica de intervalos de confiança

Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido) µ. Podemos estimar o parâmetro µ, usando informação de nossa amostra. Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de µ. Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais.

Um intervalo de confiança 95% para um parâmetro populacional fornece um intervalo no qual estaríamos 95% confiantes de cobertura do verdadeiro valor do parâmetro.

Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então se obtivermos um intervalo de confiança para o parâmetro µ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança não conterão µ.

Podemos obter intervalos de confiança de 95% para: médias, diferenças de médias, proporções, diferenças em proporções, etc.

Podemos também criar intervalos de confiança de 90%, 99%, 99.9%, etc, mas os intervalos de confiança de 95% são os mais utilizados.

Teorema Central do Limite

Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva

A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição da população.

DISTRIBUIÇÃO AMOSTRAL PARA MÉDIA

INTERVALOS DE CONFIANÇA PARA MÉDIA

Page 17: Apostila de Estatística Indutiva

17

Definições

1. Inferência: Trata-se do processo de obter informações sobre uma população a partir dos

resultados observados na amostra

2. Parâmetro: é a medida usada para descrever uma característica numérica populacional.

Média = µ

Proporção =

Variância = 2

Desvio-padrão = 3. Estatística da amostra: O estimador de um parâmetro populacional é uma característica

determinada na amostra.

Média amostral = x

Proporção amostral = p Variância amostral = S

2

Desvio-padrão amostral = S 4. Distribuição Amostral: é a distribuição de probabilidade de uma estatística da amostra que é

formada quando amostras de tamanho n são repetidamente colhidas de uma população. Se a estatística da amostra é sua média, teremos a distribuição amostral da média.

EXEMPLO Variável: Quantitativa Parâmetro: Média µ Suponha a população de estaturas: 1,60 1,62 1,65 1,66 1,70 1,72 1,73 1,73 1,75 1,75 1,76 1,76 1,76 1,78 1,78 1,80 1,82 1,85 1,92

N = 19, µ = 1,74, = 7,8 Se retirarmos várias amostras com n = 5 estaturas:

Amostra I: 1,60 1,78 1,82 1,66 1,73 x = 1,718

Amostra II: 1,76 1,80 1,92 1,70 1,72 x = 1,78

Amostra III: 1,66 1,75 1,76 1,78 1,85 x = 1,76

O RETÂNGULO REPRESENTA A POPULAÇÃO E CADA CÍRCULO REPRESENTA UMA AMOSTRA DE TAMANHO n . AS MÉDIAS PODEM DIFERIR.

AMOSTRA 3

AMOSTRA 4

AMOSTRA 2

AMOSTRA 5

AMOSTRA 1

Page 18: Apostila de Estatística Indutiva

18

Podemos obter estimativas da média populacional muito próximas porém não iguais.

Quando a amostragem é aleatória, podemos fazer inferências sobre a população com base no estudo de uma amostra.

Uma estatística é uma variável aleatória e sua distribuição de probabilidade é chamada

distribuição amostral.

Quando se considera todas as possíveis médias amostrais, a probabilidade de se obter valores próximos à média populacional é alta e a probabilidade de se obter valores distantes à média populacional é baixa.

Para que você entenda o teorema do limite central, considere que temos uma população com N = 4 salários mínimos:

1,3,5,7

Onde µ = 4 e = 2,236

Vamos tirar todas as amostras possíveis, com reposição de tamanho n = 2 e depois calcular as médias relativas a todas as amostras.

Sorteio 2 Soteio1

1 3 5 7

1 1 2 3 4 3 2 3 4 5 5 3 4 5 6

7 4 5 6 7

A tabela mostra que a média é uma variável aleatória, afinal no quadro acima ela assumiu valores de 1,0 a 6,0 Comparando os resultados, verificamos que a média das médias amostrais é rigorosamente igual a média populacional

)(x = 416

64

)(x = µ

Diante disso, poderíamos pensar que o mesmo raciocínio se aplica ao cálculo do desvio-padrão e da variância mas o que de fato ocorre é que :

)(x = n

Desvio-padrão das médias é chamado de erro-padrão

Page 19: Apostila de Estatística Indutiva

19

Distribuição das Médias:

À medida que n ( tamanho das amostras) cresce, as médias amostrais vão progressivamente tendendo a uma distribuição limite que é a distribuição Normal.

Para efeitos práticos, n ≥ 30, é uma aproximação muito boa.

As relações que acabamos de examinar constituem a base de um importante teorema

chamado TEOREMA DO LIMITE CENTRAL

TEOREMA DO LIMITE CENTRAL

Se amostras de tamanho n≥30 forem tiradas de uma população qualquer , então a distribuição das médias das amostras se aproximam de uma distribuição Normal. Quanto maior o tamanho da amostra , melhor a aproximação.

Se a própria população for distribuída normalmente, a distribuição amostral das médias das amostras será também normalmente distribuídas para qualquer tamanho n de amostra.

A média das possíveis médias amostrais é igual a média populacional

O desvio-padrão das médias amostrais é igual o desvio-padrão da população dividido pela raiz do tamanho da amostra, ou seja, o desvio-padrão das médias tem o mesmo centro da população mas não está tão espalhado, não varia tanto.

Como raramente conhecemos o desvio-padrão populacional, utilizamos o desvio-padrão amostral para o cálculo do erro-padrão, desde que n ≥ 30

ESTIMAÇÃO Se tomarmos a média amostral ou proporção amostral como estimativa da média populacional, teremos uma estimativa pontual mas como vimos, cada uma das possíveis amostras terá uma média ou proporção diferentes do valor real. Desse modo, devemos apresentar um intervalo de variação para a média e a proporção.Na estimativa por ponto, a partir das observações,calcula-se uma estimativa , usando as estatísticas.

Page 20: Apostila de Estatística Indutiva

20

INTERVALO DE CONFIANÇA PARA MÉDIA

Como saber o valor da população, quando tomamos uma amostra?

Podemos estimar o valor da população usando intervalos de confiança, que dá o intervalo dentro do qual se espera que esteja o valor da população com uma dada probabilidade ou nível de confiança.

Quanto maior o intervalo, maior é a segurança da estimativa.

O TLC nos diz que se n é suficientemente grande ( n > 30) , a média amostral tem

distribuição Normal com média e erro-padrão n

Nível de confiança é a probabilidade de que o intervalo estimado contenha o

parâmetro populacional.

Quando estudamos a distribuição Normal , percebemos que se X tem distribuição

Normal com média e desvio-padrão , então:

X tem aproximadamente 68% de chance de estar entre o intervalo

[ - ; + ] X tem aproximadamente 95% de chance de estar entre o intervalo

[ - 2 ; + 2] X tem aproximadamente 99% de chance de estar entre o intervalo

[ - 3 ; + 3] Devido a média amostral ter distribuição Normal:

A média populacional tem aproximadamente 68% de chance de estar entre o

intervalo

[ x - n

; x +

n

]

A média amostral tem aproximadamente 95% de chance de estar entre o intervalo

[ x - 2n

; x + 2

n

]

A média amostral tem aproximadamente 99% de chance de estar entre o intervalo

[ x - 3n

; x + 3

n

]

OBSERVAÇÃO:

Um problema com a construção do intervalo de confiança, é que não sabemos o verdadeiro

desvio=padrão populacional. Para grandes tamanhos amostrais, contudo, o desvio-padrão amostral S, pode ser usado no lugar do desvio-padrão populacional

E = z n

é a margem de erro, que é a maior distância possível entre a estimativa pontual e o

valor do parâmetro a ser estimado.

IC para populações infinitas: [ x - zn

S ; x + z

n

S]

Page 21: Apostila de Estatística Indutiva

21

Exemplo 1: Um fabricante de baterias afirma que a vida útil média de seu produto é de 50 meses com desvio-padrão de 4 meses e distribuição Normal. Um revendedor comprou um lote de 36 baterias.

a) Qual a probabilidade que a vida média dessa amostra seja inferior a 48 meses? b) Qual a probabilidade que a vida média seja inferior a 51 meses se o lote comprado for

de 64 baterias?

Exemplo 2: Quer-se estimar a vida útil média de uma determinada marca de tubo de imagem de TV . Supõe-se que a vida útil dos tubos de imagem tem distribuição Normal. Pegou-se uma amostra de n = 35 tubos de imagem e identificou-se média da amostra = 8900 com s = 500. Estimar a média da população com um IC 90% Exemplo 3: Uma companhia de computadores, deseja estimar o número médio de horas semanais gastos por adultos em frente ao computador em casa. Em uma amostra aleatória de n = 50 adultos, o tempo médio de uso de computadores em casa foi de 5,3 horas com desvio-padrão de 0,9 horas. Estimar com 95% de confiança , a média populacional.

Page 22: Apostila de Estatística Indutiva

22

Na vida real, não é prático coletar amostras de tamanho n < 30 porém se a população tiver uma distribuição normal e o desvio-padrão desconhecido, para pequenas amostras usaremos a distribuição t de student

Quando o desvio padrão da população não for conhecido, a estimativa da média da população deverá ser realizada com a distribuição t.

O procedimento é similar ao apresentado com a distribuição Z.

Em alguns casos, não é possível retirar amostras grandes, pois os dados disponíveis são

poucos, o custo unitário da amostragem é alto, o tempo disponível não é suficiente etc.

Como a forma da distribuição das médias de amostras pequenas dependerá da forma da distribuição da população, o desvio padrão da amostra não será uma boa estimativa do desvio padrão da população.

Portanto, para realizar a estimativa da média da população com amostras pequenas, a distribuição da população deverá ser normal.

o É recomendado verificar a forma da distribuição para confirmar a premissa de normalidade da amostra, por exemplo, construindo seu histograma.

o Se a inclinação da distribuição da população não for acentuada e o tamanho da amostra for pequeno, poderá ser utilizada a distribuição t com (n-1) graus de liberdade e desvio da população desconhecido.

Nessas condições, a estimativa da média da população será realizada com a distribuição t, conhecida como distribuição de Student.

T =

n

S

x

Quando o número de graus de liberdade cresce, a distribuição tende para distribuição

Normal

As caudas na distribuição t são mais gordas que a normal

Dependendo de n, temos um formato de curva, quando n < 30

Tem forma de sino

INTERVALOS DE CONFIANÇA PARA MÉDIA - AMOSTRAS PEQUENAS

Page 23: Apostila de Estatística Indutiva

23

Área total da curva é 1

É simétrica em torno da média

Uma família de curvas, cada uma delas depende de um parâmetro chamado graus de liberdade

Para estimar a média populacional, o número de graus de liberdade é igual a n-1

Tem caudas mais densas do que a distribuição normal;

Valores extremos são mais prováveis de ocorrer com a distribuição t do que com a

normal padrão;

Para cada possível valor dos graus de liberdade, há uma diferente distribuição t;

As distribuições com menores graus de liberdade são mais espalhadas;

Conforme o tamanho da amostra aumenta, s se torna uma estimativa mais confiável

de ; se n é muito grande, conhecer o valor de s é quase equivalente a conhecer .

GRAUS DE LIBERDADE

Graus de liberdade, normalmente simbolizados por gl, são um parâmetro da distribuição t que pode ser qualquer número real maior que zero. Fixando o valor de gl definimos uma situação particular da família de distribuições t. Uma distribuição t com um gl menor tem mais área nas caudas da distribuição que uma distribuição com um gl maior.

O efeito dos gl na distribuição de t está ilustrado nas três distribuições t mostradas na figura abaixo. Note-se que quanto menor o número de gl, mais aplainada (platocúrtica) é a forma da distribuição, resultando em maior área nas caudas da distribuição.

RELAÇÃO COM A CURVA NORMAL

Pode-se observar ainda que a distribuição t é muito semelhante à curva normal. À medida em que aumentam os gl, a distribuição t aproxima-se da distribuição normal padronizada (média = 0, desvio-padrão = 1). A curva normal padronizada é um caso particular da distribuição t quando gl tende ao infinito. Para os propósitos práticos, os valores distribuição t aproximam-se dos valores da distribuição normal padronizada relativamente depressa, tal que quando gl = 30, esses valores são quase idênticos.

Page 24: Apostila de Estatística Indutiva

24

Page 25: Apostila de Estatística Indutiva

25

TABELA T-STUDENT

GL 0,50 0,80 0,90 0,95 0,98 0,99 001 1,000 3,078 6,314 12,710 31,820 63,660 002 0,816 1,886 2,920 4,303 6,965 9,925 003 0,765 1,638 2,353 3,182 4,541 5,841 004 0,741 1,533 2,132 2,776 3,747 4,604 005 0,727 1,476 2,015 2,571 3,365 4,032 006 0,718 1,440 1,943 2,447 3,143 3,707 007 0,711 1,415 1,895 2,365 2,998 3,499 008 0,706 1,397 1,860 2,306 2,896 3,355 009 0,703 1,383 1,833 2,262 2,821 3,250 010 0,700 1,372 1,812 2,228 2,764 3,169 011 0,697 1,363 1,796 2,201 2,718 3,106 012 0,695 1,356 1,782 2,179 2,681 3,055 013 0,694 1,350 1,771 2,160 2,650 3,012 014 0,692 1,345 1,761 2,145 2,624 2,977 015 0,691 1,341 1,753 2,131 2,602 2,947 016 0,690 1,337 1,746 2,120 2,583 2,921 017 0,689 1,333 1,740 2,110 2,567 2,898 018 0,688 1,330 1,734 2,101 2,552 2,878 019 0,688 1,328 1,729 2,093 2,539 2,861 020 0,687 1,325 1,725 2,086 2,528 2,845 021 0,686 1,323 1,721 2,080 2,518 2,831 022 0,686 1,321 1,717 2,074 2,508 2,819 023 0,685 1,319 1,714 2,069 2,500 2,807 024 0,685 1,318 1,711 2,064 2,492 2,797 025 0,684 1,316 1,708 2,060 2,485 2,787 026 0,684 1,315 1,706 2,056 2,479 2,779 027 0,684 1,314 1,703 2,052 2,473 2,771 028 0,683 1,313 1,701 2,048 2,467 2,763 029 0,683 1,311 1,699 2,045 2,462 2,756 030 0,683 1,310 1,697 2,042 2,457 2,750 040 0,681 1,303 1,684 2,021 2,423 2,704 050 0,679 1,299 1,676 2,009 2,403 2,678 060 0,679 1,296 1,671 2,000 2,390 2,660 080 0,678 1,292 1,664 1,990 2,374 2,639 100 0,677 1,290 1,660 1,984 2,364 2,626 120 0,677 1,289 1,658 1,980 2,358 2,617 ∞ 0,674 1,282 1,645 1,960 2,326 2,576

Page 26: Apostila de Estatística Indutiva

26

A linha ν = ∞ indica o limite da distribuição t-student, onde ela se iguala à distribuição normal

padrão Para amostras pequenas, onde S é uma estimativa menos confiável de σ , devemos construir nosso intervalo de confiança de uma forma ligeiramente diferente.

Ao invés de usar o valor 1.96 ( em um intervalo de confiança 95%), usamos um valor ligeiramente maior, para refletir nossa redução na confiança. Obtemos o valor requerido da tabela de distribuição t. Tomamos o valor correspondente n-1 graus de liberdade. Note que quanto menor n, maiores os valores de t.

Note ainda que à medida que n cresce, o valor de t torna-se próximo a 1.96.

Repare que se a distribuição da variável original é muito distante de ser normalmente distribuída, e o tamanho amostral é muito pequeno, então as médias amostrais não terão uma distribuição aproximadamente normal e portanto este tipo de intervalo de confiança não será muito preciso e não deveria ser utilizado.

Exemplo1: Selecionamos 16 restaurantes e medimos a temperatura do café vendido de cada um. A temperatura média amostral é de 162º com desvio-padrão 10º . Um intervalo de confiança para a temperatura média com 95% de credibilidade é?

n

Stx 1n

Exemplo2: Não se conhece o consumo médio e o desvio padrão do consumo de combustível de automóveis da marca W. Sabe-se, no entanto, que a distribuição do consumo de combustível de automóveis dessa marca é aproximadamente normal. Na análise de 10 automóveis da marca W, obteve-se consumo médio de combustível de 8 km/l com um desvio padrão igual a 10 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um coeficiente de confiança igual a 95%.

Intervalos de confiança para uma proporção

Pesquisadores frequentemente expressam a frequência de ocorrência de um item numa amostra como uma proporção do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com água limpa parada contem 80 larvas das quais 60 são Aedes detritus. A proporção daquela espécie na

amostra é 75,080

60 ou 75%. Considerando esta amostra uma amostra aleatória, esta proporção é uma

estimativa da proporção total populacional.

Seja n o tamanho da amostra e seja x o número observado do evento de interesse. Então estimamos a

proporção populacional π com a proporção observada n

xp̂ .

INTERVALOS DE CONFIANÇA PARA PROPORÇÃO

Page 27: Apostila de Estatística Indutiva

27

Da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média

populacional, as proporções amostrais p̂ são distribuídas ao redor da verdadeira proporção

populacional π. Devido ao Teorema Central do Limite, para n grande e π não muito próximo de 0 ou 1, a

distribuição de p̂ será aproximadamente normalmente distribuída com média π e um desvio padrão

dado por n

)p1(p

DISTRIBUIÇÃO AMOSTRAL PARA PROPORÇÃO

Variável: Qualitativa

Parâmetro: Proporção desconhecida Exa) Universitários Rezam? Amostra de 127 alunos, 107 disseram que rezam, pelo menos de vez em quando. P = 84,25% Exb) 606 de 1318 usariam a internet para obter informações de saúde e medicina.. p = 45,98% Os mesmos resultados valem quando se deseja estimar o parâmetro proporção da população e a variável de interesse é qualitativa Exemplo: Uma caixa contém 3 peças boas e 1 defeituosa. Considere todas as possíveis amostras de tamanho 2 e sucesso é a extração de uma peço boa

= 75% B1 B2 B3 D

a) Com reposição

B1 B2 B1 B3 B1 D B1 B1 B2 B3 B2 D B2 B1 B2 B2

100% 100% 50% 100% 100% 50% 100% 100%

B3 D B3 B1 B3 B2 B3 B3 D B1 D B2 D B3 DD

50% 100% 100% 100% 50% 50% 50% 0%

Média das proporções = 16

1200 = 75% idêntica a = 75%

Desvio-padrão das proporções ≠ desvio-padrão da população

p freq P - média (P – média)2

(P – média)2.freq

100 9 25 625 5625

50 6 -25 625 3750

0 1 -75 5625 5625

total 15000

Desvio=padrão das médias = 62,3016

15000 %

Uma forma mais fácil de calcular: 62,302

)25(75.

n

qp

Page 28: Apostila de Estatística Indutiva

28

Onde p = proporção de sucesso q= proporção de fracassos

b) Sem reposição

B1 B2 B1 B3 B1 D B2 B3 B2 D B2 B1

100% 100% 50% 100% 50% 100%

B3 D B3 B1 B3 B2 D B1 D B2 D B3

50% 100% 100% 50% 50% 50%

Média das proporções = 12

900 = 75% idêntica a = 75%

Desvio-padrão das proporções ≠ desvio-padrão da população

p freq P - média (P – média)2

(P – média)2.freq

100 6 25 625 3750

50 6 -25 625 3750

total 7500

Desvio=padrão das médias = 2512

7500 %

Uma forma mais fácil de calcular: 2514

24.

2

)25(75

1N

nN.

n

q.p

%

Onde p = proporção de sucesso q= proporção de fracassos N = tamanho população N = tamanho da amostra Conclusão

)( p = µ

)( p = 1

..

N

nN

n

qp para amostras sem reposição

)( p = ..

n

qp para amostras com reposição

Distribuição das médias se aproxima da distribuição normal, quanto maior for o tamanho

da amostra. (n ≥ 30) Exemplo:

Page 29: Apostila de Estatística Indutiva

29

1) Se a proporção de eleitores que votam para o PT numa eleição presidencial é 40%, qual a probabilidade , de uma amostra de 70 eleitores apresentar uma proporção de menor que 30%?

INTERVALO DE CONFIANÇA PARA PROPORÇÃO

Da mesma forma, sabendo que o erro-padrão para proporção pode ser dado por n

pq, o intervalo de

confiança para proporção pode ser dado por:

IC para populações infinitas: n

pq.zp

IC para populações finitas: 1N

nN

n

pq.zp

Exemplo1: Vamos admitir que 57% de uma amostra de 2000 pessoas votem para o SERRA para presidente. Calcule um intervalo de confiança de 99% e de 90% para proporção da população

MARGEM DE ERRO:

Divulgar uma margem de erro em uma pesquisa é uma boa prática no sentido de que lembra aos leitores que as porcentagens ou valores produzidos pelas pesquisas de opinião não são as verdadeiras porcentagens e que há incerteza das verdadeiras porcentagens ou médias O que é uma margem de erro? É o termo adicionado e subtraído do estimador para formar um intervalo de confiança. Exemplo: Com 95% de confiança:

Para Média: 1,96n

S

Queremos dizer que a média amostral é estimador da população com erro para mais ou para menos dos termos mencionados acima. QUE TAMANHO MINHA AMOSTRA DEVE TER?

TAMANHO DA AMOSTRA

Page 30: Apostila de Estatística Indutiva

30

A representatividade da amostra dependerá de seu tamanho ( quanto maior, melhor) e de outras considerações metodológicas no estudo da amostragem. A pergunta freqüente que se faz à um estatístico é: “ qual deve ser o tamanho da amostra?” Ã medida que o nível de confiança cresce, o intervalo de confiança se alarga. A medida que o intervalo de confiança se alarga, a precisão da estimativa diminui. Uma forma de aumentar a precisão de uma estimativa sem a redução do nível de confiança é ampliar o tamanho da amostra. Mas quão grande precisa ser o tamanho da amostra para assegurar um certo nível de confiança para um erro máximo da estimativa? Quanto maior a confiança e menor a margem de erro, maior o tamanho da amostra TAMANHO DA AMOSTRA PARA MÉDIA

Sabemos que a margem de erro para a proporção com N desconhecido é: m = zn

S

Isolando n, temos: 2

22

m

Szn

S = estimativa amostral do DP populacional Para designar S no cálculo do tamanho da amostra, sendo que ainda não o conhecemos:

1) Desvio-padrão coletado em estudo passado 2) Estudo piloto 3) Conjecturas

Exemplo: Determinar o tamanho da amostra para estimar a idade média dos alunos da UNIP Araraquara no ano 2010 FATOR DE CORREÇÃO PARA POPULAÇÃO FINITA

Se uma população for finita, a fórmula que determina o erro-padrão da média precisa ser ajustada usando um fator de correção:

1N

nN

nx

Logo a margem de erro com N conhecido é: m = z1N

nN

n

S

Isolando n, temos: 222

22

Sz)1N(m

NSzn

Exemplo: Determinar o tamanho da amostra para estimar a idade média dos alunos do curso da UNIP Araraquara, ano 2010 EXPLICAÇÃO PARA O FATOR DE CORREÇÃO

Page 31: Apostila de Estatística Indutiva

31

Se as amostras fossem sem reposição, pode-se provar que os resultados do teorema do limite central permanecem idênticos , exceto para o desvio-padrão das médias Exemplo:

Sorteio 2 Soteio1

1 2 3 4 5

1 1,5 2,0 2,5 3,0

2 1,5 2,5 3,0 3,5

3 2,0 2,5 3,5 4,0

4 2,5 3,0 3,5 4,5

5 3,0 3,5 4,0 4,5

)(x = 320

60

x freq x-média (x-média)2

(x-média)2.freq

1,5 2 -1,5 2,25 4,5

2 2 -1 1 2

2,5 4 -0,5 0,25 1

3 4 0 0 0

3,5 4 0,5 0,25 1

4 2 1 1 2

4,5 2 1,5 2,25 4,5

total 15

)(x = 20

150,866

)(x = 1

.

N

nN

n

=

15

25

2

4,1

= 0,866

Conclusão: Se pegássemos todas as possíveis amostras sem reposição:

)(x = µ

)(x = 1

.

N

nN

n

Distribuição das médias se aproxima da distribuição normal, quanto maior for o tamanho

da amostra.

Page 32: Apostila de Estatística Indutiva

32

TAMANHO DA AMOSTRA PARA PROPORÇÃO

Exemplo: Vamos supor que queiramos estimar a proporção da população portadora de hepatite B, usando uma amostra aleatória. Queremos que o tamanho da amostra seja grande o suficiente de modo que a margem de erro de nossa estimativa seja de 3%.

Sabemos que a margem de erro para a proporção com N desconhecido é: m = zn

pq

Isolando n, temos: 2

2

m

pqzn

P = valor adivinhado para proporção ou analisado através de uma amostra piloto. Se nenhuma informação tivermos sobre p, usamos p = 50% Z = multiplicador apropriado para um nível de confiança fixado M = margem de erro ou máxima diferença que se admite suportar entre a proporção da população e da amostra Quanto maior a confiança e menor a margem de erro, maior o tamanho da amostra Exemplo: Calcule o tamanho da amostra dos colegas da faculdade, para estimar a proporção de pessoas que usam óculos.

Sabemos que a margem de erro para a proporção com N conhecido é: m = z1N

nN

n

pq

Isolando n, temos: pqz)1N(m

pqNzn

22

2

Exemplo: Calcule o tamanho da amostra dos colegas da faculdade, para estimar a proporção de pessoas que usam óculos com N = 500 pessoas.