teoria da amostragem estimaÇÃo - ifba.edu.br da amostragem... · concluímos que, se retirarmos...
TRANSCRIPT
Estatística Prof.ª Isabel C. C. Leite 1
TEORIA DA AMOSTRAGEM – DISTRIBUIÇÃO AMOSTRAL DOS ES TIMADORES
A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras dela extraídas.
É útil em: • estimação de parâmetros populacionais; • determinação das causas de diferenças observadas entre amostras. Constitui o que chamamos de estatística indutiva ou inferência estatística que consiste em
inferir conclusões importantes sobre uma população a partir da análise de resultados observados em amostras aleatórias. Como toda conclusão deduzida a partir da amostragem é acompanhada de um grau de incerteza ou risco, o problema fundamental da inferência estatística é medir este grau de incerteza ou risco das generalizações.
Parâmetro: medida numérica que descreve uma população. Genericamente representado por θ. Exemplos: média (µ ), variância ( 2σ ).
Estatística ou estimador: medida numérica que descreve uma amostra. Genericamente
representado por θ . Exemplos: média (x ), variância ( 2S ). Estimativa: valor numérico de um estimador.
Erro amostral: erro que ocorre pelo uso da amostra. Denotado por ε e definido por: θθε −= ˆ .
Uma distribuição amostral é a distribuição de probabilidade de um estimador (ou estatística) da amostra formada quando amostras de tamanho n são colhidas várias vezes de uma população.
Por exemplo, se o estimador da amostra for a sua média, a distribuição será uma distribuição amostral de médias das amostras.
Para cada distribuição amostral pode-se calcular a média, o desvio-padrão, etc.
n
n
n
n
1x
2xn
3xn
4xn
Distribuição amostral de
x
População
M
Repetir esse processo para todas as amostras de tamanho n
Estatística Prof.ª Isabel C. C. Leite 2
Distribuição amostral das médias Consideremos o seguinte problema. Seja X o peso real de pacotes de café, enchidos automaticamente por uma máquina. Sabe-se
que a distribuição de X pode ser representada por uma normal, com parâmetros 2 e σµ . Suponhamos que a máquina esteja regulada para encher os pacotes segundo uma distribuição
normal com média 500 gramas e desvio padrão de 10 gramas, isto é, ( )100,500~ NX . Sabemos que, às vezes, a máquina desregula-se e quando isto acontece o único parâmetro que se altera é a média, permanecendo a mesma variância. Para manter a produção sob controle iremos recolher uma amostra de 100 pacotes e pesá-los. Como essa amostra nos ajudará a tomar uma decisão?
Usaremos a média x da amostra como informação pertinente para uma decisão. Mesmo que a
máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes apresentam
certa variabilidade de peso. Mas se x não se afastar muito de 500 gramas, não existirão razões para suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão se o erro
amostral (x– 500) for “muito grande”. O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas.
Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes, sob a condição de a máquina estar regulada, teríamos idéia do comportamento da
variável x , e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer. Caso o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso.
Portanto é importante conhecer as propriedades da distribuição da variável x .
As médias x das amostras de tamanho n retiradas de uma população com média µ e desvio padrão σ formam a distribuição amostral com os seguintes parâmetros:
• O valor esperado ou média é igual à média populacional: ( ) ( ) µµ == xxE .
• A variância é igual à variância populacional dividida pelo tamanho da amostra:
( )n
xxVar2
2)(σσ == .
OBS: Se a população é finita e de tamanho N conhecido, e se a amostragem é feita sem
reposição, então ( )1
)(2
2
−−⋅==
N
nN
nxxVar
σσ .
Temos, portanto, para desvio padrão das médias amostrais:
• ( )n
xσσ = , se a população é infinita, ou se a amostragem é feita com reposição;
• ( )1−
−=N
nN
nx
σσ , se a população é finita, ou se a amostragem é feita sem reposição.
Observemos pelas fórmulas apresentadas que quanto maior o tamanho da amostra, menor será a
variância de x , ou seja, o estimador x será mais preciso à medida que o tamanho da amostra aumentar.
Estatística Prof.ª Isabel C. C. Leite 3
Teorema do limite central
Se de uma população com parâmetros (µ , 2σ ) for retirada uma amostra de tamanho
suficientemente grande, a distribuição de x será aproximadamente normal, seja qual for a forma da distribuição da população.
Ou seja,
−−≅
≅
1,ou,
22
N
nN
nNx
nNx
σµσµ
com distribuições padronizadas dadas por:
1
ou
−−
−=−=
N
nN
n
xZ
n
xZ i
ii
i σµ
σµ
Estatística Prof.ª Isabel C. C. Leite 4
Aplicações 1. Voltando ao problema inicial, onde uma máquina enchia pacotes cujos pesos seguiam uma
distribuição normal N(500,100). Colhendo-se uma amostra de n = 100 pacotes e pesando-os, x terá uma distribuição normal com média 500 e variância 100/100 = 1. Logo, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 g de menos de 2 gramas será
( ) ( ) %95)22(5024982500 ≅<<−=<<=<− zPxPxP
Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498,502). Caso isto ocorra, podemos considerar como um evento raro, e será razoável supor que a máquina esteja desregulada.
2. Admite-se que as alturas de 3000 estudantes do sexo masculino de uma universidade são normalmente distribuídas, com a média 172,72 cm e o desvio padrão 7,62 cm. Se forem obtidas 80 amostras de 25 estudantes cada uma, quais serão a média e o desvio padrão esperados da distribuição amostral das médias resultantes se amostragem for feita: (a) com reposição; (b) sem reposição?
Solução:
O número de amostras de 25 elementos que podem ser obtidas teoricamente de um grupo de
3000 estudantes, com e sem reposição, são: (3000)25 e C3000,25, respectivamente, muito maiores do que 80. Por isso não se obtém uma verdadeira distribuição amostral das médias, mas apenas uma experimental. Apesar disso, visto que o número de amostras é grande, haverá uma concordância muito estreita entre as duas distribuições amostrais.
(a) ( ) ( ) cm. 524,125
62,7x e cm 72,172 =====
nx
σσµµ
(b) ( ) ( ) cm, 518,113000
253000
25
62,7
1x e cm 72,172 =
−−=
−−===
N
nN
nx
σσµµ que é apenas
ligeiramente menor que 1,524 cm e pode, portanto, para todos os fins práticos, ser considerado igual ao da amostragem com reposição.
Conclusão: pode-se considerar esta distribuição amostral experimental das médias
aproximadamente normal, com a média 172,72 cm e desvio padrão 1,524 cm.
3. Em quantas amostras do problema anterior pode-se esperar que a média se encontre: (a) entre 169,67 cm e 173,48cm; (b) abaixo de 170,00 cm?
Resp: (a) o número esperado de amostras é 536687,080 ≅⋅ .
(b) o número esperado de amostras é 30375,080 =⋅ .
Estatística Prof.ª Isabel C. C. Leite 5
Dimensionamento de uma amostra Muitas vezes é importante sabermos qual deverá ser o tamanho de uma amostra de modo a
obter um erro de estimação ε previamente estipulado com determinado grau de confiança dos resultados obtidos.
Exemplo: Seja ( ): 1200,840X N . Qual deverá ser o tamanho de uma amostra de tal forma que
( )1196 1204 0,90P x< < = ?
Solução: Se
( )
( )2
1200
1200 e 840 840 28,98
x
xn n
µµ σ
σ
== = ⇒
= =
Para o intervalo dado temos que 4xε µ= − = ±
Como ( )x
zx
µσ
−= e 0,45 1,64z z= = , segue-se que 4
1,64 141,1328,98
n
n
±± = ∴ = .
Concluímos que, se retirarmos uma amostra de 141 elementos da população X, teremos 90% de confiança que x estará no intervalo (1196,1216) e ( )1196 0,05P x < = ou ( )1216 0,05P x > = ;
isto significa que o risco que corremos de que o valor da média caia fora do intervalo anterior é de 10%.
Distribuição amostral da soma, ou diferença, entre duas médias Sejam duas populações independentes com distribuição amostral das médias dadas por
2 21 2
1 21 21 2
, e ,x N x Nn n
σ σµ µ
≅ ≅
.
Considerando amostras independentes das duas populações, temos:
( )2 2
1 21 2 1 2
1 2
,x x Nn n
σ σµ µ
± ≅ ± +
A distribuição normal padrão para ( )1 2x x± será ( ) ( )1 2 1 2
2 21 2
1 2
i
x xz
n n
µ µ
σ σ
± − ±=
+
Aplicação: Numa escola A, os alunos submetidos a um teste obtiveram média 70 com desvio
padrão 10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram média 65 com desvio padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na B, uma de 49 alunos, qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades? Resp. 0,3557
Estatística Prof.ª Isabel C. C. Leite 6
Distribuição amostral das proporções Consideremos uma população infinita onde a probabilidade de ocorrência de um evento
(denominado seu sucesso) é p, enquanto a de sua não ocorrência (fracasso) é q = 1 – p. Tomemos todas as amostras possíveis de tamanho n extraídas desta população e, para cada amostra, determinemos a proporção p de sucessos.
Temos, portanto, o parâmetro p que expressa a probabilidade, ou proporção, ou freqüência relativa, de determinado evento da população.
nº de casos favoráveis ao evento na amostraˆ
nº total de casos da amostra
xp
n= =
Obtemos assim uma distribuição amostral das proporções. Para amostras suficientemente grandes, a distribuição amostral de p é aproximadamente
normal com
• média: ( )p pµ = ,
• desvio padrão: ( )p
pq
nσ = ,
onde: p = verdadeira probabilidade populacional de “sucessos” q = 1 – p n = tamanho da amostra.
Assim, ˆ ,pq
p N pn
≅
e sua distribuição normal padronizada é expressa por ˆ i
i
p pZ
pq
n
−= .
Aplicação
Verificou-se que 2% das ferramentas produzidas por certa máquina são defeituosas. Qual é a probabilidade de, em uma remessa de 400 dessas ferramentas, revelarem-se defeituosas:
(a) 3% ou mais; (b) 1,5 % ou menos?
Solução:
Temos: ( )ˆ 0,02p pµ = = e ( )ˆ
0,02 0,980,007
400p
pq
nσ ⋅= = = .
(a) Calculando a variável padronizada z para p 1 = 0,03: 1
0,03 0,021,43
0,007z
−= =
( )ˆ( 0,03) 1,43 0,5 0,4236 0,0764P p P z≥ = ≥ = − = ou 7,64%
(b) Calculando a variável padronizada z para p 1 = 0,015: 1
0,015 0,020,71
0,007z
−= = −
( )ˆ( 0,015) 0,71 0,5 0,2611 0,2389P p P z≤ = ≤ − = − = ou 23,89 %
Estatística Prof.ª Isabel C. C. Leite 7
Distribuição amostral da soma, ou diferença, entre duas proporções Sabemos da distribuição amostral das proporções que para amostras suficientemente grandes,
1 11 1
1
ˆ ,p q
p N pn
≅
e 2 2
2 22
ˆ ,p q
p N pn
≅
.
Considerando amostras independentes das duas populações, temos:
( ) 1 1 2 21 2 1 2
1 2
ˆ ˆ ,p q p q
p p N p pn n
± ≅ ± +
A distribuição normal padrão para ( )1 2ˆ ˆp p± será ( ) ( )1 2 1 2
1 1 2 2
1 2
ˆ ˆi
p p p pz
p q p q
n n
± − ±=
+.
Estimação
Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que
determina estimativas dos parâmetros populacionais. Existem dois tipos de estimação de um parâmetro populacional: estimação por ponto e a
estimação por intervalo.
Estimação por ponto
A partir das observações, usando o estimador, procura-se encontrar um valor numérico único (estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro.
Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas a distribuição por amostragem dos estimadores torna possível o estudo das qualidades do estimador.
ESTIMADORES PONTUAIS DOS PRINCIPAIS PARÂMETROS POPULACIONAIS Parâmetro Estimador Média (µ) n
ii 1
1x x
n =
= ∑
Variância (σ 2) ( )22
1
1
1
n
ii
S x xn =
= −− ∑
Desvio padrão (σ) ( )2
1
1
1
n
ii
S x xn =
= −− ∑
Proporção (p) ˆ
xp
n= , onde
x = número de elementos da amostra que possuem a característica n = tamanho da amostra
Estatística Prof.ª Isabel C. C. Leite 8
Exemplo: Para avaliar a taxa de desemprego em determinado estado, escolhe-se uma amostra
aleatória de 1000 habitantes em idade de trabalho e contam-se os desempregados: 87. Estimar a proporção de desempregados em todo o estado.
87ˆ 0,087
1000p = =
Estimação por intervalo
Procura determinar um intervalo que contenha o valor do parâmetro populacional, com certa margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo.
Com base na amostra, uma maneira de expressar a precisão da estimação é calcular os limites de um intervalo, o Intervalo de Confiança (IC), tais que (1 α− ) seja a probabilidade de que o verdadeiro valor do parâmetro esteja contido nele.
Portanto, α : grau de desconfiança, nível de incerteza ou nível de significância. 1 α− : coeficiente de confiança ou nível de confiabilidade;
Formalizando, se denotarmos o parâmetro de interesse por θ, desejamos obter um intervalo com limite inferior I e limite superior S tal que
P(I < θ < S) = 1 α− ,
onde α é um valor pequeno, ou seja 1α− é próximo de 1.
Os limites deste intervalo são variáveis aleatórias, pois dependem da amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1 - α (××××100)% confiança para o parâmetro θ.
Valores de α mais comumente usados são α = 0,10 1 – α = 0,90 ou 90% α = 0,05 1 – α = 0,95 ou 95% α = 0,01 1 – α = 0,99 ou 99%
A precisão com que se conhece θ depende da amplitude deste intervalo dada por S – I. Quanto menor esta amplitude melhor determinado estará o parâmetro.
A figura abaixo ilustra o conceito de intervalo de confiança.
( )( )
( )( )
( )( )
( )
µ
1AMOSTRA
2
3
4
5
6
7
...
INTERVALOS DE CONFIANÇA
Estatística Prof.ª Isabel C. C. Leite 9
O verdadeiro valor do parâmetro estará contido em 1α− (××××100) % desses intervalos. Observe que algumas estimativas intervalares incluem e outras não incluem o verdadeiro valor
do parâmetro da população. Ao retirarmos uma amostra e calcularmos um intervalo de confiança, não sabemos na verdade se o parâmetro da população se encontra naquele intervalo calculado. O importante é saber que se está utilizando um método com 1 α− (××××100) % de probabilidade de sucesso.
Intervalos de confiança para a média de uma população normal com variância conhecida
Consideremos uma população normal com média desconhecida que desejamos estimar e com
variância conhecida, ( )2?,X N σ= .
Procedimento para a construção do IC: 1. Retiramos uma amostra casual simples de n elementos.
2. Calculamos a média da amostra x .
3. Calculamos o desvio padrão da média amostral: n
σ.
4. Fixamos o nível de significância α, e com ele determinamos zα , tal que
( ) ,P z zα α> = ou seja, ( ) ( ) e 2 2
P z z P z zα αα α> = < = .
Logo, devemos ter ( ) 1P z zα α< = −
zα− zα
Neste caso o Intervalo de Confiança de 1α− (×100)% para µ é dado por:
, x z x zn n
α ασ σ − +
Usando uma notação mais simples, teremos ( )( ) ( )1 2IC , 1 % ,µ α µ µ− = .
Exemplos:
1. A duração de vida de uma peça de equipamento é tal que 5σ = horas. Foram amostradas
aleatoriamente 100 dessas peças, obtendo-se média de 500 horas. Desejamos construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95% de confiança.
Solução: Temos ( )5, 100, 500, 1 100 95%n xσ α= = = − = .
2α 1 α− 2
α
Estatística Prof.ª Isabel C. C. Leite 10
O gráfico da distribuição normal padrão será:
0
0,95
0,0250,025
D istribuição Norm al (0,1)
-1,96 1,96
z = 1,96 corresponde à área 0,475
Substituindo os dados na fórmula, temos o intervalo de confiança solicitado,
( )499,02 500,98 95%P µ< < = ,
significando que com 95% de confiança a duração média da peça está entre 499,02 e 500,98 horas. Portanto, se fossem construídos intervalos dessa mesma maneira, para um grande número de
amostras, em 95% dos casos os intervalos incluiriam µ . Para os casos de populações finitas, multiplica-se o desvio padrão pelo fator de correção,
gerando o IC:
, 1 1
N n N nx z x z
N Nn nα α
σ σ − −− ⋅ + ⋅ − −
2. Admitindo os mesmos dados do exemplo anterior, consideremos como população a produção de 1000 peças. Nesse caso o intervalo para a média será (499,07;500,93), conforme os cálculos abaixo.
1 2
5 1000 100 5 1000 100500 1,96 . e 500 1,96 .
1000 1 1000 1100 100µ µ− −= − ⋅ = + ⋅
− −
Logo, o intervalo (499,07;500,93) contém a duração média das 1.000 peças com 95% de
confiança.
Amostras Grandes - População Normal ou não Normal Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuição da
população, os limites do Intervalo de Confiança para a média (µ) poderão ser calculados com base na distribuição Normal padrão. Da mesma forma podemos utilizar o desvio padrão amostral S no lugar de σ (desvio-padrão populacional), caso este não seja conhecido.
Estatística Prof.ª Isabel C. C. Leite 11
Intervalos de confiança para a proporção
Lembremos que quando p populacional é conhecida, ˆx
pn
= tem distribuição aproximadamente
normal, ˆ ,pq
p N pn
≅
. Para construirmos o IC para p desconhecida, determinamos p na amostra
e consideramos ˆ
ˆ ˆp
pq
nσ ≅ .
Logo, ao nível α de significância, ( ) 1P z zα α< = − , onde ˆ
ˆ
p
p pz
σ−= .
Desenvolvendo os cálculos, como foi feito para a média, chegamos à formula do IC para a proporção p populacional.
( )( ) ( )1 2IC , 1 % ,p p pα− = =ˆ ˆ ˆ ˆ
ˆ ˆ;pq pq
p z p zn nα α
− +
Exemplo: Para se estimar a porcentagem de alunos de um curso favoráveis à modificação do currículo
escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favoráveis. a. Faça um IC para a proporção de todos os alunos do curso favoráveis à modificação ao
nível de 4% de significância. b. Qual o valor do erro de estimação ocorrido no intervalo acima?
Solução: Dados n = 100, x = 80, α = 4%, temos que
ˆ0,80 , 0,20p q= = e ˆ
0,8 0,20,04
100pσ ⋅≅ = .
a. 0,48 2,05z zα = = ⇒ ( ) ( )IC ,96% 0,718;0,882p =
Temos uma confiança de 96% que de 71,8% a 88,2% dos alunos do curso serão favoráveis à modificação curricular.
b. ˆ
ˆ
p
p pz
σ−= ⇒ ˆ
ˆp
p
z zσ σε ε σ
σ= ∴ = ⋅
2,05 0,04 0,082 8,2%ε ε= ⋅ = ∴ =
O erro de estimação cometido em (a) é de 8,2% para 96% de confiança e uma amostra de 100 alunos.
Estatística Prof.ª Isabel C. C. Leite 12
REFERÊNCIAS BIBLIOGRÁFICAS
• BUSSAB, Wilton de O. MORETTIN, Pedro A. Estatística Básica. 5ª edição. São Paulo: Saraiva,
2006.
• MORETTIN, Luiz Gonzaga. Estatística Básica – Volume 2 – Inferência. São Paulo: Pearson
Makron Books, 2000.
• MARTINS, Gilberto de A. Estatística Geral e Aplicada. 3ª ed. São Paulo: Atlas, 2005.
• SPEIGEL, Murray R. Estatística. 3ª ed. São Paulo: Pearson Makron Books, 1993.
• Notas de aula dos professores do Departamento de Estatística – UFBA, disponíveis no site
www.est.ufba.br.