introdução à inferência estatística 1. conceitos básicos ... · discretas, quando assumem...
TRANSCRIPT
Introdução à Inferência Estatística
1. Conceitos básicos em inferência
1.1. População: conjunto de indivíduos, ou objetos, com pelo menos uma característica em comum.
Também será denotada por população objetivo, que é sobre a qual
desejamos obter informações e/ou fazer inferências.
Pode, ainda, ser chamada de Universo.
Será denotada por: Nu,,u,u,uU 321
iu unidades elementares, i = 1, 2, . . . , N.
N = no de elementos, ou tamanho, da população.
Na inferência estatística a população será definida por:
“Conjunto de valores possíveis de uma característica observável (variável), associada a uma coleção de indivíduos ou objetos de interesse.”
1.2. Amostra: subconjunto, necessariamente finito, de uma
população.
é selecionada de forma que todos os elementos da população tenham
a mesma chance de serem escolhidos.
1.2.1. Planejamentos amostrais: são esquemas para coletas de dados
numa pesquisa amostral.
Existem vários tipos de planejamentos dos quais destacaremos: Amostra Aleatória Simples – AAS
Amostra Aleatória Estratificada – AAE
Amostra Aleatória por Conglomerados – AAC
1.3. Estudo experimental
Experimento no qual um tratamento é deliberadamente aplicado
aos indivíduos (ou itens) a fim de observar a sua resposta.
Exemplos: a) ensaios para se verificar a dureza de materiais; b) estudos caso-controle em epidemiologia; c) pesos de cobaias submetidas à diferentes dietas;
“Requer um planejamento experimental.”
No estudo experimental é muito importante determinar o número de elementos necessários, ou seja, o tamanho da amostra;
É importante, também, planejar adequadamente a amostra de maneira a não interferir nos resultados.
1.4. Levantamentos de dados A seguir, serão apresentadas algumas situações envolvendo levantamentos de dados.
1.4.1. Uma amostra: sortear ao acaso n elementos de uma população
para participar da amostra. Exemplos: a) dentre os eleitores de um município, sortear uma amostra para
participar de uma pesquisa de intenção de votos; b) produzir uma amostra de peças de espuma, segundo uma específica
formulação, para serem colocadas num teste de resistência à tração.
Normalmente compara-se a amostra com um padrão já conhecido; Espera-se que a população seja homogênea (pouca variabilidade).
1
2 1
3 2
n
N
População Amostra
1.4.2. Duas amostras: amostras são retiradas de uma ou duas populações.
quando dispomos de duas amostras, geralmente queremos realizar uma comparação entre as mesmas.
i) Amostras independentes: nenhum elemento da primeira amostra interfere nos da segunda.
a) Dois tratamentos: tomar n elementos de uma única população e
dividi-los em dois grupos, de preferência de mesmo tamanho.
(ou sortear, independentemente, duas amostras de uma mesma população)
1
1 2
2
3 n1
n1 + n2 = n
1
2
N
n2
População Amostras
b) Duas populações: sortear n1 elementos da primeira população e n2
da segunda e aplicar o mesmo tratamento em ambas.
1 1
2 2
3
n1
N1 n1 + n2 = n
1 1
2 2
3
n2
N2
Populações Amostras
ii) Amostras pareadas ou emparelhadas (dependentes): uma amostra
observada em dois instantes diferentes: (antes/depois), (tempo 1,
tempo 2).
1 1 Fazer as diferenças:
2 t 2
di = yi2 – yi1
n n
t1 t2
Amostras
1.4.3. k amostras: quando se tem k ≥ 3 amostras para comparar.
a) k grupos independentes: classificar, ao acaso, n elementos em k
grupos tal que n = n1 + n2 + . . . + nk.
O ideal é que todos os grupos sejam de mesmo tamanho: n1 = n2 = . . . = nk
A1 : 1, 2, . . . , n1
k grupos independentes
A2 : 1, 2, . . . , n2
Ak : 1, 2, . . . , nk
A variável A é chamada de fator e os grupos A1, A2, . . . , Ak são os
tratamentos ou níveis do fator A.
b) Medidas repetidas: o mesmo grupo, de tamanho n, é observado em
k instantes diferentes.
1 1 1 1
2 2 2 . . . 2
n n n n
t1 t2 t3 tk
c) k grupos independentes com duas classificações: classificação de vários grupos quando se tem dois critérios (ou fatores) para a divisão dos mesmos.
Considere, por exemplo, um fator com três níveis (A1, A2, A3) e um
segundo fator com dois níveis (B1, B2), terem-se k = 23 = 6 grupos para serem comparados.
A1
B1 A1 B1 B2 A1 B2
A2
B1 A2 B1
6 grupos
B2 A2 B2
A3
B1 A3 B1 B2 A3 B2
RESUMO
A) Estudo Amostral
Amostragem Aleatória Simples - AAS
Amostragem Aleatória Estratificada - AAE
Amostragem Aleatória por Conglomerados - AAC
Planejamentos Amostrais mais complexos
B) Estudo Experimental
1 amostra 1 população
2 amostras
Independentes 2 tratamentos (1 pop) 1 tratamento (2 pop)
Dependentes dados pareados
k amostras ( k ≥ 3 )
Independentes 1 fator 2 fatores
Dependentes medidas repetidas
2. Estimação
2.1. Parâmetro populacional
Geralmente denotado por , é uma característica populacional de interesse que pode ser expressa através de uma quantidade numérica.
É desconhecido e fixo. Exemplos: no de desempregados, salário médio de uma categoria ou população, opinião a respeito de uma dada atitude, casos de dengue, tempo gasto com filhotes, tamanho da população tempo de vida no de votos para um determinado candidato, produção agrícola, etc...
2.2. Espaço paramétrico
Denotado por , é o conjunto dos possíveis valores de .
Exemplos:
= { | –∞ < < ∞ };
= { | 0 < < ∞ };
= { | 0 ≤ ≤ 1 };
= { (1, 2 ) | –∞ < 1 < ∞ e 0 < 2 < ∞ }.
2.3. Amostra aleatória: representada pelas iniciais aa, é formada pela
observação de n variáveis aleatórias X1, X2, . . . , Xn, independentes
e identicamente distribuídas, iid.
nXXX ,,, 21 )|( xF
2.4. Variável aleatória: uma variável aleatória ou va é uma característica
desconhecida, que pode variar de um indivíduo para outro da
população e que, ao ser observada ou mensurada, deve gerar uma única resposta.
Tipos de variáveis: a) Variáveis qualitativas: variáveis cujos possíveis resultados são
atributos ou qualidades. São NÃO NUMÉRICAS.
Podem ser classificadas em: ORDINAIS, quando obedecem a uma ordem natural ou
NOMINAIS, quando não seguem nenhuma ordem. b) Variáveis quantitativas: variáveis cujos possíveis resultados são
valores NUMÉRICOS, resultantes de mensuração ou contagem.
Podem ser classificadas em: DISCRETAS, quando assumem valores num espaço finito ou infinito
enumerável ou CONTÍNUAS, quando assumem valores num conjunto não
enuméral (conjunto dos números reais).
iid
2.5. Estatística: é uma medida numérica, S(X), que descreve uma
característica da amostra e que não depende de parâmetros
desconhecidos.
A estatística é uma função da amostra: S(X) = f (X1, X2, . . . , Xn)
toda estatística S(X) é uma va
Exemplos:
n
XX
n
ii
1 – média amostral,
1
1
2
2
n
XX
s
n
ii
– variância amostral,
X(1) = mínimo 1ª estatística de ordem,
X(n) = máximo n-ésima estatística de ordem.
PARÂMETROS E ESTATÍSTICAS
Nome ESTATÍSTICA
Amostra PARÂMETRO
População
Média X
Variância s2
2
Correlação rX,Y X,Y
Proporção p p
2.6. Estimador: é uma quantidade, obtida a partir de uma amostra, que
“estima” o valor de um parâmetro populacional.
Será denotado por T(X).
{ T(X) } { S(X) }, ou seja, todo estimador é uma função da
amostra e, portanto, é uma estatística, porém, nem toda estatística é um estimador.
todo estimador T(X) é uma va
Notação: Como T(X) estima o parâmetro , uma notação simplificada
para o estimador é dada por: ˆ)(XT
2.6.1. Estimativa: estimativa é o valor de T(X) obtido de uma aa, que
será usada para estimar o valor desconhecido de .
2.7. A inferência estatística:
“A Inferência Estatística busca obter informações de parâmetros populacionais por intermédio das características de uma amostra e de suas distribuições de probabilidade”.
Amostra aleatória
= parâmetro
= estimador
Inferência: Intervalos de Confiança
Testes de Hipótese
2.7.1. Questões que surgem:
Quantos estimadores existem para um parâmetro populacional?
Quais as qualidades que se deseja de um estimador?
Como escolher o melhor estimador?
Resposta: Teoria da Otimalidade.
Estimador ótimo
A teoria da Otimalidade estuda as propriedades dos estimadores e
define critérios para a escolha do estimador ótimo.
Segundo essa teoria um estimador é ótimo basicamente se for:
consistente, não viesado e de mínima variância.
2.7.2. Estimador não viesado (não viciado): o viés, do inglês bias, é
definido pela diferença entre o valor esperado do estimador e
o parâmetro o qual este está estimando.
Seja , estimador de , então o viés de é definido por:
B( ) = E( ) –
em que é o espaço paramétrico.
Se E( ) = , é dito não viesado (ou não viciado) e
B( ) = 0
2.7.3. Precisão: uma propriedade importante para um estimador é que
seja preciso, em outras palavras, que tenha baixa variabilidade
deve ser escolhido tal que sua variância seja a menor
possível
)ˆ(|ˆ Var seja mínima
2.7.4. Consistência: além de ser não viesado e de variância mínima
deseja-se que o estimador seja consistente.
Um estimador é dito ser consistente para se
)ˆ(lim En
e 0)ˆ(lim
Varn
Conforme aumenta o tamanho da amostra, mais se aproxima de .
Assim, a teoria da otimalidade procura, dentre os estimadores não
viesados, aquele de menor variância.
3. Estimadores para a média
A maioria das aplicações em estatística envolvem a estimação da
média populacional .
Quais os possíveis estimadores e qual deles é o melhor
(estimador ótimo).
Média aritmética ou média amostral ( X );
Média geométrica;
Média harmônica;
Média aparada;
Média ponderada;
Qual desses estimadores é o melhor para estimar ?
1º - escolher os não viesados;
2º - dentre os não viesados, encontrar o de menor variância.
A teoria estatística (otimalidade) resolve esse problema e mostra
qual o estimador ótimo para :
Segundo essa teoria, o estimador ótimo para é a média
amostral X .
Estudo das propriedades dos estimadores: média amostral, média harmônica, média geométrica e média ponderada
( X1/3 + 2X2/3 ) para amostras de tamanho n = 2, com reposição.
População 2 3 5 6 8
Parâmetros Populacionais
Média
= 4.8
Variância
2 = 4.56
Tamanho
N = 5
n
2= 2.28
Amostras Estimadores
X1 X2 X M. Harm. M. Geom. M. Pond. 2 2 2 2.000 2.000 2.000
2 3 2.5 2.400 2.449 2.667
2 5 3.5 2.857 3.162 4.000
2 6 4 3.000 3.464 4.667
2 8 5 3.200 4.000 6.000
3 2 2.5 2.400 2.449 2.333
3 3 3 3.000 3.000 3.000
3 5 4 3.750 3.873 4.333
3 6 4.5 4.000 4.243 5.000
3 8 5.5 4.364 4.899 6.333
5 2 3.5 2.857 3.162 3.000
5 3 4 3.750 3.873 3.667
5 5 5 5.000 5.000 5.000
5 6 5.5 5.455 5.477 5.667
5 8 6.5 6.154 6.325 7.000
6 2 4 3.000 3.464 3.333
6 3 4.5 4.000 4.243 4.000
6 5 5.5 5.455 5.477 5.333
6 6 6 6.000 6.000 6.000
6 8 7 6.857 6.928 7.333
8 2 5 3.200 4.000 4.000
8 3 5.5 4.364 4.899 4.667
8 5 6.5 6.154 6.325 6.000
8 6 7 6.857 6.928 6.667
8 8 8 8.000 8.000 8.000
Médias 4.8 4.323 4.546 4.80
Variâncias 2.28 2.5852 2.3772 2.5333
Tabela resumo dos estimadores para a Média Populacional.
Estimadores
X M. Harm. M. Geom. M. Pond.
Média do Estimador 4.8 4.3229 4.5456 4.8
Vício 0 -0.4771 -0.2544 0
Variância do Estimador 2.28 2.5852 2.3772 2.5333
Relação da variância de X com as demais 1 1.1339 1.0426 1.1111
Pela tabela acima, pode-se ver claramente que: as médias harmônica e geométrica são viesadas para estimar a média μ;
a média ponderada com pesos 1/3 e 2/3 não é viesada para estimar μ, porém não tem a menor variância
a média amostral X é o estimador não viciado de menor variância.
3.1. Métodos de estimação:
A teoria estatística define diversos métodos de estimação, dentre os
quais destacamos:
3.2. Método da máxima verossimilhança: o estimador de máxima
verossimilhança (emv) é dado pelo valor que maximiza a distribuição
conjunta da amostra, chamada de função de verossimilhança,
representada por )|( dadosL .
n
iixfdadosL
1
)()|( )]|([maxˆ dadosLMV
3.3. Métodos dos momentos: o estimador é obtido igualando os
momentos amostrais com os momentos populacionais.
Depende da distribuição de probabilidade da população
3.4. Método mínimos quadrados: o estimador é aquele que minimiza uma
soma de quadrados de erros entre os valores da amostra e uma
função do parâmetro )(g .
n
iii gxSQE
1
2)]([)( )]([minˆ
SQEMQ
O estimador de mínimos quadrados é mais utilizado no ajuste de
modelos de regressão linear.
3.5. Estimador Bayesiano: o estimador Bayesiano é obtido a partir
de técnicas da estatística Bayesiana que faz uma ponderação da
função de verossimilhança )|( dadosL por uma distribuição de
probabilidade para , )( .
4. Propriedades do estimador para a média .
4.1. Propriedades da média amostral
Mostrar que a média amostral X atende às propriedades de
estimador ótimo para .
Seja a aa X1, X2, . . . , Xn, independentes e identicamente
distribuídas (iid) segundo uma função distribuição de probabilidade tal que
)(XE e 2)(XVar , então
i)
n
n
n
XE
n
XEXE
n
i in
i i 11)( ,
ou seja, X não é viesada para estimar a média μ, pois, )(XE
ii) a variância de X é dada por:
nn
n
n
XVar
n
XVarXVar
n
i in
i i2
2
2
211)(
.
A partir de )(XE e )(XVar temos, ainda que
nn
XE lim)(lim
0lim)(lim2
n
XVarnn
portanto, X é um estimador consistente.
iii) Neste ponto devemos mostrar que, dos estimadores não viesados para
μ, X é o de variância mínima, porém, tal demonstração depende da
distribuição de probabilidade )(xf e não está na ementa desta
disciplina.
A teoria estatística mostra que existe um limite inferior para a
variância dos estimadores não viesados de um parâmetro θ, no
caso a média μ, e que X atinge este limite, sendo, assim, o estimador
não viesado para μ de menor variância.
O que podemos mostrar aqui é que, dos estimadores para a média
dados por uma combinação linear da amostra, aquele de menor
variância é dado pela combinação na qual todos os coeficientes são
iguais a 1/n.
Seja a aa X1, X2, . . . , Xn, e sejam os estimadores para a média do
tipo
nnXaXaXa 2211ˆ
Então
nnXaXaXaEE 2211ˆ
nn XEaXEaXEa 2211
naaa 21
naaa 21
ou seja, para que seja não viesado,
121 naaa (1)
Desta forma, sob a restrição (1) e usando multiplicadores de
Lagrange pode-se obter os valores de a1, a2,..., an que minimizam a
Var .
nnXaXaXaVarVar 2211ˆ
nn XVaraXVaraXVara 22
221
21
n
i in aaaa1
2222222
221
A função de Lagrange (ou lagrangeano) é dado por:
L(λ) 111
22
n
i in
i i aa (2)
O primeiro termo de L(λ) é a variância de e, como o termo em λ,
sob a restrição (1) é igual a zero, encontrar os coeficientes que minimizam
L(λ) equivale a minimizar Var .
Derivando (2) em relação a cada um dos ai, i = 1, 2, ..., n e igulando
cada derivada a zero, os valores dos ai’s que minimizam a Var são
dados pela solução do sistema:
02
02
02
2
22
2
21
1
nn
aa
aa
aa
L
L
L
Das derivadas de L(λ) temos que:
222
21 222 naaa ,
e, como o termo 22 é constante, segue-se que
naaa 21 . (3)
Portanto, das relações (1) e (3) tem-se que os valores dos
coeficientes que minimizam a variância de são dados por:
n
aaa n
121 .
4.2. A distribuição da média amostral
Como já vimos, a média amostral X é uma v.a. tendo, assim, uma distribuição de probabilidade que depende da distribuição f(x) da
população de X. O teorema central do limite, contudo, determina
uma distribuição para a média amostral que independe da distribuição de probabilidade da população.
4.2.1. O Teorema Central do Limite (TCL)
Seja uma aa X1, X2, . . . , Xn, de uma população com média μ < ∞
e variância σ2 < ∞. Então, para n suficientemente grande, a média
amostral X tem aproximadamente uma distribuição normal com
XE e n
XVar2
, ou seja
nNX
2
,~
O TCL aparece na maioria das vezes no seguinte formato: se X é uma
va com média μ < ∞ e variância σ2 < ∞, então
1,0~/
Nn
X
,
ou ainda,
1,0~ NXn
Notas: i) Quanto maior o tamanho da amostra n, melhor será a proximação (um
valor apropriado para o tamanho da amostra é n 30); ii) Quando a distribuição da população for normal, então a distribuição de
X também será normal; iii) O TCL considera que a variância da população é conhecida. Exemplo:
Considere quatro populações apresentadas na Figura 1: binomial(10, 0.10); Poisson(2); exponencial(1) e Normal(50, 9).
As duas primeira são distribuições discretas e assimétricas, a terceira é uma distribuição contínua fortemente assimétrica e a última é uma população normal, que é uma distribuição simétrica.
Considerando essas quatro populações, foram geradas 1000 amostras de tamanhos 8, 30 e 100.
Para cada uma das 1000 amostras foi calculada a média amostral X , ao final do que, foram construídos os respectivos histogramas apresentados nas Figuras 2 a 5.
Pelos histogramas pode-se observar nitidamente a melhoria na simetria, indicando que a distribuição se aproxima da normal.
Figura 1: Populações consideradas na simulação do TCL para X .
Figura 2: Histogramas para X em amostras de população binomial(10, 0.10).
Figura 3: Histogramas para X em amostras de população Poisson(2).
Figura 4: Histogramas para X em amostras de população exponencial(1).
Figura 5: Histogramas para X em amostras de população normal(50, 9).
4.3. O estimador para a proporção p
Seja uma característica apresentada por uma parcela de uma população. Então, definimos a proporção p de indivíduos, ou objetos, da população com essa característica por
p população da tamanho
ticacaracterís a com população da itens,ou ,indivíduos de número
Exemplos: 1) Proporção de mulheres na população brasileira em 2014 segundo
estimativa do IBGE:
Número estimado de mulheres = 102.609.055 Número estimado de homens = 100.159.507 Popualção total estimada = 202.768.562
506.02202.768.56
5102.609.05p
Portanto, segundo o IBGE, em 2014 a proporção de mulheres na população brasileira é de 0.506.
2) Proporção de defeitos na linha de produção de uma indústria
)defeito(Pp
Um estimador intuitivo para uma proporção populacional é dado
pela respectiva proporção amostral, a qual denotaremos por p .
Seja uma amostra aleatória iid X1, X2, . . . , Xn, então
p amostra da tamanho
ticacaracterís a com amostra da itens,ou ,indivíduos de número
Obs: se pensarmos na observação de um indivíduo, ou item, da amostra com a característica de interesse como um sucesso, podemos definir p
por
np
amostra na sucessos de númeroˆ
Considere uma v.a. X, resultado de um ensaio de Bernoulli. Então, X assume os valores 0 e 1 para sucesso e fracasso, respectivamente, com probabilidades (1 – p) e p.
A distribuição de probabilidade de X é a Bernoulli(p), cuja função de probabilidade é dada por
1,0,)1()( 1 xppxXP xx.
A média e da v.a. de Bernoulli é dada por
pppXE )1(01)(
Como, pXE )( 2, a variância da v.a. de Bernoulli é
)1()()()(222 ppXEXEXVar
)1(2 pppp
Considere, agora, uma amostra aleatória iid X1, X2, . . . , Xn, de uma
variável de Bernoulli cuja probabilidade de sucesso é p. Para contar a número de observações da amostra com a característica de interesse basta somar as v.a.’s já que estas assumem os valores 0 e 1.
n
iin XXXX
121 ,
desta forma, a proporção amostral é dada por:
n
Xp
n
i i 1ˆ .
Ou seja, o estimador para a proporção populacional p é dado pela média amostral de uma v.a. de Bernoulli,
Xn
Xp
n
i i
1ˆ .
4.3.1. A distribuição da proporção amostral p
Como o estimador para a proporção p é, de fato, uma média amostral,
todas as propriedades de X também são válidas para p .
Desta forma, podemos afirmar que p é o estimador ótimo para a
proporção p.
O valor esperado e a variância de p são, portanto, dados por
pn
np
n
XEpE
n
i i
1ˆ
n
pp
n
pnp
n
XVarpVar
n
i i )1()1(ˆ
221
Por se tratar de uma média amostral, o TCL é válido para a
determinação da distribuição do estimador da proporção.
Logo, p tem uma distribuição aproximada normal com média p e
variância n
pp
n
)1(2
, ou seja,
n
pppNp
)1(,~ˆ . (4)
Ainda:
1,0~/)1(
ˆN
npp
pp
Exemplo: 3) Um dado equilibrado é lançado 128 vezes. Determine a probabilidade
de que a proporção amostral dos múltiplos de 3 seja inferior a 0.27.
Múltiplos de 3: {3, 6},
logo a proporção populacional é 3
1p
Desta forma, a proporção amostral p tem distribuição assintótica
normal com parâmetros:
3
1ˆ ppE
1152
2
128
)3/2)(3/1()1(ˆ
n
pppVar
1152
2,
3
1~ˆ Np
Portanto,
0643.052.11152/2
3/127.027.0ˆ
ZPZPpP
Determine, ainda, qual o tamanho da amostra para que, com
probabilidade 0.95 (95%), p não se afaste de p mais do que 0.03
(3%) para mais ou para menos.
95.003.0ˆ ppP
95.003.0ˆ03.0 ppP
95.09/2
03.0
9/2
03.0
nZ
nP
–1.96 1.96
Portanto: 96.19/2
03.0
n
03.0
96.1
2
9
n
9495.94803.0
96.1
9
22
n
Desta forma, uma amostra de 949 lançamentos do dado garante uma
“margem de erro” na estimativa de p de 3% para mais ou para menos.
4.3.2. O Estimador conservador para a variância da proporção
amostral p .
Na aproximação da distribuição da proporção amostral dada em (4),
observa-se que a variância de p depende da proporção populacional p.
Como não se conhece o valor de p, uma alternativa seria utilizar a sua
estimativa p para estimar a pVar ˆ . Neste caso, tem-se
Método conservativo:
Uma segunda alternativa, muito utilizada, considera o valor de p
que maximiza pVar ˆ
n
pppVar
2
ˆ
logo, o valor de p que maximiza pVar ˆ é dado por 2
1p e,
n
pVarp 4
1ˆmax
Exemplo: 4) Refazer a segunda parte do exemplo anterior com a variância de p
calculada pelo método conservativo.
95.04/1
03.0
4/1
03.0
nZ
nP
Portanto: 96.14/1
03.0
n
03.0
96.12 n
10671.106703.0
96.1
4
12
n
4.4. Determinação do tamanho da amostra na estimação da média μ
A determinação do tamanho da amostra é, talvez, o grande dilema dos pesquisadores, pois deve levar em conta a precisão desejada nas
estimativas. Essa precisão normalmente é expressa por um erro tolerável 1 e, a determinação do tamanho da amostra n, deve levar em
conta a probabilidade de se cometer esse erro.
Seja X estimador não viesado para μ, então, ao se considerar uma
precisão na estimativa da média, deseja-se que X não se afaste de μ
mais do que unidades.
1 O erro tolerável é uma margem de erro das estimativas em relação à média μ, para mais ou para menos, o qual
o pesquisador está disposto a aceitar.
Na prática, define-se a região XX , e o tamanho da
amostra é determinado tal que a probabilidade de que essa região
contenha o real valor de μ seja alta, como por exemplo, de 0.95. Em linguagem estatística:
XXP
)()()( XdpXdp
X
XdpP
nZ
nP
//
Fazendo 1 , então, temos que 2//
Z
n (ver figura).
Desta forma, o tamanho da amostra desejado é determinado por:
2/
Z
n
2
22/
2
Z
n (5)
Nota: a expressão (5) é conhecida como tamanho da amostra para populações infinitas
Na estimativa da proporção temos que )1(2 pp , logo, a
expressão (5) é escrita como
2
22/)1(
Zpp
n (6)
E, caso seja considerada a estimativa conservadora para 2 , temos
2
22/
4 Z
n
Exemplos: 5) Para estimar o nível de dureza de peças de espuma produzidas para
fabricação de bancos de automóveis, um técnico decide selecionar uma amostra da produção para medição. Como os ensaios para medição são destrutivos, o número de peças para análise deve ser bem determinado para evitar gastos desnecessários. Para a obtenção do tamanho da amostra fixou-se uma precisão de ud5.0 . Determinar o número de peças para que, com probabilidade de 0.99 a precisão na estimativa seja alcançada.
Dados históricos do processo registram uma variância de 96.22 .
99.0/96.2
5.0
/96.2
5.0
nZ
nP
Como 99.01 005.02
99.01
2
Logo 575.2005.02/ ZZ
Portanto 575.296.2
5.0
n
5.78
5.0
575.296.22
2
n
Ou seja, devem ser selecionadas n = 79 peças para teste. 6) Na primeira fase de uma pesquisa eleitoral foi realizada uma pré-
amostra de tamanho 40, obtendo-se a proporção de 24.0ˆ p
eleitores que afirmaram votar no candidato do partido “PTK”. Qual deve ser o tamanho da amostra para que, com probabilidade de 0.95 a estimativa p não se distancie do real valor mais do que 0.02
(0.02, ou 2%, é a margem de erro da pesquisa)?
Da pré-amostra temos que uma estimativa da variância populacional é
dada por: 1824.0)24.01(24.0ˆ 2 .
Como 95.0 025.02
96.1025.0 Z
Da expressão (6), o tamanho da amostra para uma margem de erro de 2% é
17528.1751)02.0(
)96.1)(24.01(24.02
2
n eleitores.
Como alternativa, podemos utilizar a estimativa conservadora de 2 .
Neste caso, o tamanho da amostra seria de
24002401)02.0(4
)96.1(2
2
n eleitores.
Exemplos: 7) Um elevador de capacidade 500kg serve um edifício. Se a distribuição
do peso dos usuários for N(70, 100), determine: a) A probabilidade de que 7 passageiros ultrapassem esse limite.
b) E 6 passageiros?
8) Um produto da marca XIS é comercializado em pacotes de 1kg, sendo
que a distribuição do peso dos pacotes, em gramas, é N(1000, 51.2).
A fiscalização inspeciona o produto por amostras de 5 pacotes e aplica
uma multa se a média for menor do que 4g a menos do que peso
especificado no pacote.
a) Qual a probabilidade de que o produto XIS seja multado?
Os produtores de XIS pretendem diminuir essa probabilidade. Para
isso o Estatístico da empresa deu duas sugestões: deslocar a média,
aumentando o peso dos pacotes ou aplicar ações visando reduzir a
variabilidade do processo de empacotamento.
b) Para quanto deve ser regulada a nova média de tal forma que a
probabilidade em (a) seja de no máximo 0.03?
c) Uma segunda opção sugerida pelos supervisores é implantar
medidas que diminuam a variabilidade do processo de
empacotamento, tornando-o maos preciso. De quanto deve diminuir
a variância do processo para se obter o mesmo resultado pretendido
em (a)?
Considere, agora, que a produtora tenha um custo adicional de 25
centavos por cada pacote com peso acima de 1008g. Qual a alteração
no custo em cada um dos casos para um produção de 5 toneladas?
Comandos do R para visualizar os procedimentos:
x1 <- seq(990,1010,by=0.2)
y1 <- dnorm(x1,1000,3.2)
x2 <- seq(992,1012,by=0.2)
y2 <- dnorm(x2,1002,3.2)
x3 <- seq(990,1010,by=0.2)
y3 <- dnorm(x1,1000,2.1247)
my <- max(y1,y2,y3)
plot(c(990,1012), c(0,my), axes=T, type="n", main="Densidade
Normal", xlab="x", ylab="")
lines(c(1008,1008),c(-1,my+0.1), lty=2)
axis(1,1008, paste("1008")) lines(x1,y1, xlab="x", col="blue3", lwd=2)
lines(x2,y2, xlab="x", col="green3", lwd=2)
lines(x3,y3, xlab="x", col="red3", lwd=2)
9) Seja uma população com 20 e 567.22 .
a) Numa amostra de tamanho n = 9, qual a probabilidade de que a
variância amostral seja superior a 4.3?
b) Determine um limite inferior k para o qual a probabilidade de que 2s
ser menor do que k seja de 0.025.
Exercícios de revisão
1) Uma indústria de chocolates produz uma barra com peso médio de 180g e desvio-padrão de 1.8g. As barras são embaladas em caixas com 20 unidades. Admitindo que o peso do produto tenha distribuição normal, qual é a probabilidade de que: a) Uma caixa do produto pese mais do que 3614g. b) A proporção de barras produzidas com peso acima de 182.3g. c) Numa amostra de 9 barras do chocolate, a média amostral não se
distancie do peso nominal mais do que 1.4g.
O supervisor de produção está desconfiado de que a máquina que produz as barras está desgastada e, com isso, o peso está variando demais. Para fazer uma verificação ele decide retirar uma amostra de itens da produção, pesá-las e verificar qual é a proporção de barras com peso acima do limite de 182.3g. Ele deseja que a sua estimativa não se distancie do real valor mais do que 0.02 com probabilidade 0.90. Quantas barras ele deve pesar?
2) 10 corpos de provas foram submetidos a um teste de corrosão onde
foram submersos em água salgada durante 60 segundos/dia. A corrosão foi medida pela perda de peso em miligramas/decímetro quadrado/dia (mdd). Os dados obtidos foram:
130.1 124.2 122.0 110.8 113.1 103.9 101.5 92.3 91.4 83.7
a) De uma estimativa para a perda média de peso (em mdd) devido à corrosão.
Considerando desvio padrão conhecido = 16
b) Encontre o intervalo simétrico em torno de X que tenha probabilidade igual a 0.98.
c) Supondo que a verdadeira média seja = 110mdd, calcule a
probabilidade de que X seja superior ao máximo valor da amostra.
4.5. Distribuição da média amostral quando a variância σ2 é
desconhecida
4.6. Distribuição da variância amostral s2
4.7. Distribuição da diferença entre duas médias amostrais
4.7.1. 1º. Caso: variâncias conhecidas 4.7.2. 2º. Caso: variâncias iguais e desconhecidas 4.7.3. 3º. Caso: variâncias diferentes e desconhecidas
Resultados:
i) Se X1 N( 1 ; 12 ) e X2 N( 2 ; 2
2 ), independentes, então
X1 ± X2 N(1 ± 2 ; 12 + 2
2 )
ii) Se X1, X2, . . . , Xn N( ; 2 ), iid
X1 + X2 + . . . + Xn N(n ; n2 )