introdução à inferência estatística 1. conceitos básicos ... · discretas, quando assumem...

Introdução à Inferência Estatística

1. Conceitos básicos em inferência

1.1. População: conjunto de indivíduos, ou objetos, com pelo menos uma característica em comum.

Também será denotada por população objetivo, que é sobre a qual

desejamos obter informações e/ou fazer inferências.

Pode, ainda, ser chamada de Universo.

Será denotada por: Nu,,u,u,uU 321

iu unidades elementares, i = 1, 2, . . . , N.

N = no de elementos, ou tamanho, da população.

Na inferência estatística a população será definida por:

“Conjunto de valores possíveis de uma característica observável (variável), associada a uma coleção de indivíduos ou objetos de interesse.”

1.2. Amostra: subconjunto, necessariamente finito, de uma

população.

é selecionada de forma que todos os elementos da população tenham

a mesma chance de serem escolhidos.

1.2.1. Planejamentos amostrais: são esquemas para coletas de dados

numa pesquisa amostral.

Existem vários tipos de planejamentos dos quais destacaremos: Amostra Aleatória Simples – AAS

Amostra Aleatória Estratificada – AAE

Amostra Aleatória por Conglomerados – AAC

1.3. Estudo experimental

Experimento no qual um tratamento é deliberadamente aplicado

aos indivíduos (ou itens) a fim de observar a sua resposta.

Exemplos: a) ensaios para se verificar a dureza de materiais; b) estudos caso-controle em epidemiologia; c) pesos de cobaias submetidas à diferentes dietas;

“Requer um planejamento experimental.”

No estudo experimental é muito importante determinar o número de elementos necessários, ou seja, o tamanho da amostra;

É importante, também, planejar adequadamente a amostra de maneira a não interferir nos resultados.

1.4. Levantamentos de dados A seguir, serão apresentadas algumas situações envolvendo levantamentos de dados.

1.4.1. Uma amostra: sortear ao acaso n elementos de uma população

para participar da amostra. Exemplos: a) dentre os eleitores de um município, sortear uma amostra para

participar de uma pesquisa de intenção de votos; b) produzir uma amostra de peças de espuma, segundo uma específica

formulação, para serem colocadas num teste de resistência à tração.

Normalmente compara-se a amostra com um padrão já conhecido; Espera-se que a população seja homogênea (pouca variabilidade).

1

2 1

3 2

n

N

População Amostra

1.4.2. Duas amostras: amostras são retiradas de uma ou duas populações.

quando dispomos de duas amostras, geralmente queremos realizar uma comparação entre as mesmas.

i) Amostras independentes: nenhum elemento da primeira amostra interfere nos da segunda.

a) Dois tratamentos: tomar n elementos de uma única população e

dividi-los em dois grupos, de preferência de mesmo tamanho.

(ou sortear, independentemente, duas amostras de uma mesma população)

1

1 2

2

3 n1

n1 + n2 = n

1

2

N

n2

População Amostras

b) Duas populações: sortear n1 elementos da primeira população e n2

da segunda e aplicar o mesmo tratamento em ambas.

1 1

2 2

3

n1

N1 n1 + n2 = n

1 1

2 2

3

n2

N2

Populações Amostras

ii) Amostras pareadas ou emparelhadas (dependentes): uma amostra

observada em dois instantes diferentes: (antes/depois), (tempo 1,

tempo 2).

1 1 Fazer as diferenças:

2 t 2

di = yi2 – yi1

n n

t1 t2

Amostras

1.4.3. k amostras: quando se tem k ≥ 3 amostras para comparar.

a) k grupos independentes: classificar, ao acaso, n elementos em k

grupos tal que n = n1 + n2 + . . . + nk.

O ideal é que todos os grupos sejam de mesmo tamanho: n1 = n2 = . . . = nk

A1 : 1, 2, . . . , n1

k grupos independentes

A2 : 1, 2, . . . , n2

Ak : 1, 2, . . . , nk

A variável A é chamada de fator e os grupos A1, A2, . . . , Ak são os

tratamentos ou níveis do fator A.

b) Medidas repetidas: o mesmo grupo, de tamanho n, é observado em

k instantes diferentes.

1 1 1 1

2 2 2 . . . 2

n n n n

t1 t2 t3 tk

c) k grupos independentes com duas classificações: classificação de vários grupos quando se tem dois critérios (ou fatores) para a divisão dos mesmos.

Considere, por exemplo, um fator com três níveis (A1, A2, A3) e um

segundo fator com dois níveis (B1, B2), terem-se k = 23 = 6 grupos para serem comparados.

A1

B1 A1 B1 B2 A1 B2

A2

B1 A2 B1

6 grupos

B2 A2 B2

A3

B1 A3 B1 B2 A3 B2

RESUMO

A) Estudo Amostral

Amostragem Aleatória Simples - AAS

Amostragem Aleatória Estratificada - AAE

Amostragem Aleatória por Conglomerados - AAC

Planejamentos Amostrais mais complexos

B) Estudo Experimental

1 amostra 1 população

2 amostras

Independentes 2 tratamentos (1 pop) 1 tratamento (2 pop)

Dependentes dados pareados

k amostras ( k ≥ 3 )

Independentes 1 fator 2 fatores

Dependentes medidas repetidas

2. Estimação

2.1. Parâmetro populacional

Geralmente denotado por , é uma característica populacional de interesse que pode ser expressa através de uma quantidade numérica.

É desconhecido e fixo. Exemplos: no de desempregados, salário médio de uma categoria ou população, opinião a respeito de uma dada atitude, casos de dengue, tempo gasto com filhotes, tamanho da população tempo de vida no de votos para um determinado candidato, produção agrícola, etc...

2.2. Espaço paramétrico

Denotado por , é o conjunto dos possíveis valores de .

Exemplos:

= { | –∞ < < ∞ };

= { | 0 < < ∞ };

= { | 0 ≤ ≤ 1 };

= { (1, 2 ) | –∞ < 1 < ∞ e 0 < 2 < ∞ }.

2.3. Amostra aleatória: representada pelas iniciais aa, é formada pela

observação de n variáveis aleatórias X1, X2, . . . , Xn, independentes

e identicamente distribuídas, iid.

nXXX ,,, 21 )|( xF

2.4. Variável aleatória: uma variável aleatória ou va é uma característica

desconhecida, que pode variar de um indivíduo para outro da

população e que, ao ser observada ou mensurada, deve gerar uma única resposta.

Tipos de variáveis: a) Variáveis qualitativas: variáveis cujos possíveis resultados são

atributos ou qualidades. São NÃO NUMÉRICAS.

Podem ser classificadas em: ORDINAIS, quando obedecem a uma ordem natural ou

NOMINAIS, quando não seguem nenhuma ordem. b) Variáveis quantitativas: variáveis cujos possíveis resultados são

valores NUMÉRICOS, resultantes de mensuração ou contagem.

Podem ser classificadas em: DISCRETAS, quando assumem valores num espaço finito ou infinito

enumerável ou CONTÍNUAS, quando assumem valores num conjunto não

enuméral (conjunto dos números reais).

iid

2.5. Estatística: é uma medida numérica, S(X), que descreve uma

característica da amostra e que não depende de parâmetros

desconhecidos.

A estatística é uma função da amostra: S(X) = f (X1, X2, . . . , Xn)

toda estatística S(X) é uma va

Exemplos:

n

XX

n

ii

1 – média amostral,

1

1

2

2

n

XX

s

n

ii

– variância amostral,

X(1) = mínimo 1ª estatística de ordem,

X(n) = máximo n-ésima estatística de ordem.

PARÂMETROS E ESTATÍSTICAS

Nome ESTATÍSTICA

Amostra PARÂMETRO

População

Média X

Variância s2

2

Correlação rX,Y X,Y

Proporção p p

2.6. Estimador: é uma quantidade, obtida a partir de uma amostra, que

“estima” o valor de um parâmetro populacional.

Será denotado por T(X).

{ T(X) } { S(X) }, ou seja, todo estimador é uma função da

amostra e, portanto, é uma estatística, porém, nem toda estatística é um estimador.

todo estimador T(X) é uma va

Notação: Como T(X) estima o parâmetro , uma notação simplificada

para o estimador é dada por: ˆ)(XT

2.6.1. Estimativa: estimativa é o valor de T(X) obtido de uma aa, que

será usada para estimar o valor desconhecido de .

2.7. A inferência estatística:

“A Inferência Estatística busca obter informações de parâmetros populacionais por intermédio das características de uma amostra e de suas distribuições de probabilidade”.

Amostra aleatória

= parâmetro

= estimador

Inferência: Intervalos de Confiança

Testes de Hipótese

2.7.1. Questões que surgem:

Quantos estimadores existem para um parâmetro populacional?

Quais as qualidades que se deseja de um estimador?

Como escolher o melhor estimador?

Resposta: Teoria da Otimalidade.

Estimador ótimo

A teoria da Otimalidade estuda as propriedades dos estimadores e

define critérios para a escolha do estimador ótimo.

Segundo essa teoria um estimador é ótimo basicamente se for:

consistente, não viesado e de mínima variância.

2.7.2. Estimador não viesado (não viciado): o viés, do inglês bias, é

definido pela diferença entre o valor esperado do estimador e

o parâmetro o qual este está estimando.

Seja , estimador de , então o viés de é definido por:

B( ) = E( ) –

em que é o espaço paramétrico.

Se E( ) = , é dito não viesado (ou não viciado) e

B( ) = 0

2.7.3. Precisão: uma propriedade importante para um estimador é que

seja preciso, em outras palavras, que tenha baixa variabilidade

deve ser escolhido tal que sua variância seja a menor

possível

)ˆ(|ˆ Var seja mínima

2.7.4. Consistência: além de ser não viesado e de variância mínima

deseja-se que o estimador seja consistente.

Um estimador é dito ser consistente para se

)ˆ(lim En

e 0)ˆ(lim

Varn

Conforme aumenta o tamanho da amostra, mais se aproxima de .

Assim, a teoria da otimalidade procura, dentre os estimadores não

viesados, aquele de menor variância.

3. Estimadores para a média

A maioria das aplicações em estatística envolvem a estimação da

média populacional .

Quais os possíveis estimadores e qual deles é o melhor

(estimador ótimo).

Média aritmética ou média amostral ( X );

Média geométrica;

Média harmônica;

Média aparada;

Média ponderada;

Qual desses estimadores é o melhor para estimar ?

1º - escolher os não viesados;

2º - dentre os não viesados, encontrar o de menor variância.

A teoria estatística (otimalidade) resolve esse problema e mostra

qual o estimador ótimo para :

Segundo essa teoria, o estimador ótimo para é a média

amostral X .

Estudo das propriedades dos estimadores: média amostral, média harmônica, média geométrica e média ponderada

( X1/3 + 2X2/3 ) para amostras de tamanho n = 2, com reposição.

População 2 3 5 6 8

Parâmetros Populacionais

Média

= 4.8

Variância

2 = 4.56

Tamanho

N = 5

n

2= 2.28

Amostras Estimadores

X1 X2 X M. Harm. M. Geom. M. Pond. 2 2 2 2.000 2.000 2.000

2 3 2.5 2.400 2.449 2.667

2 5 3.5 2.857 3.162 4.000

2 6 4 3.000 3.464 4.667

2 8 5 3.200 4.000 6.000

3 2 2.5 2.400 2.449 2.333

3 3 3 3.000 3.000 3.000

3 5 4 3.750 3.873 4.333

3 6 4.5 4.000 4.243 5.000

3 8 5.5 4.364 4.899 6.333

5 2 3.5 2.857 3.162 3.000

5 3 4 3.750 3.873 3.667

5 5 5 5.000 5.000 5.000

5 6 5.5 5.455 5.477 5.667

5 8 6.5 6.154 6.325 7.000

6 2 4 3.000 3.464 3.333

6 3 4.5 4.000 4.243 4.000

6 5 5.5 5.455 5.477 5.333

6 6 6 6.000 6.000 6.000

6 8 7 6.857 6.928 7.333

8 2 5 3.200 4.000 4.000

8 3 5.5 4.364 4.899 4.667

8 5 6.5 6.154 6.325 6.000

8 6 7 6.857 6.928 6.667

8 8 8 8.000 8.000 8.000

Médias 4.8 4.323 4.546 4.80

Variâncias 2.28 2.5852 2.3772 2.5333

Tabela resumo dos estimadores para a Média Populacional.

Estimadores

X M. Harm. M. Geom. M. Pond.

Média do Estimador 4.8 4.3229 4.5456 4.8

Vício 0 -0.4771 -0.2544 0

Variância do Estimador 2.28 2.5852 2.3772 2.5333

Relação da variância de X com as demais 1 1.1339 1.0426 1.1111

Pela tabela acima, pode-se ver claramente que: as médias harmônica e geométrica são viesadas para estimar a média μ;

a média ponderada com pesos 1/3 e 2/3 não é viesada para estimar μ, porém não tem a menor variância

a média amostral X é o estimador não viciado de menor variância.

3.1. Métodos de estimação:

A teoria estatística define diversos métodos de estimação, dentre os

quais destacamos:

3.2. Método da máxima verossimilhança: o estimador de máxima

verossimilhança (emv) é dado pelo valor que maximiza a distribuição

conjunta da amostra, chamada de função de verossimilhança,

representada por )|( dadosL .

n

iixfdadosL

1

)()|( )]|([maxˆ dadosLMV

3.3. Métodos dos momentos: o estimador é obtido igualando os

momentos amostrais com os momentos populacionais.

Depende da distribuição de probabilidade da população

3.4. Método mínimos quadrados: o estimador é aquele que minimiza uma

soma de quadrados de erros entre os valores da amostra e uma

função do parâmetro )(g .

n

iii gxSQE

1

2)]([)( )]([minˆ

SQEMQ

O estimador de mínimos quadrados é mais utilizado no ajuste de

modelos de regressão linear.

3.5. Estimador Bayesiano: o estimador Bayesiano é obtido a partir

de técnicas da estatística Bayesiana que faz uma ponderação da

função de verossimilhança )|( dadosL por uma distribuição de

probabilidade para , )( .

4. Propriedades do estimador para a média .

4.1. Propriedades da média amostral

Mostrar que a média amostral X atende às propriedades de

estimador ótimo para .

Seja a aa X1, X2, . . . , Xn, independentes e identicamente

distribuídas (iid) segundo uma função distribuição de probabilidade tal que

)(XE e 2)(XVar , então

i)

n

n

n

XE

n

XEXE

n

i in

i i 11)( ,

ou seja, X não é viesada para estimar a média μ, pois, )(XE

ii) a variância de X é dada por:

nn

n

n

XVar

n

XVarXVar

n

i in

i i2

2

2

211)(

.

A partir de )(XE e )(XVar temos, ainda que

nn

XE lim)(lim

0lim)(lim2

n

XVarnn

portanto, X é um estimador consistente.

iii) Neste ponto devemos mostrar que, dos estimadores não viesados para

μ, X é o de variância mínima, porém, tal demonstração depende da

distribuição de probabilidade )(xf e não está na ementa desta

disciplina.

A teoria estatística mostra que existe um limite inferior para a

variância dos estimadores não viesados de um parâmetro θ, no

caso a média μ, e que X atinge este limite, sendo, assim, o estimador

não viesado para μ de menor variância.

O que podemos mostrar aqui é que, dos estimadores para a média

dados por uma combinação linear da amostra, aquele de menor

variância é dado pela combinação na qual todos os coeficientes são

iguais a 1/n.

Seja a aa X1, X2, . . . , Xn, e sejam os estimadores para a média do

tipo

nnXaXaXa 2211ˆ

Então

nnXaXaXaEE 2211ˆ

nn XEaXEaXEa 2211

naaa 21

naaa 21

ou seja, para que seja não viesado,

121 naaa (1)

Desta forma, sob a restrição (1) e usando multiplicadores de

Lagrange pode-se obter os valores de a1, a2,..., an que minimizam a

Var .

nnXaXaXaVarVar 2211ˆ

nn XVaraXVaraXVara 22

221

21

n

i in aaaa1

2222222

221

A função de Lagrange (ou lagrangeano) é dado por:

L(λ) 111

22

n

i in

i i aa (2)

O primeiro termo de L(λ) é a variância de e, como o termo em λ,

sob a restrição (1) é igual a zero, encontrar os coeficientes que minimizam

L(λ) equivale a minimizar Var .

Derivando (2) em relação a cada um dos ai, i = 1, 2, ..., n e igulando

cada derivada a zero, os valores dos ai’s que minimizam a Var são

dados pela solução do sistema:

02

02

02

2

22

2

21

1

nn

aa

aa

aa

L

L

L

Das derivadas de L(λ) temos que:

222

21 222 naaa ,

e, como o termo 22 é constante, segue-se que

naaa 21 . (3)

Portanto, das relações (1) e (3) tem-se que os valores dos

coeficientes que minimizam a variância de são dados por:

n

aaa n

121 .

4.2. A distribuição da média amostral

Como já vimos, a média amostral X é uma v.a. tendo, assim, uma distribuição de probabilidade que depende da distribuição f(x) da

população de X. O teorema central do limite, contudo, determina

uma distribuição para a média amostral que independe da distribuição de probabilidade da população.

4.2.1. O Teorema Central do Limite (TCL)

Seja uma aa X1, X2, . . . , Xn, de uma população com média μ < ∞

e variância σ2 < ∞. Então, para n suficientemente grande, a média

amostral X tem aproximadamente uma distribuição normal com

XE e n

XVar2

, ou seja

nNX

2

,~

O TCL aparece na maioria das vezes no seguinte formato: se X é uma

va com média μ < ∞ e variância σ2 < ∞, então

1,0~/

Nn

X

,

ou ainda,

1,0~ NXn

Notas: i) Quanto maior o tamanho da amostra n, melhor será a proximação (um

valor apropriado para o tamanho da amostra é n 30); ii) Quando a distribuição da população for normal, então a distribuição de

X também será normal; iii) O TCL considera que a variância da população é conhecida. Exemplo:

Considere quatro populações apresentadas na Figura 1: binomial(10, 0.10); Poisson(2); exponencial(1) e Normal(50, 9).

As duas primeira são distribuições discretas e assimétricas, a terceira é uma distribuição contínua fortemente assimétrica e a última é uma população normal, que é uma distribuição simétrica.

Considerando essas quatro populações, foram geradas 1000 amostras de tamanhos 8, 30 e 100.

Para cada uma das 1000 amostras foi calculada a média amostral X , ao final do que, foram construídos os respectivos histogramas apresentados nas Figuras 2 a 5.

Pelos histogramas pode-se observar nitidamente a melhoria na simetria, indicando que a distribuição se aproxima da normal.

Figura 1: Populações consideradas na simulação do TCL para X .

Figura 2: Histogramas para X em amostras de população binomial(10, 0.10).

Figura 3: Histogramas para X em amostras de população Poisson(2).

Figura 4: Histogramas para X em amostras de população exponencial(1).

Figura 5: Histogramas para X em amostras de população normal(50, 9).

4.3. O estimador para a proporção p

Seja uma característica apresentada por uma parcela de uma população. Então, definimos a proporção p de indivíduos, ou objetos, da população com essa característica por

p população da tamanho

ticacaracterís a com população da itens,ou ,indivíduos de número

Exemplos: 1) Proporção de mulheres na população brasileira em 2014 segundo

estimativa do IBGE:

Número estimado de mulheres = 102.609.055 Número estimado de homens = 100.159.507 Popualção total estimada = 202.768.562

506.02202.768.56

5102.609.05p

Portanto, segundo o IBGE, em 2014 a proporção de mulheres na população brasileira é de 0.506.

2) Proporção de defeitos na linha de produção de uma indústria

)defeito(Pp

Um estimador intuitivo para uma proporção populacional é dado

pela respectiva proporção amostral, a qual denotaremos por p .

Seja uma amostra aleatória iid X1, X2, . . . , Xn, então

p amostra da tamanho

ticacaracterís a com amostra da itens,ou ,indivíduos de número

Obs: se pensarmos na observação de um indivíduo, ou item, da amostra com a característica de interesse como um sucesso, podemos definir p

por

np

amostra na sucessos de númeroˆ

Considere uma v.a. X, resultado de um ensaio de Bernoulli. Então, X assume os valores 0 e 1 para sucesso e fracasso, respectivamente, com probabilidades (1 – p) e p.

A distribuição de probabilidade de X é a Bernoulli(p), cuja função de probabilidade é dada por

1,0,)1()( 1 xppxXP xx.

A média e da v.a. de Bernoulli é dada por

pppXE )1(01)(

Como, pXE )( 2, a variância da v.a. de Bernoulli é

)1()()()(222 ppXEXEXVar

)1(2 pppp

Considere, agora, uma amostra aleatória iid X1, X2, . . . , Xn, de uma

variável de Bernoulli cuja probabilidade de sucesso é p. Para contar a número de observações da amostra com a característica de interesse basta somar as v.a.’s já que estas assumem os valores 0 e 1.

n

iin XXXX

121 ,

desta forma, a proporção amostral é dada por:

n

Xp

n

i i 1ˆ .

Ou seja, o estimador para a proporção populacional p é dado pela média amostral de uma v.a. de Bernoulli,

Xn

Xp

n

i i

1ˆ .

4.3.1. A distribuição da proporção amostral p

Como o estimador para a proporção p é, de fato, uma média amostral,

todas as propriedades de X também são válidas para p .

Desta forma, podemos afirmar que p é o estimador ótimo para a

proporção p.

O valor esperado e a variância de p são, portanto, dados por

pn

np

n

XEpE

n

i i

1ˆ

n

pp

n

pnp

n

XVarpVar

n

i i )1()1(ˆ

221

Por se tratar de uma média amostral, o TCL é válido para a

determinação da distribuição do estimador da proporção.

Logo, p tem uma distribuição aproximada normal com média p e

variância n

pp

n

)1(2

, ou seja,

n

pppNp

)1(,~ˆ . (4)

Ainda:

1,0~/)1(

ˆN

npp

pp

Exemplo: 3) Um dado equilibrado é lançado 128 vezes. Determine a probabilidade

de que a proporção amostral dos múltiplos de 3 seja inferior a 0.27.

Múltiplos de 3: {3, 6},

logo a proporção populacional é 3

1p

Desta forma, a proporção amostral p tem distribuição assintótica

normal com parâmetros:

3

1ˆ ppE

1152

2

128

)3/2)(3/1()1(ˆ

n

pppVar

1152

2,

3

1~ˆ Np

Portanto,

0643.052.11152/2

3/127.027.0ˆ

ZPZPpP

Determine, ainda, qual o tamanho da amostra para que, com

probabilidade 0.95 (95%), p não se afaste de p mais do que 0.03

(3%) para mais ou para menos.

95.003.0ˆ ppP

95.003.0ˆ03.0 ppP

95.09/2

03.0

9/2

03.0

nZ

nP

–1.96 1.96

Portanto: 96.19/2

03.0

n

03.0

96.1

2

9

n

9495.94803.0

96.1

9

22

n

Desta forma, uma amostra de 949 lançamentos do dado garante uma

“margem de erro” na estimativa de p de 3% para mais ou para menos.

4.3.2. O Estimador conservador para a variância da proporção

amostral p .

Na aproximação da distribuição da proporção amostral dada em (4),

observa-se que a variância de p depende da proporção populacional p.

Como não se conhece o valor de p, uma alternativa seria utilizar a sua

estimativa p para estimar a pVar ˆ . Neste caso, tem-se

Método conservativo:

Uma segunda alternativa, muito utilizada, considera o valor de p

que maximiza pVar ˆ

n

pppVar

2

ˆ

logo, o valor de p que maximiza pVar ˆ é dado por 2

1p e,

n

pVarp 4

1ˆmax

Exemplo: 4) Refazer a segunda parte do exemplo anterior com a variância de p

calculada pelo método conservativo.

95.04/1

03.0

4/1

03.0

nZ

nP

Portanto: 96.14/1

03.0

n

03.0

96.12 n

10671.106703.0

96.1

4

12

n

4.4. Determinação do tamanho da amostra na estimação da média μ

A determinação do tamanho da amostra é, talvez, o grande dilema dos pesquisadores, pois deve levar em conta a precisão desejada nas

estimativas. Essa precisão normalmente é expressa por um erro tolerável 1 e, a determinação do tamanho da amostra n, deve levar em

conta a probabilidade de se cometer esse erro.

Seja X estimador não viesado para μ, então, ao se considerar uma

precisão na estimativa da média, deseja-se que X não se afaste de μ

mais do que unidades.

1 O erro tolerável é uma margem de erro das estimativas em relação à média μ, para mais ou para menos, o qual

o pesquisador está disposto a aceitar.

Na prática, define-se a região XX , e o tamanho da

amostra é determinado tal que a probabilidade de que essa região

contenha o real valor de μ seja alta, como por exemplo, de 0.95. Em linguagem estatística:

XXP

)()()( XdpXdp

X

XdpP

nZ

nP

//

Fazendo 1 , então, temos que 2//

Z

n (ver figura).

Desta forma, o tamanho da amostra desejado é determinado por:

2/

Z

n

2

22/

2

Z

n (5)

Nota: a expressão (5) é conhecida como tamanho da amostra para populações infinitas

Na estimativa da proporção temos que )1(2 pp , logo, a

expressão (5) é escrita como

2

22/)1(

Zpp

n (6)

E, caso seja considerada a estimativa conservadora para 2 , temos

2

22/

4 Z

n

Exemplos: 5) Para estimar o nível de dureza de peças de espuma produzidas para

fabricação de bancos de automóveis, um técnico decide selecionar uma amostra da produção para medição. Como os ensaios para medição são destrutivos, o número de peças para análise deve ser bem determinado para evitar gastos desnecessários. Para a obtenção do tamanho da amostra fixou-se uma precisão de ud5.0 . Determinar o número de peças para que, com probabilidade de 0.99 a precisão na estimativa seja alcançada.

Dados históricos do processo registram uma variância de 96.22 .

99.0/96.2

5.0

/96.2

5.0

nZ

nP

Como 99.01 005.02

99.01

2

Logo 575.2005.02/ ZZ

Portanto 575.296.2

5.0

n

5.78

5.0

575.296.22

2

n

Ou seja, devem ser selecionadas n = 79 peças para teste. 6) Na primeira fase de uma pesquisa eleitoral foi realizada uma pré-

amostra de tamanho 40, obtendo-se a proporção de 24.0ˆ p

eleitores que afirmaram votar no candidato do partido “PTK”. Qual deve ser o tamanho da amostra para que, com probabilidade de 0.95 a estimativa p não se distancie do real valor mais do que 0.02

(0.02, ou 2%, é a margem de erro da pesquisa)?

Da pré-amostra temos que uma estimativa da variância populacional é

dada por: 1824.0)24.01(24.0ˆ 2 .

Como 95.0 025.02

96.1025.0 Z

Da expressão (6), o tamanho da amostra para uma margem de erro de 2% é

17528.1751)02.0(

)96.1)(24.01(24.02

2

n eleitores.

Como alternativa, podemos utilizar a estimativa conservadora de 2 .

Neste caso, o tamanho da amostra seria de

24002401)02.0(4

)96.1(2

2

n eleitores.

Exemplos: 7) Um elevador de capacidade 500kg serve um edifício. Se a distribuição

do peso dos usuários for N(70, 100), determine: a) A probabilidade de que 7 passageiros ultrapassem esse limite.

b) E 6 passageiros?

8) Um produto da marca XIS é comercializado em pacotes de 1kg, sendo

que a distribuição do peso dos pacotes, em gramas, é N(1000, 51.2).

A fiscalização inspeciona o produto por amostras de 5 pacotes e aplica

uma multa se a média for menor do que 4g a menos do que peso

especificado no pacote.

a) Qual a probabilidade de que o produto XIS seja multado?

Os produtores de XIS pretendem diminuir essa probabilidade. Para

isso o Estatístico da empresa deu duas sugestões: deslocar a média,

aumentando o peso dos pacotes ou aplicar ações visando reduzir a

variabilidade do processo de empacotamento.

b) Para quanto deve ser regulada a nova média de tal forma que a

probabilidade em (a) seja de no máximo 0.03?

c) Uma segunda opção sugerida pelos supervisores é implantar

medidas que diminuam a variabilidade do processo de

empacotamento, tornando-o maos preciso. De quanto deve diminuir

a variância do processo para se obter o mesmo resultado pretendido

em (a)?

Considere, agora, que a produtora tenha um custo adicional de 25

centavos por cada pacote com peso acima de 1008g. Qual a alteração

no custo em cada um dos casos para um produção de 5 toneladas?

Comandos do R para visualizar os procedimentos:

x1 <- seq(990,1010,by=0.2)

y1 <- dnorm(x1,1000,3.2)

x2 <- seq(992,1012,by=0.2)

y2 <- dnorm(x2,1002,3.2)

x3 <- seq(990,1010,by=0.2)

y3 <- dnorm(x1,1000,2.1247)

my <- max(y1,y2,y3)

plot(c(990,1012), c(0,my), axes=T, type="n", main="Densidade

Normal", xlab="x", ylab="")

lines(c(1008,1008),c(-1,my+0.1), lty=2)

axis(1,1008, paste("1008")) lines(x1,y1, xlab="x", col="blue3", lwd=2)

lines(x2,y2, xlab="x", col="green3", lwd=2)

lines(x3,y3, xlab="x", col="red3", lwd=2)

9) Seja uma população com 20 e 567.22 .

a) Numa amostra de tamanho n = 9, qual a probabilidade de que a

variância amostral seja superior a 4.3?

b) Determine um limite inferior k para o qual a probabilidade de que 2s

ser menor do que k seja de 0.025.

Exercícios de revisão

1) Uma indústria de chocolates produz uma barra com peso médio de 180g e desvio-padrão de 1.8g. As barras são embaladas em caixas com 20 unidades. Admitindo que o peso do produto tenha distribuição normal, qual é a probabilidade de que: a) Uma caixa do produto pese mais do que 3614g. b) A proporção de barras produzidas com peso acima de 182.3g. c) Numa amostra de 9 barras do chocolate, a média amostral não se

distancie do peso nominal mais do que 1.4g.

O supervisor de produção está desconfiado de que a máquina que produz as barras está desgastada e, com isso, o peso está variando demais. Para fazer uma verificação ele decide retirar uma amostra de itens da produção, pesá-las e verificar qual é a proporção de barras com peso acima do limite de 182.3g. Ele deseja que a sua estimativa não se distancie do real valor mais do que 0.02 com probabilidade 0.90. Quantas barras ele deve pesar?

2) 10 corpos de provas foram submetidos a um teste de corrosão onde

foram submersos em água salgada durante 60 segundos/dia. A corrosão foi medida pela perda de peso em miligramas/decímetro quadrado/dia (mdd). Os dados obtidos foram:

130.1 124.2 122.0 110.8 113.1 103.9 101.5 92.3 91.4 83.7

a) De uma estimativa para a perda média de peso (em mdd) devido à corrosão.

Considerando desvio padrão conhecido = 16

b) Encontre o intervalo simétrico em torno de X que tenha probabilidade igual a 0.98.

c) Supondo que a verdadeira média seja = 110mdd, calcule a

probabilidade de que X seja superior ao máximo valor da amostra.

4.5. Distribuição da média amostral quando a variância σ2 é

desconhecida

4.6. Distribuição da variância amostral s2

4.7. Distribuição da diferença entre duas médias amostrais

4.7.1. 1º. Caso: variâncias conhecidas 4.7.2. 2º. Caso: variâncias iguais e desconhecidas 4.7.3. 3º. Caso: variâncias diferentes e desconhecidas

Resultados:

i) Se X1 N( 1 ; 12 ) e X2 N( 2 ; 2

2 ), independentes, então

X1 ± X2 N(1 ± 2 ; 12 + 2

2 )

ii) Se X1, X2, . . . , Xn N( ; 2 ), iid

X1 + X2 + . . . + Xn N(n ; n2 )

introdução à inferência estatística 1. conceitos básicos ... · discretas, quando assumem...

Documents