intervalo de confianÇa - usp · 2019-09-02 · jmpsouza, dpbergamaschi 2017 03_intervaloconfiança...
TRANSCRIPT
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 1
Aula 11 – Estimação de parâmetros populacionais por
ponto e intervalo
Estimação por ponto
X é uma característica que na população possui distribuição normal com
média e variância 2 (desvio padrão ).
Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta
população.
Os parâmetros e 2 podem ser estimados com base na amostra.
Se o estimador for um único valor, a estimação é chamada de estimação
por ponto.
Média aritmética
Populacional Parâmetro estimador : 1
n
i
i
X
Xn
Variância
Populacional Parâmetro 2 estimador :
2 1
( )
2 1
( 1)
( )
ou
( )
1
n
i
i
n
n
i
i
n
X X
Sn
X X
Sn
Atenção: Antes dos dados serem coletados, os estimadores são variáveis
aleatórias.
OBS: A definição formal de estimador não viciado é apresentada no final
do material desta aula.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 2
Aplicação:
O relógio-despertador de cozinha (timer) serve para tocar em qualquer
momento no intervalo de tempo entre 1 minuto e uma hora e é utilizado
em cozinhas para registrar o tempo de cocção de alimentos.
Uma pessoa decidiu medir a acurácia (exatidão) de seu timer. Para tanto,
acertou o timer para tocar quando passasse 5 minutos (300 segundos). Uti-
lizando um cronômetro, mediu o tempo até o timer tocar. Fez este proce-
dimento 10 vezes seguidas. Os valores de tempo, medidos pelo cronôme-
tro, são apresentados abaixo. Assumindo-se que o cronômetro dá o tempo
verdadeiro e que a variabilidade nas medições no timer é devida somente
à dificuldade em posicionar o ponteiro e a falhas mecânicas do timer e as-
sumindo que os tempos medidos seguem uma distribuição normal
N( , ), pode-se estimar, a partir dos dados, os parâmetros da distribui-
ção.
Tempo (segundos) até o timer tocar, medido pelo cronômetro.
293,7 296,2 296,4 294,0 297,3
293,7 294,3 291,3 295,1 296,1
O parâmetro que representa o tempo médio até o timer tocar, pode ser
estimado por:
1 293,7 ... 296,1294,81
10
n
i
i
X
Xn
segundos (aproximadamente 4m e 55
segundos)
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 3
O tempo médio para o timer tocar é de 294,81 segundos quando posicio-
nado para tocar em 5 minutos (300 segundos).
O parâmetro , que representa a variabilidade dos tempos até o timer to-
car, não é fornecido (desconhecido) podendo ser estimado por:
2s S
22 2
2 21
( )(293,7 294,81) ... (296,1 294,81)
3,12321 10 1
3,1232 1,77
n
i
i
X X
S segundosn
s segundos
s=1,77 segundos é a estimativa da variabilidade dos tempos até o timer to-
car, em valores medidos pelo cronômetro. Pode-se dizer que o timer toca
em tempos que estão em média 1,77 segundos longe do tempo médio.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 4
DISTRIBUIÇÃO PROBABILÍSTICA DE MÉDIAS AMOSTRAIS,
DE UMA VARIÁVEL X COM DISTRIBUIÇÃO NORMAL
X TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA E DESVIO PA-
DRÃO .
Pelo Teorema Central do Limite, _
X TEM DISTRIBUIÇÃO NOR-
MAL, COM MÉDIA E DESVIO PADRÃO n
; ou seja
),(~n
NX
n= 1 X TEM MÉDIA 0 E DESVIO PADRÃO 1. n= 16 _
X TEM MÉDIA 0 E DESVIO PADRÃO 1/16.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 5
Estimação por intervalo
É UM CONJUNTO DE VALORES CALCULADOS COM BASE NA AMOSTRA QUE SE SUPÕE COBRIR O PARÂMETRO DE INTE-RESSE, COM CERTO GRAU (NÍVEL) DE CONFIANÇA. O GRAU DE CONFIANÇA TEM ORIGEM NA PROBABILIDADE ASSOCIADA AO PROCESSO DE CONSTRUÇÃO DO INTERVALO ANTES DE SE OBTER O RESULTADO AMOSTRAL. O GRAU DE CONFIANÇA MAIS COMUMENTE UTIZADO É DE 95%. SERIA IMPOSSÍVEL CONSTRUIR UM INTERVALO DE CONFI-ANÇA DE 100% A MENOS QUE SE MEDISSE TODA A POPULA-ÇÃO. NA MAIORIA DAS APLICAÇÕES NÃO SABEMOS SE UM ESPECÍ-FICO INTERVALO DE CONFIANÇA COBRE O VERDADEIRO VA-LOR. SÓ PODEMOS APLICAR O CONCEITO FREQUENTISTA DE PROBABILIDADE E DIZER QUE SE REALIZARMOS A AMOS-TRAGEM INFINITAS VEZES E CONSTRUIRMOS INTERVALOS DE CONFIANÇA DE 95%, EM 95% DAS VEZES OS INTERVALOS DE CONFIANÇA ESTARÃO CORRETOS (COBRIRÃO O PARÂME-TRO) E 5% DAS VEZES ESTARÃO ERRADOS.
INTERVALO DE CON-
FIANÇA
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 6
A ESTRUTURA MAIS SIMPLES DE INTERVALO DE CONFIANÇA PODE SER ASSIM APRESENTADA:
/ 2 / 2 . ; .
x xx z x z
, ONDE
x= VALOR AMOSTRAL OBSERVADO (por exemplo: x ou p̂ )
x= DESVIO PADRÃO DE X ˆ( ; )pX
pq
nn
za / 2 = VALOR NA DISTRIBUIÇÃO NORMAL, PARA CONFIANÇA
DE 1- (para 1- = 0,95= 95%; za / 2 = 1,96). UTILIZADO
QUANDO A VARIÂNCIA POPULACIONAL É CONHECIDA.
2 XZ = margem de erro
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 7
Intervalo de confiança para a média populacional
Pressuposição: A amostra deve ser obtida de forma aleatória
),(~ NX ; ~ ( , )X Nn
Padronizando-se a média X , obtém-se ~ (0,1)
XZ N
n
, que permite
calcular ( ) 1
XP z z
n
.
Para %5 , ( 1,96 1,96) 0,95
XP
n
( 1,96 1,96 ) 0,95P Xn n
( 1,96 1,96 ) 0,95P X Xn n
( 1,96 1,96 ) 0,95P X Xn n
Obtém-se um intervalo aleatório centrado na média amostral o qual pos-
sui 95% de probabilidade de conter a verdadeira média populacional.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 8
O parâmetro será estimado por um conjunto de valores provenientes de
uma amostra. Quando isto é feito, a média é estimada por um determina-
do valor ( xX ˆ
), e o intervalo 1,96 1,96x xn n
deixa de ser
uma variável aleatória.
Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira
média (parâmetro). Diz-se então que a confiança que se deposita neste in-
tervalo é de 95% porque antes de coletar a amostra de tamanho n, existia,
associada a ele, uma probabilidade de 95% de que contivesse a média po-
pulacional. Por isso chama-se intervalo de confiança para a média popu-
lacional.
IC(95%) :( 1,96 ; 1,96 )x x
n n
ou 1,96x
n
Interpretando Intervalos de Confiança
Um intervalo de confiança para um parâmetro é um intervalo de valores
no qual pode-se depositar uma confiança que o intervalo cobre (contém) o
valor do parâmetro. Por exemplo, se com base em uma amostra encon-
trarmos que o intervalo (3200 ; 3550) é um intervalo de 95% de confiança
para a média ( ) da população de valores do peso médio ao nascer de re-
cém-nascidos no Município de São Paulo, então podemos estar 95% con-
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 9
fiantes que o conjunto de valores 3220 – 3500 gramas cobre (contém) o
verdadeiro peso médio ao nascer da população.
Pode-se também pensar no intervalo de confiança a partir da seleção de
milhares de amostras de uma população. Para cada amostra calcula-se
um intervalo de confiança com grau de confiança 100(1- )%, para um
parâmetro da população. A porcentagem de intervalos que contém o ver-
dadeiro valor do parâmetro é 100(1- ).
Na prática, tomamos somente uma amostra e obtemos somente um inter-
valo. Mas sabemos que 100(1- )% de todas as amostras tem um intervalo
de confiança contendo o verdadeiro valor do parâmetro, portanto deposi-
tamos uma confiança 100(1- )% que o particular intervalo contém o ver-
dadeiro valor do parâmetro.
Amplitude do intervalo:
Para um grau de confiança especificado (por exemplo, 95%), desejamos o
intervalo tão pequeno quanto possível.
Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gra-
mas) de recém-nascidos no Município de São Paulo de (2500, 4000) traz
pouca informação prática porque sabe-se, da experiência, que a média
populacional está neste intervalo. Deseja-se um intervalo com amplitude
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 10
de poucas gramas. É o tamanho da amostra que determina a amplitude
do intervalo. Quanto maior a amostra, menor será o intervalo.
Fórmulas para intervalos de confiança:
As fórmulas dos intervalos de confiança são derivadas da distribuição
amostral da estatística
Intervalo de confiança para a média populacional com variância popula-
cional conhecida
Pressuposição: A amostra deve ser obtida de forma aleatória
Estatística: média populacional -
/ 2 / 2IC . ; .
n n
x xx z x z
Exemplo:
Em uma amostra aleatória de tamanho n=25, proveniente de uma popu-
lação N(0,1) encontrou-se a média amostral x = 0,15. O intervalo de 95%
de confiança para é igual a 1
0,15 (1,96)25
, ou seja, (-0,242; 0,542)
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 11
Intervalo de confiança para a média populacional com variância popula-
cional desconhecida
A família t de Student
Student é o pseudônimo de W. S. Gosset que, em 1908, propôs a distribui-
ção t. Esta distribuição é muito parecida com a distribuição normal. A
família de distribuições t é centrada no zero e possui formato em sino. A
curva não é tão alta quanto a curva da distribuição normal e as caudas da
distribuição t são mais altas que as da distribuição normal. O parâmetro
que determina a altura e largura da distribuição t depende do tamanho
da amostra (n) e é denominado graus de liberdade (gl), denotado pela le-
tra grega ( ) (lê-se ni). A notação da distribuição t é t .
Curvas t para graus de liberdade (tamanhos de amostra) diferentes.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 12
Quando o número de graus de liberdade da distribuição t aumenta, a dis-
tribuição se aproxima de uma distribuição normal.
Esta família t não descreve o que acontece na natureza mas sim o que
aconteceria se selecionássemos milhares de amostras aleatórias de uma
população normal com média e fosse calculado
Xt
s
n
para cada
amostra.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 13
Calculando o valor de t para 500 amostras de tamanho 6 de uma popula-
ção com distribuição normal, obtém-se o gráfico a seguir
Estatística: média populacional -
Define-se a estatística
_
_ _
1X X
X- X-T= , onde T~ ,
n
obs : quando n T~ 0 ;1
n-1:graus de liberdaden
tSS
N
T é uma variável aleatória que segue uma distribuição t de "Student", com
(n-1) graus de liberdade.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 14
1, 2 1, 2IC : . ; .
n n
x x
n n
S Sx t x t
que pode ser escrito como 2, 1n
sx t
n
.
Exemplo:
Em uma amostra aleatória de tamanho n=25, proveniente de uma popu-
lação Normal, encontrou-se a média amostral x = 0,15 e o desvio padrão
amostral s=0,9. O intervalo de 95% de confiança para é igual a
0,90,15 (2,492)
25 , ou seja, (-0,299; 0,599)
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 15
Intervalo de confiança aproximado para o número de sucessos populacio-
nal
Pressuposições:
1- np e nq5
2- a amostra deve ser obtida de forma aleatória
Estatística: número de sucessos populacional - X
X é uma variável aleatória que segue uma distribuição binomial com pa-
râmetros n e p, ie X~ B(n,p).
Para n grande, X ~N( npqnp , ) com intervalo de confiança
para X dado por
qpnzpnX ˆˆ.ˆIC 2/.
Com p̂ e q̂ estimados na amostra
Exemplo:
Supor que em uma amostra de 200 casais encontrou-se 10 onde a esposa
era mais alta que o marido. Construir o intervalo de confiança de 95%
para o número de esposas que são mais altas que seus maridos na popula-
ção.
IC 95%, : 200 0,05 1,96 200 0,05 0,95;200 0,05 1,96 200 0,05 0,95X x x x x x x
IC(95%,X): 4 - 16
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 16
Intervalo de confiança aproximado para a proporção populacional
Pressuposições:
1- np e nq5
2- a amostra deve ser obtida de forma aleatória
Estatística: proporção de sucessos populacional - N
X
Seja X uma variável aleatória que segue uma distribuição binomial.
X~ B(n,p).
A proporção de sucessos
Xp
N
, é estimada na amostra por
ˆX
pn
Para n grande, ~ ( , )
pqp N p
n
.
Com intervalo de confiança para N
X dado por
/ 2
ˆ ˆˆIC .
pqp p z
n
.
Com p̂ e q̂ estimados na amostra.
Para o exemplo anterior
0,05 0,95 0,05 0,95
IC 95%, : 0,05 1,96 ;0,05 1,96200 200
x xp
IC(95%, p): (2,0% ; 8,0%)
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 17
Resumo: Intervalo de Confiança
Média populacional:
Com variância conhecida 2 :
2
/ 2x Z
n
Com variância 2 desconhecida: / 2,
sx t
n
, 1 n
Número de sucessos populacional: X
Intervalo aproximado:
/ 2ˆ ˆ ˆnp Z npq
onde p̂ é a proporção de sucessos na amostra.
Proporção populacional (p)
Intervalo aproximado: ˆ ˆ ˆ, (1 ) 5np np p
/ 2
ˆ ˆ(1 )ˆ
p pp Z
n
onde p̂ é a proporção de sucessos na amostra.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 18
Apresentação gráfica:
A linha vertical representa o parâmetro populacional. O gráfico foi gera-
do via programa de computador. São apresentados 50 intervalos de con-
fiança para amostras de tamanho n=20. As linhas horizontais represen-
tam os intervalos de confiança. Se o intervalo de confiança não contiver o
parâmetro, a linha horizontal não cruzará a linha vertical. A linha verti-
cal é o parâmetro. No exemplo, 3 intervalos não cobrem ("capturam") o
parâmetro.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 19
Efeito do tamanho da amostra:
Para amostras menores (n=5), as larguras dos intervalos são maiores a
proporção de intervalos que "capturam" o parâmetro é parecida com a
anterior (para n=20). Portanto, o tamanho da amostra não interfere na
proporção de “captura” do parâmetro mas sim na precisão do estimador.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 20
Efeito do grau de confiança
Para n=20 e =0,25, obtém-se intervalos com os apresentados a seguir
Os intervalos são mais estreitos do que para n=20 e =0,05. Uma por-
centagem bem maior não contém o parâmetro. Isto é o que significa 75%
de confiança. Do total de todas as possíveis amostras, 75% delas resultará
em intervalos de confiança que contêm o verdadeiro valor do parâmetro.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 21
Violando as pressuposições
Se a distribuição original for exponencial, obtêm-se intervalos como os
apresentados a seguir
Considerar a distribuição exponencial com média populacional = 1,
que é assimétrica à direita. A verdadeira média foi capturada 45 vezes em
um total de 50 (90%) intervalos simulados. Pode-se observar que o nível
de confiança ficou comprometido.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 22
O tamanho da amostra determina a amplitude dos intervalos , quanto
maior o tamanho da amostra, maior a precisão do intervalo de confiança.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 23
Estimador não viciado:
Parâmetro é o verdadeiro valor de uma característica de interesse,
medida na população, e de forma geral, é raramente conhecido. O esti-
mador é a medida estatística que descreve o parâmetro, em termos amos-
trais (Bussab WO, Morettin PA 1994).
Considere-se uma amostra 1 2,( , , ..., )
nX X X de uma variável aleató-
ria que descreve uma característica de interesse de uma população. Seja
um parâmetro que se deseja estimar.
Definição: Um estimador do parâmetro é qualquer função das obser-
vações 1 2,, , ...,
nX X X .
Definição: Seja 1 2,( , , ..., )
nT g X X X um estimador de ; o esti-
mador T é dito estimador não viciado de se ( )E T , para todo .
Onde E é a esperança matemática ou a média.
Vício (ou viés) é dado por:Viés = ( )E T e indica a diferença entre a
média do estimador e o parâmetro que se quer estimar.
JMPsouza, DPBergamaschi 2017
03_intervaloconfiança 24
Média aritmética
X é um estimador não viciado de , ou seja, ( )E X
Considerando-se a média aritmética 1
n
i
i
X
Xn
, tem-se que
1
1( ) ( )
n
i
i
E X E Xn
. Portanto, X é um estimador não viciado de
Variância
A variância definida como 2
nS é um estimador viciado, entretanto, se for
definido como 2
1nS , é não viciado porque a 2 2
( )( )
1n
nE S
n
e a
2 2
( 1)( )
nE S
.
Considerando 2 2
1
1( )
n
i
i
S X Xn
, tem-se que
2 22
2( )
nSE S E
n
2
( 1)nn
, porque
2
2nS
segue uma distribuição qui-quadrado com
(n-1) graus de liberdade (2( 1)n ). O estimador não viciado de
2 é
2
( 1)
nS
n .