intervalo de confianÇa - usp · 2019-09-02 · jmpsouza, dpbergamaschi 2017 03_intervaloconfiança...

JMPsouza, DPBergamaschi 2017

03_intervaloconfiança 1

Aula 11 – Estimação de parâmetros populacionais por

ponto e intervalo

Estimação por ponto

X é uma característica que na população possui distribuição normal com

média e variância 2 (desvio padrão ).

Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta

população.

Os parâmetros e 2 podem ser estimados com base na amostra.

Se o estimador for um único valor, a estimação é chamada de estimação

por ponto.

Média aritmética

Populacional Parâmetro estimador : 1

n

i

i

X

Xn

Variância

Populacional Parâmetro 2 estimador :

2 1

( )

2 1

( 1)

( )

ou

( )

1

n

i

i

n

n

i

i

n

X X

Sn

X X

Sn

Atenção: Antes dos dados serem coletados, os estimadores são variáveis

aleatórias.

OBS: A definição formal de estimador não viciado é apresentada no final

do material desta aula.



Aplicação:

O relógio-despertador de cozinha (timer) serve para tocar em qualquer

momento no intervalo de tempo entre 1 minuto e uma hora e é utilizado

em cozinhas para registrar o tempo de cocção de alimentos.

Uma pessoa decidiu medir a acurácia (exatidão) de seu timer. Para tanto,

acertou o timer para tocar quando passasse 5 minutos (300 segundos). Uti-

lizando um cronômetro, mediu o tempo até o timer tocar. Fez este proce-

dimento 10 vezes seguidas. Os valores de tempo, medidos pelo cronôme-

tro, são apresentados abaixo. Assumindo-se que o cronômetro dá o tempo

verdadeiro e que a variabilidade nas medições no timer é devida somente

à dificuldade em posicionar o ponteiro e a falhas mecânicas do timer e as-

sumindo que os tempos medidos seguem uma distribuição normal

N( , ), pode-se estimar, a partir dos dados, os parâmetros da distribui-

ção.

Tempo (segundos) até o timer tocar, medido pelo cronômetro.

293,7 296,2 296,4 294,0 297,3

293,7 294,3 291,3 295,1 296,1

O parâmetro que representa o tempo médio até o timer tocar, pode ser

estimado por:

1 293,7 ... 296,1294,81

10

n

i

i

X

Xn

segundos (aproximadamente 4m e 55

segundos)



O tempo médio para o timer tocar é de 294,81 segundos quando posicio-

nado para tocar em 5 minutos (300 segundos).

O parâmetro , que representa a variabilidade dos tempos até o timer to-

car, não é fornecido (desconhecido) podendo ser estimado por:

2s S

22 2

2 21

( )(293,7 294,81) ... (296,1 294,81)

3,12321 10 1

3,1232 1,77

n

i

i

X X

S segundosn

s segundos

s=1,77 segundos é a estimativa da variabilidade dos tempos até o timer to-

car, em valores medidos pelo cronômetro. Pode-se dizer que o timer toca

em tempos que estão em média 1,77 segundos longe do tempo médio.



DISTRIBUIÇÃO PROBABILÍSTICA DE MÉDIAS AMOSTRAIS,

DE UMA VARIÁVEL X COM DISTRIBUIÇÃO NORMAL

X TEM DISTRIBUIÇÃO NORMAL, COM MÉDIA E DESVIO PA-

DRÃO .

Pelo Teorema Central do Limite, _

X TEM DISTRIBUIÇÃO NOR-

MAL, COM MÉDIA E DESVIO PADRÃO n

; ou seja

),(~n

NX

n= 1 X TEM MÉDIA 0 E DESVIO PADRÃO 1. n= 16 _

X TEM MÉDIA 0 E DESVIO PADRÃO 1/16.



Estimação por intervalo

É UM CONJUNTO DE VALORES CALCULADOS COM BASE NA AMOSTRA QUE SE SUPÕE COBRIR O PARÂMETRO DE INTE-RESSE, COM CERTO GRAU (NÍVEL) DE CONFIANÇA. O GRAU DE CONFIANÇA TEM ORIGEM NA PROBABILIDADE ASSOCIADA AO PROCESSO DE CONSTRUÇÃO DO INTERVALO ANTES DE SE OBTER O RESULTADO AMOSTRAL. O GRAU DE CONFIANÇA MAIS COMUMENTE UTIZADO É DE 95%. SERIA IMPOSSÍVEL CONSTRUIR UM INTERVALO DE CONFI-ANÇA DE 100% A MENOS QUE SE MEDISSE TODA A POPULA-ÇÃO. NA MAIORIA DAS APLICAÇÕES NÃO SABEMOS SE UM ESPECÍ-FICO INTERVALO DE CONFIANÇA COBRE O VERDADEIRO VA-LOR. SÓ PODEMOS APLICAR O CONCEITO FREQUENTISTA DE PROBABILIDADE E DIZER QUE SE REALIZARMOS A AMOS-TRAGEM INFINITAS VEZES E CONSTRUIRMOS INTERVALOS DE CONFIANÇA DE 95%, EM 95% DAS VEZES OS INTERVALOS DE CONFIANÇA ESTARÃO CORRETOS (COBRIRÃO O PARÂME-TRO) E 5% DAS VEZES ESTARÃO ERRADOS.

INTERVALO DE CON-

FIANÇA



A ESTRUTURA MAIS SIMPLES DE INTERVALO DE CONFIANÇA PODE SER ASSIM APRESENTADA:

/ 2 / 2 . ; .

x xx z x z

, ONDE

x= VALOR AMOSTRAL OBSERVADO (por exemplo: x ou p̂ )

x= DESVIO PADRÃO DE X ˆ( ; )pX

pq

nn

za / 2 = VALOR NA DISTRIBUIÇÃO NORMAL, PARA CONFIANÇA

DE 1- (para 1- = 0,95= 95%; za / 2 = 1,96). UTILIZADO

QUANDO A VARIÂNCIA POPULACIONAL É CONHECIDA.

2 XZ = margem de erro



Intervalo de confiança para a média populacional

Pressuposição: A amostra deve ser obtida de forma aleatória

),(~ NX ; ~ ( , )X Nn

Padronizando-se a média X , obtém-se ~ (0,1)

XZ N

n

, que permite

calcular ( ) 1

XP z z

n

.

Para %5 , ( 1,96 1,96) 0,95

XP

n

( 1,96 1,96 ) 0,95P Xn n

( 1,96 1,96 ) 0,95P X Xn n

( 1,96 1,96 ) 0,95P X Xn n

Obtém-se um intervalo aleatório centrado na média amostral o qual pos-

sui 95% de probabilidade de conter a verdadeira média populacional.



O parâmetro será estimado por um conjunto de valores provenientes de

uma amostra. Quando isto é feito, a média é estimada por um determina-

do valor ( xX ˆ

), e o intervalo 1,96 1,96x xn n

deixa de ser

uma variável aleatória.

Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira

média (parâmetro). Diz-se então que a confiança que se deposita neste in-

tervalo é de 95% porque antes de coletar a amostra de tamanho n, existia,

associada a ele, uma probabilidade de 95% de que contivesse a média po-

pulacional. Por isso chama-se intervalo de confiança para a média popu-

lacional.

IC(95%) :( 1,96 ; 1,96 )x x

n n

ou 1,96x

n

Interpretando Intervalos de Confiança

Um intervalo de confiança para um parâmetro é um intervalo de valores

no qual pode-se depositar uma confiança que o intervalo cobre (contém) o

valor do parâmetro. Por exemplo, se com base em uma amostra encon-

trarmos que o intervalo (3200 ; 3550) é um intervalo de 95% de confiança

para a média ( ) da população de valores do peso médio ao nascer de re-

cém-nascidos no Município de São Paulo, então podemos estar 95% con-



fiantes que o conjunto de valores 3220 – 3500 gramas cobre (contém) o

verdadeiro peso médio ao nascer da população.

Pode-se também pensar no intervalo de confiança a partir da seleção de

milhares de amostras de uma população. Para cada amostra calcula-se

um intervalo de confiança com grau de confiança 100(1- )%, para um

parâmetro da população. A porcentagem de intervalos que contém o ver-

dadeiro valor do parâmetro é 100(1- ).

Na prática, tomamos somente uma amostra e obtemos somente um inter-

valo. Mas sabemos que 100(1- )% de todas as amostras tem um intervalo

de confiança contendo o verdadeiro valor do parâmetro, portanto deposi-

tamos uma confiança 100(1- )% que o particular intervalo contém o ver-

dadeiro valor do parâmetro.

Amplitude do intervalo:

Para um grau de confiança especificado (por exemplo, 95%), desejamos o

intervalo tão pequeno quanto possível.

Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gra-

mas) de recém-nascidos no Município de São Paulo de (2500, 4000) traz

pouca informação prática porque sabe-se, da experiência, que a média

populacional está neste intervalo. Deseja-se um intervalo com amplitude



de poucas gramas. É o tamanho da amostra que determina a amplitude

do intervalo. Quanto maior a amostra, menor será o intervalo.

Fórmulas para intervalos de confiança:

As fórmulas dos intervalos de confiança são derivadas da distribuição

amostral da estatística

Intervalo de confiança para a média populacional com variância popula-

cional conhecida

Pressuposição: A amostra deve ser obtida de forma aleatória

Estatística: média populacional -

/ 2 / 2IC . ; .

n n

x xx z x z

Exemplo:

Em uma amostra aleatória de tamanho n=25, proveniente de uma popu-

lação N(0,1) encontrou-se a média amostral x = 0,15. O intervalo de 95%

de confiança para é igual a 1

0,15 (1,96)25

, ou seja, (-0,242; 0,542)



Intervalo de confiança para a média populacional com variância popula-

cional desconhecida

A família t de Student

Student é o pseudônimo de W. S. Gosset que, em 1908, propôs a distribui-

ção t. Esta distribuição é muito parecida com a distribuição normal. A

família de distribuições t é centrada no zero e possui formato em sino. A

curva não é tão alta quanto a curva da distribuição normal e as caudas da

distribuição t são mais altas que as da distribuição normal. O parâmetro

que determina a altura e largura da distribuição t depende do tamanho

da amostra (n) e é denominado graus de liberdade (gl), denotado pela le-

tra grega ( ) (lê-se ni). A notação da distribuição t é t .

Curvas t para graus de liberdade (tamanhos de amostra) diferentes.



Quando o número de graus de liberdade da distribuição t aumenta, a dis-

tribuição se aproxima de uma distribuição normal.

Esta família t não descreve o que acontece na natureza mas sim o que

aconteceria se selecionássemos milhares de amostras aleatórias de uma

população normal com média e fosse calculado

Xt

s

n

para cada

amostra.



Calculando o valor de t para 500 amostras de tamanho 6 de uma popula-

ção com distribuição normal, obtém-se o gráfico a seguir

Estatística: média populacional -

Define-se a estatística

_

_ _

1X X

X- X-T= , onde T~ ,

n

obs : quando n T~ 0 ;1

n-1:graus de liberdaden

tSS

N

T é uma variável aleatória que segue uma distribuição t de "Student", com

(n-1) graus de liberdade.



1, 2 1, 2IC : . ; .

n n

x x

n n

S Sx t x t

que pode ser escrito como 2, 1n

sx t

n

.

Exemplo:

Em uma amostra aleatória de tamanho n=25, proveniente de uma popu-

lação Normal, encontrou-se a média amostral x = 0,15 e o desvio padrão

amostral s=0,9. O intervalo de 95% de confiança para é igual a

0,90,15 (2,492)

25 , ou seja, (-0,299; 0,599)



Intervalo de confiança aproximado para o número de sucessos populacio-

nal

Pressuposições:

1- np e nq5

2- a amostra deve ser obtida de forma aleatória

Estatística: número de sucessos populacional - X

X é uma variável aleatória que segue uma distribuição binomial com pa-

râmetros n e p, ie X~ B(n,p).

Para n grande, X ~N( npqnp , ) com intervalo de confiança

para X dado por

qpnzpnX ˆˆ.ˆIC 2/.

Com p̂ e q̂ estimados na amostra

Exemplo:

Supor que em uma amostra de 200 casais encontrou-se 10 onde a esposa

era mais alta que o marido. Construir o intervalo de confiança de 95%

para o número de esposas que são mais altas que seus maridos na popula-

ção.

IC 95%, : 200 0,05 1,96 200 0,05 0,95;200 0,05 1,96 200 0,05 0,95X x x x x x x

IC(95%,X): 4 - 16



Intervalo de confiança aproximado para a proporção populacional

Pressuposições:

1- np e nq5

2- a amostra deve ser obtida de forma aleatória

Estatística: proporção de sucessos populacional - N

X

Seja X uma variável aleatória que segue uma distribuição binomial.

X~ B(n,p).

A proporção de sucessos

Xp

N

, é estimada na amostra por

ˆX

pn

Para n grande, ~ ( , )

pqp N p

n

.

Com intervalo de confiança para N

X dado por

/ 2

ˆ ˆˆIC .

pqp p z

n

.

Com p̂ e q̂ estimados na amostra.

Para o exemplo anterior

0,05 0,95 0,05 0,95

IC 95%, : 0,05 1,96 ;0,05 1,96200 200

x xp

IC(95%, p): (2,0% ; 8,0%)



Resumo: Intervalo de Confiança

Média populacional:

Com variância conhecida 2 :

2

/ 2x Z

n

Com variância 2 desconhecida: / 2,

sx t

n

, 1 n

Número de sucessos populacional: X

Intervalo aproximado:

/ 2ˆ ˆ ˆnp Z npq

onde p̂ é a proporção de sucessos na amostra.

Proporção populacional (p)

Intervalo aproximado: ˆ ˆ ˆ, (1 ) 5np np p

/ 2

ˆ ˆ(1 )ˆ

p pp Z

n

onde p̂ é a proporção de sucessos na amostra.



Apresentação gráfica:

A linha vertical representa o parâmetro populacional. O gráfico foi gera-

do via programa de computador. São apresentados 50 intervalos de con-

fiança para amostras de tamanho n=20. As linhas horizontais represen-

tam os intervalos de confiança. Se o intervalo de confiança não contiver o

parâmetro, a linha horizontal não cruzará a linha vertical. A linha verti-

cal é o parâmetro. No exemplo, 3 intervalos não cobrem ("capturam") o

parâmetro.



Efeito do tamanho da amostra:

Para amostras menores (n=5), as larguras dos intervalos são maiores a

proporção de intervalos que "capturam" o parâmetro é parecida com a

anterior (para n=20). Portanto, o tamanho da amostra não interfere na

proporção de “captura” do parâmetro mas sim na precisão do estimador.



Efeito do grau de confiança

Para n=20 e =0,25, obtém-se intervalos com os apresentados a seguir

Os intervalos são mais estreitos do que para n=20 e =0,05. Uma por-

centagem bem maior não contém o parâmetro. Isto é o que significa 75%

de confiança. Do total de todas as possíveis amostras, 75% delas resultará

em intervalos de confiança que contêm o verdadeiro valor do parâmetro.



Violando as pressuposições

Se a distribuição original for exponencial, obtêm-se intervalos como os

apresentados a seguir

Considerar a distribuição exponencial com média populacional = 1,

que é assimétrica à direita. A verdadeira média foi capturada 45 vezes em

um total de 50 (90%) intervalos simulados. Pode-se observar que o nível

de confiança ficou comprometido.



O tamanho da amostra determina a amplitude dos intervalos , quanto

maior o tamanho da amostra, maior a precisão do intervalo de confiança.



Estimador não viciado:

Parâmetro é o verdadeiro valor de uma característica de interesse,

medida na população, e de forma geral, é raramente conhecido. O esti-

mador é a medida estatística que descreve o parâmetro, em termos amos-

trais (Bussab WO, Morettin PA 1994).

Considere-se uma amostra 1 2,( , , ..., )

nX X X de uma variável aleató-

ria que descreve uma característica de interesse de uma população. Seja

um parâmetro que se deseja estimar.

Definição: Um estimador do parâmetro é qualquer função das obser-

vações 1 2,, , ...,

nX X X .

Definição: Seja 1 2,( , , ..., )

nT g X X X um estimador de ; o esti-

mador T é dito estimador não viciado de se ( )E T , para todo .

Onde E é a esperança matemática ou a média.

Vício (ou viés) é dado por:Viés = ( )E T e indica a diferença entre a

média do estimador e o parâmetro que se quer estimar.



Média aritmética

X é um estimador não viciado de , ou seja, ( )E X

Considerando-se a média aritmética 1

n

i

i

X

Xn

, tem-se que

1

1( ) ( )

n

i

i

E X E Xn

. Portanto, X é um estimador não viciado de

Variância

A variância definida como 2

nS é um estimador viciado, entretanto, se for

definido como 2

1nS , é não viciado porque a 2 2

( )( )

1n

nE S

n

e a

2 2

( 1)( )

nE S

.

Considerando 2 2

1

1( )

n

i

i

S X Xn

, tem-se que

2 22

2( )

nSE S E

n

2

( 1)nn

, porque

2

2nS

segue uma distribuição qui-quadrado com

(n-1) graus de liberdade (2( 1)n ). O estimador não viciado de

2 é

2

( 1)

nS

n .

intervalo de confianÇa - usp · 2019-09-02 · jmpsouza, dpbergamaschi 2017 03_intervaloconfiança...

Documents