construção de intervalos de confiança bootstrapmrubens/cursos/estatapliccom/capitulo3-3.pdf ·...

44
Estatística: Revelando o Poder dos Dados Lock 5 Seção 3.3 Construção de Intervalos de Confiança Bootstrap

Upload: vanliem

Post on 20-Jan-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Estatística: Revelando o Poder dos Dados Lock5

Seção 3.3

Construção de Intervalosde Confiança Bootstrap

Estatística: Revelando o Poder dos Dados

Sumário

Amostras bootstrap

Distribuição bootstrap

Erro-padrão de uma distribuição bootstrap

Intervalo de confiança de 95% com base em erro-padrão bootstrap

Estatística: Revelando o Poder dos Dados

Intervalos de Confiança

População Amostra

Amostra

Amostra

AmostraAmostraAmostra

. . .

Distribuição Amostral

Erro-Padrão (EP): desvio-padrão da distribuição amostral

Margem de Erro (ME)(95% IC: ME = 2×EP)

estatística ± ME

Calcule estatísticapara cada amostra

Estatística: Revelando o Poder dos Dados

Ideal• Para criar um intervalo plausível de valores

para um parâmetro:o Pegue muitas amostras aleatórias da população e

calcule a estatística da amostra para cadao Calcule o erro-padrão como o desvio-padrão de

todas essas estatísticaso Use estatística 2EP

• Um pequeno problema…

Estatística: Revelando o Poder dos Dados

Realidade

… APENAS TEMOS UMA AMOSTRA!!!!

• Como sabemos o quanto as estatísticas amostrais variam, se temos apenas uma amostra?!?

BOOTSTRAP!

Estatística: Revelando o Poder dos Dados

Amostra: 52/100 laranja

Onde poderia estar o “verdadeiro” p?

UMA Amostra de Confetes (m&m’s)

ˆ 0.52p

Estatística: Revelando o Poder dos Dados

• Imagine que a “população” seja muitas, muitas copias da amostra original

• (O que você tem que assumir?)

“População”

Estatística: Revelando o Poder dos Dados

“População” de Confetes (m&m’s)

Amostre repetidamentedesta “população”

Estatística: Revelando o Poder dos Dados

• Para simular uma distribuição de amostragem, podemos apenas recolher amostras aleatórias repetidas desta “população” composta de muitas cópias da amostra

• Na prática, não podemos fazer cópias infinitas da amostra…

• … mas podemos fazer isso por amostragem com reposição da amostra que temos (cada unidade pode ser selecionada mais de uma vez)

Amostragem com Reposição

Estatística: Revelando o Poder dos Dados

Suponha que tenhamos uma amostra aleatória de 6 pessoas:

Estatística: Revelando o Poder dos Dados

Amostraoriginal

Uma “população” simulada para fazer amostras

Estatística: Revelando o Poder dos Dados

Amostra Bootstrap: Amostra com

reposição da amostra original, usando o mesmo tamanho de amostra.

Amostra original Amostra Bootstrap

Estatística: Revelando o Poder dos Dados

• Como você pegaria uma amostra bootstrap da sua amostra de m&m’s?

Confetes (m&m’s)

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados

18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap?

18, 19, 20, 21, 22

Amostra Bootstrap

Não. 22 não é um valor da amostra original

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados

18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap?

18, 19, 20, 21

Amostra Bootstrap

Não. Amostras bootstrap deve ter o mesmo tamanho da amostra original

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados

18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap?

18, 18, 19, 20, 21

Amostra Bootstrap

Sim. De mesmo tamanho, pode ser sido obtida por amostragem com reposição

Estatística: Revelando o Poder dos Dados

Bootstrap

Uma amostra bootstrap é uma amostra aleatória tirada com reposição da amostra original, do

mesmo tamanho da amostra original

Uma estatística bootstrap é a estatística calculada de uma amostra bootstrap

Uma distribuição bootstrap é a distribuição de muitas estatísticas bootstrap

Estatística: Revelando o Poder dos Dados

AmostraOriginal

AmostraBootstrap

AmostraBootstrap

AmostraBootstrap

.

.

.

EstatísticaBootstrap

EstatisticaAmostral

EstatísticaBootstrap

EstatísticaBootstrap

.

.

.

DistribuiçãoBootstrap

Estatística: Revelando o Poder dos Dados

Distribuição Bootstraplock5stat.com/statkey/

Estatística: Revelando o Poder dos Dados

“Pull yourself up by your bootstraps”

Porque “bootstrap”?

• Levante-se no ar simplesmente puxando para cima os laços de suas botas

• Metáfora para realização de uma tarefa “impossível” sem ajuda externa

Estatística: Revelando o Poder dos Dados

Distribuição Amostral

População

µ

MAS, na prática, não vemos a "árvore" ou todas as "sementes" -só temos UMA semente

Estatística: Revelando o Poder dos Dados

Distribuição Bootstrap

Bootstrap“População”

O que podemos fazer com apenas uma semente?

Cultive umaNOVA árvore!

ҧ𝑥

Estimar a distribuição e a variabilidade (EP) dos ҧ𝑥’s das amostrasbootstraps

µ

Estatística: Revelando o Poder dos Dados

As estatísticas bootstrap estão para a estatística amostral original

assim como

a estatística amostral original está para o parâmetro da população

Regra de Ouro do Bootstrap

Estatística: Revelando o Poder dos Dados

Centro

•A distribuição amostral é centrada em torno do parâmetro populacional

• A distribuição bootstrap é centrada em torno da estatística da amostra

•Felizmente, não nos importamos com o centro… nos preocupamos com a variabilidade!

Estatística: Revelando o Poder dos Dados

Erro-Padrão

• A variabilidade da estatística bootstrap é semelhante à variabilidade das estatísticas amostrais

• O erro-padrão de uma estatística pode ser estimado usando o desvio-padrão da distribuição bootstrap!

Estatística: Revelando o Poder dos Dados

Intervalos de Confiança Bootstrap

AmostraAmostrabootstrap

Amostrabootstrap

AmostrabootstrapAmostra

bootstrap

Amostrabootstrap . . .

Distribuição Bootstrap

Erro-Padrão (EP): desvio-padrão da distribuição bootstrap

Margem de Erro (ME)(95% IC: ME = 2×EP)

estatística ± ME

Calcule estatísticapara cada amostrabootstrap

Estatística: Revelando o Poder dos Dados

Quanto a Outros Parâmetros?Estime o erro-padrão e/ou um intervalo de confiança para ...

• proporção (𝑝)

• diference nas médias (µ1 − µ2 )

• diference nas proporções (𝑝1 − 𝑝2 )

• Desvio-padrão (𝜎)

• correlação (𝜌)

• ... Gere amostras com reposiçãoCalcule a estatística da amostraRepita...

Estatística: Revelando o Poder dos Dados

• Podemos usar bootstrap para avaliar a incerteza em torno de qualquer estatística amostral!

• Se tivermos dados amostrais, podemos usar o bootstrap para criar um intervalo de confiança de 95% para qualquer parâmetro!

(bem, quase isso…)

A Magia do Bootstrap

Estatística: Revelando o Poder dos Dados

Mustangs Usados

Qual é o preço médio de um carro usado Mustang?

Selecione uma amostra aleatória de n = 25 Mustangs de um website (autotrader.com) e registre o preço (em US $ 1.000) para cada carro.

Estatística: Revelando o Poder dos Dados

Amostra de Mustangs:

Nossa melhor estimativa para o preço médio dos Mustangsusados é de $ 15.980, mas quão exata é essa estimativa?

Price

0 5 10 15 20 25 30 35 40 45

MustangPrice Dot Plot

𝑛 = 25 ҧ𝑥 = 15.98 𝑠 = 11.11

BOOTSTRAP!

Estatística: Revelando o Poder dos Dados

Amostra Original 1. Amostra Bootstrap

2. Calcule o preço médio da amostra bootstrap

3. Repitamuitas vezes!

Estatística: Revelando o Poder dos Dados

Mustangs Usados

Erro-padrão

Estatística: Revelando o Poder dos Dados

Mustangs Usados

95% IC:

𝐸𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃

$15.980 ± 2 ∙ $2.178

($11.624; $20.336)

Temos 95% de confiança de que o preço médio de um Mustang usado no autotrader.com esteja entre US $ 11.624 e US $ 20.336.

Estatística: Revelando o Poder dos Dados

Mobilidade em Atlanta

Qual é o tempo médio de deslocamento para trabalhadores na região metropolitana de Atlanta?

Dados: O American Housing Survey (AHS) coletou dados de Atlanta em 2004

Estatística: Revelando o Poder dos Dados

Onde poderia estar o “verdadeiro” μ?

Time

20 40 60 80 100 120 140 160 180

CommuteAtlanta Dot Plot

Amostra Aleatória de 500 Deslocamentos

PODEMOS BOOTSTRAPear PARA DESCOBRIR

Estatística: Revelando o Poder dos Dados

Amostra Original

Estatística: Revelando o Poder dos Dados

“População” = muitas cópias da amostra

Estatística: Revelando o Poder dos Dados

Mobilidade em Atlanta

Intervalo de confiança de 95% para o tempo médio de deslocamento para os atlantes:

29,11 ± 2 × 0,915 27,3 a 30,9

Estatística: Revelando o Poder dos Dados

Qual a porcentagem de americanos que acreditam no aquecimento global?

Uma pesquisa com 2.251 indivíduos selecionados aleatoriamente, realizada em outubro de 2010, descobriu que 1.328 responderam "Sim" à pergunta

“Existe evidência sólida de aquecimento global?”

Forneça e interprete um IC de 95% para a proporção de americanos que acreditam que há evidências sólidas de aquecimento global.

Aquecimento global

Source: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10. http://pewresearch.org/pubs/1780/poll-global-warming-scientists-energy-policies-offshore-drilling-tea-party

Estatística: Revelando o Poder dos Dados

Aquecimento globalwww.lock5stat.com/statkey

Temos 95% de certeza de que a verdadeira porcentagem de todos os americanos que acreditam existir evidências sólidas de aquecimento global esteja entre 57% e 61%

0.59 2(0.01)= (0.57, 0.61)

Estatística: Revelando o Poder dos Dados

A crença no aquecimento global difere por partido político?

“Existe evidência sólida de aquecimento global?”

A proporção da amostra que respondeu "sim" foi de 79% entre os democratas e 38% entre os republicanos.(números exatos para cada partido não dada, mas assuma n = 1000 para cada grupo)

Dê um IC 95% para a diferença nas proporções.

Aquecimento global

Fonte: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10. http://pewresearch.org/pubs/1780/poll-global-warming-scientists-energy-policies-offshore-drilling-tea-party

Estatística: Revelando o Poder dos Dados

Aquecimento globalwww.lock5stat.com/statkey

Temos 95% de certeza de que a diferença na proporção de democratas e republicanos que acreditam no aquecimento global esteja entre 0,37 e 0,45.

0,41 2(0,02)= (0,37; 0,45)

Estatística: Revelando o Poder dos Dados

Aquecimento global

Com base nos dados que acabamos de analisar, você pode concluir com 95% de certeza que a proporção de pessoas que acreditam no aquecimento global difere por partido político?

Sim. Temos 95% de confiança de que a diferença está entre 0,37 e 0,45 e esse intervalo não inclui o 0 (nenhuma diferença)

Estatística: Revelando o Poder dos Dados

Resumo Para gerar uma distribuição bootstrap, nós:

Gere amostras bootstrap por amostragem com reposição da amostra original, usando o mesmo tamanho de amostra

Calcule a estatística de interesse, uma estatística bootstrap, para cada uma das amostras bootstrap

Colete as estatísticas para muitas amostras bootstrap para formar uma distribuição bootstrap

Se a distribuição bootstrap é simétrica e em forma de sino, um IC 95% pode ser estimado por 𝑒𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃, onde EP pode ser estimado como o desvio-padrão de uma distribuição bootstrap