ralph dos santos silva - instituto de matemática - ufrj · técnicas de amostragem amostragem...

31
T ÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro

Upload: ngokhanh

Post on 09-Dec-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

TÉCNICAS DE AMOSTRAGEM

Ralph dos Santos Silva

Departamento de Métodos EstatísticosInstituto de Matemática

Universidade Federal do Rio de Janeiro

Page 2: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Sumário

Amostragem Estratificada

Page 3: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Amostragem estratificada

Divisão da população em grupos chamados de estratos, motivada por:I melhora da precisão das estimativas;I estimativas independentes para estratos além da população como um

todo;I questões administrativas, estratos naturais.

Motivação técnica:

I VarAAS(y) = (1− f )S2

n;

I Erro diminui quando amostra cresce, mas cresce quando a variabilidadeé grande;

I Uma alternativa é dividir a população em grupos (estratos) o maishomogêneos possíveis.

Page 4: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Exemplo:

Seja uma população P8 sendo que se conhece as variáveis renda domiciliar(y ) e bairro de moradia (x) como na tabela abaixo:

i 1 2 3 4 5 6 7 8Yi 13 17 6 5 10 12 19 6Xi B A B B B A A B

Y = 11; σ2 = 24; S2 = 27, 43.

Estrato A Estrato Bi 2 6 7 1 3 4 5 8

Yi 17 12 19 13 6 5 10 6Xi A A A B B B B B

Y A = 16 σ2A = 8, 67 S2

A = 13Y B = 8 σ2

B = 9, 2 S2B = 11, 5

Page 5: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Vamos selecionar amostras de tamanho 4 das seguintes maneiras:I AAS na população PN ;I AAS de tamanho 2 no estrato A e AAS de tamanho 2 no estrato B.

Então, pode-se calcular:

VarAAS(y) = (1− f )S2

n

VarAAS(yA) = (1− fA)S2

A

nA

VarAAS(yB) = (1− fB)S2

B

nB.

Pode-se calcular a média da população como uma média ponderada dasmédias dos grupos A e B.

Propomos como estimador da média populacional a seguinte estatística:

yae =NA

NyA +

NB

NyB.

Page 6: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Portanto,

Var(yae) =

[NA

N

]2

Var(yA) +

[NB

N

]2

Var(yB).

O efeito da estratificação é dado por:

EPA =Var(yae)

Var(y).

Escolha do método de amostragem: melhor método é o que tem menorvariância para o estimador.

Page 7: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Nem tudo são flores!

Vamos supor que ao invés de usar a variável bairro para estratificar, fosseusada outra variável tal que:

Estrato A Estrato Bi 1 2 3 4 5 6 7 8

Yi 13 17 6 5 10 12 19 6Xi B A B B B A A B

Y A = 10, 25 σ2A = 24, 69 S2

A = 32, 92Y B = 11, 75 σ2

B = 22, 19 S2B = 29, 58

I Será isto razoável?I Qual será o valor EPA?

Page 8: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Formalização

Seja a população PN = {U1,U2, . . . ,UN}.

Dividida em H estratos:

PN1 = {U11,U12, . . . ,U1N1}PN2 = {U21,U22, . . . ,U2N1}

......

...

PNH = {UH1,UH2, . . . ,UHNH },

sendo que

PN =H⋃

h=1

PNh eH⋂

h=1

PNh = ∅.

Page 9: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Pode-se representar uma população estratificada por:

Estrato Total Média Variância1 τ1 µ1 = Y 1 σ2

1 ou S21

2 τ2 µ2 = Y 2 σ22 ou S2

2...

......

...h τh µh = Y h σ2

h ou S2h

......

......

H τH µH = Y H σ2H ou S2

H

População τ µ = Y σ2 ou S2

Page 10: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Notação da população

I Tamanho do estrato h: Nh;I Total do estrato h: τh = Yh =

∑Nhi=1 Yhi ;

I Média do estrato h: µh = Y h = 1Nh

∑Nhi=1 Yhi ;

I Variância do estrato h: S2h = 1

Nh−1

∑Nhi=1(Yhi − Y h)

2;

I Peso do estrato h: Wh = NhN tal que

∑Hh=1 Wh = 1;

I Tamanho da população: N =∑H

h=1 Nh;

I Total da população: τ =∑H

h=1 τh ou Y =∑H

h=1 Yh;

I Média da população: µ = Y = 1N

∑Hh=1

∑Nhi=1 Yhi =

∑Hh=1 WhY h;

I Variância populacional: S2 = 1N−1

∑Hh=1

∑Nhi=1(Yhi − µ)2.

Page 11: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Notação da amostra

Considere yih como a i-ésima observação do estrato h.I Tamanho da amostra do estrato h: nh;I Média amostral do estrato h: yh = 1

nh

∑nhi=1 yhi ;

I Variância amostral do estrato h: s2h = 1

nh−1

∑nhi=1(yhi − yh)

2;

I Fração amostral do estrato h: fh = nhNh

;

I Tamanho da amostra: n =∑H

h=1 nh;

Page 12: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Resultados

Temos que σ2 = σ2d + σ2

e .

A variância pode ser vista como uma soma das variâncias dentro dos grupos(estratos) mais uma medida da variância entre os grupos, sendo:

σ2d =

H∑h=1

Whσ2h e σ2

e =H∑

h=1

Wh(Y h − Y )2.

tal que

σ2 = σ2d + σ2

e =H∑

h=1

Whσ2h +

H∑h=1

Wh(Y h − Y )2.

De forma análoga, tem-se

S2 =H∑

h=1

Nh − 1N − 1

S2h +

H∑h=1

Nh

N − 1(Y h − Y )2.

Page 13: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Estimação

O estimador da média populacional (média global) é dado por:

yae =1N

H∑h=1

Nhyh =H∑

h=1

Whyh,

sendo yh o estimador da média no estrato h.

Se todos os yh são estimadores não tendenciosos, tem-se que:

E(yae) = Y .

Em particular, isso ocorre se os estimadores de cada média de estrato for acorrespondente média amostral.

Page 14: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Exemplo

Uma vila foi dividida (estratificada) em três conjuntos de domicílios segundosuas características: 1-região onde moram trabalhadores da indústria,2-moradores mais antigos, 3-área rural. Foi selecionada uma amostra emcada estrato e investigado o número de horas em que se assiste televisãopor semana em cada domicílio.

I Estimar a média de horas por semana em cada estrato e na população;I Existe evidência que o número de horas difere em cada estrato?

Estrato 1 Estrato 2 Estrato 335 28 26 41 27 4 49 10 8 15 21 743 29 32 37 15 41 25 30 14 30 20 1136 25 29 31 12 32 34 2439 38 40 4528 27 35 34

N1 = 155 N2 = 62 N3 = 93n1 = 20 n2 = 8 n3 = 12

Page 15: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Exemplo (continuação)

y1 = 33, 900 s21 = 33, 35789

y2 = 25, 125 s22 = 232, 4107

y3 = 19, 000 s22 = 87, 63636

yae =1

155 + 62 + 93[155× 33, 9 + 62× 25, 125 + 93× 19, 0] = 27, 675.

Ao nível de significância de 5%, tem-se:

ic95%(Y 1) = (31, 47; 36, 33)

ic95%(Y 2) = (15, 27; 34, 98)

ic95%(Y 3) = (14, 05; 30, 07).

Portanto, existe diferença entre o número médio de horas em cada estrato.

Page 16: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Importante

O estimador sugerido para a média populacional na amostragemestratificada não é a média amostral.

A média amostral é dada por:

y =1n

H∑h=1

nh∑i=1

yhi

=1n

H∑h=1

nhyh

=H∑

h=1

whyh com wh =nh

n, h = 1, 2, . . . ,H.

Então, y = yae se wh = Wh para todo h = 1, 2, . . . ,H.

Page 17: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Estimação

Um estimador para o total populacional é dado por:

Yae =H∑

h=1

Yh =H∑

h=1

Nhyh = Nyae com Yh = Nhyh.

Variância dos estimadores:

I média: VarAE(yae) =H∑

h=1

W 2h Var(yh).

I total: VarAE(Yae) = N2H∑

h=1

W 2h Var(yh) =

H∑h=1

N2h Var(yn).

E se em todos os estratos tivermos AAS?

Page 18: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Alocação da amostra

Um problema na amostragem estratificada é determinar como dividir as nunidades da amostra total em cada estrato de modo que:

n =H∑

h=1

nh.

Chama-se este problema de alocação da amostra.

Os três tipos principais de alocação são:I Alocação proporcional;I Igual;I Ótima ou de Neyman.

Page 19: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Alocação proporcional

Nesse tipo de alocação o número de unidades na amostra em cada estrato éproporcional ao tamanho do estrato:

nh = nWh = nNh

N, para todo h = 1, 2, . . . ,H.

Portanto:fh =

nh

Nh=

nN, para todo h = 1, 2, . . . ,H.

Alocação igual

Tem-se quenh =

nH, para todo h = 1, 2, . . . ,H.

Pode-se adaptar adequadamente as fórmulas das variâncias dosestimadores para cada alocação.

Page 20: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

ExemploUma região possui 60 municípios e deseja fazer uma amostragem paraatualizar a estimativa do total de sua população. Para isso foi decididopesquisar 20 cidades e deseja-se saber qual seria o mais eficiente para ocaso: uma amostra aleatória simples (AAS), uma amostra aleatóriaestratificada (AAE) com alocação proporcional ou uma AAE com alocaçãoigual.As cidades foram agrupadas em dois estratos segundo a população apuradano último Censo (cidades grandes: mais de 300 mil habitantes; e cidadespequenas: menos de 300 mil habitantes). A tabela mostra essaestratificação e as populações, no censo, em milhares de habitantes.

Estrato 1776 622 583 502 468 468 438 437 419 416 404 382 370 346 318

Estrato 2297 295 294 292 290 285 270 255 250 250 244 241 238 236 234231 220 218 215 211 204 202 201 192 190 190 188 178 178 171167 166 163 162 157 145 141 141 139 125 122 118 112 111 110

Estrato 1 Estrato 2Total 6.949 9.039

Soma de Quadrado 3.417.311 1.954.179

Page 21: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Alocação ótima de NeymanSabe-se que populações (ou estratos) grandes precisam de amostrasgrandes.

Sabe-se que fenômenos com grande variabilidade também precisam deamostras grandes.

Suponha que o custo para pesquisar uma unidade amostral possa variarpara cada estrato.

A alocação ótima de Neyman leva tudo isso em conta:

nh = n × NhSh/√

ch∑Hh=1 NhSh/

√ch. (1)

O custo da pesquisa será suposto linear, ou seja:

C = c0 +H∑

h=1

nhch, (2)

sendo c0 o “custo de escritório” que não depende de h e ch o custo depesquisar uma unidade do estrato h.

Page 22: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Alocação ótima de Neyman

Tendo o custo fixo, pode-se calcular o tamanho da amostra, substituindo (1)em (2), por:

n =(C − c0)

∑Hh=1 NhSh/

√ch∑H

h=1 NhSh√

ch.

Fixando a variância desejada para estimar a média como V , ou seja,

V = VarAE(yae) =H∑

h=1

W 2h Var(yh) =

H∑h=1

W 2h (1−fh)

S2h

nh=

H∑h=1

W 2h S2

h

nh− 1

N

H∑h=1

WhS2h ,

e substituindo (1) em V , tem-se:

n =

(∑Hh=1 WhSh/

√ch

)(∑Hh=1 WhSh

√ch

)V + 1

N

∑Hh=1 WhS2

h

.

Page 23: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Para o caso em que os custos para coleta dos dados independem do estratotem-se

nh = n × NhSh∑Hh=1 NhSh

= n × WhSh∑Hh=1 WhSh

.

A alocação acima é a que minimiza a variância quando o tamanho total daamostra, n, é dado.

Utiliza-se também essa fórmula quando não se tem nenhuma ideia sobre ocusto de coleta nos estratos.

Page 24: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Dado um tipo de alocação, pode-se adaptar as fórmulas das variâncias dosestimadores:

I Alocação proporcional:

Var(yes:prop) =1− fnN

H∑h=1

NhS2h .

I Alocação igual ou uniforme:

Var(yes:igual) =1

N2

[Hn

H∑h=1

N2h S2

h −H∑

h=1

NhS2h

].

I Alocação ótima ou Neyman:

Var(yes:otima) =1

N2

1n

(H∑

h=1

NhSh

)2

−H∑

h=1

NhS2h

.

Page 25: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Tamanho da amostra estratificada - caso geral

Seja V a variância mínima desejada para estimar a média da população.

Seja uma alocação qualquer nh = nah, sendo ah a constante que define aalocação no estrato h.

Pela fórmula da variância da média temos

V =H∑

h=1

W 2h

(1− nah

Nh

)S2

h

nah=

1n

H∑h=1

W 2h

S2h

ah− 1

N

H∑h=1

WhS2h .

Logo,

n =

∑Hh=1 W 2

hS2

h

ah

V +1N∑H

h=1 WhS2h

.

Portanto, os ah’s vão depender da alocação escolhida.

Proporcional: ah = Wh. Igual: ah =1H

. Ótima: ah =WhSh/

√ch∑H

h=1 WhSh/√

ch

Page 26: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Pode-se usar a mesma estratégia do cálculo do tamanho da amostra naAAS, calculando n0 e depois n, sendo:

n0 =1V

H∑h=1

W 2h S2

h

ah, n =

n0

1 +1

NV

H∑h=1

WhS2h

.

Fixando o erro, d , ao invés da variância V :

V =

[d

z1−α/2

]2

.

Page 27: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Intervalos de confiançaIntervalos de confiança para a média e total, supondo AAS dentro dosestratos.

I Seja a variância amostral em cada estrato:

s2h =

1nh − 1

nh∑i=1

(yhi − yh)2.

I Um estimador não tendencioso para variância da estimativa da média é:

v(yae) =H∑

h=1

W 2h s2

h

nh−

H∑h=1

Whs2h

N.

I Intervalos de confiança podem ser calculados por:

ic(1−α)100%(Y ) =

(yae − z1−α/2

√v(yae), yae + z1−α/2

√v(yae)

)ic(1−α)100%(Y ) =

(Nyae − z1−α/2N

√v(yae),Nyae + z1−α/2N

√v(yae)

).

Page 28: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Intervalos de confiança

Quando as amostras nos estratos são muito pequenas aconselha-sesubstituir a aproximação Normal pela t-Student com ν graus de liberdade.

Os graus de liberdade são dados por

ν =

[∑Hh=1 ghs2

h

]2

∑Hh=1

[g2

hs4h(nh − 1)

]2 com gh =Nh(Nh − nh)

nh.

O grau de liberdade ν pode ser arredondado para um inteiro positivo.

Page 29: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Estrato com tamanho unitárioSuponha que os estrato certo é h = 1.

Então, o estimador da média da população é

yae =H∑

h=1

Whyh = W1Y 1 +H∑

h=2

Whyh,

com variância dada por

VarAE(yae) = W 21 VarAE(Y 1) +

H∑h=2

W 2h VarAE(yh) =

H∑h=2

W 2h VarAE(yh),

poisVarAE(Y 1) = 0.

Para o total populacional, tem-se:

Yae = N1Y 1 +H∑

h=2

Nhyh, e

VarAE(Yae) =H∑

h=2

N2h VarAE(yh).

Page 30: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Amostragem estratificada: proporções

Em uma população com H estratos: Ph =Nch

Nh,

sendo Nch o número de unidades no estrato h com a característica.

A variância de y no estrato h é dada por: S2h =

NhPhQh

Nh − 1.

Estima-se a proporção na população por: pae =1N

H∑h=1

Nhph =H∑

h=1

Whph,

com ph = yae =1nh

nh∑i=1

yhi .

Sua variância é dada por

VarAE(pae) =H∑

h=1

W 2h VarAE(ph) =

H∑h=1

W 2h

[Nh − nh

Nh − 1

]PhQh

nh.

Page 31: Ralph dos Santos Silva - Instituto de Matemática - UFRJ · Técnicas de Amostragem Amostragem Estratificada Exemplo Uma vila foi dividida (estratificada) em três conjuntos de

Técnicas de Amostragem

Amostragem Estratificada

Tamanho da amostragem

I Alocação proporcional: nh = nWh.I Fixando a variância V :

V =H∑

h=1

W 2h

[Nh − nWh

Nh − 1

]PhQh

nWh=

Nn

H∑h=1

W 2h

PhQh

Nh − 1−

H∑h=1

W 2h

PhQh

Nh − 1⇒

n =N∑H

h=1 W 2h

PhQh

Nh − 1

V +∑H

h=1 W 2h

PhQh

Nh − 1

=n0

1 +n0

N

com n0 =N∑H

h=1 W 2h

PhQh

Nh − 1V

.

I Supondo Nh “grande”:

n =

∑Hh=1 WhPhQh

V +1N∑H

h=1 WhPhQh

=n0

1 +n0

N

com n0 =

∑Hh=1 WhPhQh

V.