amostragem por conglomerados em múltiplos estágios questões sobre tamanhos de amostras sorteio...

47
CURSO DE VERÃO 2013 LABORATÓRIO EM PLANOS COMPLEXOS DE AMOSTRAGEM Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão das estimativas

Upload: internet

Post on 17-Apr-2015

111 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

CURSO DE VERÃO 2013LABORATÓRIO EM PLANOS COMPLEXOS DE AMOSTRAGEM

Amostragem por conglomerados em múltiplos estágiosQuestões sobre tamanhos de amostras

Sorteio das unidades de amostragem

Efeito do delineamento na precisão das estimativas

Page 2: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

AMOSTRAGEM POR CONGLOMERADOS EM MÚLTIPLOS ESTÁGIOS

Page 3: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

AMOSTRA DE CONGLOMERADOS EM MÚLTIPLOS ESTÁGIOS Conglomerados: unidades de amostragem

que contém vários elementos Múltiplos estágios

sorteio de unidades dentro de unidades sorteadas anteriormente

conglomerados sorteados no 1º. Estágio UPA: áreas geográficas pequenas, que cobrem toda a população

Em inquéritos Amostras do país ou de regiões do país ou de

estados UPA município Amostras em municípios UPA setor censitário

Page 4: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SETOR CENSITÁRIO

Page 5: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

FRAÇÃO DE AMOSTRAGEMAAS f = n/N = m/M

Amostragem em dois estágios f = f1* f2

Amostragem em três estágios f = f1* f2 * f3

Page 6: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

QUESTÕES SOBRE O TAMANHO DA AMOSTRADOIS ESTÁGIOS DE SELEÇÃO

Cálculo de n – número de pessoas - considerando o parâmetro a ser estimado

Definição dos domínios – n para cada domínio

Cálculo de m – número de domicílios

Cálculo do número de setores censitários e de domicílios por setor

Page 7: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

OBJETIVO ESTIMAR PREVALÊNCIAS

Parâmetro proporção

Estimador na AAS

N

YP

N

ii

1

n

yp

n

ii

1

 

Page 8: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

TAMANHO DE AMOSTRA PARA PROPORÇÕES

AMOSTRAGEM ALEATÓRIA SIMPLES

2

96,1

)1(

d

PPn

Page 9: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

VARIÂNCIA POR ELEMENTO P(1-P)

P 1-P variância por

elemento 0,10 0,90 0,09

0,20 0,80 0,16

0,30 0,70 0,21

0,40 0,60 0,24

0,50 0,50 0,25

0,60 0,40 0,24

0,70 0,30 0,21

0,80 0,20 0,16

0,90 0,10 0,09

Page 10: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

ERRO DE AMOSTRAGEM

Semi-amplitude do intervalo de confiança

d d Consequência de que

1,96 indica nível de confiança de 95%

dpdpIC ;:%95

)(96,1;)(96,1:%95 pDPppDPpIC

𝑃ሾȁ�𝑝− 𝑃ȁ�< 1,96 𝐷𝑃(𝑝)ሿ= 0,95

Page 11: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

EXEMPLOS

Para estimar a proporção de idosos com HA no município X ISA-Capital 2008 52% d=5% IC:[47%;57%] n=384

Para estimar a proporção de idosos com depressão no município X

ISA-Capital 2008 25% d=5% IC:[20%;30%] n=288

Para estimar a proporção de idosos com rinite no município X ISA-Capital 2008 12% d=5% IC:[7%;17%] ???? n=100

Page 12: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

PASSAGEM AAS AMOSTRA COMPLEXA

deffnnc

Page 13: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

EFEITO DO DELINEAMENTO

 

Page 14: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

VARIÂNCIAS

Amostragem aleatória simples

Amostragem por conglomerados de tamanhos desiguais

x

yr

n

ii

1

𝑣𝑎𝑟ሺ𝑦തሻ= σ(𝑦𝑖 − 𝑦ത)2𝑛(𝑛− 1)

n

y

y

n

ii

1

𝑣𝑎𝑟ሺ𝑟ሻ= 1𝑥2ሾ𝑣𝑎𝑟ሺ𝑦ሻ+ 𝑣𝑎𝑟ሺ𝑥ሻ− 2𝑟∙𝑐𝑜𝑣(𝑦,𝑥)ሿ

Page 15: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

PREVALÊNCIA DE HIPERTENSÃO EM IDOSOSISACAMP-2008

. mean ha if dominio==3 ---------------------------------------------------------------------- | Mean Std. Err. [95% Conf. Interval] -----------+---------------------------------------------------------- ha | .5385122 .0127951 .5134143 .56361 ----------------------------------------------------------------------- svy : mean ha if dominio==3 ---------------------------------------------------------------------- | Linearized | Mean Std. Err. [95% Conf. Interval] ------------+-------------------------------------------------------- ha | .5321661 .0170251 .4979529 .5663794 ---------------------------------------------------------------------- . estat effects -------------------------------------------------------- | Linearized | Mean Std. Err. DEFF -----------+-------------------------------------------- ha | .5321661 .0170251 1.76732 ---------------------------------------------------------- 𝑑𝑒𝑓𝑓= ൬

0,01702510,0127951൰2 = 1,77

Page 16: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

NO PLANEJAMENTO DE INQUÉRITOS

deff=2

Dependerá da homogeneidade intraclasse da distribuição da amostra pelas unidades

primárias de amostragem

Page 17: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

DOMÍNIOS

Cálculo de n deve ser feito para cada domínio.

Domínio – parte da população para a qual estimativas separadas são planejadas (Kish pág.75)

Podem ser definidos por critérios: 1) geográficos 2) demográficos

Page 18: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

TAMANHO DE AMOSTRA EM DOMÍNIOS

Tamanho mínimo de amostra n=500 Amostra proporcional

tam.total =n/(menor prop)=500/0,10=5000 Amostras de tamanhos iguais

tam.total=5*n=2500

Região distribuição pop am.proporcional am.tam.iguais

Norte 20% 1000 500

Sul 15% 750 500

Leste 25% 1250 500

Oeste 30% 1500 500

Centro 10% 500 500

Total 100% 5000 2500

Page 19: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

INQUÉRITOS TAMANHO DA AMOSTRA DE PESSOAS TAMANHO DA AMOSTRA DE DOMICÍLIOS

Transformação de n m

m número de pessoas a serem sorteadas dividido pela média de pessoas por domicílio na faixa etária de interesse

MN

nm

/

M

m

N

n

Page 20: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

NÃO RESPOSTA

Acréscimo pela taxa de não resposta (máxima a ser tolerada)

Diminui o erro de amostragem das estimativas, mas não o vício causado pela não resposta

TNR

nn inicial

1

Page 21: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

EXEMPLO

 

Page 22: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

DEFININDO NÚMERO DE SETORES CENSITÁRIOS E DE DOMICÍLIOS POR SETOR

Para um dado m busca-se menor deff

O efeito do delineamento depende: da estratégia elaborada para o processo de

sorteio - número de setores e domicílios por setor da composição interna dos conglomerados -

homogeneidade intra conglomerados

)1(1 bdeff

Page 23: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

CORRELAÇÃO INTRACLASSE

Variáveis demográfi cas

Pesquisa Variável Estimativa I dosos – MSP Sexo 0,000 I dade 0,008 Variáveis “socio-econômicas”

Pesquisa Local Variável Estimativa I dosos MSP Sabe ler e escrever 0,143 Foi a escola 0,156 I nquérito de Saúde Áreas ESP Anos estudo chefe 0,172 Equipamentos domicílio 0,282 Suicídio Campinas Renda 0,170 PNAD GSP Renda familiar per capita 0,354 Chefes com ensino superior 0,296 PNAD Alagoas Anos de estudo 0,379

Page 24: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

Variáveis “de saúde”

Pesquisa Local Variável Estimativa I dosos MSP Hábito de f umar 0,003 Hipertensão 0,016 Auto avaliação saúde 0,034 I nquérito de Saúde Áreas ESP Morbidade (15 dias) 0,040 Uso medicamentos (3 dias) 0,050 Consulta odontológica (12 m.) 0,053 Serviço de saúde utilizado 0,091 Crônicas (20 anos) Câncer 0,007 Hipertensão 0,010 Problemas de coluna 0,020 Enxaqueca 0,024 Osteoporose 0,025 Suicídio Campinas I deação 0,010 Planejamento 0,011 Tentativa 0,022 PNAD-98 RMSP Portador de difi culdades 0,013 Uso de óculos / lente 0,100 PNAD Alagoas Crônicas (15 anos) 0,036 Hipertensão 0,011 Problemas de coluna 0,046

Page 25: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

DETERMINAÇÃO DE b

b 5 10 15 20 0,025 1,1 1,23 1,35 1,48 0,05 1,2 1,45 1,7 1,95 0,10 1,4 1,9 2,4 1,9 0,15 1,6 2,35 3,1 2,85 0,20 1,8 2,8 3,8 3,8

Page 26: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

TAMANHO ÓTIMO DE B

1

c

Cb aótimo

Ca custo associado ao conglomerado

c custo por elemento

Page 27: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

Considerando a razão de custos adotada pelo SEADE (na PCV) 20

ótimob deff

0,05 19 2,0 0,10 13 2,2 0,15 11 2,5 0,20 9 2,6

Page 28: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

NÚMERO DE SETORES CENSITÁRIOS

                         

                          a = n / b

escolher a>=30

Page 29: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SORTEIO NO 1º. ESTÁGIOSORTEIO COM PROBABILIDADE PROPORCIONAL AO TAMANHO

Metodologia de eleição da maior parte dos inquéritos

Medidas de tamanho determinam probabilidade de seleção probabilidades diferentes para as UPAs

Probabilidades de seleção das UPAS combinadas com frações de amostragem adequadas nos estágios seguintes equiprobabilidade

Principal atrativo amostras de tamanhos aproximadamente iguais nas UPAs

Page 30: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

FRAÇÃO DE AMOSTRAGEMPRIMEIRO ESTÁGIO

                        é o tamanho do setor i

M é o número total de domicílios

M

Maf i1

iM

Page 31: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

ARQUIVO DE SETORES CENSITÁRIOS DO IBGE

ID_ V01 V02 V05SITUAÇÃO TIPO DOMPP

350950205000001 1 0 160350950205000002 1 0 259350950205000003 1 0 230350950205000004 1 0 256350950205000005 1 0 152350950205000006 1 0 168350950205000007 1 0 195350950205000008 1 0 197350950205000009 1 0 249350950205000010 1 0 163350950205000011 1 0 152350950205000012 1 0 112350950205000013 1 0 140350950205000014 1 0 237350950205000015 1 0 226350950205000016 1 0 255350950205000017 1 0 236

Page 32: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SORTEIO NO 1º. ESTÁGIOSORTEIO PPT - PROBABILIDADE PROPORCIONAL AO TAMANHO

1º. passo – soma acumulada

considerando o setor censitário como UPA a cada setor é atribuído um intervalo de

números tamanho do intervalo = número de

domicílios de cada setor

Page 33: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

1º. PASSO DO SORTEIO PPTID_ DomPP Acumulado Intervalo Imaginário350950205000001 160 160 1 a 160350950205000002 259 419 161 a 419350950205000003 230 649 420 a 649350950205000004 256 905 650 a 905350950205000005 152 1057 906 a 1057350950205000006 168 1225 1058 a 1225350950205000007 195 1420 1226 a 1420350950205000008 197 1617 1420 a 1617350950205000009 249 1866 1618 a 1866350950205000010 163 2029 1867 a 2029350950205000011 152 2181 2030 a 2181350950205000012 112 2293 2182 a 2293350950205000013 140 2433 2294 a 2433350950205000014 237 2670 2434 a 2670350950205000015 226 2896 2671 a 2896350950205000016 255 3151 2897 a 3151350950205000017 236 3387 3152 a 3387350950205000018 159 3546 3388 a 3546350950205000019 117 3663 3547 a 3663350950205000020 192 3855 3664 a 3855350950205000021 203 4058 3856 a 4058350950205000022 192 4250 4059 a 4250350950205000023 168 4418 4251 a 4418

Page 34: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SORTEIO NO 1º. ESTÁGIOSORTEIO PPT - PROBABILIDADE PROPORCIONAL AO TAMANHO

2º. Passo – Calcula-se o intervalo de amostragem(total de domicílios / número de setores da amostra)

3º. Passo – Sorteia-se um número aleatório dentro do 1º. intervalo (início casual)

4º. Passo – Acumula-se o intervalo de amostragem sucessivamente

Os setores da amostra serão os que tiverem nos seus “intervalos de números” os números sorteados

Page 35: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

NO EXEMPLO Total de domicílios: 276080 Total de setores da amostra: 70

Intervalo de amostragem: 276080/70=3944 Início casual entre 1 e 3944: 232 Setor 02 é o primeiro setor sorteado (seu intervalo é

161 a 419)

Outros números sorteados: 232 + 3944 = 4176 (setor 22)

4176 + 3944 = 8120 (setor 44) 8120 + 3944 = 12064 (setor 68)

                                                 ...

Page 36: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

FRAÇÃO DE AMOSTRAGEMSEGUNDO ESTÁGIO

Se Mi é também o número de domicílios encontrado em campo (número atual de domicílios) 

Ex: Mi=360 e b=120  f2=1/3    Será incluído na amostra 1 domicílio cada 30 

𝑓2 = 𝑏𝑀𝑖

Page 37: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SORTEIO NO 2º. ESTÁGIO SORTEIO DE DOMICÍLIOS

Calcula-se o intervalo de amostragem domicílios do setor / b

sendo b o número de domicílios a ser sorteado no setor Sorteia-se um início aleatório no 1o. intervalo

(início casual) Soma-se o intervalo de amostragem

sucessivamente Os números assim identificados correspondem

aos domicílios sorteados

Page 38: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

FRAÇÃO DE AMOSTRAGEM GLOBAL

𝑓= 𝑓1 ∗𝑓2

𝑓= 𝑎𝑀𝑖𝑀∗ 𝑏𝑀𝑖 = 𝑎𝑏𝑀= 𝑚𝑀

Page 39: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SE MI NÃO É IGUAL A TAMANHO ATUAL1ª. OPÇÃO

Seleção de domicílios com fração fixa (b/Mi)

é o número de domicílios sorteado no setor é o número de domicílios do censo (utilizado no sorteio do 1º. estágio) é o número de domicílios existentes no momento da pesquisa (atual)

𝑏𝑖 = 𝑏𝑀𝑖 ∗𝑀𝑖′

𝑓2 = 𝑏𝑖𝑀𝑖′ = 𝑏𝑀𝑖′𝑀𝑖𝑀𝑖′

𝑀𝑖′ 𝑀𝑖 𝑏𝑖

Page 40: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SE MI NÃO É IGUAL A TAMANHO ATUAL – 1ª. OPÇÃOVantagem Fração de amostragem global é a mesma

para todas as UPAs – amostra equiprobabilística

Desvantagens Sem controle do tamanho final da amostra Número de domicílios nas UPAs podem

variar muito

𝑓= 𝑎𝑀𝑖𝑀∗𝑏𝑀𝑖′𝑀𝑖𝑀𝑖′ = 𝑎𝑏𝑀

Page 41: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

1ª OPÇÃO

No exemplo:  

Mas tamanho atual é 278

Serão sorteados 46 domicílios que corresponde a 1/6 dos domicílios atualmente existentes.

𝑓2 = 43(278258)278 = 43 × 1,077278 = 46,3278 = 16

𝑓2 = 43258 = 16

Page 42: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

SE MI NÃO É IGUAL A TAMANHO ATUAL 2ª. OPÇÃO

Fixar b  (o número de domicílios é o mesmo em todos os setores)

Frações de amostragem distintas nos setores  ponderação

𝑓2 = 𝑏𝑀𝑖′ 𝑓= 𝑎𝑀𝑖𝑀∗ 𝑏𝑀𝑖′

Page 43: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

2ª OPÇÃO

No exemplo:  

Mas tamanho atual é 278

Serão sorteados 43 domicílios mas a fração de amostragem nesse setor foi de 6,5

𝑓2 = 43278 = 16,5

𝑓2 = 43258 = 16

Page 44: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

PESO DO DELINEAMENTOPESO BÁSICO

Inverso da fração de amostragem

Se amostra equiprobabilística

Se há diferenças entre probabilidades utilizadas no sorteio,

para cada elemento i

𝑤= 1/𝑓

𝑤𝑖 = 1/𝑓𝑖

Page 45: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

PESO DO DELINEAMENTO

Peso resultante da utilização de diferentes probabilidades de seleção inverso da fração de amostragem

Causas 1) tamanhos atuais das UPAs diferentes dos

tamanhos utilizados em seu sorteio e sorteio de um número constante de domicílios nos setores

2) sorteio de números de elementos nos estratos ou domínios não proporcionais ao tamanho dos estratos/domínios

Page 46: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

AJUSTE DE NÃO RESPOSTA

Variável utilizada no ajuste – variável para a qual há informação também para os não respondentes. Usual – geográficas.

Suposição – em cada categoria da variável de ajuste os respondentes são amostras das pessoas sorteadas – as perdas são ao acaso

Dentro das categorias – amostra de respondentes é inflada para atingir número sorteado

Page 47: Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão

AJUSTE DE PÓS ESTRATIFICAÇÃO

A distribuição da amostra segundo variáveis sóciodemográficas é igualada à distribuição da população

Utilização de dados da população - externos, portanto, à pesquisa.