curso ibge - introdução a analise de dados amostrais complexos

90

Upload: andre-cordeiro-valerio

Post on 30-Dec-2015

266 views

Category:

Documents


1 download

DESCRIPTION

Curso IBGE

TRANSCRIPT

Page 1: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo agrave anaacutelise de dados amostrais

complexos

Djalma Pessoa e Andreacute Costa

23 de novembro de 2013

Toacutepicos

I Introduccedilatildeo

I Bases de dados das pesquisas domiciliares do IBGE

I Anaacutelise de dados amostrais complexos

I Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do IBGE

I Reproduccedilatildeo de tabelas de estimativas do IBGE

I Pesquisa de Orccedilamentos Familiares

I Pesquisa Nacional por Amostra de Domiciacutelios

I Amostra do Censo Demograacuteco de 2010

Introduccedilatildeo

I Nos uacuteltimos anos o IBGE tem disponibilizado cada vez maisinformaccedilotildees de uso puacuteblico natildeo somente em forma de dadostabulares mas dando acesso direto aos microdados Ou seja oIBGE tem possibilitado que qualquer usuaacuterio tenha acesso aosdados no menor niacutevel de agregaccedilatildeo da pesquisa semprepreservando o sigilo das informaccedilotildees fornecidas pelosentrevistados

I Isto permite uma melhor utilizaccedilatildeo dos dados mas impotildee queo usuaacuterio de microdados tenha acesso e domiacutenio a softwaresestatiacutesticos

I Adicionalmente supotildee o conhecimento sobre os conceitos edeniccedilotildees utilizados durante a coleta dos dados e oacompanhamento das mudanccedilas destes ao longo dos anos

Introduccedilatildeo

I A utilizaccedilatildeo dos microdados das pesquisas do IBGE permiteuma anaacutelise mais detalhada e personalizada ao usuaacuterio Muitasvezes seu interesse estaacute na produccedilatildeo de resultados baseadosem variaacuteveis com categorizaccedilatildeo ou domiacutenios de estimaccedilatildeodiferentes dos usados pelo IBGE

I Para isto o usuaacuterio deveraacute ser capaz de reproduzir osresultados divulgados pela instituiccedilatildeo estimativas e suasrespectivas medidas de precisatildeo

I O objetivo deste curso eacute apresentar as diculdades que umusuaacuterio externo enfrenta ao utilizar os microdadosdisponibilizados do IBGE fornecendo ferramentas paracontornar alguns problemas relacionados ao acesso agravemanipulaccedilatildeo e o tratamento dos dados para seu uso corretousando o software R

Bases de dados das pesquisas domiciliares do IBGE

I Amostra do Censo Demograacuteco de 2010I Realizada desde 1960 possui grande abrangecircncia geograacuteca e

permite a estimaccedilatildeo para pequenos domiacutenios Por ser umaamostra investiga mais informaccedilotildees do que o Censo

I Pesquisa Nacional por Amostra de Domiciacutelios - PNADI Investiga anualmente entre os Censos caracteriacutesticas

demograacutecas e socioeconocircmicas da populaccedilatildeo comoeducaccedilatildeo trabalho rendimento fecundidade migraccedilatildeohabitaccedilatildeo entre outros temas

I Pesquisa de Orccedilamentos Familiares - POFI Fornece informaccedilotildees sobre a composiccedilatildeo dos orccedilamentos

domeacutesticos a partir da investigaccedilatildeo dos haacutebitos de consumoda alocaccedilatildeo de gastos e da distribuiccedilatildeo dos rendimentossegundo as caracteriacutesticas da populaccedilatildeo aleacutem daautopercepccedilatildeo da qualidade de vida e das caracteriacutesticas doperl nutricional

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 2: Curso IBGE - Introdução a analise de dados amostrais complexos

Toacutepicos

I Introduccedilatildeo

I Bases de dados das pesquisas domiciliares do IBGE

I Anaacutelise de dados amostrais complexos

I Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do IBGE

I Reproduccedilatildeo de tabelas de estimativas do IBGE

I Pesquisa de Orccedilamentos Familiares

I Pesquisa Nacional por Amostra de Domiciacutelios

I Amostra do Censo Demograacuteco de 2010

Introduccedilatildeo

I Nos uacuteltimos anos o IBGE tem disponibilizado cada vez maisinformaccedilotildees de uso puacuteblico natildeo somente em forma de dadostabulares mas dando acesso direto aos microdados Ou seja oIBGE tem possibilitado que qualquer usuaacuterio tenha acesso aosdados no menor niacutevel de agregaccedilatildeo da pesquisa semprepreservando o sigilo das informaccedilotildees fornecidas pelosentrevistados

I Isto permite uma melhor utilizaccedilatildeo dos dados mas impotildee queo usuaacuterio de microdados tenha acesso e domiacutenio a softwaresestatiacutesticos

I Adicionalmente supotildee o conhecimento sobre os conceitos edeniccedilotildees utilizados durante a coleta dos dados e oacompanhamento das mudanccedilas destes ao longo dos anos

Introduccedilatildeo

I A utilizaccedilatildeo dos microdados das pesquisas do IBGE permiteuma anaacutelise mais detalhada e personalizada ao usuaacuterio Muitasvezes seu interesse estaacute na produccedilatildeo de resultados baseadosem variaacuteveis com categorizaccedilatildeo ou domiacutenios de estimaccedilatildeodiferentes dos usados pelo IBGE

I Para isto o usuaacuterio deveraacute ser capaz de reproduzir osresultados divulgados pela instituiccedilatildeo estimativas e suasrespectivas medidas de precisatildeo

I O objetivo deste curso eacute apresentar as diculdades que umusuaacuterio externo enfrenta ao utilizar os microdadosdisponibilizados do IBGE fornecendo ferramentas paracontornar alguns problemas relacionados ao acesso agravemanipulaccedilatildeo e o tratamento dos dados para seu uso corretousando o software R

Bases de dados das pesquisas domiciliares do IBGE

I Amostra do Censo Demograacuteco de 2010I Realizada desde 1960 possui grande abrangecircncia geograacuteca e

permite a estimaccedilatildeo para pequenos domiacutenios Por ser umaamostra investiga mais informaccedilotildees do que o Censo

I Pesquisa Nacional por Amostra de Domiciacutelios - PNADI Investiga anualmente entre os Censos caracteriacutesticas

demograacutecas e socioeconocircmicas da populaccedilatildeo comoeducaccedilatildeo trabalho rendimento fecundidade migraccedilatildeohabitaccedilatildeo entre outros temas

I Pesquisa de Orccedilamentos Familiares - POFI Fornece informaccedilotildees sobre a composiccedilatildeo dos orccedilamentos

domeacutesticos a partir da investigaccedilatildeo dos haacutebitos de consumoda alocaccedilatildeo de gastos e da distribuiccedilatildeo dos rendimentossegundo as caracteriacutesticas da populaccedilatildeo aleacutem daautopercepccedilatildeo da qualidade de vida e das caracteriacutesticas doperl nutricional

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 3: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I Nos uacuteltimos anos o IBGE tem disponibilizado cada vez maisinformaccedilotildees de uso puacuteblico natildeo somente em forma de dadostabulares mas dando acesso direto aos microdados Ou seja oIBGE tem possibilitado que qualquer usuaacuterio tenha acesso aosdados no menor niacutevel de agregaccedilatildeo da pesquisa semprepreservando o sigilo das informaccedilotildees fornecidas pelosentrevistados

I Isto permite uma melhor utilizaccedilatildeo dos dados mas impotildee queo usuaacuterio de microdados tenha acesso e domiacutenio a softwaresestatiacutesticos

I Adicionalmente supotildee o conhecimento sobre os conceitos edeniccedilotildees utilizados durante a coleta dos dados e oacompanhamento das mudanccedilas destes ao longo dos anos

Introduccedilatildeo

I A utilizaccedilatildeo dos microdados das pesquisas do IBGE permiteuma anaacutelise mais detalhada e personalizada ao usuaacuterio Muitasvezes seu interesse estaacute na produccedilatildeo de resultados baseadosem variaacuteveis com categorizaccedilatildeo ou domiacutenios de estimaccedilatildeodiferentes dos usados pelo IBGE

I Para isto o usuaacuterio deveraacute ser capaz de reproduzir osresultados divulgados pela instituiccedilatildeo estimativas e suasrespectivas medidas de precisatildeo

I O objetivo deste curso eacute apresentar as diculdades que umusuaacuterio externo enfrenta ao utilizar os microdadosdisponibilizados do IBGE fornecendo ferramentas paracontornar alguns problemas relacionados ao acesso agravemanipulaccedilatildeo e o tratamento dos dados para seu uso corretousando o software R

Bases de dados das pesquisas domiciliares do IBGE

I Amostra do Censo Demograacuteco de 2010I Realizada desde 1960 possui grande abrangecircncia geograacuteca e

permite a estimaccedilatildeo para pequenos domiacutenios Por ser umaamostra investiga mais informaccedilotildees do que o Censo

I Pesquisa Nacional por Amostra de Domiciacutelios - PNADI Investiga anualmente entre os Censos caracteriacutesticas

demograacutecas e socioeconocircmicas da populaccedilatildeo comoeducaccedilatildeo trabalho rendimento fecundidade migraccedilatildeohabitaccedilatildeo entre outros temas

I Pesquisa de Orccedilamentos Familiares - POFI Fornece informaccedilotildees sobre a composiccedilatildeo dos orccedilamentos

domeacutesticos a partir da investigaccedilatildeo dos haacutebitos de consumoda alocaccedilatildeo de gastos e da distribuiccedilatildeo dos rendimentossegundo as caracteriacutesticas da populaccedilatildeo aleacutem daautopercepccedilatildeo da qualidade de vida e das caracteriacutesticas doperl nutricional

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 4: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I A utilizaccedilatildeo dos microdados das pesquisas do IBGE permiteuma anaacutelise mais detalhada e personalizada ao usuaacuterio Muitasvezes seu interesse estaacute na produccedilatildeo de resultados baseadosem variaacuteveis com categorizaccedilatildeo ou domiacutenios de estimaccedilatildeodiferentes dos usados pelo IBGE

I Para isto o usuaacuterio deveraacute ser capaz de reproduzir osresultados divulgados pela instituiccedilatildeo estimativas e suasrespectivas medidas de precisatildeo

I O objetivo deste curso eacute apresentar as diculdades que umusuaacuterio externo enfrenta ao utilizar os microdadosdisponibilizados do IBGE fornecendo ferramentas paracontornar alguns problemas relacionados ao acesso agravemanipulaccedilatildeo e o tratamento dos dados para seu uso corretousando o software R

Bases de dados das pesquisas domiciliares do IBGE

I Amostra do Censo Demograacuteco de 2010I Realizada desde 1960 possui grande abrangecircncia geograacuteca e

permite a estimaccedilatildeo para pequenos domiacutenios Por ser umaamostra investiga mais informaccedilotildees do que o Censo

I Pesquisa Nacional por Amostra de Domiciacutelios - PNADI Investiga anualmente entre os Censos caracteriacutesticas

demograacutecas e socioeconocircmicas da populaccedilatildeo comoeducaccedilatildeo trabalho rendimento fecundidade migraccedilatildeohabitaccedilatildeo entre outros temas

I Pesquisa de Orccedilamentos Familiares - POFI Fornece informaccedilotildees sobre a composiccedilatildeo dos orccedilamentos

domeacutesticos a partir da investigaccedilatildeo dos haacutebitos de consumoda alocaccedilatildeo de gastos e da distribuiccedilatildeo dos rendimentossegundo as caracteriacutesticas da populaccedilatildeo aleacutem daautopercepccedilatildeo da qualidade de vida e das caracteriacutesticas doperl nutricional

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 5: Curso IBGE - Introdução a analise de dados amostrais complexos

Bases de dados das pesquisas domiciliares do IBGE

I Amostra do Censo Demograacuteco de 2010I Realizada desde 1960 possui grande abrangecircncia geograacuteca e

permite a estimaccedilatildeo para pequenos domiacutenios Por ser umaamostra investiga mais informaccedilotildees do que o Censo

I Pesquisa Nacional por Amostra de Domiciacutelios - PNADI Investiga anualmente entre os Censos caracteriacutesticas

demograacutecas e socioeconocircmicas da populaccedilatildeo comoeducaccedilatildeo trabalho rendimento fecundidade migraccedilatildeohabitaccedilatildeo entre outros temas

I Pesquisa de Orccedilamentos Familiares - POFI Fornece informaccedilotildees sobre a composiccedilatildeo dos orccedilamentos

domeacutesticos a partir da investigaccedilatildeo dos haacutebitos de consumoda alocaccedilatildeo de gastos e da distribuiccedilatildeo dos rendimentossegundo as caracteriacutesticas da populaccedilatildeo aleacutem daautopercepccedilatildeo da qualidade de vida e das caracteriacutesticas doperl nutricional

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 6: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise de dados amostrais complexos

I Para a obtenccedilatildeo das estimativas pontuais satildeo utilizados ospesos divulgados com os microdados das pesquisas

I No entanto a estimaccedilatildeo das medidas de precisatildeo paraamostras complexas requer o conhecimento da estrutura doplano amostral como o uso de

I EstraticaccedilatildeoI Conglomeraccedilatildeo (em vaacuterios estaacutegios)I Pesos desiguaisI Ajuste dos pesos por calibraccedilatildeo (poacutes-estraticaccedilatildeo)

I Por possuiacuterem planos amostrais complexos e serem utilizadaspor usuaacuterios de diferentes especialidades natildeo eacute raro encontrarestudos nos quais as estimativas de precisatildeo satildeo calculadas demaneira equivocada

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 7: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise de dados amostrais complexos

I Em especial a variacircncia de alguns estimadores pode ser dedifiacutecil estimaccedilatildeo (estimadores natildeo facilmente linearizaacuteveis)

I Para incorporar as caracteriacutesticas do plano amostral nestescaacutelculos eacute necessaacuterio a utilizaccedilatildeo de um software especializadoNeste minicurso usaremos o pacote survey do R

I Aleacutem disto parte da diculdade recai no fato de que nemsempre estatildeo disponiacuteveis todas as informaccedilotildees quecaracterizam o plano amostral

I Este minicurso tem o objetivo de apresentar meacutetodos para ocaacutelculo da variacircncia de alguns estimadores utilizando algumasbases de dados do IBGE discutindo algumas diculdadesencontradas ateacute mesmo por usuaacuterios que dominem asferramentas metodoloacutegicas

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 8: Curso IBGE - Introdução a analise de dados amostrais complexos

Utilizaccedilatildeo do R para anaacutelise dos dados das pesquisas do

IBGE

I Inicialmente no IBGE a utilizaccedilatildeo do R para a anaacutelise dedados amostrais complexos foi feita por meio do pacote adac

(Pessoa e Moreira) que implementava em linguagem R osmeacutetodos utilizados pelo SUDAAN

I Com o desenvolvimento do pacote survey foi desenvolvido edisponibilizado pelos teacutecnicos do IBGE um pacote especiacutecopara o tratamento dos dados da PNAD o IBGEPesq

I Recentemente foram incorporados ao blog asdfree scripts doR para leitura e anaacutelise dos dados da PNAD e da POFutilizando o pacote survey

I Os scripts para leitura de microdados satildeo de autoria deDamico e os de anaacutelise de Pessoa e Martins

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 9: Curso IBGE - Introdução a analise de dados amostrais complexos

Bibliograa

I DAMICO A - asdfree analyze survey data for freehttpwwwasdfreecom

I LUMLEY T (2012) - survey analysis of complex surveysamples R package version 328-2

I LUMLEY T (2004) - Analysis of complex survey samplesJournal of Statistical Software 9(1) 1-19

I PESSOA DGC e MOREIRA GGM (2003) - adacanaacutelise de dados amostrais complexos R package version 1-1

I R Core Team - R A language and environment for statisticalcomputing R Foundation for Statistical Computing ViennaAustria Version 302 httpwwwR-projectorg

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 10: Curso IBGE - Introdução a analise de dados amostrais complexos

Bibliograa

I LOHR SL (2009) - Sampling Design and Analysis 2ndEdition BrooksCole

I SUDAAN (Software for Survey Data Analysis) - ResearchTriangle Institute North Carolinahttpwwwrtiorgsudaan

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 11: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise de Microdados da POF

Blog asdfree

Djalma Pessoa e Andreacute Costa

24 de novembro de 2013

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 12: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I A Pesquisa de Orccedilamentos Familiares (POF) visa mensurar asestruturas de consumo dos gastos dos rendimentos e parte davariaccedilatildeo patrimonial das famiacutelias Utilizada para atenderdentre outras coisas a atualizaccedilatildeo das estruturas de consumodos Iacutendices de Preccedilos ao Consumidor produzidos pelo IBGE

I Investiga tambeacutem a autopercepccedilatildeo da qualidade de vida e ascaracteriacutesticas do perl nutricional da populaccedilatildeo brasileira

I A ediccedilatildeo de 2008-2009 foi a quinta pesquisa realizada peloIBGE sobre orccedilamentos familiares (ENDEF 1974-1975 e POF1987-1988 1995-1996 e 2002-2003)

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2002-2003)

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 13: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I O post da POF no blog asdfree para analisar os microdados dapesquisa conteacutem 4 scripts

1 Baixar os arquivos do ftp do IBGE e faz sua leitura utilizando oarquivo de layout em SAS Os arquivos satildeo salvos no formato`rda em uma pasta denida pelo usuaacuterio

2 Reproduzir estimativas de prevalecircncias de deacutecit de pesoexcesso de peso e obesidade bem como suas medidas deprecisatildeo em uma subpopulaccedilatildeo de interesse (Tabela 15)

3 Reproduzir estimativas de medianas de altura e peso porsituaccedilatildeo do domiciacutelio e sexo segundo a idade e os grupos deidade e suas medidas de precisatildeo (Tabela 11)

4 Reproduzir estimativas de despesas monetaacuteria e natildeo monetaacuteriameacutedia mensal familiar com alimentaccedilatildeo por classes derendimento total e variaccedilatildeo patrimonial mensal familiarsegundo os tipos de despesa com indicaccedilatildeo do nuacutemero etamanho meacutedio das famiacutelias (Tabela 1112)

I Neste minicurso apresentaremos mais detalhadamente oscomandos do segundo script

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 14: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I Como exerciacutecio replicaremos as estimativas da Tabela 15 dapublicaccedilatildeo da POF

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

tabtexto15zip

I Assim como os coecientes de variaccedilatildeo em

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Antropometria_e_estado_

nutricional_de_criancas_adolescentes_e_adultos_no_Brasil

POF_CV_04prevalenciazip

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 15: Curso IBGE - Introdução a analise de dados amostrais complexos

Importaccedilatildeo dos dados

I O primeiro script da paacutegina da POF no blog asdfreedownload all microdataR permite baixar os dadosdiretamente do ftp do IBGE no computador do usuaacuterio

I Em seguida os arquivos do ano escolhido satildeo descompactadose lidos no R sendo salvos no formato `rda (um arquivo paracada base `txt) em uma pasta denida pelo usuaacuterio

I Nos exemplos a seguir utilizaremos os arquivos contendo osdados dos moradores dos domiciacutelios da amostra e o arquivocontendo as informaccedilotildees necessaacuterias agrave poacutes-estraticaccedilatildeo doplano amostral salvos previamente

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 16: Curso IBGE - Introdução a analise de dados amostrais complexos

Importaccedilatildeo dos dados

Definir pasta de trabalho

setwd ( C IBGE2013SMI2013Min i cu r s o POF )

Carregar o arquivo de dados relativo agraves pessoas

l o ad ( t_morador_srda ) Carrega a tabela de poacutes-estratificaccedilatildeo

l o ad ( p o s t s t r r d a ) verifica se os dois objetos carregados estatildeo no

workspace

t_morador_s i n l s ( )

[1] TRUE

p o s t s t r i n l s ( )

[1] TRUE

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 17: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

Cria variaacuteveis derivadas

Construir uma coluna chamada `control no arquivo de

dados relativo agraves pessoas que seraacute usada para

fazer o merging com a tabela de poacutes-estratificaccedilatildeo

t_morador_s larr t r an s f o rm (t_morador_s c o n t r o l = pas t e0 ( cod_uf num_seq

num_dv))

Fazendo o `merging destes dois arquivos de dados

x larr merge ( t_morador_s p o s t s t r )

E note que o nuacutemero de registros natildeo muda

nrow ( x ) == nrow ( t_morador_s )

[1] TRUE

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 18: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

Transformar altura para metros

x larr t r an s f o rm ( x a l tu ra_imputado = al tura_imputado 100)

x larr t r an s f o rm ( x

Definir grupos de idades

i d a d e c a t = cut ( idade_anos c (20 25 30 35 45 55 65 75 I n f ) i n c l u d e l o w e s t = TRUEr i g h t = FALSE)

Criar variaacutevel iacutendice de massa corporal (imc)

excluindo bebecircs (altura_imputado == 0)

bmi = i f e l s e ( a l tu ra_imputado == 0 0 peso_imputado ( a l tu ra_imputadoand 2) )

)

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 19: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

Construir trecircs variaacuteveis binaacuterias (zeros e uns) que

seratildeo usadas em anaacutelises subsequentes

x larr t r an s f o rm ( x

Indiviacuteduos com imc baixo - deficiecircncia de peso

under = i f e l s e ( bmi gt 0 amp bmi lt 18 5 1 0)

Indiviacuteduos com imc alto - excesso de peso

ove r = i f e l s e ( bmi ge 25 1 0)

Indiviacuteduos com imc muito alto - obeso

obese = i f e l s e ( bmi ge 30 1 0))

Adicionar uma coluna com apenas uns ao data frame

x$one larr 1

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 20: Curso IBGE - Introdução a analise de dados amostrais complexos

Plano amostral da POF

I Criadas as variaacuteveis derivadas que seratildeo utilizadas na anaacutelisepodemos agora criar o objeto com o plano amostral

I Caso o pacote survey natildeo esteja instalada no computador dousuaacuterio este pode ser instalado pela funccedilatildeo installpackages

i n s t a l l p a c k a g e s ( s u r v e y )

I Carregar o pacote e especicar suas opccedilotildees

Carregar o pacote survey (analisar pesquisas com

desenhos complexos)

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

Tratamento para estratos com UPA uacutenica (opccedilatildeo

MISSUNIT do SUDAAN)

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 21: Curso IBGE - Introdução a analise de dados amostrais complexos

Plano amostral da POF

I Criar um objeto com as informaccedilotildees do plano amostral daPOF

s amp l e p o f larr s v y d e s i g n (i d = simc on t r o l s t r a t a = sime s t r a to_un i co we i gh t s = simfa tor_expansao1 data = x n e s t = TRUE

)

I Observe que o objeto samplepof corresponde ao desenhooriginal da amostra e natildeo dever ser usado nos comandos deanaacutelise

I Este objeto ainda natildeo foi apropriadamente poacutes-estraticadocomo utilizado pelo IBGE para obter exatamente projeccedilotildees docenso de 2010

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 22: Curso IBGE - Introdução a analise de dados amostrais complexos

Poacutes-estraticaccedilatildeo

O bloco a seguir determina quais totais de poacutes-estraticaccedilatildeo devemser usados

Totais de poacutes-estratificaccedilatildeo

p o p t o t a l s larr da t a f r ame (pos_es t r a to = un ique ( x$ pos_es t r a to ) Freq = un ique ( x$ tot_pop )

)

Este bloco conduz agrave poacutes-estratificaccedilatildeo real do objeto

de desenho samplepof

p o f d e s i g n p o s larr p o s t S t r a t i f y (samp l e po f simpos_est ra to p o p t o t a l s

)

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 23: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Antes de reproduzir a Tabela 15 apresentamos comandos paragerar alguns exemplos de anaacutelises de dados da POF

Contando o nuacutemero total (natildeo-ponderado) de registros

da POF por sexo

svyby (simone simsexo p o f d e s i g n p o s unwtd count

)

sexo counts se

01 01 93175 0

02 02 96984 0

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 24: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Estimando a populaccedilatildeo do Brasil

s v y t o t a l (simone p o f d e s i g n p o s

)

total SE

one 190519299 0

Estimando a populaccedilatildeo do Brasil por sexo

svyby (simone simsexo p o f d e s i g n p o s s v y t o t a l

)

sexo one se

01 01 92909556 261833

02 02 97609743 261833

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 25: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Estimar a idade meacutedia (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s

)

mean SE

idade_anos 316 012

Estimar a idade meacutedia por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s svymean

)

sexo idade_anos se

01 01 307 0131

02 02 326 0139

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 26: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Calculando a distribuiccedilatildeo de uma variaacutevel categoacuterica

Percentual em cada categoria de raccedila

svymean (simcor_raca d e s i g n = p o f d e s i g n p o s

)

mean SE

cor_raca01 047496 0

cor_raca02 007728 0

cor_raca03 000539 0

cor_raca04 043525 0

cor_raca05 000417 0

cor_raca09 000296 0

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 27: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Percentual em cada categoria de sexo por faixa etaacuteria

svyby (simsexo simi d a d e c a t d e s i g n = po f d e s i g n p o s svymean

)

idadecat sexo01 sexo02 sesexo01 sesexo02

[20 25) [20 25) 0503 0497 000581 000581

[25 30) [25 30) 0496 0504 000564 000564

[30 35) [30 35) 0479 0521 000600 000600

[35 45) [35 45) 0473 0527 000371 000371

[45 55) [45 55) 0467 0533 000452 000452

[55 65) [55 65) 0465 0535 000495 000495

[65 75) [65 75) 0454 0546 000707 000707

[75Inf] [75Inf] 0416 0584 000964 000964

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 28: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis

s v y q u a n t i l e (simidade_anos d e s i g n = po f d e s i g n p o s c (0 0 25 0 5 0 75 1)

)

0 025 05 075 1

idade_anos 0 15 29 46 104

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 29: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Estimando a mediana e outros percentis por sexo

svyby (simidade_anos simsexo d e s i g n = po f d e s i g n p o s s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE

)

sexo 025 05 075 se025 se05 se075

01 01 14 28 45 0 0255 0000

02 02 15 30 47 0 0000 0255

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 30: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Exemplo de domiacutenio restrinja o objeto pofdesignpos amulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

p o f d e s i g n p o s n p a d u l t s larrs ub s e t (

p o f d e s i g n p o s idade_anos ge 20 amp cod_grav ida = 01

)

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 31: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Agora qualquer um dos comandos anteriores pode executadode novo usando o objeto pofdesignposnpadults no lugardo objeto pofdesignpos para fazer anaacutelises apenas sobremulheres natildeo-graacutevidas e pessoas com idade de 20 anos oumais

Estimar a meacutedia da idade (variaacutevel numeacuterica)

svymean (simidade_anos d e s i g n = p o f d e s i g n p o s n p a d u l t s

)

mean SE

idade_anos 429 011

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 32: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Calcular um estimador de razatildeo para determinar a

prevalecircncia entre os indiviacuteduos nesta populaccedilatildeo

s v y r a t i o (simunder simone p o f d e s i g n p o s n p a d u l t s

)

Ratio estimator svyratiosurveydesign2(simunder simone pofdesignposnpadults)

Ratios=

one

under 00272

SEs=

one

under 0000684

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 33: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Observe que no numerador satildeo incluiacutedos os indiviacuteduos dasubpopulaccedilatildeo considerada com deacutecit de peso enquanto nodenominador satildeo incluiacutedos todos os indiviacuteduos dasubpopulaccedilatildeo

I Embora seja mais faacutecil usar a funccedilatildeo svyratio para estimarum uacutenico valor da prevalecircncia eacute bem mais simples usar oscomandos svymean e svyby para reproduzir a Tabela 15 queforneceratildeo a tabela completa com muito menos trabalho

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 34: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Dena uma foacutermula que seraacute usada em vaacuterios comandossubsequentes

f o rmu l a s larr simunder + ove r + obese

Executar um `svyby que armazena resultados em um

novo objeto e os imprime na tela porque o

comando foi encapsulado por ()

( t o t a l larr svyby (fo rmu la s simone p o f d e s i g n p o s n p a d u l t s svymean

))

one under over obese seunder seover seobese

1 1 00272 049 0148 0000684 000271 00019

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 35: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Guardar em trecircs outros objetos mais trecircs chamadas de

svyby

sexo larr svyby ( fo rmu la s simsexo p o f d e s i g n p o s n p a d u l t s svymean )

i dade larr svyby ( fo rmu la s simi d a d e c a t p o f d e s i g n p o s n p a d u l t s svymean )

i d a d e s e x o larr svyby ( fo rmu la s sim i d a d e c a t + sexo p o f d e s i g n p o s n p a d u l t s svymean )

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 36: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Imprimir algumas estatiacutesticas e coeficientes de

variaccedilatildeo a partir dos objetos criados

co e f ( t o t a l )

1under 1over 1obese

00272 04899 01475

cv ( t o t a l )

seunder seover seobese

1 00251 000554 00129

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 37: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

co e f ( sexo )

01 under 02 under 01 over 02 over 01 obese 02 obese

00180 00357 05010 04796 01238 01694

SE( sexo )

seunder seover seobese

01 0000756 000359 000244

02 0001140 000344 000257

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 38: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Combinando os totais estimados de classes de idade com seuscoecientes de variaccedilatildeo numa soacute tabela

l i b r a r y ( x t a b l e )i d a d e r e s u l t larr cb ind ( da t a f r ame ( i dade ) cv ( i dade ) )i d a d e r e s u l t larr da t a f r ame ( Idade=i d a d e r e s u l t [ 1 ]

100lowast i d a d e r e s u l t [ 2 4 ] 100lowast cv ( i dade ) )

muda larr f u n c t i o n ( s t r ) gsub ( [ [ s t r )

names ( i d a d e r e s u l t ) larr

c ( a g e c a t under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 39: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Formatar saiacuteda

p r i n t ( x t a b l e ( i d a d e r e s u l t d i g i t s = 1 f i x e d = TRUEc ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) s a n i t i z e t e x t f u n c t i o n = muda i n c l ude r ownames = FALSE s i z e = f o o t n o t e s i z e )

agecat under over obese cvunder cvover cvobese[2025) 57 273 56 46 21 48[2530) 32 382 96 57 17 42[3035) 24 474 129 79 13 33[3545) 14 528 156 67 10 24[4555) 18 583 192 76 09 23[5565) 21 607 213 90 11 27[6575) 32 561 179 81 14 37[75Inf] 44 485 158 88 25 54

Tabela 1 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 40: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Guardando os coecientes de variaccedilatildeo das estimativas detotais de classes de idade por sexo em um novo data framechamado cvdf

c v d f larr da t a f r ame ( cv ( i d a d e s e x o ) )

I Note que usamos sub em vez de gsub Isto ocorre porqueapenas a primeira instacircncia de `se deve ser substituiacuteda por `cve natildeo as capturas subsequentes

names ( c v d f ) larr sub ( se cv names ( c v d f ) )

I Veja o help da funccedilatildeo usando sub (sub substitui apenas aprimeira ocorrecircncia de um padratildeo enquanto gsub substituitodas as ocorrecircncia)

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 41: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Guardando as estatiacutesticas principais e desvios padrotildees de idadepor sexo em um segundo dataframe chamadoidadesexodf

i d a d e s e x o d f larr da t a f r ame ( i d a d e s e x o )

I Junte este com o objeto cvdf para criar classes de idade porsexo de deacutecit de peso excesso de peso e obesidade

i d a d e s e x o r e s u l t larr da t a f r ame (i dade = i d a d e s e x o d f [ 1 ] s exo = i d a d e s e x o d f [ 2 ] 100lowast i d a d e s e x o d f [ 3 5 ] 100lowast c v d f )

names ( i d a d e s e x o r e s u l t ) larr c ( i d a d e c a t sexo under ove r obese c v und e r c v o v e r c v o b e s e )

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 42: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Imprimindo na tela

p r i n t ( x t a b l e ( i d a d e s e x o r e s u l t d i g i t s = 1 c ap t i o n = P r e v a l ecirc n c i a de subpeso s ob r epe so eobe s i d ade ) i n c l ude r ownames = FALSE s a n i t i z e t e x t f u n c t i o n = muda f i x e d = TRUEs i z e = t i n y )

idadecat sexo under over obese cvunder cvover cvobese

[2025) 01 33 301 51 81 27 70[2530) 01 21 424 93 102 22 60[3035) 01 12 528 125 128 17 48[3545) 01 09 557 136 109 13 37[4555) 01 13 587 167 115 12 37[5565) 01 20 580 159 160 16 47[6575) 01 25 522 125 124 23 65[75Inf] 01 30 438 119 142 40 107[2025) 02 83 242 61 57 31 65[2530) 02 43 338 100 71 25 53[3035) 02 35 422 133 96 21 46[3545) 02 19 500 174 84 14 30[4555) 02 22 579 215 101 12 27[5565) 02 22 630 260 105 14 31[6575) 02 38 594 225 105 19 43[75Inf] 02 54 519 186 109 29 65

Tabela 2 Prevalecircncia de subpeso sobrepeso e obesidade

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 43: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Os coacutedigos da variaacutevel cod_cor_raca estatildeo em `pof 1pdf noarquivo zip do questionaacuterio no site

ftpftpibgegovbrOrcamentos_FamiliaresPesquisa_de_

Orcamentos_Familiares_2008_2009Microdadosquestionarioszip

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 44: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Vamos ver agora alguns exemplos de exportaccedilatildeo

Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica

por sexo e guarde os resultados em um novo objeto

s e x b y r a c e larr svyby (simsexo simcor_raca d e s i g n = po f d e s i g n p o s svymean )

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 45: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

Imprimir os resultados na tela

p r i n t ( x t a b l e ( s e x b y r a c e d i g i t s = 4) )

cor_raca sexo01 sexo02 sesexo01 sesexo0201 01 04769 05231 00023 0002302 02 05055 04945 00061 0006103 03 04466 05534 00249 0024904 04 04971 05029 00021 0002105 05 04441 05559 00211 0021109 09 04986 05014 00314 00314

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 46: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Classe do objeto sexbyrace

c l a s s ( s e x b y r a c e )

[1] svyby dataframe

I Este objeto pode ser convertido em um data frame

s e x b y r a c e larr da t a f r ame ( s e x b y r a c e )

e entatildeo imediatamente exportado como um arquivo csv no seuatual diretoacuterio de trabalho

w r i t e c s v ( s e x b y r a c e sex by r a c e c s v )

ou simplicado para conter apenas os valores que vocecircnecessita

I Eis aqui `percentual de homens por raccedila com desvios padrotildeesrespectivos

ma l e b y r a c e larr s e x b y r a c e [ c ( cor_raca sexo01 s e s e x o 0 1 ) ]

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 47: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Imprimir os novos resultados na tela

p r i n t ( x t a b l e ( ma l e b y r a c e ) )

cor_raca sexo01 sesexo0101 01 048 00002 02 051 00103 03 045 00204 04 050 00005 05 044 00209 09 050 003

I Exportar resultados como arquivo csv no seu atual diretoacuterio detrabalho

w r i t e c s v ( ma l e b y r a c e male by r a c e c s v )

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 48: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de estimaccedilatildeo

I Graacuteco de barras

b a r p l o t ( ma l e b y r a c e [ 2 ] y l im = c (0 0 6 ) main = Pe r c en t u a l de homens por co r ou raccedila names a rg = c ( Branca Pre ta Amarela Parda I n d iacute g e n a Natildeo sabe ) )

Branca Preta Amarela Parda Indiacutegena Natildeo sabe

Percentual de homens por cor ou raccedila

00

01

02

03

04

05

06

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 49: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise de Microdados da PNAD

Blog asdfree

Djalma Pessoa e Andreacute Costa

25102013

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 50: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I A Pesquisa Nacional por Amostra de Domiciacutelios (PNAD) eacuteuma das principais fontes de informaccedilatildeo sobre a populaccedilatildeobrasileira

I Implementada em 1967

I Tem como nalidade a produccedilatildeo de informaccedilotildees baacutesicas parao estudo do desenvolvimento socioeconocircmico do Paiacutes

I Abrange a populaccedilatildeo residente nas unidades domiciliares(domiciacutelios particulares e unidades de habitaccedilatildeo em domiciacutelioscoletivos)

I Investiga as caracteriacutesticas gerais de migraccedilatildeo de educaccedilatildeode fecundidade de trabalho e rendimento

I Realizada nos anos que natildeo ocorre o Censo Demograacuteco

I Microdados disponiacuteveis no website do IBGE (a partir da ediccedilatildeode 2001)

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 51: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I Adota um plano amostral estraticado e conglomerado comum dois ou trecircs estaacutegios de seleccedilatildeo dependendo do estrato

I Meacutetodo utilizado para a correccedilatildeo dos pesos baseado nasprojeccedilotildees ociais do IBGE para o total populacional

I Variaacutevel de poacutes-estraticaccedilatildeo estaacute disponibilizada no arquivode microdados

I Os poacutes-estratos satildeo denidos de acordo com a Unidade daFederaccedilatildeo Regiatildeo Metropolitana e situaccedilatildeo do setor

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 52: Curso IBGE - Introdução a analise de dados amostrais complexos

Leitura dos dados da PNAD

I O script download all microdataR contido no blogpermite baixar os dados de vaacuterios anos da pesquisa

bloco de comandos para leitura de dados da PNAD

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )y e a r s t o d own l o a d larr c (2001 2009 2011 2012)sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s download20 a l l 20mic roda ta R prompt = FALSE echo = TRUE)

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 53: Curso IBGE - Introdução a analise de dados amostrais complexos

Execuccedilatildeo por meio de source de script do blog asdfree

I Apoacutes baixar os dados podemos rodar o bloco de comandospara executar os exemplos de um dos scripts do blog

I No exemplo a seguir eacute executado o script que calcula algumasestimativas para os dados de 2011

bloco de comandos para caacutelculo de estimativas na

PNAD 2011

l i b r a r y ( downloader )setwd ( C My D i r e c t o r y PNAD )sou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd

master Pe squ i s a20Nac i ona l20por20Amostra20de20Dom i c i l i o s 201120 s i n g l eminus y e a r20minus20 a n a l y s i s20examples R prompt = FALSE echo = TRUE)

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 54: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

I Antes de executar os comandos de anaacutelise de dados supotildee-seque o diretoacuterio de trabalho conteacutem uma base de dados SQLite(db) com os dados da PNAD 2012

I Salve o nome do arquivo de base de dados (db) que deveestar salvo no seu diretoacuterio de trabalho

nome do arquivo

pnaddbname larr pnaddb

I Carregue as libraries necessaacuterias previamente instaladas

l i b r a r y ( downloader ) carrega e entatildeo roda a funccedilatildeo

source() nos scripts de github

l i b r a r y ( su rvey w a r n c o n f l i c t s = FALSE)

analisa desenhos amostrais complexos

l i b r a r y ( RSQLite ) cria arquivos de base de

dados em R

l i b r a r y ( s t r i n g r ) manipula sequecircncias de

caracteres

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 55: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

I Abrir uma conexatildeo com a base de dados

abrir uma conexatildeo

db larr dbConnect ( SQLite ( ) pnaddbname )

I Especique a opccedilatildeo da library survey para tratar do caso deestratos com um soacute psu

produz estimativas conservadoras de variacircncias

op t i o n s ( s u r v e y l o n e l y p s u = ad j u s t )

esta opccedilatildeo coincide com a MISSUNIT no SUDAAN

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 56: Curso IBGE - Introdução a analise de dados amostrais complexos

Preparaccedilatildeo dos dados

load pnad-specific functions (to remove invalid

SAS input script fields and postStratify a

database-backed survey object)

s ou r c e_ur l ( h t t p s raw g i thub com a jdamico usgsd master Pe squ i s a Nac i ona l por Amostra de Dom i c i l i o s pnad s u r v e y R prompt = FALSE)

Not checking SHA -1 of downloaded file

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 57: Curso IBGE - Introdução a analise de dados amostrais complexos

Cria objeto de desenho denido a partir de base de dados

SQLite

I Objeto contendo as informaccedilotildees do desenho amostral

sample pnad larrs v y d e s i g n (

i d = simv4618 s t r a t a = simv4617 data = pnad2012 we i gh t s = simpre_wgt n e s t = TRUEdbtype = SQLite dbname = pnaddb

)

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 58: Curso IBGE - Introdução a analise de dados amostrais complexos

Poacutes-estraticaccedilatildeo de objeto de desenho

I Poacutes-estraticaccedilatildeo

y larrp n a d p o s t S t r a t i f y (

d e s i g n = sample pnad s t r a t a c o l = v4609 o ldwgt = pre_wgt

)

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 59: Curso IBGE - Introdução a analise de dados amostrais complexos

Consideraccedilotildees sobre o procedimento de leitura

I O procedimento de leitura anterior cria uma base de dados namemoacuteria de disco sendo adequado para os casos em que ousuaacuterio natildeo dispotildee de um computador com muita memoacuteria ram

I No entanto este procedimento possui algumas desvantagens

I exige conhecimento da linguagem sql (por exemplo satildeoutilizados comandos sql para recodicar variaacuteveis)

I algumas funccedilotildees do pacote survey natildeo estatildeo disponiacuteveis paraobjetos de desenho criados a partir de bases do tipo SQLite

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 60: Curso IBGE - Introdução a analise de dados amostrais complexos

Meacutetodo alternativo para leitura dos dados

I Uma alternativa eacute ler o conjunto inteiro para o R criando umdata frame

Criar data frame com todas as variaacuteveis da PNAD

2012

x larr dbReadTable ( db pnad2012 )

I Para natildeo sobrecarregar a memoacuteria ram basta guardar asvariaacuteveis que denem o plano amostral da PNAD

Filtrar base de dados

x larr dbGetQuery ( db s e l e c t v4618 v4617 pre_wgt v4609 from

pnad2012 )

I Pode-se entatildeo usar as funccedilotildees

I transform para executar as recodicaccedilotildees necessaacuteriasI svydesign da library survey para denir o objeto de desenho

da PNADI postStratify para poacutes-estraticar o objeto de desenho

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 61: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Tamanho da amostra por regiatildeo

svyby (simone simr eg i on y unwtd count

)

region counts se

1 1 56876 0

2 2 105780 0

3 3 105500 0

4 4 55779 0

5 5 38516 0

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 62: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Estimativa da populaccedilatildeo do paiacutes na PNAD

s v y t o t a l (simone y )

total SE

one 196877310 0

I Estimativa da populaccedilatildeo do paiacutes por regiatildeo

svyby (simone simr eg i on y s v y t o t a l )

region one se

1 1 16729971 160e-11

2 2 54642942 163e-11

3 3 82686664 767e-11

4 4 28052518 000e+00

5 5 14765215 170e-11

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 63: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Calcular a meacutedia da idade

svymean (simv8005 d e s i g n = y )

mean SE

v8005 331 007

I Calcular a meacutedia da idade por regiatildeo

svyby (simv8005 simr eg i on d e s i g n = y svymean )

region v8005 se

1 1 285 0133

2 2 317 0110

3 3 345 0123

4 4 348 0164

5 5 320 0176

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 64: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Distribuiccedilatildeo de uma variaacutevel categoacuterica percentagem dehomens e mulheres no paiacutes

svymean (simf a c t o r ( v0302 ) d e s i g n = y )

mean SE

M 0487 0

F 0513 0

I Por regiatildeo

svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 65: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Calcular a mediana e outros percentis

minimum 25th 50th 75th maximum ages

s v y q u a n t i l e (simv8005 d e s i g n = y c (0 25 0 5 0 75 ) )

025 05 075

v8005 16 31 48

by region

svyby (simv8005 simr eg i on d e s i g n = y s v y q u a n t i l e c (0 25 0 5 0 75 ) c i = TRUE)

region 025 05 075 se025 se05 se075

1 1 12 26 42 0255 0255 0255

2 2 14 29 46 0255 0255 0255

3 3 17 33 50 0000 0255 0000

4 4 17 33 50 0000 0255 0255

5 5 16 30 46 0255 0000 0255

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 66: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Subpopulaccedilatildeo restringir o objeto soacute as mulheres

y f ema l e larr s ub s e t ( y v0302 == 4)

Warning 2 strata have only one PSU in this subset

I Qualquer um dos comandos pode ser rodado de novo para oobjeto `yfemale

I Estimar a meacutedia de idades das mulheres

svymean (simv8005 d e s i g n = y f ema l e )

mean SE

v8005 34 008

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 67: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Calcular a distribuiccedilatildeo de uma variaacutevel categoacuterica por regiatildeo esalvar os resultados em um novo objeto

g e n d e r b y r e g i o n larr svyby (simf a c t o r ( v0302 ) simr eg i on d e s i g n = y svymean )

I Imprimir os resultados na tela

g e n d e r b y r e g i o n

region M F seM seF

1 1 0504 0496 000184 000184

2 2 0485 0515 000141 000141

3 3 0483 0517 000124 000124

4 4 0488 0512 000168 000168

5 5 0493 0507 000196 000196

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 68: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Classe do objeto `svyby

c l a s s ( g e n d e r b y r e g i o n )

[1] svyby dataframe

I Extrair partes do objeto e imprimir na tela estimativa deparacircmetro (coeciente)

co e f ( g e n d e r b y r e g i o n )

1M 2M 3M 4M 5M 1F 2F 3F 4F 5F

050 048 048 049 049 050 052 052 051 051

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 69: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Imprimir apenas do desvio padratildeo

SE( g e n d e r b y r e g i o n )

seM seF

1 000184 000184

2 000141 000141

3 000124 000124

4 000168 000168

5 000196 000196

I Imprimir apenas o cv

cv ( g e n d e r b y r e g i o n )

seM seF

1 000366 000371

2 000292 000275

3 000256 000239

4 000344 000328

5 000397 000386

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 70: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Converter o objeto em um `data frame

g e n d e r b y r e g i o n larr da t a f r ame ( g e n d e r b y r e g i o n )

I Salvar em arquivo no atual diretoacuterio de trabalho

w r i t e c s v ( g e n d e r b y r e g i o n gender by r e g i o n c s v )

I Simplicar o `data frame para conter apenas os valoresnecessaacuterios

f b y r e g i o n larr g e n d e r b y r e g i o n [ c ( r e g i o n F s e F ) ]

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 71: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Imprimir os resultados na tela

f b y r e g i o n

region F seF

1 1 0496 000184

2 2 0515 000141

3 3 0517 000124

4 4 0512 000168

5 5 0507 000196

I Exportar os resultados para um arquivo `csv

w r i t e c s v ( f b y r e g i o n f ema l e by r e g i o n c s v )

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 72: Curso IBGE - Introdução a analise de dados amostrais complexos

Exemplos de anaacutelise

I Construir um graacuteco de barras

b a r p l o t ( f b y r e g i o n [ 2 ] y l im = c (0 0 52 ) main = Female by Region names a rg = c ( North Nor thea s t Southeas t South CenterminusWest ) )

North Northeast Southeast South CenterminusWest

Female by Region0

00

10

20

30

40

5

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 73: Curso IBGE - Introdução a analise de dados amostrais complexos

Uso do R na amostra do CensoDemograacutefico 2010

Djalma Pessoa e Andreacute Costa

19 de novembro de 2013

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 74: Curso IBGE - Introdução a analise de dados amostrais complexos

Introduccedilatildeo

I Desde 1960 o IBGE utiliza a teacutecnica de amostragem na coletados dados do Censo Demograacutefico do Brasil

I No Censo 2010 os pesos foram ajustados por calibraccedilatildeo Estemeacutetodo permite que dentro de uma determinada aacutereageograacutefica ao se aplicar os pesos ajustados agraves variaacuteveisauxiliares sejam obtidos totais jaacute conhecidos para o universoda pesquisa aleacutem de melhorar a precisatildeo dos estimadores eobter estimativas mais consistentes para as variaacuteveispesquisadas somente pelo questionaacuterio da amostra

I A calibraccedilatildeo dos pesos foi realizada com base na metodologiautilizada no Censo 2000 (Bankier Rathwell e Majkowski1992)

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 75: Curso IBGE - Introdução a analise de dados amostrais complexos

Seleccedilatildeo da amostra

I O desenho amostral adotado compreende a seleccedilatildeo aleatoacuteria ecom equiprobabilidade dentro de cada setor censitaacuterio de umaamostra dos domiciacutelios particulares e moradores em domiciacutelioscoletivos

I O tamanho final da amostra foi deI 6192332 domiciacuteliosI 20635472 pessoas

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 76: Curso IBGE - Introdução a analise de dados amostrais complexos

Aacuterea de ponderaccedilatildeo

I Unidade geograacutefica formada por agrupamento de setorescensitaacuterios

I Utilizada para a aplicaccedilatildeo dos procedimentos de expansatildeo daamostra e obtenccedilatildeo das estimativas referentes agravescaracteriacutesticas investigadas por amostragem no CensoDemograacutefico (menor niacutevel geograacutefico de divulgaccedilatildeo)

I Seu tamanho em termos de nuacutemero de domiciacutelios e depopulaccedilatildeo natildeo pode ser muito reduzido sob pena de perda deprecisatildeo de suas estimativas

I Em grandes municiacutepios procurou-se formar aacutereas que respeitemalguns agregados de interesse ao planejamento local(colaboraccedilatildeo espontacircnea dos proacuteprios municiacutepios)

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 77: Curso IBGE - Introdução a analise de dados amostrais complexos

Ajuste dos fatores de expansatildeo da amostraI Em cada aacuterea de ponderaccedilatildeo satildeo calculados pesos iniciais

(inverso da fraccedilatildeo amostral efetiva) para cada unidadedomiciliar pesquisada que satildeo tambeacutem atribuiacutedos aosmoradores dessas unidades

I Estes pesos satildeo ajustados (calibrados) de modo que quandoaplicados a uma variaacutevel do conjunto de variaacuteveis auxiliaresdentro de uma determinada aacuterea de ponderaccedilatildeo o totalestimado deve coincidir com o valor conhecido a partir doconjunto universo

I Utiliza-se o meacutetodo de Miacutenimos Quadrados Generalizados(Saumlrndal Swensson e Wretman Vanderhoeft Lumley) comimposiccedilatildeo de limites nos pesos finais

I Limite inferior 1I Limite superior 5 vezes o peso inicial

I Implementaccedilatildeo programa em R com utilizaccedilatildeo do pacotesurvey

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 78: Curso IBGE - Introdução a analise de dados amostrais complexos

Variaacuteveis auxiliares (restriccedilotildees)

I O conjunto de variaacuteveis auxiliares de calibraccedilatildeo ou restriccedilotildeescomuns aos questionaacuterios baacutesico e da amostra comportainformaccedilotildees referentes a domiciacutelios e pessoas

I Compotildeem a lista informaccedilotildees sobre o total de pessoas edomicilios na aacuterea de ponderaccedilatildeo

I pessoas por sexo e faixa etaacuteriaI pessoas por sexo e situaccedilatildeo (urbana ou rural)I responsaacuteveis por sexoI total de pessoas em domiciacutelios particularesI tamanho dos domiciacutelios eI situaccedilatildeo dos domiciacutelios

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 79: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Diretoacuterio de trabalhosetwd ( C IBGE2013SMI2013 Min i cu r s o Censo )

Carregar library SASciil i b r a r y ( SASc i i )

Criar diretoacuterio e arquivo temporaacuterios para receber abase de dados

t f larr t emp f i l e ( )

Criar pasta temporaacuteria para receber a base de dadostd larr t empd i r ( )

FTP do IBGEf t p p a t h larr f t p f t p i b g e g o v b r Censos

Censo_Demografico_2010Resultados_Gerais_da_AmostraMicrodados

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 80: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Local da base de dados no FTP do IBGE (Rondocircnia)d a t a f i l e larr pas t e0 ( f t p p a t h ROz ip )

Download do arquivod o w n l o a d f i l e ( d a t a f i l e t f mode = wb )

Descompactar o arquivo num arquivo temporaacuteriof i l e s larr unz ip ( t f e x d i r = td )

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 81: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Ler arquivo de domiciacuteliosdados larr r e a d SAS c i i ( fn = f i l e s [ 1 ] s a s_ r i =

Le i tu ra_domic i l i o s_Censo_2010_amost ra t x t )

I O arquivo lsquoLeitura_domicilios_Censo_2010_amostratxtrsquoconteacutem os comandos em SAS seguindo o layout do arquivolsquoLayout_microdados_Amostraxlsrsquo

INPUT1 L0001 $23 V0002 $58 V0011 $1321 V0300 829 V0010 161345 L0002 $954 V4001 $256 L0003 $49105 V0401 2107 L0004 $19126 V6531 82

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 82: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

I As variaacuteveis L000X foram incluiacutedas no coacutedigo apenas parafacilitar o processo de leitura e natildeo seratildeo utilizadas nos passosseguintes

Excluir variaacuteveis auxiliaresdados larr s ub s e t ( dados s e l e c t = minusc( L0001 L0002

L0003 L0004 ) )

Salvar arquivo rda no diretoacuterio de trabalhosave ( dados f i l e = dado s r d a )

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 83: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R Estrutura do objetos t r ( dados )

rsquodataframe rsquo 58314 obs of 15 variables$ V0002 chr 00015 00015 00015 00015 $ V0011 chr 1100015001001 1100015001001

1100015001001 1100015001001 $ V0300 num 3624 6647 14596 15524 15840 $ V0010 num 871 982 95 912 12 $ V4001 chr 01 01 01 01 $ V0401 num 2 1 10 3 3 5 3 2 3 3 $ V6531 num 500 1800 369 517 837 $ Nuf11 num 468316 468316 468316 468316 468316

$ Nareapond num 7443 7443 7443 7443 7443 $ NMORPOB1 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB2 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB3 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB4 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB5 num 0 0 0 0 0 0 0 0 0 0 $ NMORPOB6 num 0 0 0 0 0 5 0 0 0 0

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 84: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Total de domiciacutelio na UFdados $Nuf11 larr sum( dados $V0010 )

Total de domiciacutelio por aacuterea de ponderaccedilatildeoNareapond larr t a pp l y ( dados $V0010 dados $V0011 sum)dados $Nareapond larr Nareapond [ dados $V0011 ]a t t r i b u t e s ( dados $Nareapond ) larr NULL

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 85: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Linhas de pobreza 70 80 90 100 140 27250z larr c (70 80 90 100 140 272 5 )

Nuacutemero de moradores pobres para cada linha de pobrezadados larr t r an s f o rm ( dados

NMORPOB1 = (V6531 lt z [ 1 ] ) lowast V0401 NMORPOB2 = (V6531 lt z [ 2 ] ) lowast V0401 NMORPOB3 = (V6531 lt z [ 3 ] ) lowast V0401 NMORPOB4 = (V6531 lt z [ 4 ] ) lowast V0401 NMORPOB5 = (V6531 lt z [ 5 ] ) lowast V0401 NMORPOB6 = (V6531 lt z [ 6 ] ) lowast V0401 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 86: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Carregar library surveyl i b r a r y ( s u r v e y )

Meacutetodo 1 - AASdes1UF larr s v y d e s i g n ( i d = sim1

f p c = simNuf11 we i gh t s = simV0010 data = dados )

Meacutetodo 2 - AES (Estratificado por aacuterea de ponderaccedilatildeo)des2UF larr s v y d e s i g n ( i d = sim1

s t r a t a = simV0011 f p c = simNareapond we i gh t s = simV0010 data = dados )

Definir o domiacutenio de estimaccedilatildeo (DPP)des1UFsub larr s ub s e t ( des1UF V4001 == 01 )des2UFsub larr s ub s e t ( des2UF V4001 == 01 )

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 87: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

Calcular estimativas para o meacutetodo 1Res1UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des1UFsub narm = TRUE)

Calcular estimativas para o meacutetodo 2Res2UF larr s v y r a t i o (simNMORPOB1 + NMORPOB2 + NMORPOB3 +

NMORPOB4 + NMORPOB5 + NMORPOB6simV0401 des2UFsub narm = TRUE)

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 88: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R

CoeficientesEst1UF larr round (100 lowast co e f ( Res1UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Est2UF larr round (100 lowast co e f ( Res2UF ) 2)

NMORPOB1 NMORPOB2 NMORPOB3 NMORPOB4 NMORPOB5 NMORPOB6894 966 1067 1125 1710 3760

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 89: Curso IBGE - Introdução a analise de dados amostrais complexos

Anaacutelise dos dados da amostra do Censo 2010 no R Coeficientes de variaccedilatildeo(Cv1UF larr round (100 lowast cv (Res1UF ) 2) )

V0401NMORPOB1 153NMORPOB2 147NMORPOB3 141NMORPOB4 137NMORPOB5 109NMORPOB6 063

(Cv2UF larr round (100 lowast cv (Res2UF ) 2) )

V0401NMORPOB1 151NMORPOB2 146NMORPOB3 139NMORPOB4 136NMORPOB5 107NMORPOB6 061

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011

Page 90: Curso IBGE - Introdução a analise de dados amostrais complexos

Referecircncias

I Bankier MB Rathwell S e Majkowski M (1992) Two stepgeneralized least squares estimation in the1991 canadiancensus

I Saumlrndal CE Swensson B e Wretman J (1992) Modelassisted survey sampling Springer-verlag New York Inc NewYork

I Vanderhoeft C (2001) Generalised Calibration at StatisticsBelgium SPSS Rcopy Module g-CALIB-S and Current Practicesdisponiacutevel em httpstatbelfgovbefrbinariespaper03[1]_tcm326-35412pdf Acesso em 16112011