amostragem complexas

170
AnÆlise de Dados Amostrais Complexos Djalma Galvªo Carneiro Pessoa (Consultor)- IBGE Pedro Luis do Nascimento Silva (Pesquisador)- IBGE 17 de Maro de 1998

Upload: natalia-concurseira

Post on 22-Nov-2015

80 views

Category:

Documents


2 download

TRANSCRIPT

  • Anlise de Dados Amostrais Complexos

    Djalma Galvo Carneiro Pessoa (Consultor)- IBGEPedro Luis do Nascimento Silva (Pesquisador)- IBGE

    17 de Maro de 1998

  • 2

  • ndice

    0.1 Prefcio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60.2 Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1 Introduo 91.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Estrutura do Livro . . . . . . . . . . . . . . . . . . . . . . . . 14

    2 Referencial para Inferncia 172.1 Modelagem - Primeiras Idias . . . . . . . . . . . . . . . . . . 17

    2.1.1 Abordagem 1 - Modelagem Clssica . . . . . . . . . . 172.1.2 Abordagem 2 - Amostragem Probabilstica . . . . . . 192.1.3 Discusso das Abordagens 1 e 2 . . . . . . . . . . . . . 192.1.4 Abordagem 3 - Modelagem de Superpopulao . . . . 22

    2.2 Fontes de Variao . . . . . . . . . . . . . . . . . . . . . . . . 242.3 Modelos de Superpopulao . . . . . . . . . . . . . . . . . . . 252.4 Planejamento Amostral . . . . . . . . . . . . . . . . . . . . . 282.5 Planos Amostrais Informativos e Ignorveis . . . . . . . . . . 29

    3 Estimao Baseada no Plano Amostral 333.1 Estimao de Totais . . . . . . . . . . . . . . . . . . . . . . . 333.2 Por que Estimar Varincias . . . . . . . . . . . . . . . . . . . 373.3 Linearizao de Taylor para Estimar Varincias . . . . . . . . 393.4 Mtodo do Conglomerado Primrio . . . . . . . . . . . . . . . 423.5 Mtodos de Replicao . . . . . . . . . . . . . . . . . . . . . . 43

    4 Efeitos do Plano Amostral 474.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Efeito do Plano Amostral (EPA) de Kish . . . . . . . . . . . 484.3 Efeito do Plano Amostral Ampliado . . . . . . . . . . . . . . 514.4 Intervalos de Conana e Testes de Hipteses . . . . . . . . . 61

    3

  • 4 NDICE

    4.5 Efeitos Multivariados de Plano Amostral . . . . . . . . . . . . 64

    5 Ajuste de Modelos Paramtricos 715.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715.2 Mtodo de Mxima Verossimilhana (MV) . . . . . . . . . . . 735.3 Ponderao de Dados Amostrais . . . . . . . . . . . . . . . . 745.4 Mtodo de Mxima Pseudo-Verossimilhana . . . . . . . . . . 785.5 Robustez do Procedimento MPV . . . . . . . . . . . . . . . . 835.6 Desvantagens da Inferncia Baseada em Aleatorizao . . . . 84

    6 Modelos de Regresso 876.1 Modelo de Regresso Linear Normal . . . . . . . . . . . . . . 87

    6.1.1 Especicao do Modelo . . . . . . . . . . . . . . . . . 876.1.2 Pseudo-parmetros do Modelo . . . . . . . . . . . . . 886.1.3 Estimadores de MPV dos Parmetros do Modelo . . . 906.1.4 Estimao da Varincia de Estimadores de MPV . . . 91

    6.2 Modelo de Regresso Logstica . . . . . . . . . . . . . . . . . 926.3 Teste de Hipteses . . . . . . . . . . . . . . . . . . . . . . . . 100

    7 Testes de Qualidade de Ajuste 1037.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1037.2 Teste para uma Proporo . . . . . . . . . . . . . . . . . . . . 104

    7.2.1 Correo de Estatsticas Clssicas . . . . . . . . . . . 1047.2.2 Estatstica de Wald . . . . . . . . . . . . . . . . . . . 108

    7.3 Teste para Vrias Propores . . . . . . . . . . . . . . . . . . 1097.3.1 Estatstica de Wald Baseada no Plano Amostral . . . 1107.3.2 Situaes Instveis . . . . . . . . . . . . . . . . . . . . 1107.3.3 Estatstica de Pearson com Ajuste de Rao-Scott . . . 111

    8 Testes em Tabelas de Duas entradas 1198.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198.2 Tabelas 2x2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    8.2.1 Teste de Independncia . . . . . . . . . . . . . . . . . 1208.2.2 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 1218.2.3 Efeitos de Plano Amostral nas Celas . . . . . . . . . . 121

    8.3 Tabelas de Duas Entradas (Caso Geral) . . . . . . . . . . . . 1238.3.1 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 1238.3.2 Teste de Independncia . . . . . . . . . . . . . . . . . 1278.3.3 Estatstica de Wald Baseada no Plano Amostral . . . 1288.3.4 Estatstica de Pearson com Ajuste de Rao-Scott . . . 129

  • NDICE 5

    9 Agregao vs. Desagregao 1359.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1359.2 Modelagem da Estrutura Populacional . . . . . . . . . . . . . 1369.3 Modelos Hierrquicos . . . . . . . . . . . . . . . . . . . . . . . 1399.4 Anlise Desagregada: Prs e Contras . . . . . . . . . . . . . . 151

    10 Pacotes para Anlise de Dados Amostrais 15510.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15510.2 Pacotes Computacionais . . . . . . . . . . . . . . . . . . . . . 155

  • 6 NDICE

    0.1 Prefcio

    Uma preocupao bsica de toda instituio produtora de informaes esta-tsticas com a utilizao correta de seus dados. Isso pode ser intrepretadode vrias formas, algumas delas com reexos at na conana do pblico e naprpria sobrevivncia do rgo. Do nosso ponto de vista, como tcnicos darea de metodologia do IBGE, enfatizamos um aspecto tcnico particular,mas nem por isso menos importante para os usurios dos dados.

    A revoluo da informtica com a resultante facilidade de acesso ao com-putador, criou condies extremamente favorveis utilizao de dados esta-tsticos, produzidos por rgos como o IBGE. Algumas vezes esses dados soutilizados para ns puramente descritivos. Outras vezes, porm, sua utili-zao feita para ns analticos, envolvendo a construo de modelos, quan-do o objetivo extrair concluses aplicveis tambm a populaes distintasdaquela da qual se extraiu a amostra. Neste caso, comum empregar, semgrandes preocupaes, pacotes computacionais padres disponveis para aseleo e ajuste de modelos. neste ponto que entra a nossa preocupaocom o uso adequado dos dados produzidos pelo IBGE.

    O que torna tais dados especiais para quem pretende us-los para nsanalticos? Esta a questo bsica que ser amplamente discutida ao lon-go deste texto. A mensagem principal que pretendemos transmitir quecertos cuidados precisam ser tomados para utilizao correta dos dados depesquisas amostrais como as que o IBGE realiza.

    O que torna especiais dados como os produzidos pelo IBGE que estesso obtidos atravs de pesquisas amostrais complexas de populaes nitasque envolvem: probabilidades distintas de seleo, estratificao econglomerao das unidades, ajustes para compensar no-respostae outros ajustes. Os pacotes tradicionais de anlise ignoram estes aspec-tos, podendo produzir estimativas incorretas tanto dos parmetros comopara as varincias destas estimativas. Quando utilizamos a amostra paraestudos analticos, as opes disponveis nos pacotes estatsticos usuais paralevar em conta os pesos distintos das observaes so apropriadas somentepara observaes independentes e identicamente distribudas (IID). Almdisso, a variabilidade dos pesos produz impactos tanto na estimao pon-tual quanto na estimao das varincias dessas estimativas, que sofre aindainuncia da estraticao e conglomerao.

    O objetivo deste livro analisar o impacto das simplicaes feitas aoutilizar procedimentos e pacotes usuais de anlise de dados, e apresentaros ajustes necessrios desses procedimentos de modo a incorporar na an-lise, de forma apropriada, os aspectos aqui ressaltados. Para isto sero

  • 0.2. AGRADECIMENTOS 7

    apresentados exemplos de anlises de dados obtidos em pesquisas amostraiscomplexas, usando pacotes clssicos e tambm pacotes estatsticos especia-lizados. A comparao dos resultados das anlises feitas das duas formaspermitir avaliar o impacto de ignorar o plano amostral na anlise dos dadosresultantes de pesquisas amostrais complexas.

    0.2 Agradecimentos

    A elaborao de um texto como esse no se faz sem a colaborao de mui-tas pessoas. Em primeiro lugar, agradecemos Comisso Organizadora doSINAPE por ter propiciado a oportunidade ao selecionar nossa proposta deminicurso. Agradecemos tambm ao IBGE por ter proporcionado as con-dies e os meios usados para a produo da monograa, bem como o acessoaos dados detalhados e identicados que utilizamos em vrios exemplos.

    No plano pessoal, agradecemos a Zlia Bianchini pela reviso do ma-nuscrito e sugestes que o aprimoraram. Agradecemos a Marcos Paulo deFreitas e Renata Duarte pela ajuda com a computao de vrios exemplos.Agradecemos a Waldecir Bianchini, Luiz Pessoa e Marinho Persiano pelacolaborao na utilizao do processador de textos. Aos demais colegas doDepartamento de Metodologia do IBGE, agradecemos o companheirismo esolidariedade nesses meses de trabalho na preparao do manuscrito.

    Finalmente, agradecemos a nossas famlias pela aceitao resignada denossas ausncias e pelo incentivo concluso da empreitada.

  • 8 NDICE

  • Captulo 1

    Introduo

    1.1 Motivao

    Este livro trata de problema de grande importncia para os usurios dedados obtidos atravs de pesquisas amostrais por agncias produtoras deinformaes estatsticas. Tais dados so comumente utilizados em anlisesdescritivas envolvendo o clculo de estimativas para totais, propores, m-dias e razes, nas quais, em geral, so devidademente considerados os pesosdistintos das observaes e o planejamento da amostra que lhes deu origem.

    Outro uso destes dados, denominado secundrio, a construo de mo-delos, feita geralmente por analistas que trabalham fora das agncias produ-toras dos dados. Neste caso, o foco , essencialmente, estabelecer a naturezade relaes ou associaes entre variveis. Para isto, a estatstica clssicaconta com um arsenal de ferramentas de anlise, j incorporado aos princi-pais pacotes estatsticos disponveis. O uso destes pacotes se faz, entretanto,sob condies que no reetem a complexidade usualmente envolvida naspesquisas amostrais de populaes nitas. Em geral, partem de hiptesesbsicas que s so vlidas quando os dados so obtidos atravs de amostrasaleatrias simples com reposio (AASC). Tais pacotes estatsticos no con-sideram os seguintes aspectos relevantes no caso de amostras complexas:

    i) probabilidades distintas de seleo das unidades;

    ii) conglomerao das unidades;

    iii) estratificao;

    iv) no-resposta e outros ajustes.

    9

  • 10 CAPTULO 1. INTRODUO

    As estimativas pontuais de parmetros da populao so inuenciadaspor pesos distintos das observaes. Alm disso, as estimativas de varinciaso inuenciadas pela conglomerao, estraticao e pesos. Ao ignorarestes aspectos, os pacotes tradicionais de anlise podem produzir estimativasincorretas das varincias das estimativas pontuais.

    A seguir vamos apresentar um exemplo de uso de dados de uma pesquisaamostral real para ilustrar como os pontos i) a iv) mencionados afetama inferncia sobre quantidades descritivas populacionais tais como mdias,propores, razes e totais.

    Exemplo 1.1 Distribuio dos pesos da amostra da PPV

    Os dados deste exemplo so relativos distribuio dos pesos na amostrada Pesquisa Domiciliar sobre Padres de Vida (PPV), realizada pelo IBGEnas Regies Nordeste e Sudeste do Brasil nos anos 96-97. Segundo Albieri eBianchini(1997), A Pesquisa Domiciliar sobre Padres de Vida (PPV) foirealizada nas Regies Nordeste e Sudeste do Pas, considerando 10 estratosgeogrcos, a saber: Regio Metropolitana de Fortaleza, Regio Metropoli-tana de Recife, Regio Metropolitana de Salvador, restante da rea urbanado Nordeste, restante da rea rural do Nordeste, Regio Metropolitana deBelo Horizonte, Regio Metropolitana do Rio de Janeiro, Regio Metropo-litana de So Paulo, restante da rea urbana do Sudeste e restante da rearural do Sudeste.

    O plano amostral foi de dois estgios, com estraticao das unidadesprimrias e probabilidade de seleo proporcional ao tamanho e seleo alea-tria das unidades de segundo estgio. A unidade primria o setor da basegeogrca do Censo Demogrco de 91 e a unidade do segundo estgio odomiclio. O tamanho da amostra para cada estrato geogrco foi xadoem 480 domiclios. Em cada estrato geogrco foi xado em 60 o nmero desetores a serem selecionados e 8 domiclios em cada setor, com exceo paraos estratos que correspondem ao restante da rea rural de cada Regio ondexou-se em 30 o nmero de setores e em 16 o nmero de domiclios a seremselecionados por setor, em funo da diculdade de acesso a esses setores, oque implicaria em aumento de custo.

    Os setores de cada um dos 10 estratos geogrcos foram subdivididos em3 estratos de acordo com a renda mdia mensal do chefe da famlia por setor,perfazendo um total de 30 estratos geogrcos versus renda. Em seguida foifeita uma alocao proporcional, com base no nmero de domiclios particu-lares permanentes ocupados do estrato de renda no universo de cada estratogeogrco, obtidos pelo Censo de 91. No nal foram obtidos 554 setores naamostra, distribudos tal como revela a Tabela 1.1.

  • 1.1. MOTIVAO 11

    Tabela 1.1: Nmero de setores na populao e na amostra, por estratogeogrco

    Nmero de setoresEstrato Geogrco Populao Amostra

    1-RM Fortaleza 2.268 622-RM Recife 2.310 613-RM Salvador 2.188 614-Restante Nordeste Urbano 15.068 615-Restante Nordeste Rural 23.723 336-RM Belo Horizonte 3.287 627-RM Rio de Janeiro 10.427 618-RM So Paulo 14.964 619-Restante Sudeste Urbano 25.902 6110-Restante Sudeste Rural 12.038 21

    Total 112.175 554

    Tabela 1.2: Distribuio dos pesos da amostra da PPV

    Regio Mnimo Q1 Mediana Q3 Mximo

    Nordeste 724 1.159 1.407 6.752 15.348Sudeste 991 2.940 5.892 10.496 29.234

    Nordeste + Sudeste 724 1.364 4.034 8.481 29.234

    A Tabela 1.2 apresenta um resumo das distribuies dos pesos amostraispara as Regies Nordeste (5 estratos geogrcos) e Sudeste (5 estratos geo-grcos) separadamente e para o conjunto da amostra da PPV.

    No clculo dos pesos foram consideradas as probabilidades de inclusodos elementos na amostra bem como correes devido a no-resposta. Con-tudo, a grande variabilidade dos pesos amostrais da PPV devida varia-bilidade das probabilidades de incluso na amostra, ilustrando desta formao ponto i) citado anteriormente nesta seo.

  • 12 CAPTULO 1. INTRODUO

    Na anlise de dados desta pesquisa, deve-se considerar que h elementosda amostra com pesos bem distintos. Por exemplo, a razo entre o maior eo menor peso cerca de 40 vezes. Tais pesos so utilizados para expandiros dados, multiplicando-se cada observao pelo seu respectivo peso. Assim,por exemplo, para estimar quantos elementos da populao pertencem adeterminado conjunto (domnio), basta somar os pesos dos elementos daamostra que pertencem a este conjunto. possvel ainda incorporar ospesos, de maneira simples e natural, quando estimamos medidas descritivassimples da populao tais como totais, mdias, propores, etc.

    Por outro lado, quando utilizamos a amostra para estudos analticos,as opes disponveis nos pacotes estatsticos usuais para levar em conta ospesos distintos das observaes so apropriadas somente para observaesindependentes e identicamente distribudas (IID). Contudo, a variabilidadedos pesos produz impactos tanto na estimao pontual quanto na estimaodas varincias dessas estimativas, que sofre ainda inuncia da conglome-rao e estraticao - pontos ii) e iii) mencionados anteriormente.

    Para exemplicar o impacto de ignorar os pesos e o plano amostral aoestimar quantidades descritivas populacionais, tais como totais, mdias, pro-pores e razes, calculamos estimativas de quantidades desses tipos usandoa amostra da PPV juntamente com estimativas das respectivas varincias.Essas estimativas de varincias foram calculadas sob duas estratgias: consi-derando amostragem aleatria simples (portanto ignorando o plano amostralefetivamente adotado), e considerando o plano amostral da pesquisa e os pe-sos diferenciados das unidades. A razo entre as estimativas de varinciaobtidas sob o plano amostral verdadeiro e sob amostragem aleatria simplesfoi calculada usando o pacote SUDAAN (Shah et al., 1992) para cada umadas estimativas consideradas. Essa razo fornece uma medida do efeito deignorar o plano amostral (EPA). Os resultados so apresentados na Tabela1.3.

    Como se pode observar da quarta coluna da Tabela 1.3, os valores doefeito do plano amostral variam de um modesto 1,26 para o nmero mdiode lhos tidos por mulheres em idade frtil (12 a 49 anos de idade) at umsubstancial 4,17 para o total de analfabetos entre pessoas de mais de 14anos. Nesse ltimo caso, usar a estimativa de varincia como se o planoamostral fosse amostragem aleatria simples implicaria em subestimar con-sideravelmente a varincia da estimativa pontual, que mais que 4 vezesmaior se consideramos o plano amostral efetivamente utilizado.

  • 1.1. MOTIVAO 13

    Tabela 1.3: Estimativas de Efeitos de Plano Amostral (EPAs) para variveisselecionadas da PPV - Regio Sudeste

    ParmetroPopulacional

    EstimativaDesviopadro

    EPA

    1) Nmero mdio depessoas por domiclio

    3, 62 0, 05 2, 64

    2) % de domiclios alugados 16, 70 1, 15 2, 973) Nmero total de pessoasque avaliaram seu estado dede sade como ruim

    1.208.123 146.681 3, 37

    4) Total de analfabetosde 7 a 14 anos

    1.174.220 127.982 2, 64

    5) Total de analfabetosde mais de 14 anos

    4.792.344 318.877 4, 17

    6) % de analfabetosde 7 a 14 anos

    11, 87 1, 18 2, 46

    7) % de analfabetosde mais de 14 anos

    10, 87 0, 67 3, 86

    8) Total de mulheresde 12 a 49 anosque tiveram lhos

    10.817.590 322.947 2, 02

    9) Total de mulheresde 12 a 49 anos quetiveram lhos vivos

    10.804.511 323.182 2, 02

    10) Total de mulheresde 12 a 49 anos quetiveram lhos mortos

    709.145 87.363 2, 03

    11) Nmero mdio delhos tidos por mulheresde 12 a 49 anos

    1, 39 0, 03 1, 26

    12) Razo de dependncia 0, 53 0, 01 1, 99

  • 14 CAPTULO 1. INTRODUO

    O objetivo deste livro analisar o impacto das simplicaes feitas ao uti-lizar pacotes usuais de anlise de dados, e apresentar os ajustes necessrios,de modo a considerar de forma apropriada os pontos i) a iii) mencionadosnesta seo. Para isto sero apresentados exemplos de anlises de dados ob-tidos em pesquisas amostrais complexas, usando pacotes clssicos e tambmpacotes estatsticos especializados, no caso o SUDAAN (Shah et al., 1992) eo STATA (Stata, 1997). A comparao dos resultados das anlises feitas dasduas formas permitir avaliar o impacto de no se considerar os pontos i) aiii) anteriormente citados. O ponto iv) no ser diretamente tratado nestetexto. O leitor interessado na anlise de dados sujeitos a no-resposta podeconsultar Kalton(1983a), Little e Rubin(1987), e Rubin(1987), por exemplo.

    1.2 Estrutura do Livro

    O livro est organizado em dez captulos. Este primeiro captulo discute amotivao para estudar o assunto e apresenta uma idia geral da estruturado livro.

    No segundo captulo, procuramos dar uma viso das diferentes aborda-gens utilizadas na anlise estatstica de dados de pesquisas amostrais com-plexas. Apresentamos um referencial para inferncia com nfase no Modelode Superpopulao que incorpora, de forma natural, tanto uma estrutu-ra estocstica para descrever a gerao dos dados populacionais (modelo)como o plano amostral efetivamente utilizado para obter os dados amo-strais (plano amostral). As referncias bsicas para seguir este captulo soNascimento Silva(1996, cap. 2) e Skinner, Holt e Smith(1989, cap. 1). Essereferencial tem evoludo ao longo dos anos como uma forma de permitir aincorporao de idias e procedimentos de anlise e inferncia usualmenteassociados Estatstica Clssica prtica da interpretao de dados pro-venientes de pesquisas amostrais. Apesar dessa evoluo, sua adoo no livre de controvrsia e uma breve reviso dessa discusso apresentada naseo 2.1.

    No terceiro captulo apresentamos uma reviso sucinta, a ttulo de recor-dao, de alguns resultados bsicos da Teoria de Amostragem, requeridosnas partes subsequentes do livro. So discutidos os procedimentos bsicospara estimao de totais considerando o plano amostral, e em seguida re-vistas algumas tcnicas para estimao de varincias teis para o caso deestatsticas complexas, tais como razes e outras estatsticas requeridas nainferncia analtica com dados amostrais. As referncias centrais para estecaptulo so Srndal, Swensson e Wretman(1992, cap. 2 e 3), Wolter(1985)

  • 1.2. ESTRUTURA DO LIVRO 15

    e Cochran(1977).No Captulo 4 introduzimos o conceito de Efeito do Plano Amostral

    (EPA), que permite avaliar o impacto de ignorar a estruturao dos dadospopulacionais ou do plano amostral sobre a estimativa da varincia de umestimador. Para isso, comparamos o estimador da varincia apropriado paradados obtidos por amostragem aleatria simples (hiptese de AAS) com ovalor esperado deste mesmo estimador sob a distribuio dos dados estrutu-rados ou sob a distribuio de aleatorizao do plano amostral efetivamenteutilizado (plano amostral verdadeiro). Aqui a referncia principal foi o livroSkinner, Holt e Smith(1989), complementado com o texto de Lehtonen ePahkinen(1995).

    No Captulo 5 estudamos a questo do uso de pesos ao analisar dadosprovenientes de pesquisas amostrais complexas, e introduzimos um mto-do geral, denominado Mtodo de Mxima Pseudo-Verossimilhana (MPV),para incorporar os pesos e o plano amostral na obteno no s de estima-tivas de parmetros dos modelos regulares de interesse, como tambm dasvarincias dessas estimativas. As referncias bsicas utilizadas nesse cap-tulo foram Skinner(1989b), Pfeermann(1993), Binder(1983) e NascimentoSilva(1996, cap. 6).

    O Captulo 6 trata da obteno de Estimadores de Mxima Pseudo-Verossimilhana (EMPV) e da respectiva matriz de covarincia para os pa-rmetros em modelos de regresso linear e de regresso logstica, quando osdados vm de pesquisas amostrais complexas. Apresentamos um exemplode aplicao com dados do Suplemento Trabalho da Pesquisa Nacional porAmostra de Domiclios (PNAD) de 90, onde ajustamos um modelo de re-gresso logstica. Neste exemplo, so feitas comparaes entre resultados deajustes obtidos atravs de um programa especializado, o SUDAAN (Shah etal., 1992), e atravs de um programa de uso geral, o S-Plus. As refernciascentrais so Nascimento Silva(1996, cap. 6) e Binder(1983), alm de Pessoa,Nascimento Silva e Duarte(1997).

    O stimo e oitavo captulos tratam da anlise de dados categricos comnfase na adaptao dos testes clssicos para propores, de independnciae de homogeneidade em tabelas de contingncia, para dados provenientesde pesquisas amostrais complexas. Apresentamos correes das estatsticasclssicas e a estatstica de Wald baseada no plano amostral. As refernciasbsicas usadas nesses captulos foram os livros Skinner, Holt e Smith (1989,cap. 4) e Lehtonen e Pahkinen(1995, cap. 7).

    No Captulo 9 discutimos uma forma alternativa de analisar dados depesquisas complexas, denominada anlise desagragada. Nesta abordagem,incorporamos explicitamente na anlise vrios aspectos do plano amostral

  • 16 CAPTULO 1. INTRODUO

    utilizado atravs do emprego de modelos hierrquicos (Bryk e Raudenbush,1992). Em contraste, a abordagem adotada nos oito primeiros captulos denominada anlise agregada, e procura eliminar da anlise efeitos taiscomo conglomerao induzida pelo plano amostral, considerando tais efeitoscomo rudos ou fatores de perturbao que atrapalham o emprego dosprocedimentos clssicos de estimao e teste de hipteses.

    Por ltimo, no Captulo 10, listamos alguns pacotes computacionais espe-cializados disponveis para a anlise de dados de pesquisas amostrais com-plexas. Sem pretender ser exaustiva ou detalhada, essa reviso dos pacotesprocura tambm apresentar suas caractersticas mais importantes. Vriosdestes programas podem ser adquiridos gratuitamente via internet, nos en-dereos fornecidos de seus produtores. Com isto pretendemos indicar aosleitores o caminho mais curto para permitir a implementao prtica dastcnicas e mtodos aqui discutidos.

    Uma das caractersticas que procuramos dar ao livro foi o emprego deexemplos com dados reais, retirados principalmente da experincia do IBGEcom pesquisas amostrais complexas. Embora a experincia de fazer infern-cia analtica com dados desse tipo seja ainda incipiente no Brasil, acredi-tamos ser fundamental difundir essas idias para alimentar um processo demelhoria do aproveitamento dos dados das inmeras pesquisas realizadaspelo IBGE e instituies congneres, que permita ir alm da tradicionalestimao de mdias, totais, propores e razes. Esperamos com esse livrofazer uma contribuio a esse processo.

    Uma diculdade em escrever um livro como este vem do fato de que no possvel comear do zero: preciso assumir algum conhecimento prvio deidias e conceitos necessrios compreenso do material tratado. Procura-mos tornar o livro acessvel para um estudante de m de curso de graduaoem Estatstica. Por essa razo optamos por no apresentar provas de re-sultados e sempre que possvel, apresentar os conceitos e idias de maneiraintuitiva, juntamente com uma discusso mais formal para dar solidez aosresultados apresentados. As provas de vrios dos resultados aqui discutidosse restringem a material disponvel apenas em artigos em peridicos espe-cializados estrangeiros e portanto, so de acesso mais difcil. Ao leitor embusca de maior detalhamento e rigor, sugerimos consultar diretamente asinmeras referncias includas ao longo do texto. Para um tratamento maisprofundo do assunto, o livro de Skinner, Holt e Smith(1989) a refernciacentral a pesquisar. Para aqueles querendo um tratamento ainda mais pr-tico que o nosso, o livro de Lehtonen e Pahkinen(1995) pode ser uma opointeressante.

  • Captulo 2

    Referencial para Inferncia

    2.1 Modelagem - Primeiras Idias

    Com o objetivo de dar uma primeira idia sobre o assunto a ser tratadoneste livro vamos considerar, numa situao simples, algumas abordagensde anlise estatstica.

    2.1.1 Abordagem 1 - Modelagem Clssica

    Seja Y uma varivel de interesse, e sejam y1, . . . , yn, n observaes destavarivel. Em Inferncia Estatstica, o modelo usual considera y1, . . . , yncomo valores (realizaes) de variveis aleatrias Y1, . . . , Yn. Aqui Y1, . . . , Ynso variveis aleatrias independentes e identicamente distribudas (IID),com a mesma distribuio de Y , digamos com funo de densidade ou defrequncia f (y; ), onde o parmetro indexador da distribuiof , e o espao paramtrico. A partir das observaes y1, . . . , yn, sofeitas inferncias a respeito do parmetro . Uma representao grcadessa abordagem apresentada na Figura 2.1 a seguir, e uma descrioesquemtica resumida apresentada na Tabela 2.1.

    Do ponto de vista matemtico, o parmetro serve para indexar os ele-mentos da famlia de distribuies {f (y; ) ; }. Na prtica, as questesrelevantes da pesquisa so traduzidas em termos do parmetro , e a in-ferncia sobre a partir dos dados ajuda a responder tais questes. Estaabordagem til em estudos analticos tais como, por exemplo, na investi-gao da natureza da associao entre variveis (modelos de regresso linearou logstica, modelos log-lineares, etc.).

    17

  • 18 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    Figura~2.1: Modelagem Clssica

    Modelo Paramtrico f(y;)

    Dados Amostraisy1,...,yn

    Tabela 2.1: Representao esquemtica da abordagem 1

    Abordagem 1 - Modelagem Clssica

    Dados AmostraisY1y1

    , . . . ,Ynyn

    Modelo Paramtrico/Hipteses

    Y1, . . . , Yn variveis aleatrias IIDcom distribuio f (y; ), onde

    ObjetivoInferir sobre

    usando observaes y1, . . . , yn

  • 2.1. MODELAGEM - PRIMEIRAS IDIAS 19

    Tabela 2.2: Representao esquemtica da abordagem 2

    Abordagem 2 - Amostragem Probabilstica

    Dados AmostraisY1y1

    , . . . ,Ynyn

    Hipteses/Modeloextrados de y1, . . . , yN

    segundo p (s)

    ObjetivoInferir sobre sobre funes g (y1, . . . , yN )

    usando y1, . . . , yn

    2.1.2 Abordagem 2 - Amostragem Probabilstica

    A abordagem adotada pelos praticantes de amostragem (amostristas) con-sidera uma populao nita U = {1, . . . , N}, da qual selecionada umaamostra s = {i1, . . . , in}, segundo um plano amostral caracterizado por p (s),probabilidade de ser selecionada a amostra s, assumida calculvel para todasas possveis amostras s. Os valores y1, . . . , yN de uma varivel de interesseY na populao nita, isto , , so considerados xos, porm desconhecidos.Sem perda de generalidade, podemos reindexar a populao de tal formaque a amostra observada seja formada pelos ndices s = {1, . . . , n} .

    A partir dos valores observados na amostra, denotados por y1, . . . , yn, sofeitas inferncias a respeito de funes dos valores populacionais, digamosg (y1, . . . , yN ). Os valores de tais funes so quantidades descritivas po-pulacionais (QDPs), tambm denominadas parmetros da populao nitapelos amostristas. Em geral, o objetivo desta abordagem fazer estudos de-scritivos utilizando funes g particulares, tais como totais g (y1, . . . , yN) =PNi=1 yi , mdias g (y1, . . . , yN) = N

    1PNi=1 yi , propores, etc. Uma de-

    scrio esquemtica resumida dessa abordagem apresentada no Tabela 2.2,e uma representao grca resumida na Figura 2.2.

    2.1.3 Discusso das Abordagens 1 e 2

    A primeira abordagem (Modelagem Clssica), nos termos descritos, foi pro-posta como modelo para medidas na Fsica e Astronomia, onde em geral opesquisador tem relativo controle sobre os experimentos, e onde faz sentidofalar em replicao ou repetio do experimento. Neste contexto, o con-

  • 20 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    Figura~2.2: Amostragem Probabilstica

    Populao Finitay1,...,yN

    Plano Amostralp(s)

    Dados amostraisy1,...,yn

  • 2.1. MODELAGEM - PRIMEIRAS IDIAS 21

    ceito de aleatoriedade geralmente introduzido para modelar os erros (nocontrolveis) no processo de medio.

    A segunda abordagem (Amostragem Probabilstica) utilizada princi-palmente no contexto de estudos scio-econmicos, para levantamento dedados por agncias governamentais produtoras de informaes estatsticas.Nesta abordagem, a aleatoriedade introduzida no processo pelo pesquisa-dor para obteno dos dados, atravs do planejamento amostral p (s) uti-lizado (Neyman, 1934) e as distribuies das estatsticas de interesse soderivadas a partir dessa distribuio de aleatorizao. Tais planos amostraispodem ser complexos, gerando observaes com as caractersticas i) a iv) doCaptulo 1. Os dados obtidos so utilizados principalmente para descrioda populao nita, sendo calculadas estimativas de totais, mdias, razes,etc. Nessa abordagem, os pontos i) a iv) do Captulo 1 so devidamenteconsiderados na estimao de parmetros descritivos desse tipo, e tambmna estimao de varincias dos estimadores.

    Esta abordagem essencialmente no-paramtrica, pois no supe umadistribuio paramtrica particular para as observaes da amostra. Poroutro lado, essa abordagem tem a desvantagem de fazer inferncias restritas particular populao nita considerada.

    Apesar dessa abordagem ter sido inicialmente concebida e aplicada pa-ra problemas de inferncia descritiva da populao nita, cada vez maiscomum, porm, a utilizao de dados obtidos atravs de pesquisas amos-trais complexas para ns analticos, com a aplicao de mtodos de anlisedesenvolvidos e apropriados para a abordagem 1.

    Diante do exposto, podemos considerar algumas questes de interesse.

    adequado aplicar mtodos de anlise da abordagem 1, concebidospara observaes IID, aos dados obtidos atravs de pesquisas amostraiscomplexas?

    Em caso negativo, seria possvel corrigir estes mtodos, tornando-osaplicveis para tratar dados amostrais complexos?

    Ou seria mais adequado fazer uso analtico dos dados dentro da abor-dagem 2?

    Alm destas, tambm de interesse a questo da robustez da modelagem,traduzida nas seguintes perguntas.

    O que acontece quando o modelo adotado na abordagem 1 no ver-dadeiro?

  • 22 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    Neste caso, qual a interpretao do parmetro na abordagem 1? Ainda neste caso, as quantidades descritivas populacionais da aborda-gem 2 poderiam ter alguma interpretao ou utilidade?

    O objeto deste livro exatamente discutir respostas para as questesaqui enumeradas. Para isso, vamos considerar uma abordagem que propeum modelo parametrizado como na abordagem 1, e alm disso incorporana anlise os pontos i) a iii) do Captulo 1 mediante aproveitamento daestrutura do planejamento amostral como na abordagem 2.

    2.1.4 Abordagem 3 - Modelagem de Superpopulao

    Nesta abordagem, os valores y1, . . . , yN da varivel de interesse Y na popu-lao nita so considerados observaes ou realizaes das variveis alea-trias Y1, . . . , YN , supostas IID com distribuio f (y; ), onde . Estemodelo denominado modelo de superpopulao. Utilizando um plano a-mostral denido por p(s), obtemos os valores na amostra y1, . . . , yn. A partirde y1, . . . , yn (no considerados IID, em geral) queremos fazer inferncias so-bre o parmetro , considerando os pontos i) a iii) do Captulo 1. Veja umarepresentao grca resumida desta abordagem na Figura 2.3.

    Adotando o modelo de superpopulao e considerando mtodos usuaisdisponveis na abordagem 1, podemos utilizar funes de y1, . . . , yN , diga-mos g (y1, . . . , yN), para fazer inferncias sobre . Desta forma, denimosestatsticas g (y1, . . . , yN) (no sentido da abordagem 1 ) que so quantidadesdescritivas populacionais (parmetros populacionais no contexto da abor-dagem 2 ), que passam a ser os novos parmetros-alvo. O passo seguinte utilizar mtodos diponveis na abordagem 2 para fazer inferncia sobreg (y1, . . . , yN) baseada em y1, . . . , yn. Note que no possvel basear a infe-rncia nos valores populacionais y1, . . . , yN , j que estes no so conhecidos.Este ltimo passo adiciona a informao sobre o plano amostral utilizado,contida em p(s), informao estrutural contida em {f (y; ) ; } . Umarepresentao esquemtica dessa abordagem apresentada no Tabela 2.3.

    A descrio da abordagem adotada neste livro foi apresentada de maneirapropositadamente vaga nesta seo, mas ser aprofundada ao longo do texto.Admitiremos que o leitor esteja familiarizado com a abordagem 1 e com asnoes bsicas da abordagem 2. A ttulo de recordao, sero apresentadosno Captulo 3 alguns resultados bsicos da Teoria de Amostragem. A nfase

  • 2.1. MODELAGEM - PRIMEIRAS IDIAS 23

    Figura~2.3: Modelagem de Superpopulao

    Plano Amostralp(s)

    Dados Amostraisy1,...,yn

    Modelo Paramtricof(y;)

    Populao Finitay1,...,yNPopulao Finita

    y1,...,yN

  • 24 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    Tabela 2.3: Representao esquemtica da abordagem 3

    Abordagem 3 - Modelagem de Superpopulao

    Dados amostraisY1y1

    , . . . ,Ynyn

    Populao eesquema de seleo

    Extrados de y1, . . . , yN segundo p (s)

    Modelo parapopulao

    Y1, . . . , YN variveis aleatrias IIDcom distribuio f (y; ), onde

    Parmetro-alvo associar g (Y1, . . . YN)Objetivo

    Inferir sobre g (Y1, . . . YN)a partir de y1, . . . , yn usando p (s)

    do texto, porm, ser na apresentao da abordagem 3, sendo para istoapresentados os elementos indispensveis das abordagens 1 e 2.

    Ao construir e ajustar modelos a partir de dados de pesquisas amostraiscomplexas, tais como as executadas pelo IBGE, o usurio precisa incor-porar as informaes sobre pesos e planos amostrais utilizados. Em geral,ao publicar os resultados das pesquisas, os pesos so considerados, sendopossvel produzir estimativas pontuais corretas utilizando os pacotes tra-dicionais. Por outro lado, para construir intervalos de conana e testarhipteses sobre parmetros de modelos, seria preciso o conhecimento dasestimativas de varincias e covarincias das estimativas, obtidas a partir doplano amostral utilizado. Mesmo conhecendo o plano amostral, geralmenteno simples incorporar pesos e plano amostral na anlise sem o uso depacotes especializados. Tais pacotes utilizam metdos gerais para estimarmatrizes de covarincia, tais como os de Mxima Pseudo-Verossimilhana ede Linearizao, que sero descritos mais adiante.

    Em outras palavras, o uso dos pacotes usuais para analisar dados pro-duzidos por pesquisas com planos amostrais complexos, tal como o uso demuitos remdios, pode ter contra-indicaes.

    2.2 Fontes de Variao

    Este captulo estabelece um referencial para inferncia em pesquisas amos-trais que ser usado no restante deste texto. Cassel, Srndal e Wretman(1977, p.1) sugerem que um referencial para inferncia poderia usar trs

  • 2.3. MODELOS DE SUPERPOPULAO 25

    fontes de aleatoriedade (incerteza, variao), incluindo:

    1. modelo de superpopulao, que descreve o processo subjacente que porhiptese gerou as medidas verdadeiras de qualquer unidade da popu-lao considerada;

    2. processo de medio, que diz respeito aos instrumentos e mtodos usa-dos para obter as medidas de qualquer unidade da populao;

    3. planejamento amostral, que estabelece o mecanismo pelo qual unidadesda populao so selecionadas para participar da pesquisa por amostra.

    Uma quarta fonte de incerteza que poderia ser acrescentada s ante-riores o

    4. mecanismo de resposta, ou seja, o mecanismo que controla se valoresde medies de unidades selecionadas so disponibilizados ou no.

    Para concentrar o foco nas questes de interesse deste texto, as fontes (2)e (4) no sero consideradas no referencial adotado aqui. De agora em dianteadmitiremos que no h erros de medio, implicando que os valores obser-vados de quaisquer variveis de interesse sero considerados valores corretosou verdadeiros. Admitiremos ainda que h resposta completa, implicandoque os valores de quaisquer variveis de interesse esto disponveis para to-dos os elementos da amostra selecionada depois que a pesquisa foi realizada.Hipteses semelhantes so adotadas, por exemplo, em Montanari(1987).

    Portanto, o referencial aqui adotado considera apenas duas fontes alter-nativas de variao: o modelo de superpopulao (1) e o plano amostral (3).Estas fontes alternativas de variao, descritas nesta seo apenas de formaesquemtica, so discutidas com maiores detalhes a seguir.

    A fonte de variao (1) ser considerada porque usos analticos das pes-quisas so amplamente discutidos neste texto, os quais s tm sentido quan-do especicado um modelo estocstico para o processo subjacente que geraas medidas na populao. A fonte de variao (3) ser considerada porquea ateno ser focalizada na anlise de dados obtidos atravs de pesquisasamostrais. Aqui a discusso se restringir a planos amostrais aleatorizadosou de amostragem probabilstica, no sendo considerados mtodos intencio-nais ou outros mtodos no-aleatrios de seleo de amostras.

    2.3 Modelos de Superpopulao

    Seja {1, ...,N} um conjunto de rtulos que identicam univocamente os Nelementos distintos de uma populao-alvo nita U . Sem perda de gene-

  • 26 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    ralidade tomaremos U = {1, ..., N}. Uma pesquisa cobrindo n elementosdistintos numa amostra s, s = {i1, ..., in} U , realizada para medir osvalores de R variveis de interesse da pesquisa, doravente denominadas sim-plesmente variveis da pesquisa.

    Denote por yi = (yi1, ..., yiR)0o vetor R 1 de valores das variveis da

    pesquisa e por xi = (xi1, ..., xiQ)0o vetor Q 1 de variveis auxiliares da

    i-sima unidade da populao, respectivamente, para i = 1, ...,N . Aqui asvariveis auxiliares so consideradas como variveis contendo a informaorequerida para o planejamento amostral e a estimao a partir da amostra,como se discutir com mais detalhes adiante.

    Quando se supe que y1, ...,yN so a realizao conjunta de vetores alea-trios Y1, ...,YN , a distribuio conjunta de probabilidade de Y1, ...,YN um modelo (marginal) de superpopulao, que doravante denotaremossimplesmente por M . Analogamente, x1, ...,xN pode ser considerada umarealizao conjunta de vetores aleatrios X1, ...,XN . Neste caso, as distri-buies das variveis da pesquisa podem ser alternativamente especicadascondicionando-se nos valores das variveis auxiliares, ou seja condicionando-se em Xi= xi para todo i U.

    O referencial aqui adotado permite a especicao da distribuio con-junta combinada das variveis da pesquisa e das variveis auxiliares. Denotepor f [(y1,x1) , . . . , (yN ,xN) ;] a funo de densidade de probabilidade de(Y1,X1), . . . , (YN ,XN), onde um vetor de parmetros. Como os vetoresYi e Xi no tm a mesma dimenso, uma notao mais precisa para estafuno de densidade seria f

    (y01,x01)

    0 , . . . , (y0N ,x0N)

    0 ;. Por simplicidade,

    a forma anterior ser preferida daqui por diante.Um tipo importante de modelo de superpopulao obtido quando os

    vetores aleatrios correspondentes s observaes de elementos diferentes dapopulao so supostos independentes e identicamente distribudos (IID).Neste caso, o modelo de superpopulao pode ser escrito como:

    f [(y1,x1) , . . . , (yN ,xN) ;] =YiU

    f (yi,xi;) (2.1)

    =YiU

    f (yi|xi;) f (xi;) (2.2)

    onde e so vetores de parmetros.Sob (2.2), o modelo marginal correspondente das variveis da pesquisa

    seria obtido integrando nas variveis auxiliares:

  • 2.3. MODELOS DE SUPERPOPULAO 27

    f(y1, . . . ,yN ;) =YiU

    Zf (yi|xi;) f (xi;)dxi =

    YiU

    f (yi;) (2.3)

    onde f (yi;) =Rf (yi|xi;) f (xi;)dxi e =h (,) .

    Outro tipo especial de modelo de superpopulao o modelo de popu-lao xa, que supe que os valores numa populao nita so xos masdesconhecidos. Este modelo pode ser descrito por

    P [(Yi,Xi)= (yi,xi)] = 1 i U (2.4)ou seja, uma distribuio degenerada especicada para (Yi,Xi) .

    Este modelo foi considerado em Cassel, Srndal e Wretman(1977, p. 2-3), que o chamaram de abordagem de populao xa e armaram ser esta aabordagem subjacente ao desenvolvimento da teoria de amostragem encon-trada nos livros clssicos tais como Cochran(1977) e outros. Chamaremosaqui esta abordagem de abordagem baseada no planejamento amostral ouabordagem de aleatorizao, pois neste caso a nica fonte de variao (alea-toriedade) proveniente do planejamento amostral. Em geral, a distribuioconjunta de (Yi,Xi) no precisa ser degenerada como em (2.4), embora oreferencial aqui adotado seja sucientemente geral para permitir consideraresta possibilidade.

    Se todos os elementos fossem pesquisados (ou seja, se fosse executado umcenso), os dados observados seriam (y1,x1), . . . , (yN ,xN). Sob a hiptesede resposta completa, a nica fonte de incerteza seria devida ao fato deque (y1,x1), . . . , (yN ,xN) uma realizao de (Y1,X1) , . . . , (YN ,XN). Osdados observados poderiam ento ser usados para fazer inferncias sobre,, ou usando procedimentos padres.

    Inferncia sobre quaisquer dos parmetros ,, ou do modelo desuperpopulao chamada inferncia analtica. Este tipo de inferncia sfaz sentido quando o modelo de superpopulao no degenerado comoem (2.4). Usualmente seu objetivo explicar a relao entre variveis noapenas para a populao nita sob anlise, mas tambm para outras popu-laes que poderiam ter sido geradas pelo modelo de superpopulao adota-do. Exemplos de inferncia analtica sero discutidos ao longo deste livro.

    Se o objetivo da inferncia estimar quantidades que fazem sentido so-mente para a populao nita sob anlise, tais como funes g (y1, . . . ,yN)dos valores das variveis da pesquisa, o modelo de superpopulao no estritamente necessrio, embora possa ser til. Inferncia para tais quanti-dades, chamadas parmetros da populao nita ou quantidades descritivaspopulacionais (QDPs), chamada inferncia descritiva.

  • 28 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    2.4 Planejamento Amostral

    Embora censos sejam algumas vezes realizados para coletar dados sobrecertas populaes, a vasta maioria das pesquisas so pesquisas amostrais,nas quais apenas uma amostra de elementos da populao (usualmente umapequena parte) investigada. Neste caso, os dados disponveis incluem:

    1. o conjunto de rtulos s = {i1, . . . , in} dos distintos elementos na amo-stra, onde n (1 n N) o nmero de elementos na amostra s, cha-mado tamanho da amostra;

    2. os valores na amostra das variveis da pesquisa yi1, . . . ,yin;

    3. com informao auxiliar completa, os valores das variveis auxiliaresna amostra xi1 , . . . ,xin e na populao x1, . . . ,xN ; alternativamente,com informao auxiliar parcial, os valores na amostra xi1 , . . . ,xin ,mais os totais/mdias destas variveis na populao.

    O mecanismo usado para selecionar a amostra s da populao nita U chamado planejamento amostral. Uma forma de caracteriz-lo atravsda funo p (.), onde p(s) d a probabilidade de selecionar a amostra sno conjunto S de todas as amostras possveis. S mecanismos amostraisenvolvendo alguma forma de seleo probabilstica bem denida sero aquiconsiderados, e portanto supe-se que 0 p(s) 1 s S ePsS p(s) = 1.

    Esta caracterizao do plano amostral p(s) bem geral, permitindo que omecanismo de seleo amostral dependa dos valores das variveis auxiliaresx1, . . . ,xN bem como dos valores das variveis da pesquisa na populaoy1, . . . ,yN (amostragem informativa, veja Seo 2.5). Uma notao maisexplcita para indicar esta possibilidade possivelmente envolveria escreverp(s) como p [s|(y1,x1), . . . , (yN ,xN)]. Tal notao ser evitada por razesde simplicidade.

    Denotamos por I (A) a funo indicadora que assume o valor 1 quando oevento A ocorre e 0 caso contrrio. Seja s = [I (1 s) , . . . , I (N s)]0 umvetor aleatrio de indicadores dos elementos includos na amostra s. Entoo plano amostral pode ser alternativamente caracterizado pela distribuiode probabilidade de s denotada por f [s| (y1,x1) , . . . , (yN ,xN)], onde s qualquer realizao particular de s tal que

    0s1N = n, e 1N o vetor

    unitrio de dimenso N .Notao adicional necessria nas sees posteriores ser agora introdu-

    zida. Denotamos por i a probabilidade de incluso na amostra da unidadei , isto

  • 2.5. PLANOS AMOSTRAIS INFORMATIVOS E IGNORVEIS 29

    i = P (i s) =Xs3ip (s) (2.5)

    e denotamos por ij a probabilidade de incluso conjunta das unidades i ej , dada por

    ij = P (i s, j s) =Xs3i,j

    p (s) (2.6)

    para todo i 6= j U , e seja ii = ii U.Uma hiptese bsica assumida com relao aos planos amostrais aqui

    considerados que i > 0 e ij > 0 i, j U. A hiptese de ij ser positiva adotada para simplicar a apresentao das expresses das varincias dosestimadores. Contudo, esta no uma hiptese crucial, pois h planosamostrais que no a satifazem e para os quais esto disponveis aproximaese estimadores satisfatrios das varincias dos estimadores de totais e demdias.

    2.5 Planos Amostrais Informativos e Ignorveis

    Ao fazer inferncia usando dados de pesquisas amostrais precisamos distin-guir duas situaes que requerem tratamento diferenciado. Uma dessas si-tuaes ocorre quando o plano amostral empregado para coletar os dados informativo, isto , quando o mecanismo de seleo das unidades amostraispode depender dos valores das variveis de pesquisa. Um exemplo tpicodesta situao o dos estudos de caso-controle, em que a amostra sele-cionada de tal forma que h casos (unidades com determinada condio)e controles (unidades sem essa condio), sendo de interesse a modelagemdo indicador de presena ou ausncia da condio em funo de variveispreditoras, e esse indicador uma das variveis de pesquisa, que conside-rada no mecanismo de seleo da amostra. Os mtodos que descreveremosao longo deste livro no so adequados em geral, para esse tipo de situao, e portanto uma hiptese fundamental adotada ao longo deste texto que os planos amostrais considerados so no-informativos, isto , no po-dem depender diretamente dos valores das variveis da pesquisa. Logo elessatisfazem

    f [s| (y1,x1) , . . . , (yN ,xN)] = f (s|x1, . . . ,xN) . (2.7)Entre os planos amostrais no-informativos, ainda precisamos ainda di-

    stinguir duas outras situaes de interesse. Quando o plano amostral amo-

  • 30 CAPTULO 2. REFERENCIAL PARA INFERNCIA

    stragem aleatria simples com reposio (AASC), o modelo adotado para aamostra o mesmo que o modelo adotado para a populao antes da amo-stragem. Quando isto ocorre, o plano amostral dito ignorvel, porque ainferncia baseada na amostra utilizando a abordagem clssica descrita naSeo 2.1.1 pode prosseguir sem problemas. Entretanto, esquemas amostraisdesse tipo so raramente empregados na prtica, por razes de ecincia ecusto. Em vez disso, so geralmente empregados planos amostrais envol-vendo estraticao, conglomerao e probabilidades desiguais de seleo(amostragem complexa).

    Com amostragem complexa, porm, os modelos para a populao e aamostra podem ser muito diferentes (plano amostral no-ignorvel), mesmoque o mecanismo de seleo no dependa das variveis de pesquisa, massomente das variveis auxiliares. Neste caso, ignorar o plano amostral podeviciar a inferncia. Veja o Exemplo 2.1 adiante.

    A denio precisa de ignorabilidade e as condies sob as quais um pla-no amostral ignorvel para inferncia so bastante discutidas na literatura(veja Sugden e Smith, 1984). Porm testar a ignorabilidade do plano amo-stral muitas vezes complicado. Em caso de diculdade, o uso de pesos tempapel fundamental.

    Uma forma simples de lidar com os efeitos do plano amostral na esti-mao pontual de quantidades descritivas populacionais de interesse in-corporar pesos adequados na anlise, como se ver no Captulo 3. Essaforma porm, no resolve por si s o problema de estimao da preciso dasestimativas pontuais, nem mesmo o caso da estimao pontual de parme-tros em modelos de superpopulao, o que vai requerer mtodos especcosdiscutidos no Captulo 5.

    Como incluir os pesos para proteger contra planos amostrais no-ig-norveis e a possibilidade de m especicao do modelo? Uma idia modicar os estimadores dos parmetros de modo que sejam consistentes(em termos da distribuio de aleatorizao) para quantidades descritivasda populao nita da qual a amostra foi extrada, que por sua vez seriamboas aproximaes para os parmetros dos modelos de interesse. Armaesprobabilsticas so ento feitas com respeito distribuio de aleatorizaodas estatsticas amostrais p ou com respeito distribuio mista Mp.

    A seguir apresentamos um exemplo com a nalidade de ilustrar umasituao de plano amostral no-ignorvel.

  • 2.5. PLANOS AMOSTRAIS INFORMATIVOS E IGNORVEIS 31

    Exemplo 2.1 Amostragem com probabilidades proporcionais ao tamanhode populao bivariada normal (Pfeermann, 1993)

    Vamos considerar as N observaes da populao (yi;xi) como deter-minaes de vetores aleatrios IID com distribuio N (;). Seja s ={(yi, xi) : i = 1, . . . , n} uma amostra de n unidades selecionada por esquemaprobabilstico. Deseja-se estimar Y = EM (Y ). No caso de amostragemaleatria simples com reposio, y =

    Pni=1 yi/n um estimador no viciado

    de Y que tem propriedades timas sob o modelo. Neste caso, podemos igno-rar o esquema de seleo da amostra no processo de inferncia sem qualquerproblema.

    Vamos supor agora que a amostra seja selecionada com probabilidadeproporcional a xi com reposio (note que a regra de seleo depende ape-nas da varivel auxiliar x e no da varivel de pesquisa y). Isto pode serconseguido mediante um esquema de seleo em que n sorteios independen-tes so realizados, e em cada sorteio a probabilidade de escolher a unidadei da populao para a amostra dada por pi = xi/

    PNi=1 xi .

    Neste caso, seCORRM (Y ;X) = yx/yx > 0 ento P (Yi > Y | i s) >1/2 e portanto EM (y) > Y , mostrando que ignorar o esquema amostraltorna viciado o procedimento de inferncia baseado no estimador usual demdia amostral.

    Supondo que os xi so conhecidos para todas as unidades da populao,podemos usar o estimador

    yreg = y + b(X x)

    onde b o estimador usual de minmos quadrados do coeciente de regres-so = yx/2y e x e X so as mdias amostral e populacional da varivelauxiliar x, respectivamente. O estimador yreg no viciado para Y sob omodelo, e tem propriedades razoveis em termos da distribuio de aleato-rizao para grandes amostras.

    Este exemplo ilustrou que um determinado procedimento de infernciaclssica pode no funcionar adequadamente na presena de um plano amos-tral que, de alguma forma, interra com a estrutura estocstica da amostra,para a qual o modelo assumido na populao passa a no se adequar.

  • 32 CAPTULO 2. REFERENCIAL PARA INFERNCIA

  • Captulo 3

    Estimao Baseada no PlanoAmostral

    3.1 Estimao de Totais

    Devido a sua importncia para os desenvolvimentos tericos em vrios doscaptulos subseqentes, alguns resultados bsicos relativos estimao detotais da populao nita numa abordagem baseada no plano amostral seroreproduzidos nesta seo. A referncia bsica usada foi Srndal, Swenssone Wretman(1992, seo 2.8).

    Consideremos o problema de estimar o vetor Y =PiU yi de totais das

    R variveis da pesquisa na populao, a partir de uma amostra observadas. Naturalmente, qualquer estimador vivel do total Y s pode dependerdos valores das variveis de pesquisa observados na amostra, contidos emyi1 , . . . ,yin , mas no dos valores dessas variveis para os elementos nopesquisados.

    Um estimador usual baseado no plano amostral para o totalY o estima-dor de Horvitz-Thompson, tambm chamado estimador -ponderado (vejaSrndal, Swensson e Wretman, 1992, p.42), dado por

    bY =Xisyi/i . (3.1)

    Na abordagem baseada no planejamento amostral, as propriedades deuma estatstica ou estimador so avaliadas com respeito distribuio dealeatorizao. Denotemos por Ep (.) e Vp (.) os operadores de esperanae varincia referentes distribuio de probabilidades p(s) induzida peloplanejamento amostral, que chamaremos daqui por diante de esperana de

    33

  • 34 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    aleatorizao e varincia de aleatorizao.O estimador -ponderado Y no-viciado para o total Y com respeito

    distribuio de aleatorizao, isto

    Ep

    Y

    = Y .

    Alm disto, sua varincia de aleatorizao dada por

    Vp

    Y

    =XiU

    XjU

    (ij ij) yii

    y0jj. (3.2)

    Uma expresso alternativa da varincia de aleatorizao de Y , vlidaquando o plano amostral de tamanho xo, dada por

    Vp

    Y

    = 1

    2

    XiU

    XjU

    (ij ij)yii yj

    j

    yii yj

    j

    0. (3.3)

    Note que na expresso (3.3) os termos onde i = j no contribuem paraa soma. Dois estimadores so usualmente recomendados para estimar avarincia de aleatorizao de Y. O primeiro motivado pela expresso(3.2) e dado por

    VpY=Xis

    Xjs

    ij ijij

    yii

    y0j

    j. (3.4)

    O estimador de varincia em (3.4) um estimador no-viciado da va-rincia de aleatorizao de Y, isto

    Ep

    hVp

    Y

    i= Vp

    Y

    (3.5)

    desde que ij > 0 i, j U , como suposto neste livro (Seo 2.4).O segundo estimador da varincia chamado estimador de Sen-Yates-

    Grundy. motivado pela expresso (3.3) e dado por

    VSY G

    Y= 1

    2

    Xis

    Xjs

    ij ijij

    yii yj

    j

    yii yj

    j

    0. (3.6)

    Observe que embora as expresses da varincia (3.2) e (3.3) coincidampara planos amostrais de tamanho xo, o mesmo no vale para os estimado-res de varincia (3.4) e (3.6), apesar de VSY G

    Y

    ser tambm no-viciado

    para VpY

    para planos amostrais de tamanho xo.

  • 3.1. ESTIMAO DE TOTAIS 35

    Exemplo 3.1 Amostragem Aleatria Simples Sem Reposio (AAS)

    Quando o planejamento amostragem aleatria simples sem reposio(AAS), as expresses apresentadas para o estimador de total, sua varincia eestimadores desta varincia simplicam bastante, porque as probabilidadesde incluso cam iguais a

    i =n

    N i U ,

    e

    ij =n(n 1)N(N 1) i 6= j U .

    Essas probabilidades de incluso levam s seguintes expresses para ocaso AAS: bY = N

    n

    Xisyi = Ny , (3.7)

    VAAS

    Y= N2

    1 fn

    N

    N 1Sy , (3.8)

    Vp

    Y

    = VSY G

    Y

    = N2

    1 fn

    n

    n 1Sy , (3.9)

    onde f = n/N a frao amostral e

    y = n1Xisyi , (3.10)

    Sy = N1X

    iU

    yi Y

    yi Y

    0, (3.11)

    Y = N1XiU

    yi = N1Y , (3.12)

    bSy = n1Xis(yi y) (yi y)0 . (3.13)

    Vrios estimadores de totais esto disponveis na literatura de amostra-gem, porm os que so comumente usados na prtica so estimadores pon-derados (lineares) da forma

    Yw =Xiswiyi (3.14)

  • 36 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    onde wi um peso associado unidade i da amostra (i s). O estimador -ponderado ou de Horvitz-Thompson um caso particular de Yw em (3.14)quando os pesos wi so da forma

    wHTi = 1i i s.

    Outros dois estimadores de totais comumente usados pelos praticantesde amostragem so o estimador de razo YR e o estimador de regressoYREG, dados respectivamente por

    YR =

    Xis

    1i yi

    !XiU

    xi

    !/

    Xis

    1i xi

    !(3.15)

    e

    YREG =Xis

    1i yi +

    XiU

    xi Xis

    1i xi

    !bxy (3.16)

    onde x uma varivel auxiliar cujo total populacionalPiU xi = X co-

    nhecido e bxy um estimador dos coecientes da regresso linear entre asvariveis de pesquisa y e a varivel auxiliar x.

    Ambos os estimadores YR e YREG podem ser escritos na forma Yw =Piswiyi com pesos wi dados respectivamente por

    wRi =1i

    PkU xkP

    ks1k xk

    =1i XbX (3.17)

    ewREGi =

    1i gi , (3.18)

    onde bX = Pis

    1i xi o estimador -ponderado de X e gi = 1 + xi (X bX)/Pis 1i x2i .O estimador de regresso descrito em (3.16) um caso particular do

    estimador de regresso generalizado, obtido quando se consideram vetoresde variveis auxiliares em vez de uma nica varivel auxiliar x como aqui.Outra forma de generalizar o estimador de regresso considerar estimadoresalternativos dos coecientes de regresso em lugar do estimador simples bxyempregado aqui. Para uma discusso detalhada do estimador de regressogeneralizado veja Nascimento Silva(1996, cap. 3).

    Para completar a descrio dos procedimentos de inferncia para mdiase totais baseados em estimadores ponderados do tipo razo ou regresso,

  • 3.2. POR QUE ESTIMAR VARINCIAS 37

    necessrio identicar estimadores para as varincias de aleatorizao corres-pondentes. Entretanto, os estimadores de razo e regresso so viciados soba distribuio de aleatorizao para pequenas amostras. Em ambos os casos,o vcio desprezvel para amostras grandes, e esto disponveis expressesassintticas para as respectivas varincias de aleatorizao. Partindo destasforam ento construdos estimadores amostrais das varincias dos estima-dores de razo e regresso, que podem ser encontrados na excelente revisosobre o tema contida em Srndal, Swensson e Wretman(1992, seo 6.6 ecap. 7). Apesar de sua importncia para os praticantes de amostragem, adiscusso detalhada desse problema no ser includa neste livro.

    O problema da estimao das varincias de aleatorizao para estimado-res como os de razo e regresso nos remete a uma questo central da teoriada amostragem. Trata-se dos mtodos disponveis para estimar varinciasde estimadores complexos. O caso dos estimadores de razo e regressopara totais e mdias foi resolvido faz tempo, e no h muito o que discutiraqui. Entretanto, a variedade de mtodos empregados para estimao devarincias merece uma discusso em separado, pois as tcnicas de ajusteconsideradas neste livro para incorporar pesos e plano amostral na infern-cia partindo de dados de pesquisas amostrais complexas depende em grandemedida da aplicao de tais tcnicas.

    3.2 Por que Estimar Varincias

    Em Amostragem, como de resto na Estatstica Clssica, a estimao devarincias um componente essencial da abordagem inferencial adotada:sem estimativas de varincia, nenhuma indicao da preciso (e portanto,da qualidade) das estimativas de interesse est disponvel. Nesse caso, umatentao que assola muitos usurios incautos esquecer que os resultadosso baseados em dados apenas de uma amostra da populao, e portantosujeitos a incerteza, que no pode ser quanticada sem medidas de precisoamostral.

    Em geral, a obteno de estimativas de varincias (alternativamente, dedesvios padres ou mesmo de coecientes de variao) requerida para queintervalos de conana possam ser calculados, e outras formas de infernciarealizadas. Intervalos de conana elaborados com estimativas amostrais sogeralmente baseados em aproximaes assintticas da distribuio normal,tais que intervalos da forma

    IChb; bVp bi = "b z/2rbVp b

    #

  • 38 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    tm probabilidade de cobertura aproximada 1 .Estimativas de varincia podem ser teis tambm para outras nalida-

    des, tais como a deteo de problemas no antecipados, tais como obser-vaes suspeitas, celas raras em tabelas de contingncia, etc.

    A estimao de varincias para os casos padres de amostragem, isto ,quando os estimadores so lineares nas observaes amostrais, no viciados,e todas as probabilidades de incluso conjuntas so no nulas, tratadaem todos os livros de amostragem convencionais. Apesar disso, os paco-tes estatsticos usuais, tais como SAS, SPSS, MINITAB, BMDP e outros,no oferecem rotinas prontas para estimar varincias considerando o planoamostral, nem mesmo para estatsticas simples como estimadores de totaise mdias.

    Para alguns planos amostrais utilizados na prtica, as probabilidades deincluso conjuntas podem ser nulas (caso de amostragem sistemtica) oudifceis de calcular (caso de alguns esquemas de seleo com probabilida-des desiguais). Nesses casos, as expresses fornecidas na Seo 3.1 para osestimadores das varincias dos estimadores de totais no so mais vlidas.

    Em muitos outros casos, como se ver no restante deste livro, os par-metros de interesse so no lineares (diferentes de totais, mdias e propo-res, por exemplo). Casos comuns que consideraremos mais adiante so aestimao de razes, coecientes de regresso, etc. Nesses casos comumque as estatsticas empregadas para estimar tais parmetros tambm sejamno lineares.

    Finalmente, alguns estimadores de varincia podem, em alguns casos,produzir estimativas negativas da varincia, que so inaceitveis de um pon-to de vista prtico (tais como o estimador da expresso (3.4) para algunsesquemas de seleo com probabilidades desiguais e determinadas congu-raes peculiares da amostra).

    Em todos esses casos, requerido o emprego de tcnicas especiais deestimao de varincia. de algumas dessas tcnicas que tratam as seesseguintes deste captulo. A seleo das tcnicas discutidas aqui no exau-stiva, e um tratamento mais completo e aprofundado da questo pode serencontrado no livro de Wolter(1985). Discutimos inicialmente a tcnica deLinearizao de Taylor, em seguida uma abordagem comumente adotada pa-ra estimar varincias para planos amostrais estraticados em vrios estgios,com seleo de unidades primrias com probabilidades desiguais, denomi-nada Mtodo do Conglomerado Primrio (do ingls Ultimate Cluster), enalmente se discute brevemente uma tcnica baseada na idia de pseudo-replicaes da amostra, denominada Jackknife. A combinao dessas trsidias suporta os desenvolvimentos tericos dos algoritmos empregados pelos

  • 3.3. LINEARIZAO DE TAYLOR PARA ESTIMAR VARINCIAS 39

    principais pacotes estatsticos especializados em estimao de varincias dealeatorizao (veja discusso no Captulo 10).

    3.3 Linearizao de Taylor para Estimar Varin-cias

    Um problema que ocorre frequentemente o de estimar um vetor de par-metros =(1, . . . , K), que pode ser escrito na forma

    = g(Y) ,

    onde Y =PiU yi = (Y1, . . . , YR)

    0 um vetor de totais de R variveis de

    pesquisa.Consideremos estimadores -ponderados de Y, isto , estimadores da

    forma: bY =Xisyi/i .

    Poderamos usar dado por

    = gbY = g(X

    isyi/i) .

    como estimador de . No caso particular em que g uma funo linear, fcil estudar as propriedades de .

    Assumindo ento que da forma

    = AY ,

    onde A uma matriz K R de constantes, o estimador de neste casoseria

    = AY .

    Este estimador no-viciado e tem varincia de aleatorizao

    Vp= AVp

    YA

    0,

    onde VpY dado em (3.2) ou ??.

    Quando g no linear, podemos usar a tcnica de Linearizao de Tay-lor (ou Mtodo Delta) para obter aproximaes assintticas para a varincia

  • 40 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    de = gbY. Para maiores detalhes sobre esse mtodo, veja por exem-

    plo Srndal, Swensson e Wretman(1992, p. 172), Wolter(1985, p. 221) ouBishop, Fienberg e Holland (1977, p. 486).

    Vamos considerar a expanso de gYem torno de Y, at o termo de

    primeira ordem, desprezando o resto, dada por:

    ' L = g(Y) +g(Y)YY

    (3.19)

    ondeg(Y) a matriz Jacobiana KR cuja r-sima coluna g(Y)/Yr ,para r = 1, . . . , R.

    Tomando as varincias de aleatorizao dos dois lados em (3.19), e no-tando que no lado direito o nico termo que tem varincia de aleatorizaog(Y)

    YY

    uma funo linear de Y , segue imediatamente que

    Vp

    'g(Y)Vp

    Y

    g(Y)

    0(3.20)

    onde VpY

    dado em (3.2). Um estimador consistente de Vp

    dado

    por

    Vp

    =g(Y)

    Vp

    Y

    g(Y)

    0, (3.21)

    onde VpY

    dado em (3.4). Um outro estimador consistente seria obtido

    substituindo VpY

    por VSY G

    Y

    dado em (3.6) na expresso (3.21).

    Linearizao de Taylor pode ser trabalhosa, porque para cada parme-tro/estimador de interesse so requeridas derivaes e clculos especcos.Felizmente, grande parte das situaes de interesse prtico esto hoje cober-tas por pacotes estatsticos especializados na estimao de medidas descriti-vas e parmetros de modelos, e suas respectivas varincias de aleatorizaoempregando o mtodo de linearizao, de modo que essa desvantagem po-tencial tende a se diluir.

    Linearizao de Taylor pode no ser imediatamente possvel, pois asquantidades de interesse podem no ser expressas como funes de totais oumdias populacionais (este o caso de quantis de distribuies, por exemplo).

  • 3.3. LINEARIZAO DE TAYLOR PARA ESTIMAR VARINCIAS 41

    Exemplo 3.2 Matriz de covarincia para um vetor de razes

    Para ilustrar a aplicao dos resultados anteriores, consideremos o pro-blema de estimar a matriz de covarincia de um vetor de razes. SejamY = (Y1, . . . Yu)

    0e X = (X1, . . . ,Xu)

    0vetores de totais e consideremos o

    vetor de razes R =Y1X1, . . . , YuXu

    . Conhecendo estimativas das matrizes

    Vp

    Y

    , Vp

    X

    e COVp

    Y; X

    , queremos calcular a matriz de va-

    rincia de bR= Y1X1

    , . . . ,YuXu

    !0.

    Consideremos a funo g : R2u Ru dada por

    g (y,x) =

    y1x1, . . . ,

    yuxu

    onde y =(y1, . . . , yu)

    0e x =(x1, . . . , xu)

    0. A matriz jacobiana de g (y,x)

    a matriz u 2u dada por

    g (y,x) =hdiag

    1x1, . . . , 1xu

    diag

    y1x21, . . . , yu

    x2u

    i.

    SejaDx = diag(x1, . . . , xu) a matriz diagonal de dimenso uu formadaa partir do vetor x =(x1, . . . , xu)

    0. Usando essa notao, podemos escrever

    o vetor bR de estimadores das razes comobR= Y1

    X1, . . . ,

    YuXu

    !0= g

    Y, X

    e a correspondente matriz jacobiana como

    gY, X

    =hDbRD1Y DbRD1X

    i.

    A partir deste resultado, aplicando (3.21) podemos escrever:

    bVp bR .= h DbRD1Y DbRD1X i bVp Y \COV p Y, X\COV p

    X, Y

    bVp X

    "D1YDbR

    D1XDbR

    #.

  • 42 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    Efetuando os produtos das matrizes em blocos obtemos

    bVp bR = DbR hD1Y bVp YD1Y +D1X bVp XD1XiDbRDbR

    hD1Y\COV p

    Y, X

    D1X

    (3.22)

    + D1X\COV p

    X, Y

    D1Y

    iDbR ,

    que fornece o resultado desejado, isto , uma expresso de estimador para amatriz de varincia do estimador bR do vetor de razes de interesse.3.4 Mtodo do Conglomerado Primrio

    A idia central do Mtodo do Conglomerado Primrio (do ingls UltimateCluster) para estimao de varincias para estimadores de totais e mdiasem planos amostrais de mltiplos estgios, proposto por Hansen, Hurwitz eMadow(1953), considerar apenas a variao entre informaes disponveisa nvel das unidades primrias de amostragem (UPAs), isto , a nvel dosconglomerados primrios, e admitir que estes teriam sido selecionadas comreposio da populao. Esta idia simples, porm bastante poderosa,porque permite acomodar uma enorme variedade de planos amostrais, en-volvendo estraticao e seleo com probabilidades desiguais (com ou semreposio) tanto das unidades primrias como das demais unidades de amos-tragem. Os requisitos fundamentais para permitir a aplicao deste mtodo que estejam disponveis estimadores no viciados dos totais da varivelde interesse para cada um dos conglomerados primrios selecionados, e quepelo menos dois destes sejam selecionados em cada estrato (se a amostra forestraticada no primeiro estgio).

    Embora o mtodo tenha sido originalmente proposto para estimao detotais, pode ser aplicado tambm para estimar (por linearizao) quanti-dades populacionais que possam ser representadas como funes de totais,conforme discutido na Seo 3.3. De fato, esse mtodo fornece a base pa-ra vrios dos pacotes estatsticos especializados em clculo de varinciasconsiderando o plano amostral, tais como SUDAAN, CENVAR, STATA ouPC-CARP (veja discusso no Captulo 10).

    Para descrever o mtodo, considere um plano amostral em vrios est-gios, no qual nh unidades primrias de amostragem (UPAs) so selecionadasno estrato h, h = 1, . . . , H. Denotando por hi a probabilidade de inclusona amostra da unidade primria de amostragem (conglomerado primrio) ido estrato h, e por bYhi um estimador no viciado do total Yhi da varivel

  • 3.5. MTODOS DE REPLICAO 43

    de pesquisa y no i-simo conglomerado primrio do estrato h, h = 1, . . . ,H.Ento um estimador no viciado do total Y =

    PHh=1

    PNhi=1 Yhi da varivel

    de pesquisa y na populao dado por

    bYCP = HXh=1

    nhXi=1

    bYhi/hie um estimador no viciado da varincia de aleatorizao correspondentepor

    bVp bYCP = HXh=1

    nhnh 1

    nhXi=1

    bYhihi

    bYhnh

    !2(3.23)

    onde bYh =Pnhi=1 bYhi/hi para h = 1, . . . , H. (Veja por exemplo Shah et al.,1993, p. 4).

    Embora muitas vezes a seleo das unidades primrias possa ter sidofeita sem reposio, o estimador de Conglomerados Primrios aqui apresen-tado pode fornecer uma aproximao razovel da correspondente varinciade aleatorizao. Isso ocorre porque planos amostrais sem reposio so emgeral mais ecientes que planos com reposio de igual tamanho. Tal aproxi-mao largamente utilizada pelos praticantes de amostragem para estimarvarincias de quantidades descritivas usuais tais como totais e mdias (coma devida adaptao) devido sua simplicidade, comparada com a complexi-dade muito maior envolvida com o emprego de estimadores de varincia quetentam incorporar todas as etapas de planos amostrais em vrios estgios.Uma discusso sobre a qualidade dessa aproximao e alternativas pode serencontrada em Srndal, Swensson e Wretman(1992, p. 153).

    3.5 Mtodos de Replicao

    A idia de usar mtodos indiretos ou de replicao para estimar varinciasem amostragem no nova. Mahalanobis(1939, 1944) e Deming(1956) foramos precursores e muitos desenvolvimentos importantes se seguiram. Hojeem dia vrias tcnicas baseadas nessa idia so rotineiramente empregadaspor praticantes de amostragem, e inclusive formam a base para pacotesespecializados de estimao tais como WesVarPC (veja Westat, 1996).

    A idia bsica construir a amostra de tamanho n como a unio de Gamostras de tamanho n/G cada uma, selecionadas de forma independente eusando o mesmo plano amostral, onde G o nmero de replicaes. Nessecaso, se o parmetro-alvo, e bg um estimador no viciado de baseado

  • 44 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    na g-sima replicao (g = 1, . . . ,G), segue-se que

    bR = 1G

    GXg=1

    bg um estimador no viciado de e

    bVR bR = 1G (G 1)

    GXg=1

    bg bR2 (3.24) um estimador no viciado da varincia do estimador (de replicao) bR .

    Note que desde que as replicaes sejam construdas de forma indepen-dente conforme indicado, os estimadores bR e bVR bR so no viciadosqualquer que seja o plano amostral empregado para selecionar a amostra decada replicao, o que faz desta uma tcnica exvel e genrica. Alm disso,a abordagem de replicao bastante geral, pois os estimadores aos quais seaplica no precisam ser necessariamente expressos como funes de totais,como ocorre com a tcnica de linearizao discutida na Seo 3.3. Apesardestas vantagens, a aplicao prtica desta tcnica de forma exata restritaporque em geral menos eciente, inconveniente e mais caro selecionar Gamostras independentes com o mesmo esquema, se comparado seleo deuma nica amostra de tamanho n diretamente. Alm disto, se o nmerode replicaes G for pequeno, o estimador de varincia pode ser instvel.Uma pesquisa importante e de grande porte em que esta idia aplicadaexatamente a pesquisa de preos para formar o ndice de Preos ao Con-sumidor (do ingls Consumer Price Index - CPI ) do US Bureau of LaborStatistics(1984, p. 22), que utiliza duas replicaes (meias amostras) paraformar a amostra pesquisada.

    Mesmo quando a amostra no foi selecionada exatamente dessa forma,a construo de replicaes a posteriori para ns de estimao de varinciasem situaes complexas tambm uma idia simples de aplicar, poderosae exvel, por acomodar uma ampla gama de planos amostrais e situaesde estimao de interesse. Quando as replicaes so construdas aps apesquisa (a posteriori), mediante repartio (por sorteio) da amostra pes-quisada em G grupos mutuamente exclusivos de igual tamanho, estas sochamadas de replicaes dependentes ou grupos aleatrios (do ingls randomgroups). As expresses fornecidas para o estimador de replicao e suavarincia so tambm empregadas nesse caso como uma aproximao, masno possuem as mesmas propriedades do caso de replicaes independentes.

  • 3.5. MTODOS DE REPLICAO 45

    importante observar que a repartio da amostra em grupos aleatriosa posteriori precisa considerar o plano amostral empregado e pode no serpossvel em algumas situaes. Idealmente, tal repartio deve ser feita res-peitando estratos e alocando unidades primrias inteiras (isto , com todasas respectivas unidades subordinadas). Wolter(1985, p. 31) discute algumasregras sobre como fazer para respeitar o plano amostral ao fazer a repartioda amostra a posteriori, porm recomendamos que o interessado no uso dessatcnica exera cautela.

    Alm da modicao da interpretao das replicaes no caso de seremformadas a posteriori, comum tambm nesse caso empregar um estimadorpara o parmetro baseado na amostra completa (denotado b), e um estima-dor de varincia mais conservador que o estimador bVR bR anteriormenteapresentado, dado por

    bVRG b = 1G (G 1)

    GXg=1

    bg b2 . (3.25)Um exemplo de aplicao desta tcnica pode ser encontrado na forma

    recomendada para estimao de varincias a partir das Amostras de UsoPblico do Censo Demogrco Brasileiro de 80 (veja IBGE, 1985).

    Nesta seo descreveremos uma outra dessas tcnicas baseadas em re-plicaes, talvez a mais conhecida e popular, o mtodo de jackknife. Estemtodo foi originalmente proposto por Quenoille(1949, 1956) como umatcnica para reduo de vcio de estimadores, num contexto da EstatsticaClssica. A idia central consiste em repartir a amostra (a posteriori, comono caso do mtodo dos grupos aleatrios) em G grupos mutuamente exclu-sivos de igual tamanho n/G. Em seguida, para cada grupo formado calcularos chamados pseudo-estimadores dados por

    b(g) = Gb (G 1)bgonde bg um estimador de obtido da amostra aps eliminar os elementosdo grupo g, empregando a mesma forma funcional adotada no clculo doestimador b que considera a amostra inteira. A estimao da varincia poresse mtodo pode ento ser feita de duas maneiras alternativas, usando umdos estimadores dados por

    bVJ1 b = 1G (G 1)

    GXg=1

    b(g) bJ2 (3.26)

  • 46 CAPTULO 3. ESTIMAO BASEADA NO PLANO AMOSTRAL

    ou bVJ2 b = 1G (G 1)

    GXg=1

    b(g) b2 (3.27)onde bJ = 1GPGg=1 b(g) um estimador pontual jackknife para , alternativoao estimador da amostra inteira .

    Observao 3.1 A descrio do mtodo jackknife aqui apresentada nocobre o caso de planos amostrais estraticados, que mais complexo. Paradetalhes sobre este caso, consulte Wolter(1985, p. 174).

    Observao 3.2 O estimador bVJ2 b mais conservador que o estimadorbVJ1 b.Observao 3.3 comum aplicar a tcnica fazendo o nmero de gruposigual ao tamanho da amostra, isto , tomando G = n e portanto eliminandouma observao da amostra de cada vez ao calcular os pseudo-valores. Essaregra deve ser aplicada considerando o nmero de unidades primrias naamostra (UPAs) quando o plano amostral em mltiplos estgios, pois asUPAs devem sempre ser eliminadas com todas as unidades subordinadas.

    Os estimadores de varincia do mtodo jackknife fornecem resultadoidntico aos dos estimadores usuais de varincia quando aplicados para ocaso de estimadores lineares nas observaes amostrais. Alm disso, suaspropriedades so razoveis para vrios outros casos de estimadores no li-neares de interesse (veja, por exemplo, Cochran, 1977, p. 321 e Wolter,1985, p. 306). A situao merece maiores cuidados para o caso de quantisou estatsticas de ordem, tais como a mediana e o mximo, pois neste casoessa tcnica no funciona bem (Wolter, 1985, p. 163).

    O pacote WesVarPC (Westat, 1996) baseia suas estimativas de varinciaprincipalmente no mtodo jackknife, embora tambm possua uma opopara usar outro mtodo conhecido como de replicaes de meias amostrasbalanceadas (do ingls balanced half-sample replication).

  • Captulo 4

    Efeitos do Plano Amostral

    4.1 Introduo

    O clculo de desvio padro e o uso de testes de hipteses desempenhampapel fundamental em estudos analticos. Alm de estimativas pontuais, nainferncia analtica necessrio transmitir a idia de preciso associada aessas estimativas e construir intervalos de conana associados. Valores dedesvios padres, ou alternativamente comprimentos de intervalos de con-ana, permitem avaliar a preciso da estimao. O clculo do desvio padrotambm possibita a construo de estatsticas para testar hipteses relati-vas a parmetros do modelo (tradio de modelagem) ou de parmetros dapopulao nita (tradio de amostragem). Testes de hipteses so tambmusados na fase de seleo de modelos.

    Os pacotes mais comuns de anlise estatstica incluem em suas sadasvalores de estimativas pontuais e seus desvios padres, alm de pvalores re-lativos a hipteses de interesse. Contudo, as frmulas usadas nestes pacotespara o clculo dos desvios padres e obteno de testes so, em geral, ba-seadas nas hipteses de independncia e de igualdade de distribuio (IID)das observaes, ou equivalentemente, de amostragem aleatria simples comreposio (AASC). Tais hipteses quase nunca valem para dados obtidosatravs de pesquisas por amostragem, como as que realizam o IBGE e ou-tras agncias produtoras de estatsticas.

    Este captulo trata de avaliar o impacto sobre desvios padres, intervalosde conana e nveis de signicncia de testes usuais quando h afastamentosdas hipteses IID mencionadas, devidos ao uso de planos amostrais comple-xos para obter os dados. Como veremos, o impacto pode ser muito grandeem algumas situaes, justicando os cuidados que devem ser tomados na

    47

  • 48 CAPTULO 4. EFEITOS DO PLANO AMOSTRAL

    anlise de dados deste tipo. Neste captulo, usaremos como referncia bsicaSkinner(1989a).

    4.2 Efeito do Plano Amostral (EPA) de Kish

    Para medir o efeito do plano amostral sobre a varincia de um estimador,Kish(1965) props uma medida que denominou Efeito do Plano Amostral(EPA) (em ingls, design eect ou, abreviadamente, de ). O objetivo destamedida comparar planos amostrais no estgio de planejamento da pesqui-sa. O EPA de Kish uma razo entre varincias (de aleatorizao) deum estimador, calculadas para dois planos amostrais alternativos. Vamosconsiderar um estimador e calcular a varincia de sua distribuio indu-zida pelo plano amostral complexo (verdadeiro) VV ERD

    e a varincia

    da distribuio do estimador induzida pelo plano de amostragem aleatriasimples VAAS

    .

    Definio 4.1 O Efeito do Plano Amostral (EPA) de Kish para umestimador

    EPAKish

    =VV ERD

    VAAS

    . (4.1)

    Para ilustrar o conceito do EPAKish, vamos considerar um exemplo.

    Exemplo 4.1 Efeitos de plano amostral de Kish para estimadores de totaiscom amostragem conglomerada em dois estgios.

    Nascimento Silva e Moura(1990) estimaram o EPAKish para estimado-res de totais de vrias variveis scio-econmicas a nvel das Regies Me-tropolitanas (RMs) utilizando dados do questionrio de amostra do CensoDemogrco de 1980. Essas medidas estimadas do efeito do plano amostralforam calculadas para trs esquemas amostrais alternativos, todos conside-rando amostragem conglomerada de domiclios em dois estgios, tendo osetor censitrio como unidade primria e o domiclio como unidade secun-dria de amostragem. Duas das alternativas consideraram seleo de seto-res com equiprobabilidade via amostragem aleatria simples sem reposio(AC2AAS) e frao amostral constante de domiclios no segundo estgio(uma usando o estimador simples ou -ponderado do total, e outra usando

  • 4.2. EFEITO DO PLANO AMOSTRAL (EPA) DE KISH 49

    o estimador de razo para o total calibrando no nmero total de domicliosda populao), e uma terceira alternativa considerou a seleo de setores comprobabilidades proporcionais ao tamanho (nmero de domiclios por setor),denominada AC2PPT, e a seleo de 15 domiclios em cada setor da amos-tra, e empregando o correspondente estimador -ponderado. Os resultadospara algumas variveis a nvel da Regio Metropolitana do Rio de Janeiroso apresentados na Tabela 4.1 a ttulo de ilustrao. Note que a populaoalvo considera apenas moradores em domiclios particulares permanentes naRegio Metropolitana do Rio de Janeiro.

    Os valores apresentados na Tabela 4.1 para a RM do Rio de Janeiro sosimilares aos observados para as demais RMs, se consideradas as mesmasvariveis. Nota-se grande variao dos valores do EPA, cujos valores mnimoe mximo so de 1,28 e 111,27 respectivamente. Para algumas variveis(1,2,4,5 e 9), o EPA varia consideravelmente entre as diferentes alternativasde plano amostral, enquanto para outras variveis (3,6,7 e 8) as variaesentre os planos amostrais mnima.

    Os valores elevados do EPA observados para algumas variveis realam aimportncia de considerar o plano amostral verdadeiro ao estimar varinciase desvios padres associados s estimativas pontuais. Isso ocorre porqueestimativas ingnuas de varincia baseadas na hiptese de AAS subestimamsubstancialmente as varincias corretas.

    Outra regularidade encontrada nesse valores que o EPA para o planoamostral AC2AAS com estimador simples apresenta sempre os valores maiselevados, revelando que este esquema menos eciente que os competidoresconsiderados. Em geral, o EPA menor para o esquema AC2PPT, comvalores prximos aos do esquema AC2AAS com estimador de razo.

    Os valores dos EPAs calculados por Nascimento Silva e Moura(1990)podem ser usados para planejar pesquisas amostrais (ao menos nas regiesmetropolitanas), pois permitem comparar e antecipar o impacto do uso dealguns esquemas amostrais alternativos sobre a preciso de estimadores detotais de vrias variveis relevantes. Permitem tambm calcular tamanhosamostrais para garantir determinado nvel de preciso, sem emprego de fr-mulas complicadas. Portanto, tais valores seriam teis como informao deapoio ao planejamento de novas pesquisas por amostragem, antes que asrespectivas amostras sejam efetivamente selecionadas.

    Entretanto, esses valores tm pouca utilidade em termos de usos analti-cos dos dados da amostra do Censo Demogrco 80. que tais valores, em-bora tendo sido estimados com essa amostra, foram calculados para planos

  • 50 CAPTULO 4. EFEITOS DO PLANO AMOSTRAL

    Tabela 4.1: Efeitos de plano amostral de Kish para variveis selecionadas -Regio Metropolitana do Rio de Janeiro

    Plano amostral AC2AAS AC2PPTVarivel Estimador

    SimplesEstimadorde Razo

    Estimador-ponderado

    1) Nmero totalde moradores

    10, 74 2, 00 1, 90

    2) Nmero demoradores ocupados

    5, 78 1, 33 1, 28

    3) Rendimentomonetrio mensal I

    5, 22 4, 92 4, 49

    4) Nmero total delhos nascidos vivosde mulheres com15 anos ou mais

    4, 59 2, 02 1, 89

    5) Nmero dedomiclios quetm fogo

    111, 27 1, 58 1, 55

    6) Nmero dedomiclios quetm telefone

    7, 11 7, 13 6, 41

    7) Valor do aluguelou prestao mensal

    7, 22 7, 02 6, 45

    8) Nmero dedomiclios quetm automvele renda < 5SM

    1, 80 1, 67 1, 55

    9) Nmero dedomiclios quetm geladeirae renda 5SM

    46, 58 2, 26 2, 08

  • 4.3. EFEITO DO PLANO AMOSTRAL AMPLIADO 51

    amostrais distintos do que foi efetivamente adotado para seleo da amostrado censo. A amostra de domiclios usada no censo estraticada por setorcensitrio com seleo sistemtica de uma frao xa (25% no Censo 80) dosdomiclios de cada setor. J os planos amostrais considerados na tabulaodos EPAs eram planos amostrais em dois estgios, com seleo de setores noprimeiro estgio, os quais foram considerados por sua similaridade com osesquemas adotados nas principais pesquisas domiciliares do IBGE tais comoa PNAD e a PME (Pesquisa Mensal de Emprego). Portanto, a utilidademaior dos valores tabulados dos EPAs seria a comparao de planos amos-trais alternativos para planejamento de pesquisas futuras, e no a anlisedos resultados da amostra do censo 80.

    4.3 Efeito do Plano Amostral Ampliado

    O que se observou no Exemplo 4.1 com respeito diculdade de uso dosEPAs de Kish calculados para ns analticos tambm se aplica para outrassituaes e uma decincia estrutural do conceito de EPA proposto porKish. Para tentar contornar essa diculdade, necessrio considerar umconceito ampliado de EPA, correspondente ao conceito de misspecicationeect (me ) proposto por Skinner, Holt e Smith(1989, p. 24), que apresen-tamos e discutimos nesta seo.

    Para introduzir este conceito ampliado de EPA, que tem utilidade tam-bm para ns de inferncia analtica, vamos agora considerar um modelosubjacente s observaes usadas para o clculo do estimador pontual .Designemos por v0 = bVIID um estimador usual (consistente) da varin-cia de calculado sob a hiptese (ingnua) de que as observaes so IID. Ainadequao da hiptese de IID poderia ser consequncia ou de estrutura dapopulao ou de efeito de plano amostral complexo. Em qualquer dos casos,a estimativa v0 da varincia de calculada sob a hiptese de observaesIID se afastaria da varincia de sob o plano amostral (ou modelo) verda-

    deiro, denotada VV ERD. Note que VV ERD

    = VM

    na abordagem

    baseada em modelos e VV ERD= Vp

    na abordagem de aleatorizao.

    Para avaliar se este afastamento tende a ser grande ou pequeno, vamosconsiderar a distribuio de v0 com relao distribuio de aleatorizaoverdadeira (ou do modelo verdadeiro) e localizar VV ERD

    com relao a

    esta distribuio de referncia. Como em geral seria complicado obter estadistribuio, vamos tomar uma medida de centro ou locao da mesma e

  • 52 CAPTULO 4. EFEITOS DO PLANO AMOSTRAL

    compar-la a VV ERD.

    Podemos desta forma introduzir uma medida de efeito da especicaoincorreta do plano amostral (ou do modelo) sobre a estimativa v0 da varin-cia do estimador .

    Definio 4.2 O efeito da especicao incorreta do plano amostral (ou domodelo) sobre a estimativa v0 da varincia do estimador

    EPA, v0

    =VV ERD

    EV ERD (v0). (4.2)

    Desta forma, o EPA, v0

    mede a tendncia de v0 a subestimar ou su-

    perestimar VV ERD, varincia verdadeira de . Quanto mais afastado de

    1 for o valor de EPA, v0

    , mais incorreta ser considerada a especicao

    do plano amostral ou do modelo.Enquanto a medida proposta por Kish baseia-se nas distribuies indu-

    zidas pela aleatorizao dos planos amostrais comparados, o EPA, v0

    pode ser calculado com respeito a distribuies de aleatorizao ou do mo-delo envolvido, bastando calcular VV ERD e EV ERD da denio (4.2) comrelao distribuio correspondente.

    Em geral, so esperadas as seguintes conseqncias sobre o EPA aoignorar o plano amostral efetivamente adotado e admitir que a seleo daamostra foi AAS:

    1. Ignorar os pesos em v0 pode inacionar o EPA;

    2. Ignorar conglomerao em v0 pode inacionar o EPA;

    3. Ignorar estraticao em v0 pode reduzir o EPA.

    Combinaes destes aspectos num mesmo plano amostral, resultando naespecicao incorreta do plano amostral subjacente a v0, podem inacionarou reduzir o EPA. Nesses casos difcil prever o impacto de ignorar o planoamostral (ou modelo) verdadeiro sobre a anlise baseada em hipteses IID.Por essa razo, recomendvel ao menos estimar os EPAs antes de concluira anlise padro, para poder ento avaliar se h impactos importantes aconsiderar.

  • 4.3. EFEITO DO PLANO AMOSTRAL AMPLIADO 53

    Tabela 4.2: Denio da estraticao da populao de empresas

    Estrato Condio Tamanho1 empresas com PO > 21 161 empresas2 empresas com PO

  • 54 CAPTULO 4. EFEITOS DO PLANO AMOSTRAL

    tenderia a superestimar a mdia Y da populao dada por Y = 1N2Ph=1

    PiUh

    yhi,

    onde yhi o valor da varivel de pesquisa y para a isima observao doestrato h (h = 1, 2). Neste caso, um estimador no-viciado da mdia popu-lacional Y