métodos quase-experimentaissiteresources.worldbank.org/intdevimpevaini/resources/3998199... ·...

33
Workshop Internacional de Avaliação de Impacto de Políticas Públicas Rio de Janeiro Março, 19-21 de 2013 Caio Piza – DIME/Banco Mundial Métodos Quase-Experimentais

Upload: hathuy

Post on 09-Nov-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Workshop Internacional de Avaliação de Impacto de

Políticas Públicas Rio de Janeiro

Março, 19-21 de 2013

Caio Piza – DIME/Banco Mundial

Métodos Quase-Experimentais

Objetivo

Objetivo: isolar o efeito causal de uma intervenção/política pública sobre alguns resultados de interesse

Métodos de avaliação rigorosos para responder às nossas perguntas operacionais

Procedimento ideal: escolher aleatoriamente entre os elegíveis quem fará parte do programa (experimento aleatório)

E se não pudermos seguir tal procedimento (aleatorizar)?

Conseguimos encontrar um contrafatual plausível?

Métodos não-experimentais: premissas (“hipóteses de identificação”) e regras do programa (“elegíveis”)

Quanto maior o número de premissas, menos válida será a medida do efeito de causalidade

Se a regra do programa não for seguida à risca...

É importante questionar as nossas premissas

Utilize o senso-comum!

Métodos não-experimentos: quando fazem sentido?

Objetivo Principal Aumentar a produtividade e vendas das empresas

Intervenção Distribuição de subsídios

Seleção dos participantes não-aleatória

Público-alvo Micro e pequena empresa entre 1 e 10 empregados

Principal indicador Vendas, lucros, geração de emprego etc.

4

Exemplo: Programa de Subsídios (Matching Grant)

Método de diferenca em diferenças (ou diff-in-diff)

Premissa subjacente:

Sem o programa, as vendas dos participantes e dos não participantes evoluíriam da mesma forma (com a mesma tendência) >> Gráfico intuitivo a caminho....

Exemplo

Média de Vendas

(1000s)

2007 2008 Diferença (2007-2008)

Participantes (P) 1.5 2.1 0.6

Não-participantes (NP) 0.5 0.7 0.2

Diferença (P-NP) 1.0 1.4 0.4

6

0

0,5

1

1,5

2

2,5

2007 2008

participants

non-participants

P08-P07=0.6 P08-P07=0.6

7

NP08-NP07=0.2 NP08-NP07=0.2

Impact0 = (P2008-P2007) -(NP2008-NP2007)

= 0.6 – 0.2 = + 0.4 Impact0 = (P2008-P2007) -(NP2008-NP2007)

= 0.6 – 0.2 = + 0.4

Presunção de mesma tendência: Implicação Gráfica

0

0,5

1

1,5

2

2,5

2007 2008

participants

non-participants

Impacto = +0.4 Impacto = +0.4

Conclusão

O programa teve impacto positivo nas vendas das empresas que participaram do programa (receberam o subsídio)

Sera que presumir a mesma tendência é razoável? ➤Utilizar dados de anos anteriores

Questionando a premissa de mesma tendência: Dados pré-programa

Parece razoável aceitar a premissa conceitual de mesma tendência!

0

0,5

1

1,5

2

2,5

2006 2007 2008

participants

non-participants

Atenção (1)

Assumir a mesma tendência pode ser

problemático em alguns casos. Por exemplo:

Não existem dados para testar a mesma

tendência histórica

E mesmo se as tendências forem semelhantes no

ano anterior…

• Foram as tendências sempre semelhantes (ou

tivemos sorte)?

• Exemplo: outro projeto intervém nas empresas não

participantes…

Atenção (2)

Que fazemos então?

1. Verificar as semelhanças em características

observáveis na linha de base (baseline)

Se não são semelhantes ao nível das

características observáveis, é provavel que as

tendências sejam diferentes (Abadie, 2005)

2. As características não observáveis podem ser mais

importantes que as observáveis (capacidade,

motivação, paciência etc.)

Métodos de Combinação/Pareamento (matching)

Geralmente usado quando não há informação de “antes e depois” para os grupos de tratamento e controle

Contrafatual:

Grupo de comparação com semelhanças em características observáveis:

Procura-se para cada participante do programa um ou mais pares de não participante(s) com base nas características observáveis

13

Métodos de Combinação (2)

Premissas: Características não-observáveis não afetam a

designação para o tratamento e/ou o resultado de interesse

A participação em um programa depende exclusivamente de características observáveis pelo pesquisador

Como se faz?

1. Calcula-se um escore para cada participante com base nas características obseráveis pelo pesquisador

Temos de escolher com cuidado as variáveis para agrupar os participantes com o grupo de controle

Finalidade: ▪ Grupo de tratamento: Participantes que conseguiram obter

um par

▪ Grupo de controle: não-participantes parecidos com os participantes

Eliminamos da avaliação os indivíduos sem pares

Implicações

Na maior parte dos casos, não conseguimos encontrar pares para todos os participantes

Precisamos perceber quem fica de fora

Exemplo

Pontuação

não-participantes Participantes

Parte combinada

Riqueza

Parte do grupo de tratamento excluída

Conclusão (1)

Vantagens do metodo de combinação:

Não precisa de aleatorização e é relativamente simples de implementar

17

Conclusão (2)

Desvantagens:

A premissa subjacente ao contrafatual não é plausível em todos os contextos... dificil de testar

▪ Utilize o senso comum e a regra do programa

Necessita dados de muita qualidade

▪ Necessário controlar todos os fatores que influenciam o a alocação ao programa / resultado em análise

Necessita amostras de tamanho suficientemente grande para gerar o grupo de comparação

18

Primo muito mais próximo dos experimentos com seleção aleatória do que os outros concorrentes

Importante elemento do kit de ferramentas para research

• Data do início da década de 60

• Entrou em hibernação por algum tempo

• Retomado no novo milénio

Modelos de Regressão Descontínua (RD)

19

RD como experimento natural

Experiências naturais são eventos “naturais” que aproximam as propriedades de um experimento

RDs partilham as mesmas propriedades de uma experimento localmente no ponto de corte (cut-off)

20

Suponha que o Bolsa Família seja focado em famílias com um escore de pobreza inferior a um certo limite (cut off)

Famílias com escore<=50 são elegíveis (consideradas pobres)

Famílias elegíveis podem receber uma transferência monetária desde que… (CCT)

Resultados de interesse: consumo e frequência escolar.

Source: Human Development Network, WB.

Motivação

Validade Interna

Ideia geral: Se o ponto de corte (cut-off) é arbitrário, as pessoas

exatamente à esquerda e à direita desse ponto devem ser semelhantes

Diferenças nos resultados podem ser atribuídos à política Principal condição Nada mais acontece: na ausência da política, não

observaríamos a discontinuidade nos resultados à volta deste limite

22

Não-Miserável

Não-Miserável

Miserável Miserável

Fonte: WB – Human Development Network.

Ilustração gráfica

O que deveríamos observar?

Efeito da Política

Fonte: WB – Human Development Network.

RD identifica o LATE!

o A descontinuidade determina o tratamento o Experimento natural ao redor da descontinuidade o E.g. Pagamento da aposentadoria depende necessariamente

da idade da pessoa

Descontinuidade Sharp

o Descontinuidade altamente correlacionada com o tratamento o E.g. Regra (idade) determina a eligibilidade para o tratamento

mas não perfeitamente o A regra é usada para recuperar o efeito da participação .

Descontinuidade Fuzzy

Fonte: WB – Human Development Network.

Outro exemplo de RD (1)

Lei: Idade mínima para beber nos EUA é 21 o consumo de alcóol é ilegal para pessoas com menos de 21 anos.

Análise: Pessoas com 20 anos, 11 meses e 29 dias Pessoas com 21 anos

Mas não necessariamente diferentes (probabilidade de irem a festas, obediência, probabilidade de terem comportamentos de risco, etc)

Tratadas na lei de uma forma diferente por uma restrição arbitrária (idade)

26

Exemplo de RD (2)

Proporção de dias em que (1) bebe ou (2) bebe em grandes quantidades

Tratamento causa um menor consumo de alcóol

27

Exemplo de MRD (4)

Taxas de mortalidade por idade

Aumento do consumo de alcóol causa taxas de mortalidade mais elevadas por volta dos 21 anos

Mortalidade geral

Mortalidade associada a acidentes, consumo de alcóol ou de drogas

Restante mortalidade

28

Validade Externa

Serão os resultados generalizáveis para além destes dois grupos que estamos a comparar?

As conclusões de causalidade são limitadas às pessoas, lares, municípios, ao redor do cut-off

O impacto estimado é para individuos marginalmente ou por

pouco elegíveis para participarem no programa A extrapolação além deste ponto supõe premissas adicionais,

geralmente não garantidas (ou diversos cut-offs)

Modelos difusos aumentam o problema

29

Implementação de RD: Detalhes

Maiores vantagens dos RD

Transparência

Possibilidade de ilustrar a situação por meio do uso de gráficos

Maiores desvantagens dos RD

Necessário que haja muitas observações à volta do cut-off

Todas as observações longe da fronteira devem ter menos importância

30

Conclusão

Pode ser usado para desenhar uma avaliação quando a seleção aleatória não for possível

O design aplica-se a todos os programas avaliados por médias

Diversos pontos de corte para melhorar a validade externa

Pode ser usado para avaliar intervenções ex-post

usando as descontinuidades como “experiências naturais”.

31

Resumão

A randomização requer premissas mínimas e gera estimativas intuitivas (médias das amostras!)

Métodos não experimentais requerem premissas que devem ser cuidadosamente avaliadas

Mais intensivo em termos de dados

Nem sempre testável

32