aula 8 – diferenças em diferenças material elaborado por betânia peixoto modificado por...
TRANSCRIPT
Aula 8 – Diferenças em Diferenças
Material Elaborado por Betânia Peixoto
Modificado por Guilherme Irffi e Francis
Petterini
Diferenças em Diferenças
“ Procedimentos estatísticos para Avaliação de Impacto do programa quando temos disponíveis as informações de ANTES e de DEPOIS do tratamento”.
Plano de Aula
Conceito de avaliação de impacto pelo método de diferenças em diferenças
Implicação sobre o viés de seleção
Combinação do método de diferenças em diferenças com o pareamento por escore de propensão.
Diferenças em Diferenças - DD Quando: a separação entre os grupos de tratamento e
controle não foi aleatória e
quando temos grupos de tratamento e controle diferentes em relação a características que não são observáveis.
O estimador de DD é uma popular abordagem de avaliação utilizada quando existe amostra para mais de um período no tempo. .
O que é requerido
Esta metodologia compara os grupos de tratamento e de controle em termos de mudanças no produto relativo à pré-intervenção.
Para isto, requer dados amostrais para os tratados e não tratados em pelo menos dois períodos no tempo, antes e depois da intervenção.
Intuitivamente
Por meio do método DD, comparamos amostras de tratados e não tratados antes e depois da intervenção.
Calculamos a diferença na média dos produtos antes e depois da intervenção para cada grupo, tratado e não tratado.
A diferença entre estas duas diferenças é o impacto estimado.
Impacto = ATT = E[Yp, P=1] - E[Ysp, P=1] Não observamos Ysp quando P=1.
Se E[Ysp, P=1] ≠ E[Yc, P=0]Erro: ε= E[Ysp, P=1] - E[Yc, P=0] (1)
O ATT é dado por:ATT = E[Yp, P=1] - E[Yc, P=0] + ε (2)Substituindo (1) em (2)ATT = E[Yp, P=1] - E[Yc, P=0] + {E[Ysp, P=1] - E[Yc,
P=0] }
Relembrando: Problema da Avaliação
Viés ou erro
Relembrando: O Erro ou Viés
O Viés é causado pelas características diferentes entre tratado e controle que levam à que o indicador de impacto seja diferente entre os grupos.
O Viés poderia ser decomposto em 3 componentes ou causas:
1) primeiro é a falta de suporte comum. (pareamento) 2) viés proveniente dos observáveis. (regressão
linear/pareamento) 3) viés de seleção, ou viés proveniente dos não
observáveis (Diferenças em Diferenças)
Yit denota o produto mensurado para a i-ésima unidade observada nas duas datas, t = 0,1.
Por definição no período 0 ninguém é tratado Ti0=0
ATT = E(YPi1 - YP
i0 |Ti1 = 1) – E(Yspi1 - Ysp
i0 |Ti1 = 0)
Formalmente: Diferenças em Diferenças
Supondo que a diferença não observada entre a média do produto dos tratados e não tratados não varia com o tempo - o viés de seleção não varia com o tempo...
...Quando se faz a diferença da diferença do indicador de impacto, o viés de seleção, caso presente, se anula, fazendo com que o estimador DD seja não viesado.
Neste caso, mudanças no produto dos não tratados revelam mudanças no produto do contra-factual. Então,
E(Yspi1 - Ysp
i0 |Ti1 = 1) = E(Yci1 - Yc
i0 |Ti1 = 0)
Implicação
Caso a pressuposição de que a diferença não observada entre a média do produto dos tratados e não tratados não varia com o tempo seja violada, podemos esperar que o estimador DD seja viesado.
Violação da pressuposição
Na metodologia Diferenças em Diferenças, aplicamos o método utilizando toda a amostra.
No método Diferenças em Diferenças com Pareamento, aplicamos o DD na sub-amostra selecionada pelo PSM. Neste caso, o viés é bastante reduzido, pois o PSM ajuda a minimizar o viés proveniente dos observáveis e de ausência de suporte comum, enquanto que o DD ajuda a reduzir o viés de seleção.
Diferenças e Diferenças em Diferenças e Diferenças em Diferenças com Pareamento
Preparação do Banco de Dados (1)
Precisamos ter num único banco de dados todas as informações de antes e de depois, de todos os indivíduos.
Para separarmos as informações de antes e depois, criamos uma variável que será igual a ‘1’ se os dados forem de depois e será igual a ‘0’ se os dados forem de antes do programa.
Preparação do Banco de Dados (2)
Criamos também uma outra variável = “programa” vezes “depois” chamamos esta variável de interação entre
duas variáveis: ela só será igual a ‘1’ quando o indivíduo participa do programa e os dados são de depois do tratamento.
A estimativa do coeficiente associado a essa variável será a diferença das diferenças e terá o mesmo valor calculado na diferença das médias.
Utilizando a regressão linear
Renda = + 1 ‘programa’ + 2 ‘depois’ + 3 ‘programa*depois’ + erro
3 = a diferença das diferenças, ou seja, é o coeficiente que mede o impacto do programa.
1 captura se os grupos são diferentes, independentemente do programa.
2 captura se o indicador muda no tempo, independentemente do programa.
Porque 3 é o estimador de diferenças em diferenças?
Médias por grupo
Antes Depois Variação
Tratamento TA TD TD - TA
Controle CA CD CD - CA
Variação das variações
(TD – TA) – (CD – CA)
Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’
TA = + 1 x ‘1’ + 2 x ‘0’ + 3 x 0 TA = + 1
TD = + 1 x ‘1’ + 2 x ‘1’ + 3 x 1
TD = + 1 + 2 + 3
TD – TA = 2 + 3
Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’
CA = + 1 x ‘0’ + 2 x ‘0’ + 3 x 0 CA =
CD = + 1 x ‘0’ + 2 x ‘1’ + 3 x 0 CD = + 2
CD – CA = 2
Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’
(TD – TA) = 2 + 3
(CD – CA) = 2
(TD – TA) – (CD – CA) = dif em dif = (2 + 3 - 2 ) = 3
Graficamente- Diferença em Diferença
TempoIntervenção
ResultadoGrupo de
intervenção
Grupo de Controle
Média estimada do
efeito no grupo de
intervenção
Exemplo 1
Suponha um programa para melhoria de renda com seleção não aleatória.
O indicador de impacto é renda e esta informação foi coletada antes e depois do programa.
Identificador
participou do treinamento
renda antes
renda depois
1 1 60 200
2 1 80 150
3 1 50 90
4 1 60 100
5 1 50 90
6 1 40 70
7 1 50 80
8 1 50 90
9 1 70 110
10 1 50 90
Identificador
participou do treinamento
renda antes
renda depois
11 0 500 500
12 0 300 400
13 0 400 400
14 0 50 60
15 0 20 30
16 0 30 40
17 0 150 170
18 0 100 120
19 0 90 120
20 0 40 50
RESUMO DOS RESULTADOS
Estatística de regressãoR múltiplo 0,404745531R-Quadrado 0,163818945R-quadrado ajustado 0,09413719Erro padrão 124,4878397Observações 40
ANOVA
gl SQ MQ FF de
significação
Regressão 3 109300 36433,33333 2,350958953 0,08857
Resíduo 36 557900 15497,22222Total 39 667200
Coeficiente
s Erro padrão Stat t valor-P IC - 95%Interseção 168 39,367 4,268 0,000 88,161 247,839programa -112 55,673 -2,012 0,052 -224,909 0,909depois 21 55,673 0,377 0,708 -91,909 133,909programa*depois 30 78,733 0,381 0,705 -129,678 189,678
Resumo das metodologias de avaliação de impacto
Seleção aleatória – teste de diferença de médias. Pode ser realizado por meio de regressão com a variável programa como única independente
Resumo das metodologias de avaliação de impacto Seleção não aleatória:
- Regressão Simples – 1 momento no tempo; considera as possíveis variáveis observáveis diferentes entre tratado e controle. Atua no viés proveniente dos observáveis
- PSM – 1 momento no tempo; seleciona o grupo controle. Atua sobre o viés de suporte comum e viés proveniente dos observáveis.
- DD – 2 momentos no tempo; considera antes e depois. Atua sobre o viés de seleção ( não observáveis)
- DD com pareamento- 2 momentos no tempo. O pareamento ocorre utilizando dados apenas de antes do programa.
Atua sobre os três componentes do viés.
Comentários Finais
Aula de hoje: como fazer a avaliação quando temos disponíveis os dados de ‘antes’ e de ‘depois’ do tratamento. É o ideal, visto que este instrumental permite controlar as características iniciais dos grupos.
Próxima aula: primeiros passos da avaliação de retorno econômico.