avaliação de impacto para prestação de contas: algumas opções de métodos tom cook...

79
Avaliação de Impacto para Prestação de Contas : Algumas opções de Métodos Tom Cook Northwestern University

Upload: heitor-candelaria

Post on 07-Apr-2016

217 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Avaliação de Impacto para Prestação de Contas:

Algumas opções de Métodos

Tom CookNorthwestern University

Page 2: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resumo Geral• Importância da avaliação de impacto • Defender a noção de que essa avaliação deve

ter altos níveis de validade• Introduzir alguma Terminologia• Experimentos de Distribuição Aleatória• Melhores desenhos alternativos caso os

experimentos não sejam possíveis : (a) Regressão Descontínua; (b) Séries Temporais Interrompidas (c) Desenho de Grupos Pareados

Page 3: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

I: Porque avaliar com métodos que asseguram níveis mais altos de validade?

O custo de decidir que um programa funciona, se ele não funcionarO custo de decidir que ele não funciona, se funcionarMétodos que tem maior tendência a apresentar esse viés (e que em geral não conseguem determinar o tamanho do efeito):

Estudos de caso; levantamentos simples realizados uma única vez; desenhos simples de “antes e depois”; desenhos de comparações realizadas uma única vez; e modelagem causal complexa

Page 4: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

O que resta?• Estudos Experimentais baseados no desenho,

ou• Método Quase-Experimental

Estes testam as consequências de uma única causa conhecida (programa) e NÃO as várias causas de um efeito conhecido (ex: abuso de drogas)

Enfatizam um tratamento manipulável, um propulsor de política pública que alguém gostaria de acionar para obter alguns resultados socialmente desejáveis

Page 5: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

II. Alguma Terminologia• Experimentação – intrusão deliberada em um

processo em andamento, para identificar os efeitos dessa intrusão – papel do choque exógeno

• Experimentos aleatorizados envolvem a distribuição dos participantes entre grupos de tratamento e de controle baseada no acaso — expectativa de não haver viés

• Experimento natural denota alguma intrusão súbita e não controlada pelo pesquisador em um processo em andamento – exemplos com e sem distribuição aleatória

Page 6: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Terminologia• Quase-experimentos envolvem também choques

exógenos, mas os grupos controle não são aleatorizados — os exemplos parecem experimentos em sua estrutura, exceto pelo processo de distribuição

• Um não-experimento lida com um agente causal não deliberadamente manipulado, e que não interfere subitamente em um processo em andamento – digamos, o uso de levantamentos longitudinais.

• Aqui excluímos o trabalho não-experimental

Page 7: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Terminologia: Causalidade• Manipulabilidade/Atividade/Teoria da

Receita: a relação “Se/Então” – sobre intrusões

• Teoria menor na filosofia da ciência, porque não é necesariamente explanatória

• Condicional INUS de Mackie – Porção insuficiente porém não redundante de uma condição desnecessária porém suficiente, para que o efeito se manifeste

• Mas pragmaticamente importante para a Avaliação

Page 8: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Validade Interna• Validade Interna: Validade das inferências

sobre se a covariação observada entre A (o tratamento presumido) e B (o resultado presumido), reflete uma relação causal de A para B quando essas variáveis foram manipuladas ou medidas.

• Ou, dito mais simplesmente: o tratamento afetou o resultado?

• Esta será a principal prioridade desta apresentação.

Page 9: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Ameaças à Validade Interna1. Precedência temporal ambígua2. Seleção3. História4. Maturação5. Regressão6. Atrição7. Teste 8. Instrumentação9. Efeitos aditivos e interativos das ameaças à validade

internaPense nessas ameaças como contrafactuais específicos – coisas que poderiam ter ocorrido aos participantes se não tivessem recebido o

tratamento.

Page 10: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

III. Experimentos Aleatorizados

com indivíduos, famílias e agrupamentos de prédios

Page 11: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Atribuição Aleatória• Qualquer procedimento que atribui unidades a

condições, baseando-se unicamente no acaso, onde cada unidade tem uma probabilidade não-zero de ser atribuída a uma condição.

• Por exemplo: Cara ou coroa; jogar dados; loteria; ou métodos mais formais

(mais brevemente)Delineamento de escolha para a causalidadeImportanza actual nos compendios de praticas efficaces

Page 12: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

A atribuição aleatória não é:

• A atribuição aleatória não é uma amostragem aleatória– A amostragem aleatória é raramente viável

nos experimentos• A atribuição aleatória não requer que cada

unidade tenha uma probabilidade igual de ser atribuída às condições– É possível atribuir proporções desiguais às

condições

Page 13: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Vantagens dos experimentos• Prometem estimativas sobre os efeitos isentas

de viés• As premissas são relativamente poucas,

transparentes e testáveis• Maior poder estatístico do que as alternativas• Longo histórico de implementação na saúde e

em algumas áreas da educação• Frequentemente possíveis, apesar das

argumentações dos críticos• Alta credibilidade na ciência, políticas públicas +

mídia

Page 14: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Premissas para Inferir um Efeito• As médias nos grupos pós-teste devem diferir,

porém somente serão causalmente interpretáveis se:

• A atribuição for adequada, de modo que as médias do pré-teste e das outras covariáveis não difiram nos observáveis

• Não existe atrição diferencial, e assim o índice de atrição e o perfil das demais unidades será constante através dos grupos de tratamento

• Não existe contaminação entre os grupos, o que é relevante para responder às perguntas sobre o tratamento nos tratados, mas não sobre a intenção de tratar.

Page 15: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Desvantagens falsamente atribuídas aos experimentos

• Os experimentos são raros• A atrição realcionada ao tratamento é

comum e não há como lidar com isso• A contaminação do tratamento é comum e

não há como lidar com isso• A implementação do tratamento é

frequentemente parcial

Page 16: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Desvantagens corretamente ataribuídas aos experimentos

• Nem sempre são viáveis por motivos de ética, política, logística e ignorância

• A experiência é limitada em muitos campos, especialmente em unidades maiores, como prédios ou bairros

• A generalização dos resultados é limitada – o voluntarismo e as condicionais INUS devem ser revistos

• Perigo de que o método sozinho venha a determinar os tipos de perguntas causais feitas e não feitas

• Perigo de que o método expulsará outros tipos de conhecimento avaliativo e também de teorias substativas

Page 17: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

IV. Delineamentos AlternativosA. Regressão Desconínua

Page 18: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Regressão Descontínua (RD)

A alocação de recursos pode ser feita por pontuação de mérito, necessidade (ou risco), primeiro da fila…., data de nascimento

Qual a prevalência dos mecanismos de alocação desse tipo em determinada sociedade? Podem ser ainda mais prevalentes?

A RD é o delineamento adequado para essas circunstâncias.O delineamento funciona com variáveis de atribuição reais e

construtos e com pontos de corte Funciona com a pontuação obtidaÉ preciso aprender a linguagem da RD para invocar uma variável

de atribuição, o ponto de corte que define o tratamento, e um resultado

Page 19: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Visão gráfica da RD

Comparison

Page 20: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Visão gráfica da RD

Comparison Treatment

Page 21: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Visão gráfica da RD

Comparison Treatment

Counterfactual regression line

Descontinuidade,ou Efeito do Tratamento

Page 22: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Duas justificativas para a RD

1. O processo de seleção é perfeitamente conhecido e pode ser modelado através de uma linha de regressão da atribuição e das variáveis do resultado – A porção não tratada da VA serve como um

contrafactual2. É como um experimento em torno do ponto de

corte– Benefício: A forma funcional não precisa ser

identificada

Page 23: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

• Exigem que a probabilidade de tratamento mude descontinuamente de 1 a 0 no ponto de corte.

• Na prática, isso significa que não há superposição e não há não comparecimento no estudo.

• No delineamento básico, os efeitos do tratamento são identificados no ponto de corte. Nos delineamentos suplementares, não é necessariamente assim

• As abordagens paramétrica e não-paramétrica podem ser aplicadas para estimar os efeitos do tratamento

Delineamentos de RD determinística (SHARP)

Page 24: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Limitações da RD Básica

• Menos poder statistico do que os experimentos

• Dependente de premissas paramétricas funcionais

• Generalização do impacto limitada ao valor de corte

• Cada uma destas é mitigada adicionando-se uma função de regressão pré-teste

Page 25: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

4. Manipulação Deliberada davariável distribuição

• Ocorre quando os participantes manipulam pontuação de distribuição para receber ou evitar o tratamento.

• Diferente de “substituição para o ponto de corte”, porque o pesquisador não sabe a pontuação – e a distribuição de tratamento – que os participantes deveriam ter recebido.

• Não há teste definitivo para saber quando ocorre, porém a análise gráfica pode ajudar a detectá-lo.

Page 26: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Exemplo: Dados da AYP doTexas

Histograma Plotagem da Densidade de Kernel

Queda na densidade das observações antes do ponto de corte

Salto na densidade das observações no ponto de corte

Page 27: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resumo do delineamento da RD• Bem afiançado na teoria e comparado aos Estudos

Randomizados Controlados (RCT)• Atualmente, usado com frequência, ao menos nos EUA • Uma grande ameaça é a forma funcional mal especificada • Outra grande ameaça é a manipulação – mais fácil descrever

do que controlar• Generalização limitada ao ponto de corte, mas uma RD

comparativa pode ser usada para ampliar a generalização• Pesquisas sobre complexidades adicionais estão a pleno vapor

atualmente e o estado da arte está sendo desenvolvido

Page 28: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

IV:B. Séries Temporais Interrompidas

Page 29: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

O que é uma Série Temporal Interrompida (STI) ?

• Uma série de observações da mesma variável dependente ao longo do tempo

• A STI é um tipo especial de série temporal onde o tratamento/intervenção ocorreu em um ponto específico e a série é interrompida pela introdução da intervenção.

• Se o tratamento tem um impacto causal a série pós-intervenção terá um nível ou uma inclinação diferente do que a série pré-intervenção .

Page 30: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Os efeitos da cobrança do serviço de auxílio à lista em Cincinnati

Intervenção

Page 31: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

E se todo o mundo no Canadá desse descarga ao mesmo tempo?

Page 32: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Reforma da Lei anti-estupro no Canadá

Page 33: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

A Série Temporal Interrompida pode produzir fortes evidências sobre efeitos causais

• Ponto claro da Intervenção

• Efeito grande, imediato

• Forma funcional pré-teste clara + muitas Observações

• Nenhuma alternativa pode explicar a mudança

Page 34: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Quão bem essas condições são atendidas na maioria das pesquisas?

• Dados abrangendo longos períodos não estão disponíveis, assim a forma funcional pré-teste é com frequência mais curta e menos clara

• Implementar a intervenção pode abranger muitos anos• Os efeitos instantâneo são raros • O tamanho do efeito em geral é pequeno

• Assim, surge a necessidade de desenvolver métodos para séries temporais abreviadas e complementá-los com outros recursos de delineamento, tais como série de controle, para ajudar a reforçar os contrafactuais fracos associados a uma série temporal pré-teste curta.

Page 35: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Ameaças à Validade Interna: História

• Na maioria das STI simples, a principal ameaça à validade interna é a história - algum outro evento ocorrido próximo ao momento da intervenção e que poderia ter produzido o mesmo efeito.

• Possíveis soluções: – Acrescentar um grupo de controle à série temporal

– Acrescentar uma variável dependente não equivalente

– Quanto mais estreitos os intervalos medidos (ex: mensalmente em vez de anualmente) menos eventos históricos que possam explicar os achados dentro daquele intervalo.

Page 36: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Ameaças à Validade: Instrumentação

• Instrumentação: a maneira como foi medido o resultado mudou ao mesmo tempo em que se introduziu a intervenção.

– Em Chicago, quando Orlando Wilson assumiu o Dep. de Polícia de Chicago, ele mudou os requisitos dos relatórios, tornando-os mais precisos. O resultado aparentemente foi um aumento na criminalidade quando assumiu o cargo.

– É importante explorar a qualidade da medição dos resultados ao longo do tempo, perguntar a respeito de quaisquer mudanças que tenham sido feitas quanto à operacionalização das mensurações.

Page 37: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Exemplo da Educação: Projeto Hope• Programa de ajuda financeira baseado no mérito

instituído na Georgia– Implementado em 1993– ponto de corte de 3.0 GPA no ensino médio (RDD?)

• O objetivo era melhorar– O acesso à educação superior– Os resultados educacionais

• Grupos controle– Dados dos EUA– Dados do Sudoeste americano

Page 38: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resultados: Porcentagem de alunos que atingiram GPA 3.00 na escola de ensino

médio

Porcentagem de alunos com nota B ou melhor

74.00%76.00%78.00%80.00%82.00%84.00%86.00%88.00%90.00%

90 92 94 96 982000

Ano

Porc

enta

gem Sudeste

EUA

GA

Page 39: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resultados: Média das notas SAT dos estudantes de segundo grau com GPA 3.00

Page 40: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Acescentar na série temporal uma variável dependente não equivalente

VDNE: Variável dependente que estima-se que não deve mudar devido ao tratamento, mas espera-se que responda a algumas ou a todas as ameaças à validade interna contextualmente importantes, da mesma maneira que o resultado visado

Page 41: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Exemplo: Experimento do bafômetro britânico• Intervenção: Reprimir o uso de álcool na direção mediante o uso de

bafômetro.

• Presume-se que muitos casos de motoristas bêbados ocorriam depois destes terem bebido em bares que ficavam abertos durante os horários permitidos por lei.

• Variável dependente: Acidentes de trânsito durante os horários em que os bares estavam abertos.

• Variável dependente não equivalente: Acidentes de trânsito durante os horários em que os bares não estavam abertos

• Ajuda a reduzir a plausabilidade das ameaças da história, de que a diminuição era devida a fatores tais como:– Mudança do clima– Automóveis mais seguros– Repressão policial ao excesso de velocidade

Page 42: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Observe que a variável do resultado (horários abertos no fim de semana) demonstrou um efeito, porém a variável dependente não equivalente (horários em que os bares estavam fechados) não mostrou qualquer efeito.

0

200

400

600

800

1000

1200

1400

160019

66

1967

1968

Traf

fic C

asua

lties

YearClosed Hours Weekend

Page 43: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resumo: Série Temporal Interrompida

• É um delineamento poderoso, porém sua viabilidade em geral depende da disponibilidade de um resultado bem arquivado ou da capacidade de coletar dados originais

• Muita informação prévia encontra-se disponível nas áreas de economia e educação, em níveis individual, de coorte e de escolas

• Hoje cada vez mais usado nos EUA nessas áreas• Raramente podemos usar um delineamento STI simples• Em vez disto, devemos adicionar recursos de

delineamento como: grupos de controle, variáveis dependentes não equivalentes, adicionar replicações.

Page 44: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

IVc. Pareamento de Grupos Não Equivalentes

Page 45: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Delineamento “Work horse” : o mais comum dos NECGD

• _O _X_O_ O O

• Dois elementos no delineamento que podem ajudar causalmente: pré-teste e grupos de comparação não-aleatorizados

• Uma mudança neste último significa quanta mudança deveria ter ocorrido no grupo do programa, caso não tivesse sido incluído no programa

• Mas esta última afirmação com frequência não é verdade; e se fosse, não haveria como saber.

Page 46: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Principais ameaças à validade interna com esse desenho

Seleção–Maturação• Seleção-História (História Local)• Seleção–Instrumentação• Seleção- Regressão estatística• Então por que não parear, para eliminar todas

essas diferentes faces da seleção? Se os grupos puderem se tornar equivalentes desde o começo, a intuição seria que o problema desapareceria, assim como na distribuição aleatória?

Page 47: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Pareamento de grupo intacto como parte da estratégia de pareamento

• Bloom, Michalopoulos et al.

• Aiken, West et al.

Page 48: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Bloom, Michalopoulos et al • Estudo randomizado controlado que analisa o treinamento

na função, em 11 locais• Bloom et al restringem a STI a 5 comparações intra-

estado, 4 delas intra-cidade. Esta última basicamente faz o pareamento das caraterísticas da cidade, inclusive do mercado de trabalho.

• Assim, os casos de comparação não-aleatorizados são selecionados dos centros de treinamento da mesma cidade dos locais de tratamento

• O resultado foi medido da mesma maneira no mesmo momento em todos os locais. Portanto, esses fatores não confundiram o tratamento.

Page 49: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resultados: 3 amostras intra-cidades

Page 50: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Seleção de Grupos Intactos pareados localmente nos resultados do pré-teste• Sem que fosse essa a intenção, o fato de Bloom e colegas

terem escolhido controles intra-cidade-não-equivalentes conseguiu comparabilidade com os controles experimentais formados aleatóriamente.

Quer dizer que • Não houve viés entre 3 das 4 amostras intra-cidade; nem

tampouco para a média ponderada de todos os 4 locais.• Assim, a superposição dos observáveis foi conseguida através

do desenho de amostragem isoladamente, dispensando a necessidade de ajustes estatísticos

• Lembre-se: Houve viés nas comparações transversais entre os estados, que não pode ser ajustado estatísticamente com os dados e modelos usados.

Page 51: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Seleção de Grupos Intactos com o máximo de sobreposição: 2o Exemplo

• Aiken et al. ASU—efeitos do curso de redação• A seleção das amostras no Quase-experimento foi feita da

mesma faixa dos ACTs e SATs que as usadas no seu experimento

• Diferiram pela incapacidade de os pesquisadores conseguirem contatar os alunos na matrículas de verão e mais tarde

• Qual será o papel das variáveis não observadas correlacionadas com essas duas características diferenciando as unidades de controle formadas aleatória e não-aleatoriamente?

• Observe que o marco de medidas foi idêntico no experimento e quase-experimento, assim como a intervenção e experiências do grupo de controle excetuando o curso de redação

Page 52: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

ResultadosOs grupos de comparação formados aleatória e não aleatoriamente não diferiram no SAT/CAT nem nas duas mensurações de redação pré-teste

• Portanto, houve uma correspondência próxima dos grupos nos observáveis, sem necessidade de ajuste subsequente; e

• Portanto no Q-E, os controles OLS (ordinary least square) para pré-teste acrescentam poder porém não reduzem o viés, pois havia muito pouco a igualar no controle.

• Resultados para teste de redação com múltipla escolha nas unidades SD = .RCT = 59 e NECGD = .57– ambos significativos

• Resultados para o ensaio RCT = .06 e NECGD =.16 – ambos não significativos

Page 53: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Os Resultados foram isentos de viés na comparação de cidades não-equivalentes?

• No pré-teste, as famílias elegíveis das cidades não-equivalentes em geral não eram diferentes das famílias de controle elegíveis nas cidades tratadas.

• Houve algumas poucas diferenças, no entanto, e estas foram acrescidas como controles no resultado final da análise.

• Portanto, obtidos os mesmos resultados que no experimento, mesmo com as cidades não-equivalentes pois as famílias elegíveis eram equivalentes nos não observáveis.

Page 54: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Implicações dos 2 estudos• O modo de fazer a amostragem dos grupos intactos

pode eliminar todo viés observado sem necessidade de mais nada.

• Sabíamos disto porque tínhamos resultados experimentais para comparar. Porém em geral, não há um experimento disponível para a comparação

• Portanto o pareamento de grupo local intacto ajuda, mas não é uma garantia.

• Felizmente, podemos parear pessoas individualmente ou famílias.

Page 55: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

O que é um Grupo Controle Local, Focal, Não-Equivalente Intacto

• Gêmeos univitelinos• Gêmeos bivitelinos• Irmãos e irmãs• Sucessivas Coortes de uma classe na mesma escola• Mesma Coorte entre diferentes escolas no mesmo

distrito• Mesma Coorte entre diferentes escolas em diferentes

distritos do mesmo estado• Mesma Coorte entre diferentes escolas em diferentes

estados, etc.

Page 56: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Análise dos dados do delineamento Work horse se houver diferenças de grupos

• Modelagem da seleção, como Escores de Propensão – atual furor, mas não há tempo para descrevê-lo aqui em detalhe.

• Como se saber que a analise de dados da la riposta correcto, sem vias?

• Debbo describir la metodolgia de la design experiment

Page 57: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Alocação aleatória de pessoas a uma alocação aleatória ou não aleatória

• Uma forma de testar isto é alocar os participantes aleatóriamente a um experimento aleatorizado ou não aleatorizado, onde são tratados de forma idêntica.

• A seguir, podemos ajustar os resultados quase-experimentais para ver até que ponto se aproximam dos resultados aleatorizados.

• Este foi o delineamento tal como nós o implementamos:

Page 58: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Shadish, Clark & Steiner (2008) (Comparação intra-estudo)

N = 445 Alunos de graduação em Psicologia

Aleatoriamente alocados para

Experimento aleatorizado N = 235

Aleatoriamente alocados para

Estudo Observacional N = 210

Auto- Selecionados em

Matemática Curso de

N = 119

Vocabulário Curso de

N = 116

Matemática Curso de

N = 79

Vocabulário Curso de

N = 131

ATE=?

Page 59: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Shadish et al.: Tratamentos & Resultados

• Dois tratamentos e dois resultados– Dois tratamentos: curso breve, quer em

Vocabulário (termos de vocabulário avançado) ou Matemática (equações exponencais) Todos os participantes foram tratados juntos, sem conhecimento das diferentes condições.

– Dois resultados: Vocabulário (pós-teste de 30-ítens) e Matemática (pós-teste de 20-ítens)

• Efeito do Tratamento:– ATE: efeito médio do tratamento para a população

geral no estudo observacional

Page 60: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Shadish et al.: Domínios dos Construtos

• Preferência pelo Tópico (6 construtos multi-item): gostar de literatura, gostar de matemática, preferir matemática à literatura, número de cursos de matemática feitos anteriormente, principal área de estudo (com matemática intensiva ou não), escala matemática de ansiedade de 25-ítens

• Predisposição psicológica (6 construtos multi-item): Os 5 grandes fatores da personalidade (50 itens em extroversão, estabilidade emocional, aceitação, abertura para a experiência, autopercepção), Short Beck Depression Inventory (13 itens)

Page 61: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Propensity Scores (PS)

• O escore de propensão reduz toda a informação dos preditores a um só número – Isso pode facilitar o pareamento ou a estratificação

quando há múltiplas variáveis de pareamento disponíveis.

• Em um experimento aleatorizado, o verdadeiro escore de propensão é de 0,50 para cada pessoa

• Em um quase-experimento, o verdadeiro escore de propensão é desconhecido

Page 62: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Redução do Viés : Domínios de Construto - Vocabulário

1

11 1 1 1

11

11

1

11

1 1 1

-20

0

20

40

60

80

100

120

140

Bia

s R

educ

tion

(%)

22 2

2

2

22 2 2

22

2

2

22 2

3 3 3

3 3

3

33

33

33 3 3 3

3

4 4

4

4 4

44

4 44 4

4

4

4

4 4

1234

PS-stratificationPS-ANCOVAPS-weightingANCOVA

1

11 1 1 1

11

11

1

11

1 1 1

22 2

2

2

22 2 2

22

2

2

22 2

3 3 3

3 3

3

33

33

33 3 3 3

3

4 4

4

4 4

44

4 44 4

4

4

4

4 4

psy aca dem pre top dempsy

demaca

dempre

prepsy

demtop

preaca

pretop

dempreaca

dempretop

dempreacatop

dempreacatoppsy

psy aca dem

Page 63: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Redução do Viés: Construtos únicosVocabulário

1

1

11

11

1

1

1 1

11

-40

-20

0

20

40

60

80

100

120

140

Bia

s R

educ

tion

(%)

2

2

22

22

2

2 22 2

2

3

3

33

3

3 3

33 3 3

3

4

4

4

44 4

4

4

4

4

4

4

1234

PS-stratificationPS-ANCOVAPS-weightingANCOVA1

1

11

11

1

1

1 1

11

2

2

22

22

2

2 22 2

2

3

3

33

3

3 3

33 3 3

3

4

4

4

44 4

4

4

4

4

4

4

proxy-pretest topic preference all covariates except

mat

h.pr

e

voca

b.pr

e

num

bmat

h

mar

s

maj

or

like.

mat

h

like.

lit

pref

.mat

h

-voc

ab.p

re-p

ref.m

ath

-voc

ab.p

re

-pre

f.mat

h all

Page 64: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Construtos: Conclusão• Ao estabelecer SI (strong ignorability), a seleção dos construtos

é importante– Precisamos de domínios de construtos que efetivamente

reduzam o viés (aqueles relacionados tanto à seleção do tratamento quanto ao resultado)

– Precisamos daquele construto único correto dentre os domínios, porque somente algumas poucas covariáveis reduzem o viés com sucesso

• A escolha do método analítico é menos importante (considerando sua implementação competente)– Não há diferença sistemática entre os métodos de PS– ANCOVA funcionou igualemente bem (pelo menos naquele

caso)

Page 65: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Confiabilidade das Medidas do Construto Steiner, Cook & Shadish (2011)

• Até que ponto a medição confiável dos construtos é importante (dada a seleção em construtos latentes)?– A inclusão de um conjunto grande de covariáveis no modelo PS

compensa a medição pouco confiável de cada covariável?• Acrescentar erro de medição às covariáveis observadas em estudo

simulado– Presume que o conjunto original de covariáveis foi medido

sem erros e remove 100% do viés de seleção– Erro de medida adicionado sistematicamente de modo que a

confiabilidade de cada covariável foi =.5, .6, .7, .8, .9, 1.0

Page 66: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Vocabulário: Confiabilidade 1.0

1

1

1

11

1

11

1

1

1

-40

-20

0

20

40

60

80

100

120

Bia

s R

educ

tion

(%)

2

2

2

2 22

22

2

2

2

3

3

3

3

3 3

33

3

3

3

4

44

4

4 4

44

4

4

4

1234

PS-stratificat.PS-ANCOVAPS-weightingANCOVA

1

1

1

11

1

2

2

2

2 22

3

3

3

3

3 3

4

44

4

4 4

4

44

4

4 4

44

4

4

4

all top pre dem aca psy vocabpre

prefmath

likelit

likemath

mathpre

1

1

1

11

1

2

2

2

2 22

3

3

3

3

3 3

4

44

4

4 4

44

4

4

4

Page 67: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Vocabulário: Confiabilidade .6

1

1

1

11

1

11

1

1

1

-40

-20

0

20

40

60

80

100

120

Bia

s R

educ

tion

(%)

2

2

2

2 22

22

2

2

2

3

3

3

3

3 3

33

3

3

3

4

44

4

4 4

44

4

4

4

1234

PS-stratificat.PS-ANCOVAPS-weightingANCOVA

1

1

1

11

1

2

2

2

2 22

3

3

3

3

3 3

4

44

4

4 4

4

44

4

4 4

44

4

4

4

all top pre dem aca psy vocabpre

prefmath

likelit

likemath

mathpre

1

1

1

11

1

2

2

2

2 22

3

3

3

3

3 3

4

44

4

4 4

44

4

4

4

1

1

1

1

1 1

2

2

2

22 2

3

3

33

3 3

4

44

4

4 4

4 4

4

4

4

1

1

11

1 1

2

2

2

2

2 2

3

3

3 3

3 3

4

44 4

4 4

4 4

44

4

1

1

1 1

1 1

2

2

22

2 2

3

3

33

3 3

4

44 4

4 4

4 4

44

4

1

1

1 1

1 1

2

2

2 2

2 2

3

3

3

3

3 3

4

44

4

4 4

4 4

44

4

Page 68: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Confiabilidade: Conclusões• O erro de medida atenua o potencial das covariáveis

para reduzir o viés de seleção • A medição de um conjunto grande de covariáveis

interrelacionadas compensa a pouca confiabilidade de cada covariável – mas só faz isso em parte.

• A confiabilidade das covariáveis efetivas é importante.

• O erro de medição em covariáveis inefetivas quase não tem influência na redução do viés.

• A escolha do método analítico é menos importante (não há diferença sistemática entre os métodos)

Page 69: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Conclusões• Os fatores mais importantes para estabelecer a

ignorabilidade são:1. A seleção dos construtos é da maior importância para

estabelecer a ignorabilidade (Bloom et al. 2005, Cook et al. 2008, Glazerman et al. 2003)

2. O próximo fator importante é sua medição confiável 3. O PS deve equilibrar a diferenças observadas no pré-

tratamento para poder eliminar todo viés declarado4. A escolha de um método analítico específico— técnicas de

PS ou ANCOVA— é de menor importância, dada sua implementação competente (como também demonstrado pelas revisões de comparações intra-estudo e meta-análises em epidemiologia)

Page 70: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Implicações para a prátcia• É necessário ter teorias robustas no processo de seleção e modelo

de resultado para descartar o viés oculto e evitar o viés declarado1. Descartar o viés oculto

– Cobrir diferentes domínios de construtos que estão relacionados tanto quanto à seleção do tratamento como ao resultado— os dados administrativos ou demográficos isoladamente em geral não são suficientes (p.ex., Diaz & Handa 2006)

– Medir diversos construtos dentro de cada domínio de construto

– Medir os construtos de modo confiável—particularmente os efetivos

2. Evitar o viés declarado– Equilibrar as diferenças dos grupos pré-tratamento– Escolher um método analítico (apropriado para a estimativa

causal, tamanhos de amostras, forma funcional assumida)

Page 71: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Papel do Pré-teste: Reanálise de Hong e Raudenbush (2005; 2006)

• Hong e Raudenbush usaram as ricas covariáveis do estudo longitudinal da primeira infância (ECLS-K) para prever o efeito da retenção no jardim de infância sobre os resultados acadêmicos dos alunos em Matemática e leitura

• Fornceram um subconjunto de dados usados na análise original, que incluía alunos que frequentaram escolas onde pelo menos alguns dos alunos foram retidos no jardim de infância.– 10.726 alunos de 1.080 escolas– 144 covariávaeis pré-tratamento

Page 72: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Média não ajustada para notas de Matemática dos alunos retidos e promovidos

Fall Year 1 Spring Year 1 Spring Year 20.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

40.00

45.00

50.00

20.43

28.92

44.59

14.85

21.38

32.04

PromotedRetained

Page 73: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Objetivos da Reanálise

• Este estudo testa se:– Fazer duas mensurações no momento do pré-teste

seria superior a fazer só uma– Proxy pré-testes podem substituir as medidas do

pré-teste real– Incluir um conjunto rico e grande de covariáveis

que exclui a necessidade de pré-testes reais e proxy poderia ser tão eficaz para reduzir o viés quanto incluir mensurações de pré-teste.

Page 74: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Abordagem analítica• 144 possíveis covariáveis foram desdobradas em três grupos:

– Medidas pré-teste do resultado– Medidas de Proxy pré-teste (notas dos professores)– Todas as outras covariáveis

• Divididas novamente em análise posterior entre categorias específicas de domínio

• Foram criados propensity scores com cada conjunto de covariáveis e os efeitos estimados sobre a leitura e matemática foram examinados– Redução do Viés comparado a um modelo benchmark – Se as estimativas eram estatisticamente distinguíveis entre

si usando desvios padrão bootstrap

Page 75: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Estimativas do Efeito na MatemáticaMean Standard Error

Não ajustada -11.86 0.17Todas as Covariáveis -5.29 0.85Pre-tests:Um Pré-teste -7.21 0.77Dois Pré-testes -5.76 0.74Primeiros Pré-teste e inclinações da reta -5.89 0.76

Pré-testes Proxy :Um Proxy Pré-teste -9.56 0.77Dois Proxy Pré-testes -5.65 0.73Outras Covariáveis & Combinações:Outras Covariáveis -7.58 0.99

Um Pré-teste e Outras Covariáveis -6.06 1.05

Um Proxy e Outras Covariáveis -5.37 1.01

Page 76: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Estimativa dos efeitos na Matem.Matem.

Todas as covariáveis -5.29(0.88)

Todas as outras covariáveis sem Pré-testes -7.58(0.99)

Dados demográficos das crianças -10.77(0.90)

Habilidades sociais da criança -8.76(0.80)

Composição demográfica da sala de aula -12.56(0.75)

Ambiente de aprendizado na sala de aula -11.88(0.70)

Ambiente doméstico -11.78(0.74)

Estruturas e apoio da escola -12.61(0.76)

Composição demográfica da escola -12.56(0.74)

Dados demográficos do professor -12.71(0.75)

Page 77: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Conclusões• Neste conjunto de dados:

– Dois pré-testes reais foram superiores a um único pré-teste e não foram diferentes do nosso benchmark para a estimativa causal.

– Um único pré-teste é superior a um único pré-teste proxy– Dois pré-testes proxy não são diferentes a dois pré-testes reais

nem ao nosso benchmark para a estimativa causal.– Um conjunto grande e heterogêneo de covariáveis sem um pré-

teste real ou proxy reduz mais o viés do que um conjunto homogêneo de covariáveis, embora o viés remanescente ainda seja maior do que quando se fazem dois pré-testes reais ou proxy ou o modelo de benchmark é usado.

Page 78: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Resumo sobre o Pareamento no delineamento Work horse

• Muita discussão de que o desenho work horse é empiricamente não validado

• É verdade nos quase-experimentos de baixa qualidade • Não é universalmente verdadeiro, por ex. o pareamento

focal local frequentemente reproduz os resultados de experimentos, devido ao suporte comum robusto – ou seja, a superposição de grupo

• Não é verdade se houver um conjunto rico de covariáveis disponível, que avalia bem o processo de atribuição – por ex. Shadish et al., e aqui o pré-teste tem um papel especial.

Page 79: Avaliação de Impacto para Prestação de Contas: Algumas opções de Métodos Tom Cook Northwestern University

Conclusão geral

• Identificar “o que funciona” é central na política• A maioria dos métodos vigentes não é boa• Experimentos de atribuição aleatória são

melhores somente da perspectiva da validade interna

• Três tipos de quase-experimentos cuidadosos requerem mais premissas mas com frequência têm reproduzido os resultados de experimentos.

• São delineamentos de escolha quando os experimentos não forem possíveis