o tamanho da amostra em avaliações aleatórias · mais altos do que as mulheres? 8 4xlfn7lph d...

49
Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab www.povertyactionlab.org O tamanho da amostra em avaliações aleatórias

Upload: phamdiep

Post on 13-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Cecilia Machado

FGV-EPGE

Abdul Latif Jameel Poverty Action Lab

www.povertyactionlab.org

O tamanho da amostra em avaliações aleatórias

1. Avaliações de impacto: O que são? Por que fazê-las? Quando fazê-las?

2. Marco lógico, indicadores e medição de impacto

3. Por que aleatorizar? 4. Como aleatorizar? 5. O tamanho da amostra 6. Implementar uma avaliação 7. Análise e inferência

Programa do curso

1. Avaliações de impacto: O que são? Por que fazê-las? Quando fazê-las?

2. Marco lógico, indicadores e medição de impacto

3. Por que aleatorizar? 4. Como aleatorizar? 5. O tamanho da amostra 6. Implementar uma avaliação 7. Análise e inferência

Programa do curso

• Introdução ao método científico

• Estimação

• Teste de hipótese

• Significância estatística

• Magnitude do efeito

• Poder

• Fatores que influenciam o poder

Programa da apresentação

1. Relembrar/entender elementos básicos de estatística:

– Estimação, Teste de hipótese, Significância estatística

2. Conceito-chave em avaliações aleatórias: Poder

– Sem análise de poder é possivel “matar” bons programas sem perceber

– Fatores que influenciam o poder

Objetivos da aula

• Aplicação do método científico às ciências sociais

• O método científico implica:

1. Propor uma hipótese

2. Elaborar estudos experimentais para testar a hipótese

• Como testamos as hipóteses em ciências sociais?

Método científico: proposta J-PAL

Quão grande deve ser a amostra para identificar “de maneira confiável” uma diferença entre

dois grupos?

A pergunta de hoje

7

Exemplo: Os homens são, em média, mais altos do que as mulheres?

8

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

• Quanto maior é a nossa amostra:

– Mais nos aproximamos das características da população, reduzimos nossa incerteza, e portanto,

– Será mais provável concluir que há uma diferença, dado que esta diferença existe na população.

Intuição

• Em direito penal, a maioria das instituições seguem a norma:

– “Inocente, até prova do contrário”

• A promotoria quer comprovar a hipótese de que a pessoa acusada é culpada

• Cabe à promotoria demonstrar a culpa

– O júri começa com a “hipótese nula” de inocência

Teste de hipótese

10

• Em estatística aplicada/avaliação, no lugar da “presunção de inocência” a norma é: “presunção de não diferença”

• Hipótese do avaliador/pesquisador: não há diferença na estatura média entre homens e mulheres

• A evidência deve demonstrar o contrário

Teste de hipótese

VOCÊ CONCLUI

homens mais altos homens não são mais altos

A

VERDADE

homens mais altos que mulheres

Erro tipo II

(baixo poder)

homens não são mais altos que mulheres

Erro tipo I

O problema é que podemos cometer dois tipos de erros

12

VOCÊ CONCLUI

homens mais altos homens não são mais altos

A

VERDADE

homens mais altos que mulheres

Erro tipo II

homens não são mais altos que mulheres

Erro tipo I

O problema é que podemos cometer dois tipos de erros

Probabilidade de rejeitar a hipótese

nula, dado que é verdadeira

VOCÊ CONCLUI

homens mais altos homens não são mais altos

A

VERDADE

homens mais altos que mulheres

Erro tipo II

homens não são mais altos que mulheres

Erro tipo I

O problema é que podemos cometer dois tipos de erros

14

Probabilidade de NÃO rejeitar a

hipótese nula, dado que é falsa

Exemplo: Os homens são, em média, mais altos do que as mulheres?

MÉDIA MULHERES

Exemplo: Os homens são, em média, mais altos do que as mulheres?

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

MÉDIA MULHERES

MÉDIA HOMENS

Poder: Quando se rejeita H0: homens não são mais altos do que as mulheres?

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

MÉDIA HOMENS

MÉDIA MULHERES

A hipótese nula seria rejeitada só 26% das vezes

Se a diferença observada em estatura fosse de 1 DS…

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

MÉDIA MULHERES

MÉDIA HOMENS

Se a diferença observada em estatura fosse de 3 DS, quanto seria o poder?

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

MÉDIA MULHERES

MÉDIA HOMENS

A hipótese nula seria rejeitada 91% das vezes

Poder: 91%

MÉDIA MULHERES

MÉDIA HOMENS

• Dois tipos de erros de decisão

• Sempre temos controle sobre o erro de tipo I

– É o limiar de decisão que nós escolhemos, geralmente 5%

• NEM sempre temos controle sobre o erro de tipo II,

– Quando trabalhamos com enquetes, o número de enquetes está determinado

Em resumo, até agora

• Em modelos experimentais podemos determinar quantos erros do tipo II vamos tolerar => Cálculos de poder

• Quanto maior a diferença média entre os dois grupos, maior o poder (menor o erro do tipo II) dado a amostra que temos

Em resumo, até agora

NÃO USE: Magnitude de efeito em programas similares

• Qual o menor efeito que justificaria o programa que está sendo realizado?

• Se o efeito é menor do que isso, não nos interessaria muito provar que seja diferente de zero

• Em contraste, se qualquer efeito maior que esse justificasse adotar este programa: gostaríamos de poder distingui-lo de zero

Como faço uma escolha antecipada da magnitude do efeito?

23

• Unidades típicas de medida são absolutas

– Centímetros, pontos, ocorrências, etc.

• Não é a mesma coisa uma diferença de 20cms quando o desvio padrão (variabilidade) é de 20 cms, do que quando é de 40cms

• efeito padronizado é a magnitude do efeito dividida pelo desvio padrão da variável de resultado

– Suas unidades são desvios padrões

Efeitos padronizados

24

Um efeito de magnitude…

é considerado… …e significa que…

0.2 Pequeno-modesto

O beneficiário médio do grupo de tratamento teve melhor resultado do que 58% do grupo de controle

0.5 Modesto-grande

O beneficiário médio do grupo de tratamento teve melhor resultado do que 69% do grupo de controle

0.8 Grande O beneficiário médio do grupo de tratamento teve melhor resultado do que 79% do grupo de controle

Magnitude do efeito padronizado

0

0,2

0,4

-4 -3 -2 -1 0 1 2 3 4 5 6

0

0,2

0,4

-4 -3 -2 -1 0 1 2 3 4 5 6

0

0,2

0,4

-4 -3 -2 -1 0 1 2 3 4 5 6

Como muda o poder com o tamanho da amostra?

Segundo o nível de significância e a magnitude do efeito…

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

MÉDIA HOMENS

MÉDIA MULHERES

Maior amostra, menor variação da minha estimativa, e portanto maior poder…

MÉDIA MULHERES

MÉDIA HOMENS

Poder: 64%

MÉDIA MULHERES

MÉDIA HOMENS

Poder: 91%

MÉDIA MULHERES

MÉDIA HOMENS

Quão grande deve ser a amostra para identificar “de maneira confiável” uma

diferença entre dois grupos?

A pergunta de hoje

30

Tamanho da amostra

3 ingredientes essenciais, até agora…

31

Nível de significância 5%, 10%

Poder mínimo desejado 80%, 90%

Efeito mínimo padronizado 0.2 DS, 0.5 DS

Uma relação muito simples entre eles…

32

N 4(t1 t )2

1

MEE 2

t1-k = Valor crítico de t associado ao poder 1-k. Para poder k=80%, t1-k=0.84 t = Valor crítico de t associado ao nível de significância . Para =0.05 t=1.666 MEE = Magnitude de efeito Padronizado = Magnitude de efeito/ Desvio Padronizado

• Imagine que você quer elaborar um experimento

para estudar o impacto da tecnologia (ex:

sementes de alto rendimento) sobre a

produtividade agrícola

• Estime quantos agricultores você precisará se

quiser ter um efeito de 10% no rendimento por

hectare, tendo em vista um rendimento médio de

50 quilos/hectare e um desvio padronizado de 60

quilos/hectare

Exercício

• MEE = 0.083

• N ≈ 3,600

Exercício

1. Há dados de linha de base?

2. A alocação do tratamento é a nível individual ou grupal (ex: colégio ou município)?

3. O protocolo de alocação experimental é cumprido de forma parcial ou total?

Três considerações práticas que afetam os requerimentos da amostragem

• Dada uma magnitude do efeito esperada e um tamanho de amostra, o poder é maior se há covariáveis de linha de base que tenham poder explicativo sobre o indicador do resultado

• Isto é, dado uma MEE e poder desejado, posso identificá-lo com uma amostra menor (menos $$$)

1. Há dados de linha de base?

36

• A covariável da linha de base com maior poder explicativo é o próprio indicador de impacto medido na linha de base

• Por exemplo, se eu quiser medir o impacto de um programa educativo sobre o resultado das provas é uma boa idéia aplicar a prova também na linha de base

1. Há dados de linha de base?

37

• Queremos saber o resultado das próximas eleições

• Método 1: Selecionar aleatoriamente 50 pessoas de toda a população da Índia

• Método 2: Selecionar aleatoriamente 5 famílias e pedir a opinião de dez membros de cada família

2. Alocação individual ou grupal

38

• Desenhos de agrupamentos são experimentos em que unidades sociais ou agrupamentos (em vez de pessoas), são alocadas aleatoriamente aos grupos de intervenção

• A unidade de aleatorização (ex: o colégio) é mais ampla que a unidade de análise (ex: os estudantes)

– Aleatorizar colégios e utilizar testes de crianças como indicador de impacto

Desenho de agrupamento

39

• Se as respostas estão correlacionadas dentro de um mesmo grupo, obtemos menos informação medindo várias pessoas do grupo

• É mais informativo medir pessoas não relacionadas

– É melhor ter 200 enquetes, 2 por conglomerado em 100 conglomerados que 100 por conglomerado em dois conglomerados

Desenho de agrupamento: intuição

40

41

• Como porcentagem, r deve estar entre 0 e 1

• Ao trabalhar com desenhos de agrupamentos, é melhor ter um menor r

• Às vezes é baixo: 0, 0,05, 0,08, mas pode ser alto: 0,62

Valores de r (rho)

42

Madagascar Matemática + Linguagem 0.5

Busia, Kenia Matemática + Linguagem 0.22

Udaipur, India Matemática + Linguagem 0.23

Mumbai, India Matemática + Linguagem 0.29

Vadodara, India Matemática + Linguagem 0.28

Busia, Kenia Matemática 0.62

Estudo N° de grupos tratamento/ controle

Número total de agrupamentos

tamanho total da amostra

Empoderamento das mulheres

2 Rajasthan: 100 Bengalia Ocidental: 161

1996 entrevistados 2813 entrevistados

Read Índia de Pratham 4 280 aldeias 17.500 crianças

Balsakhi de Pratham 2 Mumbai: 77 escolas Vadodara: 122 escolas

10.300 crianças 12.300 crianças

Programa de Professores Adicionais no Quênia

8 210 escolas 10.000 crianças

Desparasitação no Quênia 3 75 escolas 30.000 crianças

Alguns exemplos de tamanho da amostra

• Os resultados para as pessoas dentro de um agrupamento podem estar correlacionados

• Desenho: Devemos levar em conta os agrupamentos quando planificarmos o tamanho da amostra

• Quanto maior a correlação, é mais importante ter um maior número de agrupamentos no experimento, para um número de enquetes dado

Consequências dos agrupamentos

44

• Da maneira que o fizemos, os cálculos do tamanho da amostra assumem que todos os participantes seguem o protocolo de alocação

• Em programas sociais não trabalhamos com ratos, mas sim com pessoas

– As pessoas têm livre-arbítrio e podem escolher

3. O protocolo de alocação experimental é

cumprido de forma parcial ou total?

45

• Algumas pessoas alocadas ao tratamento podem não utilizá-lo, e algumas alocadas ao controle podem procurar receber o tratamento

• Por exemplo, no programa de bolsas PACES na Colômbia, só 50% dos estudantes inicialmente alocados para receber bolsa a mantiveram até 3 anos depois

3. O protocolo de alocação experimental é

cumprido de forma parcial ou total?

46

• Isto implica que o tamanho mínimo da amostra para identificar um impacto dado deve ser QUATRO vezes maior

• Em geral, o tamanho mínimo da amostra aumenta com o recíproco do quadrado da diferença no cumprimento entre tratamento e controle: 1/(c-s)2

3. O protocolo de alocação experimental é

cumprido de forma parcial ou total?

47

1. Relembrar/entender elementos básicos de estatística:

– Estimação, Teste de Hipótese, Significância estatística

2. Conceito-chave em avaliações aleatórias: Poder

– Sem Análise de poder é possível “matar” bons programas sem perceber

– Fatores que influenciam o poder

Objetivos da aula

www.povertyactionlab.org

Cecilia Machado

FGV-EPGE

Abdul Latif Jameel Poverty Action Lab