variáveis binárias - eco.unicamp.br · variável binária uma variável binária (variável...
TRANSCRIPT
Variáveis BináriasEconometria
Alexandre Gori Maia
Ementa:
• Definição;
• Variáveis binárias para representar 2 ou k categorias nominais;
• Variáveis binárias em equações semi-logarítmicas;
• Coeficientes angulares interativos;
• Regressão poligonal;
• Teste de mudança estrutural;
Bibliografia:
- Maia, Alexandre Gori (2017). Econometria: conceitos e aplicações. Cap 11.
Variáveis Binárias - Definição1) Escala Nominal: Valores representam categorias (nomes). Não se pode falar que um seja
maior que o outro. Exemplo: sexo.
2) Escala Ordinal: Valores representam uma hierarquia de posições. Não se pode, entretanto,
falar quão maior é um valor em relação a outro. Exemplo: classe social.
3) Escala Intervalar: Valores representam ordem e é possível mensurar intervalo entre eles.
Não se pode, entretanto, dizer quantas vezes um é maior que outro.
Exemplo: ano.
4) Escala de razão: Valores representam ordem, é possível mensurar intervalo entre eles e
quantificar grandezas em uma escala de razão. Exemplo: renda.
Variável Binária
Uma variável binária (variável dummy) pode representar dois estados possíveis::
X0, ausência da característica de interesse (Fracasso)
1, presença da característica de interesse (Sucesso)
Podemos, assim, estimar a influência de variáveis explicativas (independentes) nominais ou
ordinais em modelo de regressão, da mesma maneira que fazemos com variáveis
quantitativas de escala intervalar ou de razão.
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
2/16
Variáveis Binárias - Exemplo
Podemos inicialmente supor que o no de filhos
esteja associado à escolaridade da mãe.
NFilhos = 0 + 1 AnosEst + e
Agora seja a variável binária:
Tem TV a cabo?0 = Não tem TV
1 = Tem TV
Por que não considerar dois ajustes?
i) para famílias sem TV a cabo;
ii) para famílias com TV a cabo;
NFilhos = 0 + 1 AnosEst + 2 TV + e
Seja a relação para o número de filhos e TV a cabo no domicílio:
famílias sem TV
famílias com TV
Este problema pode ser simplificado por um
modelo de regressão linear múltipla:
Anos EstTV
N FIlhos
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
3/16
Variáveis Binárias - ExemploSeja a relação entre número de filhos (Y), anos de estudo da mãe (X1) e se tem TV
a cabo no domicílio (X2): iii eDXYi
211
)()(ˆ T1TyXXXβ
Aplicando MQO:
6
4
2
0
0011
35815
1111
031
051
181
1151
0011
35815
1111
ˆ
1
β
1,45-
34,0
36,6
2
54
12
22312
2332331
12314
ˆ
1
β
Espera-se, para mulheres
com TV a cabo no
domicílio, em média 1,45
filhos a menos que
mulheres sem TV,
independente dos anos
de escolaridade.
eβXy ˆˆ
4
3
2
1
e
e
e
e
031
051
181
1151
6
4
2
0
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
2
1
Dados da amostra :
Teremos que:
iii eXY ˆ34,036,6
Quando D=0 (sem TV)
iii eXY ˆ34,0)45,136,6(
Quando D=1 (com TV)
Como:
iiii eDXY ˆ45,134,036,6
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
4/16
Nominais com Múltiplas CategoriasPara representarmos duas categorias nominais (A e B), precisamos de apenas uma
variável binária D. A referência da análise será dada por D=0. Exemplo:
iiii eDXY 21
O coeficiente 2 indicaria quanto Y seria, em
média, maior (ou menor) para a categoria A
(D=1) que a categoria de referência B (D=0),
independente do valor de X.
Para B:iii eXY 1
iii eXY 12)( Para A:
Para representarmos k categorias nominais, precisamos de k–1 variáveis binárias D’s.
A referência da análise será dada por uma das categorias. Exemplo, supondo k=3:
iii eDDXYii 23121
O coeficiente 2 indicaria quanto Y seria, em
média, maior para a categoria A (D1=1) que a
categoria de referência C (D1=0 e D2=0),
independente do valor de X. O coeficiente 3
indicaria quanto Y seria, em média, maior para
a categoria B (D2=1) que a categoria de
referência C. Pois teríamos:
Categoria D1i D2i
A 1 0
B 0 1
C 0 0
Para C: iii eXY 1
iii eXY 12)( Para A:
iii eXY 13)( Para B:
Categoria Di
A 1
B 0
X
Y
2
A
B
X
Y
3
A
B
C2
DefiniçãoCategorias
NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
5/16
Múltiplas Categorias - ExemploSejam os dados amostrais para renda (Y), anos de estudo (X) e posição na
ocupação:
iii eDDXYii 23121
)()(ˆ T1TyXXXβ
Por MQO:
7,506
7,146
35
3,93
600
900
9600
2200
1001
02122
01216024
12246
ˆ
1
β
eβXy ˆˆ
6
5
4
3
2
1
e
e
e
e
e
e
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
1001
0181
0141
0081
0041
0001
600
500
400
400
200
100
3
2
1
Dadas as binárias:Yi Xi Posição Ocupação
100 0 Empregado
200 4 Empregado
400 8 Empregado
400 4 Autônomo
500 8 Autônomo
600 0 Empregador
..,0
,1
1cc
AutônomoseD
i
..,0
,1
2cc
EmpregadorseD
i
Terermos o ajuste:
Yi Xi Posição Ocupação D1i D2i
100 0 Empregado 0 0
200 4 Empregado 0 0
400 8 Empregado 0 0
400 4 Autônomo 1 0
500 8 Autônomo 1 0
600 0 Empregador 0 1
E:
ii XY 35)7,5063,93(
ii XY 35)7,1463,93(
ii XY 353,93
Independente dos anos de escolaridade, o
rendimento médio dos autônomos seria 146,7
reais superior ao dos empregados e o dos
empregadores 506,7 superior.
DefiniçãoCategorias
NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
6/16
Equação de Rendimentos - ExemploSejam os dados amostrais para 164 mil ocupados no Brasil em 2011:
Considerando inicialmente o modelo:
iiii eidadeanosestrenda 21
Discriminando por sexo pela binária:
homensemulhersefeminino 0;,1
Discriminando por cor pela binária:
..0;,1 ccbrancacorsebranca
Discriminando por cor pelas binárias
(cor preta como referência):
..0;,1 ccpardacorseparda
..0;,1 ccamarelacorseamarela
Discriminando por região pelas binárias
(região Sul como referência):
..0;,1 ccnorteregiãoseon
..0;,1 ccnordesteregiãoseen
..0;,1 ccsudesteregiãosese
..0;,1 ccoestecentroregiãoseoc
DefiniçãoCategorias
NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
7/16
D
ln(Y
)
iii uβD)(Y ln
0 1
eY 0
)ln( 1Y
e
eee
Y
YY
0
01)ln( 0Y
eY1
10
01 eY
YYPara D=0: Para D=1: Então:
+
Binárias em Equações Semi-LogarítmicasSeja a equação semi-logarítmica:
D
Yii uβD
i eY
0 1
e
e +
• Seja Y1 o valor de Y para D=1 e Y0 o valor para D=0;
• Para obtermos a variação relativa em Y quando comparamos D=0 e D=1:
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
8/16
Equação de Rendimentos - ExemploSejam os dados amostrais para 164 mil ocupados no Brasil em 2011:
Considerando agora o modelo:
iiii eidadeanosestrenda 21)ln(
Em relação aos homens, a variação
relativa da renda para as mulheres seria:
3581,0144332,0 e
Em relação aos ocupados de cor preta, as
variações relativas para as cores seriam:
1518,010,14130e
0086,01 -0,0086e
2495,012228 0,e
branca:
parda:
amarela:
Em relação aos ocupados da região SU, as
variações relativas para as regiões seriam:
1497,01 -0,1621e
3097,01 -0,3706e
0046,01 -0,0046e
NO:
NE:
SE:
0788,010,0758eCO:
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
9/16
Variáveis Binárias - Aplicações
AnosEst
RndeMascAnosEstRnd 210
Esse modelo pressupõe deslocametos da função de
rendimentos (0) mas retornos marginais da escolaridade (1)
iguais para homens e mulheres.0
2
Homens
Mulheres
Esse modelo pressupõe desolocamentos da função de
rendimentos (0) e retornos marginais da escolaridade
diferentes para homens (2+3) e mulheres (2).
AnosEst
Rnd
0
1
eDXAnosEstAnosEstRnd *)(210
Nesse modelo a variável binária é utilizada para captar
mudanças na inclinação entre segmentos consecutivos de X.
1+2
X*
AnosEst
Rnd
eAnosEstMascAnosEstMascRnd 3210
0
2
Homens
Mulheres
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
10/16
Coeficientes Angulares InterativosSejam os dados amostrais para renda (Y), anos de estudo (X) e sexo dos ocupados:
iiiiii eXDDXY 321
)()(ˆ T1TyXXXβ
Aplicando MQO teremos:
5,12
100
25
7,116
5600
1100
9000
1750
80128012
123123
801216024
123246
ˆ
1
β
eβXy ˆˆ
6
5
4
3
2
1
e
e
e
e
e
e
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
8181
4141
0101
0081
0041
0001
500
400
200
300
250
100
3
2
1
onde
Yi Xi Sexo
100 0 Mulher
250 4 Mulher
300 8 Mulher
200 0 Homem
400 4 Homem
500 8 Homem
..,0
,1
cc
HomemseDi
Dado o ajuste:
E as estimativas serão dada por:
Independente dos anos de escolaridade, o
rendimento médio dos homens seria 100 reais
superior ao das mulheres. O retorno marginal da
escolaridade para os homens seria ainda, em média,
12,5 reais superior ao das mulheres.
Yi Xi Sexo
100 0 Mulher
250 4 Mulher
300 8 Mulher
200 0 Homem
400 4 Homem
500 8 Homem
ii XY )5,1225()1007,116(
ii XY 257,116
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
11/16
Yi Xi Sexo Di DiXi
100 0 Mulher 0 0
250 4 Mulher 0 0
300 8 Mulher 0 0
200 0 Homem 1 0
400 4 Homem 1 4
500 8 Homem 1 8
Regressão Poligonal - ExemploSejam os dados amostrais para renda (Y) e anos de estudo (X):
iiiii eDXXY )8(21
)()(ˆ T1TyXXXβ
Aplicando MQO:
2,46
1,25
6,116
10000
29000
2600
7819014
19057450
14506
ˆ
1
β
eβXy ˆˆ
6
5
4
3
2
1
e
e
e
e
e
e
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
7151
5131
2101
081
041
001
800
700
450
300
250
100
2
1
onde
Yi Xi
100 0
250 4
300 8
450 10
700 13
800 15
..,0
8,1
cc
XseD
i
i
Supondo que o retorno marginal da escolaridade na
mude a partir do segundo grau (X>8), teríamos:
As estimativas de MQO seriam:
Espera-se, para cada ano de escolaridade, uma
variação marginal de 25,1 reais na renda. Acrescenta-
se, ainda, 46,2 reais nessa variação para cada ano
adicional a partir do 2º grau (8 anos ou mais de
escolaridade)
Yi Xi Di (Xi-8)Di
100 0 0 0
250 4 0 0
300 8 0 0
450 10 1 2
700 13 1 5
800 15 1 7
)8(2,461,256,116 iii XXY
ii XY 1,256,116
8
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações Mudança Estrutural
12/16
Teste de Mudança Estrutural
X
Seja as seguintes hipóteses para a relação entre Y, X e a binária D:
Y D=1
D=0
X
Y
D=1
D=0
X
Y
D=0
D=1
X
Y D=1 e
D=0
iiiiii eXDXDY 3210
00 31 e 00 31 e 00 31 e00 31 e
Testar se há mudança estrutural significa testar
se pelo menos um dos coeficientes 1 ou 3 é
diferente de zero:
0/:
0:
311
310
oueH
H
Y
X D
Esse teste corresponde à contribuição marginal
das variáveis associadas aos coeficientes 1 e 3.
D.X
Regressões
Coincidentes
Regressões
Paralelas
Regressões
ConcorrentesRegressões
Dissimilares
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações
Mudança
Estrutural
13/16
Teste de Mudança EstruturalSQReg devido a X, D e D.X (Irrestrito):
Variabilidade de Y explicada pelo conjunto das variáveis X, D e D.X
),,/(Re XDDXYgSQ
SQReg devido exclusivamente a X1 (Restrito):
Variabilidade de Y explicada exclusivamente por X
)/(Re XYgSQ
SQReg devido ao acréscimo de X2:
Variabilidade de Y explicada por D e D.X após considerada a
variabilidade explicada por X
rir gSQgSQXãoContribuiç ReRe2
Graus de liberdade: 3 coeficientes angulares do modelo
Y=+1D+2X+3D.X+e
Graus de liberdade: 1 coeficiente angular do modelo Y=+2X+e.
Graus de liberdade: 2 novos coeficientes angulares incorporados
no modelo (1 e 3).
ouirgSQRe
ou rgSQRe
Y
X D
D.X
Y
X D
D.X
Y
X D
D.X
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações
Mudança
Estrutural
14/16
Contribuição Marginal - DefiniçãoSeja o modelo irrestrito de RLM:
Em outras palavras, estaríamos interesados em testar a hipótese nula de que os q
coeficientes do modelo irrestrito são nulos:
Para verificarmos se a contribuição de um grupo de q variáveis é significativa no modelo
devemos, primeiro, elaborar um modelo com restrição aos parâmetros . Suponha que, por
simplicidade, as q variáveis que desejamos testar são as últimas das k variáveis do
modelo irrestrito (a ordem, obviamente, não faz importância). Nosso modelo restrito
seria:
O teste estatístico consiste agora em verificar se a contribuição marginal dessas q variáveis
é significativa . A estatística F será então dada por:
eXXXY kk ...2211
eXXXY qkqk ...2211
0...,,0: 10 kqkH
)1/(Re
/)ReRe(
knsSQ
qgSQgSQF
ir
rir
Onde SQRegir e SQRegr são, respectivamente, a soma dos quadrados da regressão sem e
com restrição nos parâmetros, SQResir é a soma dos quadrados dos resíduos da regressão
irrestrita.
ou)1/(Re
/)ReRe(
knsSQ
qsSQsSQF
ir
irr
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações
Mudança
Estrutural
15/16
Mudança Estrutural - ExemploSejam os dados amostrais para renda (Y), anos de estudo (X) e sexo dos ocupados:
iiiiii eXDDXY 321
Teremos, para o modelo irrestrito:
onde
Yi Xi Sexo
100 0 Mulher
250 4 Mulher
300 8 Mulher
200 0 Homem
400 4 Homem
500 8 Homem
..,0
,1
cc
HomemseDi
Dado o modelo:Yi Xi Sexo Di DiXi
100 0 Mulher 0 0
250 4 Mulher 0 0
300 8 Mulher 0 0
200 0 Homem 1 0
400 4 Homem 1 4
500 8 Homem 1 8iiiiii eXDDXY ˆ5,12100257,116
98750irSQReg
E para o modelo restrito:
iii eXY ˆ25,317,166
62500rSQReg
875,102/3,3333
2/)6250098750(
3,3333irSQRese
8,9895rSQRese
)4/(Re
2/)ReRe(
nsSQ
gSQgSQF
ir
rir
Onde o valor p associado a 10,875 em uma distribuição F com 2 graus de liberdade no numerador e 2 no
denominador é de 0,084. Ou seja, se afirmarmos que há mudança estrutural em relação ao sexo
estaremos sujeito a uma probabilidade de erro de 8,4%.
Para testar a hipótese de mudança
estrutural:
0/:
0:
321
320
oueH
H
E a estatística de teste será:
Definição Categorias NominaisEquações Semi-
LogarítmicasAplicações
Mudança
Estrutural
16/16