conceitos basicos de regressão e causalidade

12
 UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS SOCIAIS APLICADAS DEPARTAMENTO DE ECONOMIA Regressão, Correlação e Causalidade Objetivos Apresentar alguns conceitos básicos de regressão de duas variáveis, além de uma introdução sobre a intensidade de associação entre duas variáveis. O conceito de coeficiente de correlação linear é usado para expressar esse grau de associação. Bibliografia Livro Texto: GUJARATI, D. N. Econometria Básica . São Paulo: MAKRON Books, 2000. Capítulo 2. Complementar: HILL, C.; GRIFFITHS,W.; JUDGE,G. Econometria . São Paulo: Saraiva, 1999. HOFFMAN, R. e VIEIRA, S.  Análise de regressão: uma introdução à econometria . São Paulo: Hucitec, 1983 (pg 39). HOFFMAN, Rodolfo. Estatística para economistas. São Paulo: Editora Pioneira, 1980. JOHNSTON, J. Métodos econométricos. São Paulo: Atlas, 1976. KMENTA, Jan.  Elementos de econometria. São Paulo: Atlas, 1988. MATOS, O. C. Econometria básica: teoria e aplicação . São Paulo: Atlas, 1995. SALVATORE, Dominic.  Estatística e econometria. São Paulo: McGraw-Hill, 1983. WONNACOTT, R. J. e WONNACOTT, T.H.  Econometria . Rio de Janeiro: LTC, 1976.

Upload: maykon-bueno

Post on 12-Jul-2015

172 views

Category:

Documents


0 download

TRANSCRIPT

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 1/11

UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS SOCIAIS APLICADASDEPARTAMENTO DE ECONOMIA

Regressão, Correlação e Causalidade

Objetivos

Apresentar alguns conceitos básicos de regressão de duas variáveis, além de umaintrodução sobre a intensidade de associação entre duas variáveis. O conceito decoeficiente de correlação linear é usado para expressar esse grau de associação.

Bibliografia

Livro Texto:

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2000. Capítulo 2.

Complementar:

HILL, C.; GRIFFITHS,W.; JUDGE,G. Econometria. São Paulo: Saraiva, 1999.HOFFMAN, R. e VIEIRA, S.  Análise de regressão: uma introdução à econometria. São

Paulo: Hucitec, 1983 (pg 39).HOFFMAN, Rodolfo. Estatística para economistas. São Paulo: Editora Pioneira, 1980.JOHNSTON, J. Métodos econométricos. São Paulo: Atlas, 1976.KMENTA, Jan. Elementos de econometria. São Paulo: Atlas, 1988.MATOS, O. C. Econometria básica: teoria e aplicação. São Paulo: Atlas, 1995.SALVATORE, Dominic. Estatística e econometria. São Paulo: McGraw-Hill, 1983.WONNACOTT, R. J. e WONNACOTT, T.H. Econometria. Rio de Janeiro: LTC, 1976.

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 2/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

Alguns conceitos básicos de regressão

A análise de regressão se preocupa largamente em estimar e/ou prever a média (da população) ou o valor médio das variáveis dependentes a partir dos valores conhecidos ou

fixados de uma ou mais variáveis explicativas.Como se faz isto? Imagine um país hipotético com uma população total de 60famílias. Estamos interessados em prever o nível médio de consumo semanal da populaçãosabendo da renda semanal da família. Para isto dividimos as 60 famílias em 10 grupos defamílias com aproximadamente a mesma renda e examinaremos o consumo das famíliasem cada um desses níveis.Os dados estão na tabela 1.

Tabela 1– Renda Familiar Semanal (X) e Consumo Familiar Semanal (Y)

X →Y ↓

80 100 120 140 160 180 200 220 240 260

55(1/5) 65(1/6) 79(1/5) 80(1/7) 102(1/6) 110(1/6) 120(1/5) 135(1/7) 137(1/6) 150(1/7)60

(1/5)70

(1/6)84

(1/5)93

(1/7)107(1/6)

115(1/6)

136(1/5)

137(1/7)

145(1/6)

152(1/7)

65(1/5)

74(1/6)

90(1/5)

95(1/7)

110(1/6)

120(1/6)

140(1/5)

140(1/7)

155(1/6)

175(1/7)

70(1/5)

80(1/6)

94(1/5)

103(1/7)

116(1/6)

130(1/6)

144(1/5)

152(1/7)

165(1/6)

178(1/7)

75(1/5)

85(1/6)

98(1/5)

108(1/7)

118(1/6)

135(1/6)

145(1/5)

157(1/7)

175(1/6)

180(1/7)

---- 88

(1/6)

--- 113

(1/7)

125

(1/6)

140

(1/6)

----- 160

(1/7)

189

(1/6)

185

(1/7)---- ------ --- 115(1/7)

----- ------ 162(1/7)

----- 191(1/7)

Total(média)

325(65)

462(77)

445(89)

707(101)

678(113)

750(125)

685(137)

1043(149)

966(161)

1211(173)

A tabela deve ser interpretada da seguinte forma. Quando a renda semanalfamiliar é igual a 80, existem 5 famílias cujo consumo varia de 55 a 75 e o consumo médiosemanal é igual 65. Similarmente para as outras classes de renda. Ou seja, a tabela fornecea distribuição Y condicionada a X, ou seja, a distribuição condicional de Y.

A partir da distribuição condicional se pode facilmente obter as probabilidades de Y

condicionadas a X, também chamada de probabilidades condicionais, cuja forma maiscomum de falar é P(Y/X). A partir de P(Y/X) se pode obter as médias condicionais de Y ouvalores esperados de Y dado X. Denominada de média de Y condicional a X e expressa por E(Y/X=X) ou E(Y/X). (Mostrar os dados em um diagrama de dispersão em torno damédia).

O diagrama de dispersão mostra claramente que o consumo, em média, aumentaquando a renda aumenta. Ou seja, os valores médios condicionais de Y aumenta quando Xaumenta. O diagrama mostra que essas médias formam uma linha reta com declividade

Prof. Dr. Sinézio Fernandes Maia 2

2

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 3/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

 positiva. Esta linha é conhecida como curva de regressão da população ou regressão deY sobre X. ou seja, a curva de regressão de Y sobre X é nada mais do que o lugar geométrico das médias ou expectativas condicionais das variáveis dependentes, dadas osvalores fixados da variável explicativa.

Fica claro que cada média condicional E(Y/Xi) é função de Xi. ou seja,

E(Y/Xi) = f(Xi) (1)

A equação acima também é conhecida de função de regressão populacional (FRP)ou apenas regressão populacional (RP). Ela expressa que a média da distribuição de Y serelaciona funcionalmente com Xi. Mas qual forma assume?

Esta é uma questão importante por que na arrasadora maioria das vezes não temosdados populacionais. Como primeira aproximação, podemos admitir que a função tem aseguinte forma:

E(Y/Xi) = β0 + β1Xi (2)

Onde os β0 e β1 são chamados de coeficiente da regressão e podem ser interpretadoscomo o coeficiente do intercepto (β0)e o coeficiente angular (β0). Esta equação é conhecidacomo função de regressão linear da população ou regressão linear da população.

Qual o significado para o termo linear?

Existem duas interpretações para o termo linear. São elas:

a) A primeira interpretação de linearidade implica que a expectativa condicional de Y éuma função linear de Xi, como na equação (1). Nesta interpretação, a seguinte função

E(Y/Xi) = β0 + β1X

2

i não é linear. b) A segunda interpretação de linearidade implica que a expectativa condicional de Y éuma função linear dos parâmetros, β. Neste caso, a equação E(Y/Xi) = β0 + β1X2

i é linear,mas nos parâmetros.

A segunda interpretação é extremamente relevante para se desenvolver os modelosde regressão empregados neste curso. Por isso, quando nos referimos ao termo regressãolinear estamos dizendo que expectativa condicional de Y é uma função linear dos parâmetros, β, podendo não ser nas variáveis.

Especificação estocástica da FRP

A expressão (2) deixa claro que quando aumenta a renda semanal familiar tambémaumenta, em média, o consumo semanal familiar. Mas, qual o comportamento de umafamília específica? Pela tabela 1 se vê que o consumo semanal familiar nãonecessariamente aumenta com o aumento do nível de renda semanal familiar. Na classe derenda familiar 100 existe uma família específica que consome 65, que é menor do que oconsumo de duas famílias que tem renda de 80 (70 e 75). Mas, no entanto, o consumomédio das famílias com 100 de renda é maior do que o consumo médio das famílias com 80

Prof. Dr. Sinézio Fernandes Maia 3

3

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 4/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

de renda. Então, o que se pode dizer sobre a relação entre o consumo de uma famíliaindividual e um dado nível de renda? O que podemos dizer é que pode existir um desvio Yem torno de sua expectativa condicional, como mostra a equação (3):

μi = Yi – E(Y/Xi) ou Yi = E(Y/Xi) + μi (3)

μi é o desvio de Yi em torno de seu valor esperado condicional E(Y/Xi) . μi é umavariável aleatória que pode assumir valores positivos ou negativos. Ele também éconhecido como perturbação estocástica ou erro estocástico. Então, o consumo semanalde uma família é composta de uma parte sistemática ou determinística [E(Y/X i)] e uma parte aleatória ou assistemática ou aleatória.

Yi = E(Y/Xi) + μi como E(Y/Xi) = β0 + β1Xi então,

Yi = β0 + β1Xi + μi (4)

A hipótese de que a reta de regressão passa pelos valores médios condicionais de Yimplica que os valores médios condicionais de μi são zero, ou seja,

E(μi /Xi) = 0 (ver o exemplo para a classe de renda 80 da tabela 1).

Qual o significado de μi?

O significado de μi pode ser interpretado como um substituto de todas as variáveisque afetam Y mas que não estão em (4). Por que isto acontece?

1) imprecisão da teoria;

2) indisponibilidade dos dados;3) variáveis periféricas;4) aleatoriedade implícita no comportamento humano;5) variáveis Proxy fracas;6) princípio da parcimônia – regra da navalha de occam. Que as descrições sejam

mantidas tão simples até que se mostrem inadequadas. Entidades não devem ser multiplicadas sem necessidade.

E quando não tivermos dados populacionais e, sim, amostras dos dados da população? Ou seja, pode-se prever o comportamento médio de Y dado os valores de X a partir de uma amostra da população?

A resposta é sim, mas não de forma acurada. Ou seja, o termo μi irá crescer. Nestecaso teremos uma reta amostral ou função de regressão amostral. Nos supomos que estareta seja uma boa representação, ou aproximação, da reta de regressão populacional. Então,

Yi = β0 + β1Xi + μi

Terá como aproximação

Y*i = β0

* + β1*Xi  + μi

Prof. Dr. Sinézio Fernandes Maia 4

4

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 5/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

A questão é: existe algum método para que Y*i = β0

* + β1*Xi  + μi* seja a melhor 

aproximação de Yi = β0 + β1Xi  + μi. A resposta é que existe e é denominado de método dosmínimos quadrados e será analisado próximamente.

Coeficiente de Correlação Linear (r)

Correlação e CausalidadePai: pra que aquela figura de rato na janela do seu quarto?

Filho: é pra espantar os dragões.Pai: mas não há dragões por aqui.

Filho: então a coisa funciona mesmo!...

Quando duas variáveis são correlacionadas, é possível predizer valores de uma delascom base no conhecimento da outra. Isso leva freqüentemente à conclusão errônea de queuma variável é causa da outra. E isso é particularmente verdadeiro quando a variável“causal” precede a outra variável no tempo. Entretanto, o fato de haver um relacionamentomatemático entre duas variáveis nada nos diz quanto à causa e efeito. Logo, há trêsexplicações possíveis para a obtenção de uma correlação:i)existe uma relação de causa e efeito;ii) ambas as variáveis se acham relacionadas com uma terceira; ouiii)a correlação é devida ao acaso.

O caso da segunda possibilidade, é exemplificado pelas folhas que caem dasárvores pouco antes de começar o inverno. Pode-se concluir que a queda das folhas tenhacausado a queda da temperatura, ou ambas as ocorrências estão relacionadas com amudança de estações?

Estatísticas têm demonstrado acentuada correlação entre o consumo de álcool e aelevação dos salários dos professores. É de concluir que os professores estejam consumindoseus aumentos de salários para “afogar as magoas”, ou será mais lógico admitir que, àmedida que aumenta o nível geral dos salários (inclusive dos professores), haja também umaumento do consumo de bens em geral, inclusive bebidas?

Há muitos exemplos interessantes de relacionamentos espúrios, ou sem sentido. Por exemplo, um estudo recente revelou alta correlação entre o movimento de preços na bolsade Nova Iorque e a variação no comprimento de saias das mulheres. Outro estudo reveloucorrelação entre os nascimentos na Inglaterra e a produção de ferro gusa nos EstadosUnidos.

É que, para estabelecer relações válidas, é preciso mais que simplesmenteemparelhar qualquer tipo de dados até achar alguma correlação.  Em vez disso, usam-se

estudos correlacionais como pesquisas exploratórias iniciais a fim de identificar futuras

áreas de pesquisa. Resultados que parecem promissores com base na lógica ou na teoriadevem ser submetidos a maior análise para determinar se existe uma relação de causa eefeito.

O verdadeiro perigo na utilização de relações para fins preditivos que não tenhamsido validadas em termos de causa e efeito é que as relações podem se modificar, ou quemodificações deliberadas na variável causal possam não conduzir às modificaçõesesperadas na variável efeito.

Prof. Dr. Sinézio Fernandes Maia 5

5

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 6/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

Dessa forma, a regressão e a correlação são técnicas destinadas a estimar orelacionamento entre duas ou mais variáveis. A correlação sintetiza o grau derelacionamento, enquanto a regressão equaciona matematicamente o relacionamento. Aequação pode ser usada para predizer valores de uma variável, dados os valores da outra.

Correlação: É o grau de relação entre as variáveis e, determina o quanto umaequação linear descreve, ou “explica” a relação entre as variáveis.

O Coeficiente de Correlação de Pearson (r) ou r(X,Y), estudado por Karl Pearson (1903), é uma medida da relação entre duas variáveis. Expressa tanto o “ sentido”quanto à “ força” da correlação entre as variáveis.

Ex: Peso de uma pessoa com sua alturaQuantidade Vendida e PreçosQuantidade Consumida e Renda (salários)

Ex:

==

== ++==

)()(

)()(),(

r  f   I l  f   y

Y  f  C k  f   yG I C Y  L K  f  Y 

 Na população, o coeficiente de correlação (ρ ) mede a aderência ou qualidade doajustamento à verdadeira reta da relação entre X e Y, ou ainda o grau de relação entre elas.

 Na amostra, o coeficiente de correlação (r) mede a quantidade de dispersão emtorno da equação linear ajustada através do método dos mínimos quadrados.O (r) é umaestimativa do parâmetro (ρ ), medindo os desvios em relação à reta ajustada.O coeficiente

de correlação (r) será definido como a razão entre a covariância e a raiz quadrada do produto das variâncias de X e Y.

[ ][ ]r 

 X X Y Y  

  X X Y Y  

=− −

− −

Σ

Σ Σ

( )( )

( ) ( )2 2  

Levando-se em consideração o tamanho da amostra, pode-se dividir o numerador e odenominador por (n).

Critério 1  [ ][ ]

r n

  X X Y Y  

n  X X Y Y  

=− −

− −

1

1 2 2

Σ

Σ Σ

( )( )

( ) ( ) 

ou

Prof. Dr. Sinézio Fernandes Maia 6

6

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 7/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

Critério 2  y x S S 

Y  X Covr 

),(=

Σ−Σ

Σ−Σ

ΣΣ

−Σ=

n

Y Y 

n

 X  X 

n

Y  X 

 XY r 

22

22 )()(

MEMÓRIA:

Média:

n

 X 

n

 X  X 

ii ∑∑ == µ 

Desvio-Padrão:n

 X 

n

 X  X S   x x

∑∑ −=

−=

22 )(

1

)( µ σ 

Coeficiente de Variação: 100 X 

S CV  x= > 30: Dispersão muito grande em torno da Média

< 15: A média é representativa para uma amostra

Critério das Variáveis Reduzidas

Considerando )()( Y Y  ye X  X  x iiii −=−= , nota-se que adotar este critério, elimina-sequalquer influência das unidades de medida de X e Y.

2 2

( )( )

 xyr 

 x y

Σ=

Σ Σ

 

O intervalo de variação de (r) – que expressa tanto o sentido quanto a força da correlação -se situa entre -1 < r <1.

Prof. Dr. Sinézio Fernandes Maia 7

7

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 8/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

Observações: quanto maior a qualidade de ajuste, mais próximo de –1 ou +1 estará o valor de (r). Quando não há relação então r=0.

Como se obtém as equações de r?

A técnica mais usada para determinar a equação da reta é a técnica dos mínimosquadrados; a denominação provém do fato de a reta resultante minimizar a soma dosquadrados dos desvios dos pontos em relação à reta. Assim, pode-se dizer que a análise deregressão envolve inferências quanto ao verdadeiro relacionamento existente na população.A inferência envolve tanto testes de significância como a construção de intervalos deconfiança. Além disso, pode-se calcular um valor de coeficiente de correlação (r) que sirvade medida de quão bem a reta “se ajusta” ao conjunto dos pontos.

Baseado em médias e desvios-padrão é possível calcular o coeficiente angular deuma reta ajustada sobre a relação linear de duas variáveis.

))(( 22  y x

 xyr 

ΣΣ

Σ=

O procedimento, agora, é buscar calcular uma reta, a partir da média de X e Y.

Equação da Reta

Y = a + bX

Método dos mínimos quadrados para calcular a média de Y

o o o  Y   

o o o

2)( Y Y −

∑ =− S Y Y  2)(

Minimizar S em torno de uma média significa derivar S em relação Y  ,

Prof. Dr. Sinézio Fernandes Maia 8

8

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 9/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

n

Y Y 

Y nY 

Y Y 

Y Y Y 

Σ=

=−Σ−

=−−Σ=

0)(2

0)1)((2δ 

δ 

Para se calcular a reta da equação a partir das médias, é preciso:

( )

.

a bX  Y  

n

na b X   Y  n

na X  Y b

n n

Y a bX    

Σ+=

+Σ=

Σ=+

=+

Os pontos das coordenadas X e Y estão definidas pelas seguintes equações

)()()( X babX aY Y  +−+=−

)()( X  X bY Y  −=− - queremos saber a magnitude de (b)

(Multiplica-se ambos os lados por (X -  X  )

))(())(( X  X  X  X b X  X Y Y  −−=−− - Aplicando a propriedade do Somatório

2)())(( X  X b X  X Y Y  −=−− ∑∑ - Se dividirmos ambos os lados por 

  22 )()( Y Y  X  X  −Σ−Σ

[ ][ ] [ ][ ]22

2

22 )()(

)(

)()(

))((

Y Y  X   X  

 X   X  b

Y Y  X   X  

Y Y  X   X  r 

−Σ−Σ

−Σ=

−Σ−Σ

−−Σ=  

Chamando Sxx de Variância de X e Syy Variância de Y

Prof. Dr. Sinézio Fernandes Maia 9

9

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 10/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

2

2

)(

)(

Y Y S 

 X  X S 

 yy

 xx

−Σ=

−Σ=

 yy xx

 xx

S S 

bS r 

.

= - Dividindo-se os Valores por (n)

Chamando Sx2 = Sx/n e Sy2 = Sy/n

Sx

Syr b

Sy

Sxbr 

SySx

bSx

SySx

bSxr  =⇔==== .

..

2

22

2

sendo)(

)(.

Sx Padrão Desvio

Sy Padrao Desvior b

−−

=

Teste de Significância do Coeficiente de Correlação

O valor de (r) calculado através dos n pares de valores das variáveis X e Y,representa apenas uma estimativa do verdadeiro coeficiente de correlação populacional ρ .Para testar a hipótese de que o coeficiente de correlação é igual a zero (H 0:ρ =0), énecessário aplicar o teste t:

21

2

nr t cal 

−=

O t calculado será comparado ao t tabelado, a um nível α de significância, com n-2graus de liberdade. Se t cal  ≥ t tab, rejeita-se H0, ou seja, existe uma correlação entre asvariáveis avaliadas, dada pelo valor de r .

Prof. Dr. Sinézio Fernandes Maia 10

10

5/11/2018 conceitos basicos de regress o e causalidade - slidepdf.com

http://slidepdf.com/reader/full/conceitos-basicos-de-regressao-e-causalidade 11/11

UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

ExercícioExemplo 1:

X Y XY X2 Y2 xi=(X- X  ) yi=(Y-Y  ) xi2 yi

2 xiyi

6 7 42 36 49 0 1 0 1 05 6 30 25 36 -1 0 1 0 0

9 10 90 81 100 3 4 9 16 1210 9 90 100 81 4 3 16 9 123 2 6 9 4 -3 -4 9 16 124 3 12 16 9 -2 -3 4 9 68 9 72 64 81 2 3 4 9 67 5 35 49 25 1 -1 1 1 -16 6 36 36 36 0 0 0 0 02 3 6 4 9 -4 -3 16 9 12

60 60 419 420 430 60 70 596 6

Critério 1:

Σ−Σ

Σ−Σ

ΣΣ−Σ

=

n

Y Y 

n

 X  X 

n

Y  X  XY 

r 2

22

2 )()(

9103,08074,64

59

70.60

59

10

)60(430

10

)60(420

10

60.60419

22====

−= r r 

Critério 2:

))(( 22  y x

 xyr 

ΣΣ

Σ=

9103,08074,64

59

)70)(60(

59==== r r 

Teste de significância:

tcal= 21

2

nr t cal 

−= = 2199,6

17135,0

89103,0

)9103,0(1

2109103,0

2==

Interpretação: Observar o valor tabelado na tabela t-student, com n-2 (g.l.) ao nívelde 5%, obtendo um ttab=2,306. Observa-se que o valor tcal>ttab, rejeita-se H0:ρ =0, ou seja,existe uma correlação entre as variáveis avaliadas.

Prof. Dr. Sinézio Fernandes Maia 11

11