correlação e regressão linear · 2020. 5. 26. · correlação e causalidade haver correlação...

33
Correlação e Regressão Linear Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Upload: others

Post on 05-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Correlação e Regressão Linear

Prof. Marcos Vinicius Pó

Métodos Quantitativos para Ciências Sociais

Page 2: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Variação SQe (Soma dos

Quadrados dos Erros)

Graus de

Liberdade MQ (Média dos

Quadrados) Fobs

Entre

subpopulações SQe gle = k-1

Dentro das

subpopulações SQd gld = n-k

Total SQt glt = n-1

Tabela da ANOVA

n: número de elementos da amostra

ni: número de elementos da subamostra de uma subpopulação

k: número de subpopulações

MQd

MQe

egl

SQeMQe

dgl

SQdMQd

2

SQt

SQeR

2R2: coeficiente de explicação. Significa a quantidade de

informação que é explicada pelo modelo em relação ao modelo mais simples (puro acaso).

p-valor de F: indica a possibilidade de generalização do modelo

para a população, ou seja, o nível em que podemos afirmar que o modelo é significativo.

Page 3: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

CORRELAÇÃO LINEAR

3

Page 4: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Coeficiente de correlação linear “r”

Mede o grau de relacionamento linear entre valores pareados x e y em uma amostra e também a proximidade dos dados a uma reta.

É também chamado de coeficiente de Pearson.

Varia de -1 a 1, sendo que zero significa não haver correlação.

])()([(

...),(

2222 yyNxnx

yxnyxnrYXcorr

i

ii

4

Page 5: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Exemplos de correlações

5

Fonte: Wikipédia (http://en.wikipedia.org/wiki/File:Correlation_examples2.svg)

Page 6: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

6

Há correlação entre comprimento da barba e poder mágico?

Page 7: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Teste de r

O coeficiente de correlação pode ser testado usando a estatística t de Student, que é calculado usando-se a seguinte fórmula:

O valor crítico é verificado na tabela t de Student, com os graus de liberdade definidos por N-2

7

)1

2

2r

Nrt

N = pares de escore X e Y

Page 8: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Correlação e causalidade

Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias ou viés.

Contudo, a correlação é uma pista significativa para ser investigada em busca de causalidade e sua direção.

A ausência de correlação também não quer dizer não haver relação entre duas variáveis. Apenas uma análise do modelo pode apontar isso. Além disso, pode haver relações não-lineares entre as variáveis.

Correlações espúrias no site www.tylervigen.com

8

Page 9: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

9

Consumo de chocolate e prêmios Nobel

Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million

Population.

Fon

te:

“Ch

oco

late

Co

nsu

mp

tio

n, C

ogn

itiv

e F

un

ctio

n, a

nd

No

bel

Lau

reat

es”

Fran

z H

. Mes

serl

i, M

.D.

N E

ngl

J M

ed 2

01

2;

36

7:1

56

2-1

56

4O

cto

ber

18

, 20

12

h

ttp

://w

ww

.nej

m.o

rg/d

oi/

full/

10

.10

56

/NEJ

Mo

n1

21

10

64

, ace

sso

em

0

4/1

1/2

01

2

Page 10: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

REGRESSÃO LINEAR

10

Page 11: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Regressão linear simples

Calcula médias condicionais da variável Y a partir de uma variável X supostamente relacionada, estabelecendo um modelo para:

► Explicar o total ou parcialmente um fenômeno observado.

► Mensurar a relação entre duas variáveis.

► Permitir predições.

Modelo linear simples: Y = a + bX +

Usaremos a notação Y = a + bx + para os parâmetros calculados

Y: variável dependente (aquela que é explicada;)

X1, X2,..., Xn: variáveis explicativas (ou independentes)

: erro, parte não explicada pelo modelo

11

Page 12: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Suposições do modelo de regressão linear

• Variáveis independentes.

• As variáveis Xn não podem ser combinações lineares entre si.

• O número de parâmetros a serem estimados é menor que o número de observações.

• Resíduos possuem variância constante e têm média zero.

• Os resíduos são independentes e mostram um comportamento normal.

• O relacionamento entre as variáveis pode ser razoavelmente representado por uma reta.

12

Page 13: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

• Objetivos: estabelecer uma reta que:

► Minimize o total de erros (ε).

► Possua significância estatística.

► Possua bom fator explicativo (R2).

• Só é possível trabalhar o primeiro, os demais são avaliados.

• O ajuste da reta deve minimizar as distâncias entre os valores preditos pela reta e os valores observados.

13

Estimação dos parâmetros

Page 14: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Regressão linear

• Princípio: ajustar os parâmetros para minimizar a soma dos erros quadrados entre as previsões e os valores amostrais.

• Os parâmetros do nosso modelo são:

Y = a + bX + (equação da reta)

• Temos que determinar:

► a: intercepto ou valor fixo;

► b: inclinação da reta

14

yi= a+bxi+i

Erros (εi)

i~N(0,²) (erros independentes)

Page 15: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Aplicando ao modelo

A soma dos quadrados dos erros é:

Assumindo uma distribuição normal dos erros deduzimos que:

Os estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade.

xnx

yxnxyb

22

n

i

n

ii xye ii

SQ11

2

)}({2),( baba

xbya

Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15

15

)(..);(

2

2

)2(

xxn

xSetaIC

i

n

ia

)(.

1.);(

2)2(

xxnSetbIC

i

nb

Page 16: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Correlação x Regressão

Correlação linear

• Não determina causalidade, mas dá pistas.

• Pode ser testada estatisticamente.

• Identifica se duas variáveis se relacionam de forma linear.

• Não indica o quanto uma variável afeta a outra.

• Determina o quão mais próximo de uma reta é a relação entre as variáveis.

Regressão linear

• Não determina causalidade, mas dá pistas.

• Pode ser testada estatisticamente.

• Determina uma relação linear entre duas variáveis.

• Identifica o quanto uma variável afeta a outra.

• Traz elementos que permitem fazer predições.

• Necessita de uma análise dos resíduos para decidir sobre sua adequação.

16

Page 17: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Começando a analisar os dados

• Primeiro é necessário termos uma boa idéia do comportamento de nossos dados, de forma a avaliar se o modelo linear é adequado.

• Isso é muito importante!

• Uma sugestão é colocar os dados em diagramas de dispersão.

17

Page 18: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Por que a análise gráfica é importante?

Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas, ...

1 2 3 4

x y x y x y x y

10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58

8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76

13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71

9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84

11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47

14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04

6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25

4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50

12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56

7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91

5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Propriedade Valor

Média de x 9,00

Variância de x 10,00

Média de y 7,50

Variância de y 3,75

Correlação 0,898

Regressão linear y = 2,50 + 0,500x

18

Esses dados compõe o chamado Quarteto de Anscombe

Page 19: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Quarteto de Anscombe

... mas são bem diferentes graficamente.

19

Page 20: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Julgando o modelo: ANOVA para regressão

Fonte de

variação

Soma dos

Quadrados (SQ)

Graus de

Liberdade

Quadrado das

Médias (QM) Fobs

Regressão glN = p – 1

Resíduo glD = n – p

Total glT = n – 1

n: número de amostras

p: número de parâmetros estimados

se

gQM2

ReNgl

gSQgQM

ReRe

Dgl

sSQse

Re2

2

1

)ˆ(Rei

n

ti

yysSQ

n

t

n

t

xxb

yy

i

igSQ

1

22

1

2

)(

)ˆ(Re

2

1

)( yySQTotn

ti

20

R2: mede a variabilidade

de Y explicada pelo

modelo. SQTot

gSQR

Re2

Page 21: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

• A Regressão permite fazer predições.

► Interpolação: em geral é bastante confiável.

► Extrapolação: deve-se tomar cuidado para garantir que a linearidade entre as variáveis permaneça válido além da região de observação.

• Já o modelo II permite categorizar as observações e simplificar as predições, mas apenas dentro do intervalo já observado

• Seria possível combinar os dois modelos?

21

Regressão: interpolação e extrapolação

Page 22: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

• Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos com o objetivo de verificar se:

► O modelo se ajusta bem

► As suposições não foram violadas

o Homocedasticidade

o Independência

o Comportamento normal

• Aconselha-se a fazer uma análise gráfica dos resíduos.

22

Análise de resíduos

Page 23: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Plotagem dos resíduos

Quais dessas plotagens mostram normalidade dos resíduos?

Quais os problemas das outras?

Bu

ssab

; Mo

rett

in, 2

00

2:4

56

23

Page 24: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Transformação de variáveis: linearização

Considere os dados abaixo e os gráficos abaixo.

Você teria alguma restrição em adotar o modelo linear nesse caso?

Se transformarmos a variável inflação por meio de logaritmo (Log), poderíamos adotar o modelo linear?

0

500

1000

1500

2000

2500

3000

1967 1969 1971 1973 1975 1977 1979 1981

Inflação

Ano 1967 1969 1971 1973 1975 1977 1979

Inflação 128 192 277 373 613 1236 2639

2

2,2

2,4

2,6

2,8

3

3,2

3,4

3,6

1966 1968 1970 1972 1974 1976 1978 1980

Log(inflação)

24

Page 25: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Voltando ao nosso exemplo

Deseja-se avaliar explicações para o tempo de reação das pessoas a determinado estímulo visual.

Variável dependente: Tempo de reação = Y

Variáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X1, X2, ...

Indivíduo Tempo de

reação (ms) Gênero (M/F)

Idade (anos)

Acuidade Visual (%)

i y w x z

1 96 M 20 90 2 92 F 20 100 3 106 M 20 80 4 100 F 20 90 5 98 F 25 100 6 104 M 25 90 7 110 M 25 80 8 101 F 25 90 9 116 F 30 70

10 106 M 30 90 11 109 M 30 90 12 100 F 30 80 13 112 F 35 90 14 105 F 35 80 15 118 M 35 70 16 108 M 35 90 17 113 F 40 90 18 112 F 40 90 19 127 M 40 60 20 117 M 40 80

Dados tirados de Bussab, Wilton. Análise de Variância e Regressão. 2a. Ed. Editora Atual: São Paulo. 1988

25

Page 26: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

No nosso exemplo (tempo de reação)

Calcular as correlações

O que esses números significam?

26

Tempo de reação x Idade 0,768

Tempo de reação x Acuidade visual -0,755

Idade x Acuidade visual -0,399

Page 27: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Avaliando os dados

Já testamos e descartamos Gênero;

Traçar diagramas de dispersão para Idade e para Acuidade Visual

0

20

40

60

80

100

120

140

0 10 20 30 40 50

Idade

0

20

40

60

80

100

120

140

0 20 40 60 80 100 120

Acuidade visual

O modelo de regressão linear é aplicável em ambos os casos?

27

Page 28: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Exemplo

• Determinar os parâmetros a e b para Tempo de reação x Acuidade

• Colocar na equação e interpretar

• Quais suas conclusões?

28

Plots do SPSS

Page 29: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Comparação entre modelo II e modelo III

• Qual é o melhor?

► Estatisticamente, ambos possuem um p-valor significativo.

► Na diminuição da variabilidade (R2), ambos estão próximos.

► Como escolher?

o Utilização

o Facilidade, conveniência

Modelo II Médias por faixa etária

Modelo III Regressão com acuidade visual

p-valor 0,61% <0,01%

R2 58,7% 57,1%

29

Page 30: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Exemplo

• As suposições foram violadas?

► Homocedasticidade:

► Independência

► Comportamento normal?

30

Plots do SPSS

Page 31: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Etapas de análise de regressão linear

1. Exploração dos dados

a. Gráficos de dispersão

b. Mapa de correlações

2. Determinação da regressão linear

a. Verificação da significância (p-valor)

b. Verificar o grau de explicação (R2)

c. Determinação dos coeficientes da reta de regressão (“a” e “b”)

d. Julgamento se o modelo é interessante e pertinente

3. Avaliação de atendimento dos pressupostos da correlação

a. Análise dos resíduos: normalidade; homocedasticidade

31

Page 32: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

Atividade com banco de dados

Health expenditure ► Total expenditure on health, % of gross domestic product ► Total health expenditure per capita, US$ PPP ► Public health expenditure per capita, US$ PPP ► Pharmaceutical expenditure per capita, US$ PPP

Health care resources

► Physicians, density per 1 000 population ► Nurses, density per 1 000 population ► Hospital beds, density per 1 000 population

Health care activities ► Doctor consultations per capita ► Hospital discharge rates, all causes, per 100 000 population ► Average length of stay for a normal delivery, days ► Caesarean sections, per 1 000 live births

Health status (Mortality)

► Life expectancy at birth, total population ► Infant mortality rate, deaths per 1 000 live births

Risk factors

► Tobacco consumption, % of adult population who are daily smokers ► Alcohol consumption, litres per population aged 15+ ► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports ► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on measures of height and weight

32

Page 33: Correlação e Regressão Linear · 2020. 5. 26. · Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias

33

Plots do SPSS