Transcript

Correlação e Regressão Linear

Prof. Marcos Vinicius PóMétodos Quantitativos para Ciências Sociais

CORRELAÇÃO LINEAR

2

Coeficiente de correlação linear “r”

• Mede o grau de relacionamento linear entre valores pareados x e y em uma amostra e também a proximidade dos dados a uma reta.• É também chamado de coeficiente de Pearson.• Varia de -1 a 1, sendo que zero significa não haver correlação.

3

])()([(

...),(

2222 yyNxnx

yxnyxnrYXcorr

i

ii

Exemplos de correlações

4

Fonte: Wikipédia (http://en.wikipedia.org/wiki/File:Correlation_examples2.svg)

Teste de r

• O coeficiente de correlação pode ser testado usando-se a estatística t de student, que é calculado usando-se a seguinte fórmula (N = número de pares de escore X e Y)• O valor crítico é verificado na tabela t de Student, com os graus de liberdade definidos por N-2

5

)1

22r

Nrt

Correlação e causalidade

• Haver correlação entre duas variáveis não implica em que uma cause o efeito na outra.► Pode haver correlações espúrias ou viés.

• Contudo, a correlação é uma pista significativa para ser investigada em busca de causalidade e sua direção.• A ausência de correlação não quer dizer não haver causalidade. Apenas uma análise do modelo e das variáveis incluídas e excluídas pode apontar isso.

► Além disso, pode haver relações não-lineares entre as variáveis.• Correlações espúrias no site www.tylervigen.com

6

7

O comprimento da barba indica o poder mágico?

8

Consumo de chocolate e prêmios NobelCorrelation between Countries' Annual Per Capita Chocolate

Consumption and the Number of Nobel Laureates per 10 Million Population.

Fonte: “Chocolate Consumption, Cognitive Function, and Nobel Laureates”Franz H. Messerli, M.D.N Engl J Med 2012; 367:1562-1564October 18, 2012http://www.nejm.org/doi/full/10.1056/NEJMon1211064, acesso em 04/11/2012

REGRESSÃO LINEAR

9

Regressão linearA regressão linear calcula médias condicionais de uma variável Y a partir de dados sobre uma variável X supostamente relacionada, estabelecendo um modelo para:► Explicar o total ou parcialmente um fenômeno observado.► Mensurar a relação entre duas variáveis.► Permitir predições.Formato: Y = α + β1X1 + β2X2 + ... + ► Y: variável dependente (aquela que é explicada;)► X1, X2,..., Xn: variáveis explicativas (ou independentes)► : erro, parte não explicada pelo modelo

Modelo linear simples: Y = a + bX + ► Usaremos a notação Y = a + bx + para os parâmetros calculados

10

Suposições do modelo de regressão linear

• Variáveis independentes.• As variáveis Xn não podem ser combinações lineares entre si.• O número de parâmetros a serem estimados é menor que o número de observações.• Resíduos possuem variância constante e têm média zero.• Os resíduos são independentes e mostram um comportamento normal.• O relacionamento entre as variáveis pode ser razoavelmente representado por uma reta.

11

• Objetivos: estabelecer uma reta que:► Minimize o total de erros (ε).► Possua significância estatística.► Possua bom fator explicativo (R2).

• Só é possível trabalhar o primeiro, os demais são avaliados.• O ajuste da reta deve minimizar as distâncias entre os valores preditos pela reta e os valores observados.

12

Estimação dos parâmetros

Regressão linear • Princípio: ajustar os parâmetros para minimizar a soma dos erros quadrados entre as previsões e os valores amostrais.• Os parâmetros do nosso modelo são:Y = a + bX + (equação da reta)• Temos que determinar:

► a: intercepto ou valor fixo; ► b: inclinação da reta

13

yi= a+bxi+i

Erros (εi)

i~N(0,²)(erros independentes)

Aplicando ao modeloA soma dos quadrados dos erros é:Assumindo que a distribuição dos erros é normal e derivando essa equação, podemos deduzir que:

Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15

14

xnx

yxnxyb

22

n

i

n

ii xye ii

SQ11

2

)}({ 2),( baba

xbya

Intervalos de confiança para as estimativasOs estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade

15

)(..);( 2

2

)2(

xxnxSetaICi

ni

a

)(.

1.);( 2)2(

xxnSetbIC

i

nb

Correlação x Regressão

Correlação linear

• Não determina causalidade, mas dá pistas.• Pode ser testada estatisticamente.• Identifica se duas variáveis se relacionam de forma linear.• Não indica o quanto uma variável pode estar influenciando a outra.• Determina o quão mais próximo de uma reta é a relação entre as variáveis.

Regressão linear

• Não determina causalidade, mas dá pistas.• Pode ser testada estatisticamente.• Determina uma relação linear entre duas variáveis.• Identifica o quanto uma variável afeta a outra.• Traz elementos que permitem fazer predições.• Necessita de uma análise dos resíduos para decidir sobre sua adequação.

16

Começando a analisar os dados

• Primeiro é necessário termos uma boa idéia do comportamento de nossos dados, de forma a avaliar se o modelo linear é adequado.• Isso é muito importante!• Uma sugestão é colocar os dados em diagramas de dispersão.

17

Por que os gráficos são importantes?Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas, ...i ii iii iv

x y x y x y x y10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58

8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76

13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71

9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84

11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47

14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04

6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25

4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50

12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56

7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91

5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Propriedade Valor

Média de x 9,00

Variância de x 10,00

Média de y 7,50

Variância de y 3,75

Correlação 0,898

Regressão linear y = 2,50 + 0,500x

18

Esses dados compõe o chamado Quarteto de Anscombe

Quarteto de Anscombe... mas são bem diferentes graficamente.

19

Julgando a qualidade do modelo

• Estratégia: comparar variância com o modelo mais simples• Montar tabela ANOVA• Variância do modelo simples• Variância da regressão

20

2

1

)( yySQTotn

ti

2

1

)ˆ(Re i

n

ti yysSQ

Tabela ANOVA para regressão

Fonte de variação

Soma dos Quadrados (SQ)

Graus de Liberdade

Quadrados das Médias

(QM)Fobs

Regressão glN = p – 1

Resíduo glD = n – p

Total glT = n – 1

n: número de amostrasp: número de parâmetros estimados

21

R2: mede a variabilidade de Y explicada pelo modelo. 

segQM

2

ReNgl

gSQgQM

ReRe

Dgl

sSQse

Re2 2

1

)ˆ(Re i

n

ti yysSQ

n

t

n

t

xxb

yy

i

igSQ

1

22

1

2

)(

)ˆ(Re

2

1

)( yySQTotn

ti

SQTot

gSQR

Re2

• A Regressão permite ao pesquisador fazer predições para além dos dados.► Interpolação: em geral é bastante confiável.► Extrapolação: deve-se tomar cuidado para garantir que a linearidade entre as variáveis permaneça válido além da região de observação.

• Já o modelo II permite categorizar as observações e simplificar as predições, mas apenas dentro do intervalo já observado• Seria possível combinar os dois modelos?

22

Regressão: interpolação e extrapolação

Variáveis dummy

• Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, tais como região, gênero, origem, etc.• Isso pode ser interessante para:

► Aumentar o poder explicativo do modelo► Controlar a influência ou viés de determinadas estimativas

• Assim, como forma de modelar as variáveis qualitativas, são utilizadas variáveis binárias, chamadas dummies, que assumem o valor 0 (zero) e 1 (um).23

Utilização de variáveis dummy

• A variável dummy (δ) pode influenciar de três maneiras: ► Mudança na constante (patamar): Yt = (a δD) bXt t► Mudanças na inclinação: Yt = a + (b + δ)Xt + t► Mudanças na constante e na inclinação: Yt = (a δ1D) + (b + δ2D)Xt + t

• É necessário processar os cálculos com e sem a variável dummy para avaliar o seu impacto e se ela traz vantagens explicativas razoáveis ao modelo.

24

• Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos• Verificar se:

► O modelo se ajusta bem► As suposições não foram violadas

o Homocedasticidadeo Independênciao Comportamento normal

• Aconselha-se a fazer uma análise gráfica dos resíduos.25

Análise de resíduos

Plotagem dos resíduos

Quais dessas plotagens mostram normalidade dos resíduos?Quais os problemas das outras? Buss

ab; M

oret

n, 2

002:

456

26

Transformação de variáveis: linearizaçãoConsidere os dados abaixo e os gráficos abaixo.Você teria alguma restrição em adotar o modelo linear nesse caso?Se transformarmos a variável inflação por meio de logaritmo (Log), poderíamos adotar o modelo linear?

1967 1969 1971 1973 1975 1977 1979 19810

500

1000

1500

2000

2500

3000Inflação

Ano 1967 1969 1971 1973 1975 1977 1979Inflação 128 192 277 373 613 1236 2639

1966 1968 1970 1972 1974 1976 1978 19802

2,2

2,4

2,6

2,8

3

3,2

3,4

3,6

Log(inflação)

27

Voltando ao nosso exemploDeseja-se avaliar explicações para o tempo de reação das pessoas a determinado estímulo visual.Variável dependente: Tempo de reação = YVariáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X1, X2, ...

Indivíduo Tempo de reação (ms)

Gênero (M/F)

Idade (anos)

Acuidade Visual (%)

i y w x z1 96 M 20 902 92 F 20 1003 106 M 20 804 100 F 20 905 98 F 25 1006 104 M 25 907 110 M 25 808 101 F 25 909 116 F 30 70

10 106 M 30 9011 109 M 30 9012 100 F 30 8013 112 F 35 9014 105 F 35 8015 118 M 35 7016 108 M 35 9017 113 F 40 9018 112 F 40 9019 127 M 40 6020 117 M 40 80

Dados tirados de Bussab, Wilton. Análise de Variância e Regressão. 2a. Ed. Editora Atual: São Paulo. 1988

28

No nosso exemplo (tempo de reação)

• Calcular as correlações

• O que esses números significam?

29

 Tempo de reação x Idade 0,768 Tempo de reação x Acuidade visual

-0,755

 Idade x Acuidade visual -0,399

Avaliando os dadosJá testamos e descartamos Gênero;Traçar diagramas de dispersão para Idade e para Acuidade Visual

15 20 25 30 35 40 450

20

40

60

80

100

120

140

Idade

55 60 65 70 75 80 85 90 95 100 1050

20

40

60

80

100

120

140

Acuidade visual

O modelo de regressão linear é aplicável em ambos os casos?

30

Exemplo

• Determinar os parâmetros a e b para Tempo de reação x Acuidade• Colocar na equação e interpretar• Quais suas conclusões?

31

Comparação entre modelo II e modelo III

• Qual deles é o melhor?• Estatisticamente, ambos possuem um p-valor significativo (menos de 1%)• Em termos de diminuição da variabilidade (aumento do poder de explicação), ambos estão bem próximos• Como escolher?

► Utilização► Facilidade, conveniência

Modelo IIMédias por faixa etária

Modelo IIIRegressão com acuidade visual

p-valor 0,61% <0,01%R2 58,7% 57,1%

32

Exemplo

• As suposições foram violadas?► Homocedasticidade:► Independência► Comportamento normal?

33

Etapas de análise de dados e determinação de regressão linear1. Exploração dos dadosa. Gráficos de dispersãob. Mapa de correlações2. Determinação da regressão lineara. Verificação da significância (p-valor)b. Verificar o grau de explicação (R2)c. Determinação dos coeficientes da reta de regressão (“a” e “b”)d. Julgamento se o modelo é interessante e pertinente3. Avaliação de atendimento dos pressupostos da correlaçãoa. Análise dos resíduos: normalidade; homocedasticidade

34

Atividade com banco de dados• Health expenditure

► Total expenditure on health, % of gross domestic product► Total health expenditure per capita, US$ PPP► Public health expenditure per capita, US$ PPP► Pharmaceutical expenditure per capita, US$ PPP

• Health care resources► Physicians, density per 1 000 population► Nurses, density per 1 000 population► Hospital beds, density per 1 000 population

• Health care activities► Doctor consultations per capita► Hospital discharge rates, all causes, per 100 000 population► Average length of stay for a normal delivery, days► Caesarean sections, per 1 000 live births

• Health status (Mortality)► Life expectancy at birth, total population► Infant mortality rate, deaths per 1 000 live births

• Risk factors► Tobacco consumption, % of adult population who are daily smokers► Alcohol consumption, litres per population aged 15+► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on measures of height and weight

35

Exercício para entrega com o banco de dados “dados de saúde países da OCDE”:• Selecionar pelo menos um par de variáveis que se relacionem de forma linear.

► Avaliar os pares que possuem correlações estatisticamente significativas.► Verificar o diagrama de dispersão dos pares

• Definir uma regressão linear simples entre as variáveis.► Analisar significância, R2, os coeficientes e os resíduos► Decidir e justificar a pertinência da aplicação das regressão.

Etapas de análise de dados e determinação de regressão linear1. Exploração dos dadosa. Gráficos de dispersãob. Mapa de correlações2. Determinação da regressão lineara. Verificação da significância (p-valor)b. Verificar o grau de explicação (R2)c. Determinação dos coeficientes da reta de regressão (“a” e “b”)d. Julgamento se o modelo é interessante e pertinente3. Avaliação de atendimento dos pressupostos da correlaçãoa. Análise dos resíduos: normalidade; homocedasticidade.36

37

38


Top Related