calculo r2

55
1 9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Upload: cayopereira

Post on 02-Jul-2015

898 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: calculo R2

1

9Correlação e Regressão

9-1 Aspectos Gerais

9-2 Correlação

9-3 Regressão

9-4 Intervalos de Variação e Predição

9-5 Regressão Múltipla

Page 2: calculo R2

2

9-1 Aspectos Gerais

Dados Emparelhadoshá uma relação?

se há, qual é a equação?

usar a equação para predição

Page 3: calculo R2

3

9-2

Correlação

Page 4: calculo R2

4

Definição

Correlaçãoexiste entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra.

Page 5: calculo R2

5

Suposições

1. A amostra de dados emparelhados (x,y) é uma amostra aleatória.

2. Os pares de dados (x,y) tem uma distribuição normal bivariada.

Page 6: calculo R2

6

Definição

Diagrama de Dispersãoé um gráfico de dados amostrais emparelhados (x,y) com o eixo xhorizontal e o eixo y vertical. Cada par individual (x,y) é plotado como um ponto.

Page 7: calculo R2

7

Diagrama de Dispersão

Page 8: calculo R2

8

Correlação Linear Positiva

x x

yy y

x(a) Positiva (b) Positiva

Forte(c) Positiva

Perfeita

Figura 9-1 Diagramas de Dispersão

Page 9: calculo R2

9

Correlação Linear Negativa

x x

yy y

x(d) Negativa (e) Negativa

Forte(f) Negativa

Perfeita

Figura 9-1 Diagramas de Dispersão

Page 10: calculo R2

10

Sem Correlação Linear

x x

yy

(g) Não há Correlação

(h) Correlação não-linear

Figura 9-1 Diagramas de Dispersão

Page 11: calculo R2

11

Notação

Sxx = Σ(x – x)2 = (Σx2) – n( x )2--

Syy = Σ(y – y)2 = (Σy2) – n( y )2--

Sxy = Σ (x – x)(y – y) = (Σxy) – n ( x )( y )-- --

Page 12: calculo R2

12

Sxy

(Sxx) (Syy )

DefiniçãoCoeficiente de Correlação Linear r

mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra

r =

Fórmula 9-1

Calculadoras podem fornecer r

ρ (rô) é o coeficiente de correlação linear de todos os dados emparelhados da população.

Page 13: calculo R2

13

Notação para o Coeficiente de Correlação Linear

n número de pares de dados presentes

Σ denota a adição dos itens indicados.

Σx denota a soma de todos os valores de x.

Σx2 indica que devemos ao quadrado cada valor de x e somar os resultados.

(Σx)2 indica que devemos somar os valores de x e elevar o total ao quadrado.

Σxy indica que devemos multiplicar cada valor de x pelo valor correspondente de y e somar então todos estes produtos.

r representa o coeficiente de correlação linear para uma amostra.

ρ representa o coeficiente de correlação linear para uma população

Page 14: calculo R2

14

Interpretando o Coeficiente de Correlação Linear

Se o valor absoluto de r excede o valor na Tabela A - 6, concluímos que há correlação linear significativa.

Caso contrário, não há evidência suficiente para apoiar a existência de uma correlação linear significativa.

Page 15: calculo R2

15

TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r

456789

101112131415161718192025303540455060708090100

n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256

,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196

α = .05 α = .01

Page 16: calculo R2

16

Propriedades do Coeficiente de Correlação Linear r

1. -1 ≤ r ≤ 12. O valor de r não varia se todos os valores de

qualquer uma das variáveis são convertidos para uma escala diferentes.

3. O valor de r não é afetado pela escolha de x ou y. Permutando todos os valores de x e y, o valor de r permanecerá inalterado.

4. r mede a intensidade, ou grau, de um relacionamento linear.

Page 17: calculo R2

17

Erros Comuns Envolvendo Correlação

1. Causalidade: É errado concluir que correlação implica causalidade.

2. Médias ou Taxas: Taxas ou médias suprimem a variação individual e podem inflacionar o coeficiente de correlação.

3. Linearidade: Pode haver alguma relação entre x e y mesmo quando não há correlação linear significativa.

Page 18: calculo R2

18

0

50

100

150

200

250

0 1 2 3 4 5 6 7 8

Dis

tânc

ia(p

és)

FIGURA 9-2

Erros Comuns Envolvendo Correlação

Tempo (segundos)

Diagrama de dispersão da distância acima do solo e do tempo para um objeto lançado para cima

Page 19: calculo R2

19

Teste de Hipótese FormalPara determinar se existe uma correlação linear significativa entre duas variáveisDois métodosAmbos métodos utilizam:

H0: ρ = 0 (não há correlação linear significativa)

H1: ρ ≠ 0 (correlação linear significativa)

Page 20: calculo R2

20

Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)

Estatística de Teste:

1 - r 2n - 2

rt =

Valores Críticos:

utilizar a Tabela A-3 com graus de liberdade = n - 2

Page 21: calculo R2

21

Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)

Figura 9-4

Page 22: calculo R2

22

Método 2: Estatística de Teste é r(exige menos cálculos)

Estatística de teste: r

Valores críticos: Consulte a Tabela A-6 (não há graus de liberdade)

Não rejeitarρ = 0

Rejeitarρ = 0

Rejeitarρ = 0

0r = - 0,811 r = 0,811 1

Valor amostral:r = 0,828

-1

Figura 9-5

Page 23: calculo R2

23

FIGURA 9-3

Teste para aCorrelação Linear

Início

Seja: H0: ρ = 0H1: ρ ≠ 0

Escolha umnível de

significância l α

Calcule r com a Fórmula 9-1

MÉTODO 1 MÉTODO 2

Se H0 é rejeitada, concluir que háCorrelação linear significativa.

Se H0 não é rejeitada, então não háevidência suficiente para concluir

pela existência de uma correlação linear.

Se o valor absoluto daestatística de teste excede os

valores críticos, rejeitar H0: ρ = 0Caso contrário, não rejeitar H0

A estatística de teste é

t =1 - r 2

n -2

r

Os valores críticos de t estão na Tabela A-3, ( n -2 graus de liberdade)

A estatística de teste é

Os valores críticos de r encontram-se na Tabela A-6

r

Page 24: calculo R2

24

Há correlação linear significativa?

0,1222

0,6403

0,9933

1,2846

0,9934

0,8212

0,3861

1,3835

Dados do Projeto do Lixo: Análise de plástico descartadox Plástico (kg)

y Tamanho daresidência

n = 8 α = 0,05 H0: ρ = 0H1 :ρ ≠ 0

Estatística de teste é r = 0,842

Page 25: calculo R2

25

Há correlação linear significativa?

456789

101112131415161718192025303540455060708090100

n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256

,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196

α = ,05 α = ,01n = 8 α = 0,05 H0: ρ = 0

H1 :ρ ≠ 0

Estatística de teste é r = 0,842

Valores críticos são r = - 0,707 e 0,707(Tabela A-6 com n = 8 e α = 0,05)

TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r

Page 26: calculo R2

26

Há correlação linear significativa?0,842 > 0,707, ou seja, a estatística de teste está na região crítica.

REJEITAMOS, pois, H0: ρ = 0 (ausência de correlação) e concluímos que há correlação linear significativa entre o Peso de plástico descartado e o tamanho das residências.

Não Rejeitarρ = 0

Rejeitarρ = 0

Rejeitarρ = 0

1- 1 r = - 0,707 r = 0,7070

Dados amostrais:r = 0,842

Page 27: calculo R2

27

x = 3

•••III Quadrante

II Quadrante

IV Quadrante

y

y = 11(x, y)

x - x = 7- 3 = 4

y - y = 23 - 11 = 12

4

8

12

16

20

24

r = Σ (x -x) (y -y)(n -1) sx sy

(x, y) centróide dos pontos da amostra

•(7, 23)

FIGURA 9-6

Fórmula 9-1 é desenvolvida deJustificação para a Fórmula de r

I Quadrante

x00 1 2 3 4 5 6 7

Page 28: calculo R2

28

9-3 RegressãoDefinição

Equação de RegressãoDada uma coleção de dados amostrais emparelhados, a equação de regressão

y = b0 + b1x^descreve a relação entre as duas variáveis

Reta de Regressão(reta de melhor ajuste ou reta de mínimos quadrados)

o gráfico da equação de regressão

Page 29: calculo R2

29

Reta de Regressão em Diagrama de Dispersão

Page 30: calculo R2

30

A Equação de Regressãox é a variável independente

(variável preditora)

y é a variável dependente(variável resposta)

^

y = b0 +b1x^

y = mx +b

b0 = y - intercepto

b1 = inclinação

Page 31: calculo R2

31

Notação para a Equação de Regressão

ParâmetroPopulacional

EstatísticaAmostral

y-intercepto da equação de regressão β0 b0

Inclinação da equação de regressão β1 b1

Equação da reta de regressão y = β0 + β1 x y = b0 + b1 x^

Page 32: calculo R2

32

Suposições1. Estamos investigando apenas relações lineares.

2. Para um dado valor de x, y é uma variável aleatória com distribuição normal (em forma de sino). Todas essas distribuições de y tem a mesma variância. E ainda, para um dado valor de x, a média da distribuição dos valores de yestá sobre a reta de regressão.(Os resultados não são afetados seriamente se os desvios da normalidade e da igualdade da variância não são grandes.)

Page 33: calculo R2

33

Fórmula para b0 e b1

b0 = y - b1 x (intercepto y)- -

Fórmula 9-2

(Sxy)b1 = (coeficiente angular(Sxx)

Fórmula 9-3

Calculadoras ou computadores podem determinar estes valores

Fórmula 9-4

Page 34: calculo R2

34

A reta de regressão é a que melhor se ajusta aos pontos

amostrais.

Page 35: calculo R2

35

PrediçõesAo predizer um valor de y com base em determinado valor de x ...

1. Se não há uma correlação linear significativa, o melhor valor predito de y é y.

2. Se há uma correlação linear significativa, obtém-se o melhor valor predito de y substituindo-se o valor de x na equação de regressão.

Page 36: calculo R2

36

Utilizar a equaçãode regressão para fazerpredições. Levar o valorDado na equação deregressão.

Calcular r etestar a hipótese

que ρ = 0

Hácorrelação

linearsignificativa

?

Dado um valor arbitrário deuma variável, o melhor valorPredito da outra variável ésua média amostral.

Sim

Não

Iniciar

FIGURA 9-7 Predizendo o Valor de uma Variável

Page 37: calculo R2

37

Diretrizes para o Uso daEquação de Regressão

1. Se não há correlação linear significativa, não use a equação de regressão para fazer predições.

2. Ao aplicar a equação de regressão para predições, mantenha-se dentro do âmbito dos dados amostrais.

3. Uma equação de regressão baseada em dados passados não é necessariamente válida hoje.

4. Não devemos fazer predições sobre uma população diferente daquela de onde provêm os dados amostrais.

Page 38: calculo R2

38

Qual é a melhor predição do tamanho de uma residência que descarta 0,227 kg de plástico?

0,1222

0,6403

0,9933

1,2846

0,9934

0,8212

0,3861

1,3835

Dados do Projeto Lixo: Análise de plástico descartadox Plástico (kg)

y Tamanho da residência

b0 = 0,549

b1 = 3,263

Usando uma calculadora:

y = 0,549 + 3,263 (0,227)y = 1,29

Uma residência que que descarta 0,227 kg de plástico tem aproximadamente uma pessoa.

Page 39: calculo R2

39

DefiniçõesVariação Marginala quantia que uma variável varia quando a outra variável sofre uma variação de exatamente 1 unidadeOutlier

um ponto que está muito afastado dos demais pontos.

Pontos de Influênciapontos que afetam fortemente o gráfico da reta de regressão.

Page 40: calculo R2

40

DefiniçõesResíduos

dado um par de dados amostrais (x,y), um resíduo é a diferença (y - y) entre um valor amostral observado y e o valor y predito com base na equação de regressão.

Propriedade dos Mínimos QuadradosUma reta verifica a propriedade dos mínimos quadrados se a soma dos quadrados dos resíduos é a menor possível.

^

Resíduos e Propriedade de Mínimos Quadrados

^

Page 41: calculo R2

41

Resíduos e a Propriedade dos Mínimos Quadrados

x 1 2 4 5y 4 24 8 32 y = 5 + 4x

02468

101214161820222426283032

1 2 3 4 5

••

x

yResíduo = 7

Resíduo = -13Resíduo = -5

Resíduo = 11

^

FIGURA 9-8

Page 42: calculo R2

42

9-4

Intervalo de Variação e de

Predição

Page 43: calculo R2

43

DefiniçõesDesvio Total (de um particular ponto (x, y) em relação à média)

é a distância vertical y - y, que é a distância entre o ponto (x, y) e a reta horizontal que passa pela média amostral y.

Desvio Explicadoé a distância vertical y - y, que é a distância entre o valor predito y e a reta horizontal que passa pela média amostral y.

Desvio não-explicadoé a distância vertical y - y, que é a distância vertical entre o ponto (x, y) e a reta de regressão. (A distância y - y também é chamada resíduo, definido na Seção 9-3.)

^

^^

Page 44: calculo R2

44

Figura 9-9 Desvios: Não-explicado, Explicado e Total

Desviototal

(y - y)

0123456789

1011121314151617181920

Desvionão-explicado

(y - y)

Desvioexplicado

(y - y)

(5, 19)

(5, 13)

(5, 9)

y = 3 + 2x^

y = 9

^

^

y

x0 1 2 3 4 5 6 7 8 9

Page 45: calculo R2

45

(y - y) = (y - y) + (y - y)(desvio total) = (desvio explicado) + (desvio não-explicado)

^ ^

(variação total) = (variação explicada) + (variação não-explicada)

Σ (y - y) 2 = Σ (y - y) 2 + Σ (y - y) 2^ ^

Fórmula 9-5

Page 46: calculo R2

46

DefiniçãoCoeficiente de determinaçãoé o valor da variação de y que é explicado pela reta de regressão

R2 = variação explicada.variação total

ousimplesmente o quadrado de r

(determinado pela Fórmula 9-1, seção 9-2)

Page 47: calculo R2

47

Intervalos de PrediçãoDefinição

Erro-padrão da estimativa

é uma medida das diferenças (ou distâncias) entre os valores amostrais y observados e os valores preditos y obtidos através da reta de regressão.

^

Page 48: calculo R2

48

Erro-padrão da Estimativa

Σ (y - y)2

n - 2

^se =

ou

Σ y2 - b0 Σ y - b1 Σ xyn - 2 Fórmula 9-6

se =

Page 49: calculo R2

49

y - E < y < y + E^ ^

Intervalo de Predição para um determinado y

onde

n Sxx

(x0 – x )2

1 + +1E = tα/2 se

x0 representa o valor dado de xtα/2 tem n - 2 graus de liberdade

Page 50: calculo R2

50

9-5 Regressão MúltiplaDefinição

Equação de Regressão Múltipla

Um relacionamento linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2, x3 . . . , xk)

y = b0 + b1x1 + b2x2 + . . . + bkxk^

Page 51: calculo R2

51

Notaçãoy = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk

(Forma geral da equação de regressão múltipla estimada)

n = tamanho da amostrak = número de variáveis independentes

y = valor predito da variável dependente y

x1, x2, x3 . . . , xk são as variáveis independentes

^

Page 52: calculo R2

52

Notaçãoß0 = intercepto y, ou valor de y quando todas as

variáveis preditoras são 0.b0 = estimativa de ß0 baseada nos dados amostrais

ß1, ß2, ß3 . . . , ßk são os coeficientes das variáveis independentes x1, x2, x3 . . . , xk

b1, b2, b3 . . . , bk são as estimativas amostrais dos coeficientes ß1, ß2, ß3 . . . , ßk

Page 53: calculo R2

53

R2 AjustadoDefiniçõesCoeficiente de determinação múltipla

uma medida do grau de ajustamento da equação de regressão múltipla aos dados amostrais

Coeficiente de determinação ajustadoo coeficiente múltiplo de determinação R2

modificado de modo a levar em conta o número de variáveis e o tamanho da amostra.

Page 54: calculo R2

54

R2 Ajustado

R2 Ajustado = 1 - (n - 1) (1 - R2)[n - (k + 1)]

Fórmula 9-7

onde n = tamanho da amostrak = número de variáveis independentes (x)

Page 55: calculo R2

55

Determinação da Melhor Equação de Regressão Múltipla1. Use o bom senso e considerações de ordem prática para

incluir ou excluir variáveis.2. Em vez de incluir todas as variáveis disponíveis, inclua

um número relativamente pequeno de variáveis independentes (x), eliminando as variáveis independentes que não tenham influência na variável dependente.

3. Escolha uma equação que tenha um valor de R2 ajustado com esta propriedade: Se se inclui uma variável independente adicional, o valor de R2 ajustado não é aumentado substancialmente.

4. Para um dado número de variáveis independentes (x), escolha a equação com o maior valor ajustado R2.

5. Escolha uma equação que tenha significância global, tal como determinada pelo valor P na tela do computador.