porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8...

49
Porque se chama: Porque se chama: 1 modelo de regressão modelo de regressão linear linear?

Upload: others

Post on 23-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Porque se chama:Porque se chama:

1

modelo de regressão modelo de regressão linearlinear??

Page 2: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Nos estudos de regressão busca-se, conforme dito anteriormente, relacionaras variáveis X e Y por meio da especificação de uma função f(.). Quando Ydepende apenas de uma variável X, ou seja:

tem-se que:

kXfY ,...,,, 10

a) f(.) é linear nos parâmetros 0, 1, ..., k se a derivada parcial da função (f)

Porque se chama: modelo de regressão Porque se chama: modelo de regressão linearlinear??

2

a) f(.) é linear nos parâmetros 0, 1, ..., k se a derivada parcial da função (f)em relação a cada um dos parâmetros (i , com i = 1, 2, ..., k) for apenas umafunção dos dados, h(X), isto é:

)(Xhf

i

b) Ao contrário, se pelo menos uma das derivadas parciais, , depender de

pelo um dos parâmetros do modelo, então dizemos que f(.) é uma função nãolinear dos parâmetros.

i

f

Page 3: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

XXf 1010 ),,(

00 ),( Xfa)

b)

Classifique os modelos como lineares ou não lineares nos parâmetros:

ExercícioExercício::

3

2210210 ),,,( XXXf

XeXf 2

10210 ),,,(

)sen(),,,( 210210 XXf

c)

d)

e)

Page 4: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Modelo de regressão linear Modelo de regressão linear Modelo de regressão linear Modelo de regressão linear múltiplamúltipla

Prof.a Dr.a Simone Daniela Sartorio de Medeiros

DTAiSeR-Ar

4

Page 5: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Num estudo sobre a produtividade de trabalhadores (em aeronave, navios) opesquisador deseja controlar o número desses trabalhadores e o bônus pago(remuneração). (Aqui temos um experimento).

ExemplosExemplos::

Em um estudo com 67 escritórios de uma rede financeira, a variável resposta foi ocusto operacional no ano que se findou. Haviam 4 variáveis preditoras:

_ o valor médio emprestado aos clientes durante o ano,_ o número médio de empréstimos,_ número total de novos empréstimos processados, e_ índice de salários dos escritórios. (Temos um levantamento de dados).

(remuneração). (Aqui temos um experimento).

Num estudo sobre a resposta à uma droga, o pesquisador deseja controlar as dosesda droga e o método de aplicação. (Também temos um experimento).

Em todos os exemplos foram necessárias várias variáveis preditoras no modelo para um bom ajuste do mesmo.

Um modelo contendo várias variáveis preditoras resulta numa estimação mais precisa.

5

Page 6: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Frequentemente a regressão de Y baseada numa simples variávelindependente X é inadequada para satisfazer às necessidades de um pesquisador.

Modelo de Regressão Linear MúltiplaModelo de Regressão Linear Múltipla

Assim, o modelo de regressão linear múltipla (MRLM) é usado, onde ovalor esperado de Y pode ser expresso de duas maneiras:

ikikiii exxxy ...22110

ik

ki exxxy ...221

Como função de k variáveis regressoras, ou

Como função de polinômio de maior grau de uma única variávelregressora.

6

Page 7: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Pressuposições da modelo de regressão linear múltiplaPressuposições da modelo de regressão linear múltipla

De forma semelhante ao que foi visto no modelo de regressão linear simples, têm-seas suposições:

O modelo estatístico de uma regressão linear múltipla com k variáveisregressoras (X1, X2, ..., Xk), considerando uma amostra de tamanho n, é:

ikikiii exxxy ...22110

as suposições:

i) A variável resposta Y é função linear das variáveis explicativas Xj, j = 1, 2, ..., k;

ii) As variáveis explicativas Xj são fixas (ou controladas);

iii) E(ei) = 0, ou seja, E() = 0, sendo 0 um vetor de zeros de dimensão (n 1);

iv) Os erros são homocedásticos, isto é, Var(ei) = 2;

v) Os erros são independentes, isto é, Cov(ei , ej) = 0, i ≠ j;

vi) Os erros têm distribuição normal (necessário para se realizar testes de hipóteses).

7

Page 8: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Modelo de duas variáveis Modelo de duas variáveis regressorasregressoras (p=2)(p=2)

Duas ou mais variáveis independentes podem estar disponíveis para fornecerinformações adicionais sobre a variável dependente Y. Consideremos odesenvolvimento teórico com apenas duas variáveis independentes.

Podemos também avaliar a contribuição relativa dessas variáveis para aobtenção da informação sobre Y.

iiii exxy 22110

No caso de regressão linear múltipla para duas variáveis regressoras, temoso modelo:

É uma equação de uma superfície!!!

8

Page 9: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Representação gráfica Representação gráfica -- Modelo de duas variáveis Modelo de duas variáveis regressorasregressoras

Com duas variáveis X, para efeito de apresentação, teremos que utilizar umgráfico tridimensional. Assim, três eixos ortogonais deverão ser utilizados paraa representação gráfica e, cada ponto Pi nesse espaço, será representado pelascoordenadas:

Pi = (x1i , x2i , yi), sendo yi = f(x1i, x2i)

X2X1

Y

x1i

x2i

yi

Pi

9

Page 10: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

iii xxy 211ˆ

Exemplo:Exemplo:

a) Modelo de regressão múltipla de primeiro grau Modelo de regressão múltipla de primeiro grau (ou superfície de resposta de primeira ordem)

No R: x <- seq(0, 10, length= 50)y <- x

10

y <- xf <- function(x, y) {1 + x + y}z <- outer(x, y, f)persp(x, y, z,

theta = 35, phi = 25, expand = 0.7, col = "lightblue",ticktype = "detailed",xlab = "X1", ylab = "X2", zlab = "Y = f(X1, X2)" )

Page 11: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

b) Modelo de regressão múltipla de segundo grau Modelo de regressão múltipla de segundo grau (ou superfície de resposta de segundo grau)

iiiiiii xxxxxxy 2122

2121 32,43- 53,71 - 41,33 - 308,76 287,57 1027,45ˆ

Exemplo:Exemplo:

No R: x <- seq(0, 200, length= 40)y <- xf <- function(x, y) {1027.45 + 287.57*x + 308.76*y - 41.33*x^2 - 53.71*y^2 -32.43*x*y }

11

- 53.71*y^2 -32.43*x*y }z <- outer(x, y, f)

persp(x, y, z, theta = 49, phi = 25, expand = 0.7, col = "lightblue",ticktype = "detailed", shade = 0.2,xlab = "X1", ylab = "X2", zlab = "Y = f(X1, X2)")

Page 12: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

A representação gráfica da nuvem de n pontos observados exige p = k + 1eixos (umpara Y e um para cada uma das k variáveis preditoras).

No exemplo, temos p = 2:

Representação gráficaRepresentação gráfica

12

Page 13: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Para k > 2, seriam necessários mais de três eixos e a visualização torna-seimpossível.

As características fundamentais dessas representações são:

Existem p eixos – um para cada variável em questão.

Existem n pontos – um para cada indivíduo (unidade experimental)

As dificuldades na representação gráficaAs dificuldades na representação gráfica

Existem n pontos – um para cada indivíduo (unidade experimental)observado.

Admite-se que os pontos se dispõem em torno de um hiperplano de equação

Tem-se uma nuvem de n pontos num espaço p-dimensional.

kk XXXY ...22110

13

Page 14: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Visualizações parciais da nuvem de pontosVisualizações parciais da nuvem de pontos

A impossibilidade de visualizar as nuvens de n pontos em p+1 sugere a consideraçãode visões parciais, como sejam as nuvens de pontos definidas por cada par de variáveis,que são as projeções ortogonais da nuvem em cada plano coordenado de p+1.

Por exemplo, para as n = 150 observações de lírios em 4 variáveis:

OBS: A projeção da nuvem de n pontosnos planos coordenados não é uma soluçãoideal. Em particular, não permite verificara hipótese básica de linearidade, isto é, aa hipótese básica de linearidade, isto é, ahipótese de que os pontos se dispersam emtorno de um hiperplano. Tal hipótese podeser válida, mesmo que em nenhum dosgráficos parciais ela se verifique.

Adiante se verá que uma diferente formade representação gráfica (igualmenteimpossível caso existam mais de n = 3observações!) é de grande utilidade paracompreender o que se irá fazer

14

Page 15: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Estimação dos parâmetros (k=2)Estimação dos parâmetros (k=2)

Assim, como na regressão linear simples, pode-se estimar os parâmetrospopulacionais, pelo método dos quadrados mínimos, daí:

iiii exxy 22110

22

2 ˆˆˆˆ,, nnn

xxyyyeS 1

2211011

2210

ˆˆˆˆ,,

i

iiii

iii

i xxyyyeS

Através de diferenciação parcial dessa última equação em relação a cada umdos parâmetros e, posterior igualdade a zero, obtemos as seguintesestimativas dos parâmetros (utilizando as variáveis centradas na média):

15

Page 16: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Em que,

Estimação dos parâmetros (k=2)Estimação dos parâmetros (k=2)

21ˆˆˆˆˆˆ

210 XXY mmm

2122211

2121221

ˆSSS

SSSS YY

2122211

1122112

ˆSSS

SSSS YY

n

x

xS

n

iin

ii

2

11

1

2111

n

x

xS

n

iin

ii

2

12

1

2222

2

11

111

n

iii

n

iiiY yxyxS

2

12

122

n

iii

n

iiiY yxyxS

2

121

12112

n

iii

n

iii xxxxS

16

Page 17: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Notação MatricialNotação Matricial

17

Notação MatricialNotação Matricial

Page 18: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

MatricialmenteMatricialmente

niexxxy iikkiii ,...,1,...22110

No Modelo de Regressão Linear Múltipla (MRLM) considerando kvariáveis independentes, admite-se que as n observações da variável resposta Ysão aleatórias e podem ser modeladas como:

o que corresponde a escrever n equações:

nnkknnn

kk

kk

kk

exxxy

exxxy

exxxy

exxxy

...

...

...

...

22110

3332231103

2222221102

1112211101

18

Page 19: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

k

k

e

e

xx

xx

y

y

.

.

.

.

.

.....

.....

.....

..1

..1

.

.

2

1

1

0

1 x p

221

111

pn x

2

1

1n x 1n x

εβXy

As n equações correspondem a uma única equação matricial:

y = Xβ + εonde:

Representa-se um vetor de n observações de Y por y.

n

k

nkn

nexx

y.

..1

.....

1

sendo:y é o vetor aleatório das n variáveis aleatórias resposta;X é a matriz do modelo (não aleatória) de dimensões n×p, sendo p = k + 1, cujas colunassão dadas pelas observações de cada das k variáveis preditoras (e por uma coluna de uns,associada a constante aditiva do modelo);β é o vetor (não aleatório) de p parâmetros do modelo a ser estimado;ε é o vetor aleatório de erros (n×1) independentes e normalmente distribuídas comesperança (média), E() = 0 e matriz de variância-covariância dada por:

19

Page 20: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

2

2

2

.00

....

0.0

0.0

),(

εεCov

Assim, o vetor das observações y tem esperança:

Xβy )( 1n x E

= 2I

20

OBS: O que mudaria na matriz do modelo se o modelo de regressão múltiplafosse um polinômio de grau k (uma única variável regressora)?

ik

ki exxxy ...221

Page 21: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Estimação dos parâmetros Estimação dos parâmetros -- Forma matricialForma matricial

niexxy ikikii ,...,1,...110

Considere uma amostra aleatória de uma população de tamanho n, onde seobservaram as variáveis Y, X1, X2, ..., Xk. Um possível modelo de regressão linearmúltipla sugerido para este caso seria:

21

XβY

yXXXβ TT 1ˆ

Assim, o estimador de mínimos quadrados do vetor de parâmetros será dadopor:

Page 22: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

sQMV TT Reˆˆˆ 121 XXXXβ

A estimativa da variância da estimativa do vetor é dada por:

Matriz de variâncias e covariâncias do vetor de parâmetrosMatriz de variâncias e covariâncias do vetor de parâmetros

22

Page 23: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Um experimento foi instalado com o objetivode investigar as fontes de fósforo (Y) utilizadaspelas plantas de milho cultivadas em 18 amostrasde diferentes tipos de solo. As concentraçõesinorgânica (X1) e orgânica (X2) de fósforo (em ppm)nos solos foram determinadas quimicamente aopasso que a disponibilidade de fósforo nas plantasfoi estimada através do cultivo de milho naquelessolos (Tabela 1).

Amostras X1 X2 Y1 0,4 53 642 0,4 23 603 3,1 19 714 0,6 34 615 4,7 24 546 1,7 65 777 9,4 44 818 10,1 31 939 11,6 29 93

Exemplo 1Exemplo 1Tabela 1:

solos (Tabela 1).

a) Faça um gráfico de dispersão para a variávelresposta (P) utilizadas pelas plantas de milho emfunção de cada concentração (x1) e (x2);

b) Obtenha a matriz de variâncias e covariânciasdos dados.

c) Obtenha a matriz de correlação dos dados.

d) Encontre a equação da regressão linear de duasvariáveis.

9 11,6 29 9310 12,6 58 5111 10,9 37 7612 23,1 46 9613 23,1 50 7714 21,6 44 9315 23,1 56 9516 1,9 36 5417 26,8 58 16818 29,9 51 99

Soma 215,0 758,0 1463,0Média 11,9 42,1 81,3

23

Page 24: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:x1<- c(.4,.4,3.1,.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,23.1,21.6,23.1,1.9,26.8,29.9)x2<- c(53,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51) y <- c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99)dados<- data.frame(x1, x2, y)

plot(dados, pch=19)

x1

20 30 40 50 60

51

01

52

02

53

0

Exemplo 1Exemplo 1

Amostras X1 X2 Y1 0,4 53 642 0,4 23 603 3,1 19 714 0,6 34 61

0

20

30

40

50

60

x2

0 5 10 15 20 25 30 60 80 100 120 140 160

60

80

10

01

20

14

01

60

y

4 0,6 34 615 4,7 24 546 1,7 65 777 9,4 44 818 10,1 31 939 11,6 29 9310 12,6 58 5111 10,9 37 7612 23,1 46 9613 23,1 50 7714 21,6 44 9315 23,1 56 9516 1,9 36 5417 26,8 58 16818 29,9 51 99

24

Page 25: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:

# Matriz de variâncias e covariâncias das variáveiscov(dados)

x1 x2 yx1 103.11556 63.85948 190.0869x2 63.85948 185.63399 130.3791y 190.08693 130.37908 728.8007

# Matriz de correlação das variáveiscor(dados)

Exemplo 1Exemplo 1

25

cor(dados)x1 x2 y

x1 1.0000000 0.4615668 0.6934031x2 0.4615668 1.0000000 0.3544662y 0.6934031 0.3544662 1.0000000

Var(Y)

Cov(X2, X1)Corr(Y, X1)

Page 26: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Exemplo 1: Notação matricialExemplo 1: Notação matricial

234,01

534,0160

64

0

As n equações correspondem a uma única equação matricial:

y = Xβ + εonde:

Amostras X1 X2 Y1 0,4 53 642 0,4 23 603 3,1 19 714 0,6 34 615 4,7 24 546 1,7 65 777 9,4 44 818 10,1 31 93

26

519,291

.........

234,01

99

...

71

60

2

1

0

1 x 33 x 181 x 18

βXy

8 10,1 31 939 11,6 29 9310 12,6 58 5111 10,9 37 7612 23,1 46 9613 23,1 50 7714 21,6 44 9315 23,1 56 9516 1,9 36 5417 26,8 58 16818 29,9 51 99

yXXXβ TT 1ˆ

Page 27: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Exemplo 1Exemplo 1Logo, temos que o modelo ajustado é dado por:

iii xxy 21 0866,07898,126,56ˆ

InterpretaçãoInterpretação: A disponibilidade de fósforo na planta aumentou, em média, 1,7898 ppmpara cada ppm de fósforo inorgânico do solo (X1), mas, apenas 0,0866 ppm para cada ppmde fósforo orgânico do solo (X2).

Portanto, nestas condições, a disponibilidade de fósforo nas plantas de milho foi mais

No R:

RLM<- lm(y ~ x1 + x2); RLMCall:lm(formula = y ~ x1 + x2)

Coefficients:(Intercept) x1 x2

56.25102 1.78977 0.08665

Portanto, nestas condições, a disponibilidade de fósforo nas plantas de milho foi mais influenciada pelo fósforo inorgânico do solo, como foi anteriormente detectado pelos

gráficos apresentados.

27

Page 28: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Análise de VariânciaAnálise de Variância

FV gl. S.Q.

Regressão k – 1 SQReg

Resíduo n – p SQRes

k = p + 1 é o número de parâmetros do modelo de

regressão.

H0: 1 = 2 = ... = k = 0 (a regressão múltipla não é significativa)

H1: u 0 , u = 1, ..., k

Cn

y

ySQTotal T

n

iin

ii

yy

2

1

1

2

CgSQ TT yXβ̂Re gSQSQTotalsSQ ReRe

Total n – 1 SQTotal

28

Page 29: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

** Significativo ao nível de 1% de probabilidade.

FV gl. S.Q. Q.M. F

Regressão 2 5.975,67 2.987,84 6,99**

Resíduo 15 6.413,94 427,60 -

Total 17 12.389,61 - -

Exemplo 1: Análise de VariânciaExemplo 1: Análise de Variância

Ftab = F(2,15, 1%) = 6,3589

sum(x1)[1] 215sum(x2)[1] 758

sum(x1^2)[1] 4321.02sum(x2^2)[1] 35076

sum(x1*y)[1] 20706.2

A hipótese inicial a ser testada nesse caso é a da ausência dedependência linear da variável Y nas duas variáveis independentesX ou, em outras palavras: β1 = β2 = 0. Os valores de F tabelados,baseados em 2 e 15 graus de liberdades, aos níveis deprobabilidade de 5 e 1% são, respectivamente, iguais a: 3,68 e6,36.

Portanto, rejeitamos a hipótese inicial, isto é, existe dependência da variável Y nas variáveis X1e X2.

29

[1] 20706.2sum(x2*y)[1] 63825

sum(x2*x1)[1] 10139.5

mean(x1)[1] 11.94444mean(x2)[1] 42.11111mean(y)[1] 81.27778

Page 30: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Matriz de variâncias e covariâncias do vetor de parâmetros

21ˆˆˆ

XXβ TV

60,4271

XXT

sQMT Re1

XX

30

No R:vcov(RLM)

(Intercept) x1 x2(Intercept) 266.0401526 0.7879551 -5.9769616x1 0.7879551 0.3099632 -0.1066297x2 -5.9769616 -0.1066297 0.1721777

Page 31: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Intervalo de confiança para Intervalo de confiança para jj

Dado o modelo de regressão linear múltipla, um intervalo a (1 - ) 100% para j do modelo é:

1)1,1(]2/);1([ )(Reˆ%)100)1(,(

jjt

pnjj sQMtIC XX

É o valor que numa distribuição t deixa à ̂ˆÉ o valor que numa distribuição t[n – (p+1)] deixa à direita numa região de probabilidade /2.

OBS: A amplitude do IC aumenta com QMRes e o valor diagonal da matriz

(XtX)–1 associado ao parâmetro j em questão.31

Em que:p = número de variáveis regressoras;n = tamanho da amostra;j = 0, 1, 2, ..., p.

jV ̂ˆ

Page 32: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Intervalo de confiança para Intervalo de confiança para jj

]01669,91;48536,21[

90,62217617*427,60*2,131452510,56%)95,( 0

IC

1)1,1(]2/);1([ )(Reˆ%)100)1(,(

jjt

pnjj sQMtIC XX

= 266,0425

32

]97645,2;6030983,0[

710,00072489*427,60*2,1314578977,1%)95,( 1

IC

]9710833,0;7977848,0[

420,00040266*427,60*2,1314508665,0%)95,( 2

IC

= 0,3099632

= 0,1721777

Page 33: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

A informação básica para a construção de intervalos de confiança para cada parâmetroj obtém-se, no R, a partir das tabelas produzidas ao aplica a função summary() a umaregressão ajustada. Obtendo-se entre outros resultados:

Exemplo 1: Intervalo de confiança para Exemplo 1: Intervalo de confiança para jj

No R:summary(RLM)

Coefficients:Estimate Std. Error

(Intercept) 56.25102 16.31074x1 1.78977 0.55674x2 0.08665 0.41494x2 0.08665 0.41494

Alternativamente, é possível usar a função confint() no objeto resultante de ajustar

a regressão para obter os intervalos de confiança para cada j individual:

No R:confint(RLM)

2.5 % 97.5 %(Intercept) 21.4855104 91.0165378x1 0.6031036 2.9764446x2 -0.7977808 0.9710793

No R:confint(RLM, level = 0.99)

0.5 % 99.5 %(Intercept) 8.1879642 104.314084x1 0.1492111 3.430337x2 -1.1360686 1.309367

33

Page 34: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Teste de hipóteses sobre os parâmetrosTeste de hipóteses sobre os parâmetros

O mesmo resultado usado para construir intervalos de confiança serve paraconstruir testes de hipóteses para cada j individual. Dado o modelo de RLM:

34

Page 35: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:summary(RLM)

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 56.25102 16.31074 3.449 0.00358 **x1 1.78977 0.55674 3.215 0.00579 **x2 0.08665 0.41494 0.209 0.83740

Exemplo 1: Teste de hipóteses sobre os parâmetrosExemplo 1: Teste de hipóteses sobre os parâmetros

35

H0: 0 = 0Ha: 0 0

iii xxy 21 0866,07898,126,56ˆ H0: 1 = 0Ha: 1 0

H0: 2 = 0Ha: 2 0

Page 36: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Como no modelo de regressão linear

Coeficiente de determinação múltiploCoeficiente de determinação múltiplo

SQTotal

gSQR

Re2

A proporção da variação na variável Yque é explicada pela regressão em pvariáveis X é dada pelo coeficiente dedeterminação múltiplo:

Exemplo 1Exemplo 1

4823,061,12389

67,59752 R

Interpretação: Temos que 48% davariação em Y é explicada pela relaçãolinear com X. Portanto, ainda permanecem52% de variação devida ao acaso

1

)1( 22

kn

kRnRajustado

Como no modelo de regressão linearsimples, o R2 deve ser ajustado, devido ainfluencia do número de parâmetros,sendo melhor medida para a avaliação o:

36

4133,0

1218

24823,0)118(

2

2

ajustado

ajustado

R

R

52% de variação devida ao acaso(inexplicada).

OBS: A interpretação do R2ajustado é a mesma do R2 .

Page 37: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Exemplo 1Exemplo 1

No R:

summary(RLM)

Call:lm(formula = y ~ x1 + x2)

Residuals:Min 1Q Median 3Q Max

-32.828 -8.440 -1.118 6.694 58.757

Coefficients:Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 56.25102 16.31074 3.449 0.00358 **x1 1.78977 0.55674 3.215 0.00579 **x2 0.08665 0.41494 0.209 0.83740 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.68 on 15 degrees of freedomMultiple R-squared: 0.4823, Adjusted R-squared: 0.4133 F-statistic: 6.988 on 2 and 15 DF, p-value: 0.00717

37

Page 38: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

PrediçãoPredição

Por exemplo 1, se x1 = 9,8 ppm de fósforo inorgânico e x2 = 48 ppm de fósforoorgânico, teremos o valor esperado pelo modelo de regressão linear múltiplo:

)48(0866,0)8,9(7898,126,56)48;8,9(ˆ fy

)(0866,0)(7898,126,56),(ˆ2121 xxxxfy

9568,77

OBS: Só podemos fazer a predição dentro do intervalo de X1 e X2 estudado.

38

No R:RLM<- function(x1,x2) {56.26 + 1.7898*x1 + 0.0866*x2}RLM(9.8, 48)[1] 77.95684

Page 39: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:# valores preditos X resíduos estudentizadosplot(predict(RLM), rstudent(RLM), pch=19)abline(h=c(-3,0,3), lty=2)

O modelo sugerido é adequado?O modelo sugerido é adequado?

Exemplo 1Exemplo 1

No R:# quantil-quantil dos resíduos estudentizadosrequire(car)qqPlot(rstudent(RLM), pch=19)

39

60 70 80 90 100 110

-20

24

predict(RLM)

rstu

dent(

RLM

)

-2 -1 0 1 2

-20

24

norm quantiles

rstu

de

nt(

RL

M)

Page 40: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:plot(dados, pch=19)

x1

20 30 40 50 60

51

01

52

02

53

0

Exemplo 1Exemplo 1

Amostras X1 X2 Y1 0,4 53 642 0,4 23 603 3,1 19 714 0,6 34 615 4,7 24 54

No R:summary(dados)x1 x2 y Min. : 0.40 Min. :19.00 Min. : 51.00 1st Qu.: 2.20 1st Qu.:31.75 1st Qu.: 61.75 Median :10.50 Median :44.00 Median : 77.00 Mean :11.94 Mean :42.11 Mean : 81.28 3rd Qu.:22.73 3rd Qu.:52.50 3rd Qu.: 93.00 Max. :29.90 Max. :65.00 Max. :168.00

0

20

30

40

50

60

x2

0 5 10 15 20 25 30 60 80 100 120 140 160

60

80

10

01

20

14

01

60

y

5 4,7 24 546 1,7 65 777 9,4 44 818 10,1 31 939 11,6 29 9310 12,6 58 5111 10,9 37 7612 23,1 46 9613 23,1 50 7714 21,6 44 9315 23,1 56 9516 1,9 36 5417 26,8 58 16818 29,9 51 99

40

Page 41: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:# Identificando o outlierplot(x1,y, pch=19)identify(x1,y)[1] 17

Exemplo 1Exemplo 1

41

Page 42: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:# Todos os dadosplot(dados)

No R:# Sem a observação 17 dos dadosDADOS<- dados[-c(17),]plot(DADOS)

x1

20 30 40 50 60

05

10

15

20

25

30

x1

20 30 40 50 60

05

10

15

20

25

30

Exemplo 1Exemplo 1

42

20

30

40

50

60

x2

0 5 10 15 20 25 30 60 80 120 160

60

80

12

01

60

y20

30

40

50

60

x2

0 5 10 15 20 25 30 50 60 70 80 90 100

50

60

70

80

90

100

y

Page 43: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:# Matriz de var e cov das variáveis

cov(dados)x1 x2 y

x1 103.11556 63.85948 190.0869x2 63.85948 185.63399 130.3791y 190.08693 130.37908 728.8007

cov(DADOS)x1 x2 y

x1 94.95596 52.23051 116.71176x2 52.23051 180.52941 47.34191

Exemplo 1Exemplo 1

No R:# Matriz de correlação das variáveis

43

x2 52.23051 180.52941 47.34191y 116.71176 47.34191 276.65441

# Matriz de correlação das variáveis

cor(dados)x1 x2 y

x1 1.0000000 0.4615668 0.6934031x2 0.4615668 1.0000000 0.3544662y 0.6934031 0.3544662 1.0000000

cor(DADOS)x1 x2 y

x1 1.0000000 0.3989231 0.7200866x2 0.3989231 1.0000000 0.2118376y 0.7200866 0.2118376 1.0000000

Page 44: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:RLM1<- lm(y ~ x1 + x2, data=DADOS)

summary(RLM1)Call:lm(formula = y ~ x1 + x2, data = DADOS)

Residuals:Min 1Q Median 3Q Max

-25.282 -4.428 2.645 4.949 16.946

Exemplo 1Exemplo 1

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 66.4654 9.8496 6.748 9.35e-06 ***x1 1.2902 0.3428 3.764 0.00209 ** x2 -0.1110 0.2486 -0.447 0.66195 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 12.25 on 14 degrees of freedomMultiple R-squared: 0.5253, Adjusted R-squared: 0.4575 F-statistic: 7.746 on 2 and 14 DF, p-value: 0.005433

44

Page 45: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:

# valores preditos X resíduos estudentizadosplot(predict(RLM1), rstudent(RLM1), pch=19); abline(h=c(-3,0,3), lty=2)

# quantil-quantil dos resíduos estudentizadosqqPlot(rstudent(RLM1), pch=19)

Exemplo 1Exemplo 1

2 2

45

60 70 80 90 100

-2-1

01

predict(RLM1)

rstu

de

nt(

RLM

1)

-2 -1 0 1 2

-2-1

01

norm quantiles

rstu

de

nt(

RLM

1)

Page 46: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Necessidade das duas Necessidade das duas variáveisvariáveis

No entanto, isso não significa necessariamente que as duas variáveis estejamnecessárias no modelo. As vantagens de trabalharmos com um menor número de variáveisno modelo são:

baratear os custos de coleta de dados em futuros experimentos,facilitar a interpretação.

Porém, para aumentar o poder da estimativa é necessário que variáveis realmenteimportantes não sejam deixadas de fora. Caso isso ocorra, as estimativas dos parâmetros

46

importantes não sejam deixadas de fora. Caso isso ocorra, as estimativas dos parâmetrosdo modelo selecionado podem ser tendenciosas.

A decisão de incluir ou não as duas variáveis no modelo de regressão vai depender dediversas considerações. Numa investigação científica a inclusão de uma variável vaidepender de informações prévias que se espera para os coeficientes de regressão.

Se as variáveis são escolhidas mais pragmaticamente para serem utilizadas empredição, por exemplo, num diagnóstico médico ou de utilização de fertilizantes, então oefeito de qualquer aumento em precisão da predição deve ser ponderado contra oscustos de medição da variável extra.

Page 47: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Análise de variância individual de cada variável X1 e X2:

Para a variável X1:

FV gl. S.Q. Q.M. FRegressão 1 5957 5957 14,817**Resíduo 16 6432,6 402 -

Exemplo 1: Necessidade das duas variáveisExemplo 1: Necessidade das duas variáveis

iii exy 110 Conclusão: Pelas análises

individuais de X1 e X2

podemos concluir que existe uma ampla

evidência de um efeito da concentração

Para a variável X2:

Resíduo 16 6432,6 402 -Total 17 - - -

FV gl. S.Q. Q.M. FRegressão 1 1556,7 1556,7 2,2992ns

Resíduo 16 10832,9 677,06 -Total 17 - - -

iii exy 210

da concentração inorgânica de fósforo na disponibilidade de fósforo nas plantas de milho. No entanto, o efeito concentração orgânica de fósforo não é substancial e

essa variável pode ou não estar incluída no

modelo geral.

47

Page 48: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

No R:RLM2<- lm(y ~ x1)summary(RLM2)

Call:lm(formula = y ~ x1)

Residuals:Min 1Q Median 3Q Max

-31.486 -8.282 -1.674 5.623 59.337

E se sugerirmos um outro modelo usando algumas dessas variáveis?

Exemplo 1Exemplo 1

48

-31.486 -8.282 -1.674 5.623 59.337

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 59.2590 7.4200 7.986 5.67e-07 ***x1 1.8434 0.4789 3.849 0.00142 ** ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.05 on 16 degrees of freedomMultiple R-squared: 0.4808, Adjusted R-squared: 0.4484 F-statistic: 14.82 on 1 and 16 DF, p-value: 0.001417

Page 49: Porque se chama: modelo de regressão linear?...É uma equação de uma superfície!!! 8 Representação gráfica -Modelo de duas variáveis regressoras Com duas variáveis X,para

Exemplo 1Exemplo 1No R:

# valores preditos X resíduos estudentizadosplot(predict(RLM2), rstudent(RLM2), pch=19); abline(h=c(-3,0,3), lty=2)

# quantil-quantil dos resíduos estudentizadosqqPlot(rstudent(RLM2), pch=19)

01

rstu

de

nt(

RL

M2

) 01

rstu

de

nt(

RL

M2

)

49

70 80 90 100

-3-2

-10

predict(RLM2)

rstu

de

nt(

RL

M2

)

-2 -1 0 1 2

-3-2

-10

norm quantilesrs

tud

en

t(R

LM

2)

E se sugerirmos um outro modelo usando outras variáveis?... etc, etc...