departamento estat´ıstica-imecc universidade estadual de ...hlachos/regresslide.pdf · regressão...

92
Regressão Linear Simples ıctor Hugo Lachos D ´ avila [email protected] Departamento Estat´ ıstica-IMECC Universidade Estadual de Campinas Campinas, S ˜ ao Paulo, Brasil Regress ˜ ao Linear Simples – p. 1/6

Upload: lydung

Post on 10-Nov-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Regressão Linear Simples

Vıctor Hugo Lachos Davila

[email protected]

Departamento Estatıstica-IMECC

Universidade Estadual de Campinas

Campinas, Sao Paulo, Brasil

Regressao Linear Simples – p. 1/60

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Altura dos pais e altura dos filhos(Fig 1);

Regressao Linear Simples – p. 2/60

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Altura dos pais e altura dos filhos(Fig 1);

Renda semanal e despensas de consumo;

Regressao Linear Simples – p. 2/60

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Altura dos pais e altura dos filhos(Fig 1);

Renda semanal e despensas de consumo;

Variação dos salarios e taxa de desemprego (Fig 2);

Regressao Linear Simples – p. 2/60

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Altura dos pais e altura dos filhos(Fig 1);

Renda semanal e despensas de consumo;

Variação dos salarios e taxa de desemprego (Fig 2);

Demanda dos productos de uma firma e publicidade;

Regressao Linear Simples – p. 2/60

Objetivos

Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:

Altura dos pais e altura dos filhos(Fig 1);

Renda semanal e despensas de consumo;

Variação dos salarios e taxa de desemprego (Fig 2);

Demanda dos productos de uma firma e publicidade;

Sob dois pontos de vista:

Explicitando a forma dessa relação: regress ao.

Quantificando a força dessa relação: correlac ao.

Regressao Linear Simples – p. 2/60

Observações

1) Regressão vs Causação

Uma relação estatística por sí propria não implica umacausação

Para atribuir causação, devemos invocar a algumateoría (p.e. econômica)

2) Regressão (AR) vs Correlação (AC)

na AC há tratamento simetrico das variáveis

na AR a variável explanatoria é fixa

na AC presupõe-se que as duas variaveís sãoaleatórias

Regressao Linear Simples – p. 3/60

Dados Hipotéticos

Os dados se referem à renda semanal (X) e as despensasde consumo (Y) (em US$), de uma população total de 60familias. As 60 familias foram divididas em 10 grupos derenda (Fig 3 e 4).

Y 80 100 120 140 160 180 200 220 240 260

55 65 79 80 102 110 120 135 137 150

60 70 84 93 107 115 136 137 145 152

65 74 90 95 110 120 140 140 155 175

X 70 80 94 103 116 130 144 152 165 178

75 85 98 108 118 135 145 157 175 180

- 88 - 113 125 140 - 160 189 185

- - - 115 - - - 162 - 191

Total 325 462 445 707 678 750 685 1043 966 1211

E(Y|X) 65 77 89 101 113 125 137 149 161 173Regressao Linear Simples – p. 4/60

Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.

Regressao Linear Simples – p. 5/60

Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.Cada valor individual Yi será determinado pelo valor médioda função linear (µY |x) mais um termo que representa umerro aleatório,

Regressao Linear Simples – p. 5/60

Função de Regressão Populacional

É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação

E(Y |X = x) = µY |x = β0 + β1x

onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.Cada valor individual Yi será determinado pelo valor médioda função linear (µY |x) mais um termo que representa umerro aleatório,

Yi = µY |x + εi = β0 + β1xi + εi,

onde εi é o erro estocástico que satisfaz E(εi|xi) = 0Regressao Linear Simples – p. 5/60

Em geral, a variável resposta pode estar relacionada comk variáveis explicativas X1, . . . Xk obedecendo à equação :

Y = β0 + β1X1 + . . . + βkXk + ε,

A equação é denominada modelo de regressão linearmúltipla.

Regressao Linear Simples – p. 6/60

Em geral, a variável resposta pode estar relacionada comk variáveis explicativas X1, . . . Xk obedecendo à equação :

Y = β0 + β1X1 + . . . + βkXk + ε,

A equação é denominada modelo de regressão linearmúltipla.

O adjetivo "linear"é usado para indicar que o modelo élinear nos parâmetros β1, . . . , βk e não porque Y é funçãolinear dos X ’s. Por exemplo, uma expressão da formaY = βo + β1 log X1 + β2X

32 + ε é um modelo de regressão

linear múltipla, mas o mesmo não acontece com aequação Y = β0 + β1X

β2

1 + β3X22 + ε.

Regressao Linear Simples – p. 6/60

Significado do erro estocástico

Caráter vago da teoria

Falta de dados disponíveis

Variávies essenciais vs variáveis periféricas

Caráter aleatório da natureza

Principio da parcimônia

Forma funcional equivocada

Regressao Linear Simples – p. 7/60

Função de Regressão Amostral(FRA)

A tarefa agora é estimar a FRP com base em informaçõesamostrais

Yi = Yi + εi = β0 + β1Xi + εi, i = 1, . . . , n,

onde β0 e β1 são estimadores de β0 e β1, respectivamentee εi = Yi − Yi a componente residual (Fig 5). Precisamosformular uma regra ou método que torne tal aproximação omais próximo possível!

Exercicio : Resolva o problema 2.16 do livro texto.

Regressao Linear Simples – p. 8/60

Estimação: Método de MQO

Suponha que tem-se n pares de observações amostrais(x1, y1), . . . , (xn, yn). A soma de quadrados dos desviosdas observações em relação à FRA é:

Q =n∑

ε2i =

n∑(yi − β0 − β1xi)

2.

O método de mínimos quadrados ordinarios (MQO)escolhe β1 e β2 (únicos) de forma que, para qualqueramostra, Q é o menor possível. Após uma simple algebratem-se

Regressao Linear Simples – p. 9/60

β0 + β1

n∑

i=1

xi =n∑

i=1

yi(1)

β0

n∑

i=1

xi + β1

n∑

i=1

x2i =

n∑

i=1

xiyi.

As equações (1) recebem o nome de equações normaisde mínimos quadrados.

Regressao Linear Simples – p. 10/60

A solução dessas equações fornece os EMQ, β0 e β1,dados por:

β0 = y − β1x.

β1 =

n∑i=1

xiyi −�

nPi=1

xi

��nP

i=1

yi

n

n∑i=1

x2i −

�nP

i=1

xi

�2

n

.

onde x =

nPi=1

xi

ne y =

nPi=1

yi

n.

Regressao Linear Simples – p. 11/60

Notações especiais

Sxx =nX

i=1

(xi − x)2 =nX

i=1

x2

i −

nPi=1

xi

�2

n=

nXi=1

x2

i − nx2,

Sxy =nX

i=1

(xi − x)(yi − y) =nX

i=1

(xi − x)yi =nX

i=1

xiyi −

�nP

i=1

xi

��

nP

i=1

yi

n

=nX

i=1

xiyi − nxy,

Syy =nX

i=1

(yi − y)2 =nX

i=1

(yi − y)yi =nX

i=1

y2

i −

nP

i=1

yi

2

n=

nX

i=1

y2

i − ny2.

Os EMQ de β0 e β1 em termos da notação acima são:

β0 = y − β1x, β1 =Sxy

Sxx

, byi − y = bβ1(xi − x).Regressao Linear Simples – p. 12/60

Observaçoes sobre os EMQ

Os EMQ dependem só de quantidades observáveis

São estimadores pontuais

A linha de regressão amostral é facilmente obtida

Yi = β0 + β1Xi

O valor médio do resíduo ǫi é zero

Os residuos ǫi são não correlacionados com Xi e Yi.

Regressao Linear Simples – p. 13/60

Exemplo 1

O gerente de uma cadeia de supermercados desejadesenvolver um modelo com a finalidade de estimar asvendas médias semanais (em milhares de dólares)

Y - Vendas semanais; e

X - Número de clientes.

Estas variáveis foram observadas em 20 supermercadosescolhidos aleatóriamente.

X 907 926 506 741 789 889 874 510 529 420

Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12

X 679 872 924 607 452 729 794 844 1010 621

Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Regressao Linear Simples – p. 14/60

Aplicação

Considerando os dados do exemplo 1

n = 20nX

i=1

xi = 907 + 926 + . . . + 621 = 14.623; x = 731, 15

nX

i=1

yi = 11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; y = 8, 8055

nX

i=1

x2

i = (907)2 + (926)2 + . . . + (621)2 = 11.306.209

nXi=1

y2

i = (11, 20)2 + (11, 05)2 + . . . + (7, 41)2 = 1.602, 0971

nXi=1

xiyi = (907)(11, 20) + (11, 05)(926) . . . + (7, 41)(621) = 134.127, 90

Regressao Linear Simples – p. 15/60

Sxx =nX

i=1

x2

i − n(x)2 = 11.306.209 − 20(731, 15)2 = 614.603

Sxy =nX

i=1

xiyi − n(x)(y) = 134.127, 90 − 20(8, 8055)(731, 15) = 5.365, 08

Syy =nX

i=1

y2

i − n(y)2 = 1.609, 0971 − 20(8, 8055) = 51, 3605.

As estimativas dos parâmetros do MRLS são:

β1 =Sxy

Sxx

=5.365, 08

614.603= 0, 00873; β0 = y−β1x = 8, 8055−(0, 00873)(731, 15) = 2, 423

Portanto, a linha de regressão ajustada ou estimada para esses dados são:

y = 2, 423 + 0, 00873x.

Regressao Linear Simples – p. 16/60

400 500 600 700 800 900 1000

67

89

1011

Numero de clientes

Vend

as se

man

ais

Regressao Linear Simples – p. 17/60

Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,

y = 2, 423 + (0, 00873)(600) = 7, 661.

Regressao Linear Simples – p. 18/60

Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,

y = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode serinterpretada com uma estimação da venda média semanalverdadeira dos supermercados com X = 600 clientes,

Regressao Linear Simples – p. 18/60

Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,

y = 2, 423 + (0, 00873)(600) = 7, 661.

A venda semanal de 7,661 mil dólares pode serinterpretada com uma estimação da venda média semanalverdadeira dos supermercados com X = 600 clientes, oucomo uma estimação de uma futura venda de umsupermercado quando o número de clientes for X = 600.

Regressao Linear Simples – p. 18/60

Suposições do método de MQO

(i) E(ε|X) = 0, V ar(ε|X) = σ2 (desconhecido).

(ii) Os erros são não correlacionados

(iii) A variável explicativa X é controlada peloexperimentador.

(iv) o modelo de regressão esta especificado da formacorreta

(v) n> número de variáveis explanatorias

(iv) não ha multicolinearidade perfeita

Regressao Linear Simples – p. 19/60

Propriedades dos EMQ

Se as suposições do método de MQO são válidas, então

E(β1) = β1, V ar(β1) = σ2

Sxx= σ2bβ1

.

E(β0) = β0, V ar(β0) = σ2[

1n

+ x2

Sxx

]= σ2bβ0

.

Cov(β0, β1) = −σ2xSxx

Exercicio 2.

Regressao Linear Simples – p. 20/60

Estimação de σ2

Os resíduos,ei = yi − yi

são empregados na estimação de σ2. A soma dequadrados residuais ou soma de quadrados dos erros,denotado por SQR é:

SQR =n∑

i=1

e2i =

n∑

i=1

(yi − yi)2

Pode-se demonstrar que o valor esperado da soma dequadrados dos residuais SQR, é dado por:(Exercício 3)

E(SQR) = (n − 2)σ2

Regressao Linear Simples – p. 21/60

Portanto, um estimador não viciado de σ2, é

σ2 =SQR

n − 2= QMR (Quadrado m edio residual ),

Uma fórmula mais conveniente para o cálculo da SQR édada por:

SQR = Syy − β1Sxy.

A estimativa de σ2 para o exemplo 1.

σ2 =SQR

n − 2=

Syy − β1Sxy

n − 2

=51, 3605 − (0, 00873)(5.365, 08)

20 − 2= 0, 2513.

Regressao Linear Simples – p. 22/60

Previsão

Seja xp o valor para o qual deseja-se prever (ou projetar) ovalor médio E(Y |xp) e o valor individual de Y .- Previsão média

Yi é um estimador não viciado de E[Y |xp], dado que

E(Yi) = E(β0 + β1xp) = β0 + β1xp = E(Y |xp)

V ar(Yi) = σ2[ 1n

+ (xi−x)2

sxx]

- Previsão individual (Exercicio 4.)

V ar(Ypart) = σ2[1 + 1n

+ (xi−x)2

sxx]

Na pratica sustituimos σ2 (desconhecido), pelo estimadorconsistente σ2 Regressao Linear Simples – p. 23/60

Coeficiente de Determinação ( r2)

O r2 é uma medida de qualidade do ajustamento. No casode regressão linear simples o coeficiente de determinaçãoé o quadrado do coeficiente de correlação.(Fig 6)

(Yi − Y ) = (Yi − Yi − Y + Yi)n∑

i=1

(Yi − Y )2 =n∑

i=1

(Yi − Y )2 +n∑

i=1

(Yi − Yi)2

SQT = SQM + SQR

1 =SQM

SQT+

SQR

SQT⇒ r2 =

SQM

SQT=

s2xy

sxxsyy

Regressao Linear Simples – p. 24/60

Teorema de Gauss-Markov

Se as suposições MQO são satisfeitas, os EMQ da classede estimadores lineares não viesados têm variânciamínima, isto é, são os melhores estimadores lineares nãoviesados. (Prova)

Para que normalidade?A estimação é a metade do caminho, a outra metade éteste se hipóteses, para isto, suposições adicionais sãonecessárias.

uma alternativa é considerar tamanhos de amostra osuficientemente grandes (estimação de máximaverossimilhança)

a outra é supor que ǫi ∼ N(0, σ2) (O modelo deregressão normal simple clássico)

Regressao Linear Simples – p. 25/60

Propiedades dos EMQ sob Normalidade

A justificão teórica da premissa de normalidade é o TLC

β1 =

n∑

i=1

kiYi =

n∑

i=1

ki(β1 + β2xi + ǫi) ∼ N(.)

β0 ∼ N(β0, σ2bβ0

), β1 ∼ N(β1, σ2bβ1

),

(n − 1)σ2/σ2 ∼ χ2(n − 2)

A distribuição de β0 e β1 é independente de σ2

(Exercicio 5.)

β0 e β1 têm variância mínima dentro de toda classe dosestimadores não viesados, sejam ou não lineares (Rao)

Yi|Xi ∼ N(β0 + β1Xi, σ2) Regressao Linear Simples – p. 26/60

Teste de hipóteses sobre β1

Suponha que se deseje testar a hipótese de que ainclinação é igual a uma constante representada por β1,0.As hipóteses apropriadas são:

H0 : β1 = β1,0, vs H1 : β1 6= β1,0

A estatística

T =β1 − β1,0√

σ2/Sxx

,

tem distribuição t-Student com n − 2 graus de liberdadesob H0 : β1 = β1,0. Rejeita-se H0 se

|Tobs| > tα/2, n−2.

Regressao Linear Simples – p. 27/60

Teste de hipóteses sobre β0

H0 : β0 = β0,0, vs H1 : β0 6= β0,0

A estatística

T =β0 − β0,0√σ2[ 1

n+ x2

Sxx]

que tem distribuição t-Student com n − 2 graus deliberdade. Rejeitamos a hipóteses nula se |Tobs| > tα/2, n−2.

Regressao Linear Simples – p. 28/60

Teste de significância do MRLS

H0 : β1 = 0, vs H1 : β1 6= 0,

Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir quenão há nenhuma relação linear entre X e Y.

Regressao Linear Simples – p. 29/60

Se H0 : β1 = 0 é rejeitado, implica que X tem importânciapara explicar a variabilidade de Y

Regressao Linear Simples – p. 30/60

Exemplo

Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0Do exemplo tem-se:

β1 = 0, 00873, n = 20 Sxx = 614, 603, σ2 = 0, 2512,

De modo que a estatística de teste, é:

Tobs =β1√

σ2/Sxx

=0, 00873√

0, 2513/614.603= 13, 65.

Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipóteseH0 : β1 = 0.

Regressao Linear Simples – p. 31/60

Análise de variância

Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística

F =SQM/1

SQR/(n − 2)=

QMreg

QMR∼ F (1, n − 2),

Portanto, rejeita-se H0 se F0bs > Fα, 1, n−2.As quantidadesQMreg = SQM

1, (quadrado médio devido à regressão) e

QMR = SQR(n−2)

( quadrado médio residual)

Regressao Linear Simples – p. 32/60

Tabela de ANOVA

Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F

Regressão SQM 1 QMreg QMregQMR

Residual SQR n − 2 QMR

Total SQT n − 1

Regressao Linear Simples – p. 33/60

Tabela de ANOVA

Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F

Regressão SQM 1 QMreg QMregQMR

Residual SQR n − 2 QMR

Total SQT n − 1

Exemplo: o procedimento de análise de variância paratestar se de fato existe relação linear entre o número declientes (X) e as vendas semanais (Y), no modeloproposto para os dados do exemplo 1. Relembre queSyy = 51, 3605, β1 = 0, 00873, Sxy = 5.365, 08 e n = 20.

Regressao Linear Simples – p. 33/60

A soma de quadrados da regressão é

SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234

Regressao Linear Simples – p. 34/60

A soma de quadrados da regressão é

SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234

A ANOVA para testar H0 : β1 = 0. Nesse caso, aestatística de teste é

F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.

Regressao Linear Simples – p. 34/60

A soma de quadrados da regressão é

SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371

enquanto a soma de quadrados dos residuais é:

SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234

A ANOVA para testar H0 : β1 = 0. Nesse caso, aestatística de teste é

F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.

Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0, aonível de significância de 5%.

Regressao Linear Simples – p. 34/60

Tabela de ANOVA para Ex. 1

Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F

Regressão 46, 8371 1 46, 8371 186,45Residual 4, 5234 18 0, 2513

Total 51, 3605 19

Regressao Linear Simples – p. 35/60

Intervalo de confiança para β0 e β1

Se para o MRLS é válida a suposição de que osεi ∼ NID(0, σ2), então

(β1 − β1)/√

QMR/Sxx e (β0 − β0)/

QMR[1

n+

x2

Sxx

]

são variáveis aleatórias com distribuição t-Student comn − 2 graus de liberdade.Um intervalo de 100(1 − α)% de confiança para β1 :

IC(β1; 1−α) =

(

β1 − tα2

, n−2

√QMR

Sxx; β1 + tα

2, n−2

√QMR

Sxx

)

Regressao Linear Simples – p. 36/60

De modo similar, um intervalo de 100(1− α)% de confiançapara β0 é dado por:

IC(β0; 1 − α) =

(β0 − tα

2, n−2

QMR[1

n+

x2

Sxx

]

β0 + tα2

, n−2

QMR[1

n+

x2

Sxx

]

)

A seguir é obtido um intervalo de 95% de confiança para ainclinação do MRLS com os dados do exemplo 1,

Regressao Linear Simples – p. 37/60

Relembre que n = 20, β1 = 0, 00873, Sxx = 614, 603 eQMR = 0, 2513. Para 1−α = 0, 95, tem-se t0,025, 18 = 2, 101.

IC(β1; 0, 95) = (β1 − E ; β1 + E)

E = t0,025,18

√QMRSxx

= 2, 101√

0,2513614.603

= 0, 00134

IC(β1; 0, 95) = (0, 00873 − 0, 00134; 0, 00873 + 0, 00134)

= (0, 00739; 0, 01007)

Regressao Linear Simples – p. 38/60

Intervalo de confiança para respostamédia

O interesse consiste em estimar um intervalo de confiançapara

E(Y |X = x0) = µY |x0= β0 + β1x0.

Um estimador pontual de µY |x0é

µY |xo= Y = β0 + β1x0.

Se εi ∼ NID(0, σ2) é válida, pode-se demonstrar

T =µY |xo

− µY |xo√QMR

[1n

+ (x0−x)2

Sxx

] ∼ t(n − 2)

Regressao Linear Simples – p. 39/60

Int. conf. 100(1 − α)% para µY |x0

IC(µY |x; 1 − α) =(µY |xo

− E; µY |xo+ E

)

onde E = tα2

, n−2

√QMR[ 1

n+ (x0−x)2

Sxx]

Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.

Regressao Linear Simples – p. 40/60

Int. conf. 100(1 − α)% para µY |x0

IC(µY |x; 1 − α) =(µY |xo

− E; µY |xo+ E

)

onde E = tα2

, n−2

√QMR[ 1

n+ (x0−x)2

Sxx]

Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0

= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0

= 7, 661.

Regressao Linear Simples – p. 40/60

Int. conf. 100(1 − α)% para µY |x0

IC(µY |x; 1 − α) =(µY |xo

− E; µY |xo+ E

)

onde E = tα2

, n−2

√QMR[ 1

n+ (x0−x)2

Sxx]

Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0

= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0

= 7, 661. Também,x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.

Regressao Linear Simples – p. 40/60

Int. conf. 100(1 − α)% para µY |x0

IC(µY |x; 1 − α) =(µY |xo

− E; µY |xo+ E

)

onde E = tα2

, n−2

√QMR[ 1

n+ (x0−x)2

Sxx]

Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0

= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0

= 7, 661. Também,x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.

E = 2, 101√

0, 2513[ 120

+ (600−731,15)2

614.603] = 0, 292

Regressao Linear Simples – p. 40/60

IC(µY |x0; 0, 95) = (7, 661 − 0, 292; 7, 661 + 0, 292)

= (7, 369; 7, 935)

Regressao Linear Simples – p. 41/60

Previsão de novas observações

Uma aplicação muito importante de um modelo deregressão é a previsão de novas ou futuras observaçõesde Y, (Y0) correspondente a um dado valor da variávelexplicativa X, x0, então

Y0 = β0 + β1x0

é o melhor estimador pontual de Y0.Um intervalo de 100(1 − α)% de confiança para uma futuraobservação é dado por:

IC(Y0; 1 − α) = (Y − E; Y + E)

onde E = tα2

, n−2

√QMR[1 + 1

n+ (x0−x)2

Sxx]

Regressao Linear Simples – p. 42/60

Exemplo

Suponha agora, tem-se interesse em encontrar umintervalo de previsão de 95% das vendas semanais de umsupermercado com 600 clientes.Considerando os dados do exemplo 1, Y = 7, 661 e ointervalo de predição é:

E = 2, 101√

0, 2513[1 + 120

+ (600−731,15)2

614.603] = 1, 084

IC(Y0; 0, 95) = (7, 661 − 1, 084; 7, 661 + 1, 084)

= (6, 577; 8, 745).

Regressao Linear Simples – p. 43/60

Bandas de confiança do 95% para µY |x0(CI) e

Y0 (ICP)

Regressao Linear Simples – p. 44/60

Adequação do modelo de regressão

Análise residual,

Regressao Linear Simples – p. 45/60

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Regressao Linear Simples – p. 45/60

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.

Regressao Linear Simples – p. 45/60

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados

di =ei√

QMR, i = 1, . . . , n

Regressao Linear Simples – p. 45/60

Adequação do modelo de regressão

Análise residual,

Coeficiente de determinação

Os resíduos de um modelo de regressão são definidoscomo

ei = yi − yi, i = 1, . . . , n

onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados

di =ei√

QMR, i = 1, . . . , n

Regressao Linear Simples – p. 45/60

Regressao Linear Simples – p. 46/60

Gráfico de resíduos do exemplo 1

Regressao Linear Simples – p. 47/60

Exemplo: Coeficiente deDeterminação

Para os dados dos supermercados do exemplo1,determinar R2.

Regressao Linear Simples – p. 48/60

Exemplo: Coeficiente deDeterminação

Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:

R2 =SQM

SQT=

46, 8371

51, 3605= 0, 912

Regressao Linear Simples – p. 48/60

Exemplo: Coeficiente deDeterminação

Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:

R2 =SQM

SQT=

46, 8371

51, 3605= 0, 912

Esse resultado significa que o modelo ajustado explicou91,2% da variação na variável resposta Y (vendassemanais). Isto é, 91,2% da variabilidade de Y é explicadapela variável regressora X (número de clientes).

Regressao Linear Simples – p. 48/60

Analise de Correlação

Suponha que se deseja desenvolver um modelo deregressão que relacione a resistência ao corte dos pontosde soldadura com o diâmetro dos mesmos. Neste caso,não é possível controlar o diâmetro de soldadura. O quepode ser feito é selecionar ao acaso n pontos desoldadura e observar o diâmetro (Xi) e a resistência aocorte (Yi) de cada um deles. Portanto, (Xi, Yi) sãovariáveis aleatórias distribuídas de maneira conjunta.

Regressao Linear Simples – p. 49/60

Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por

Regressao Linear Simples – p. 50/60

Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por

f(x, y) =1

2πσ1σ2

√1 − ρ2

exp

{1

2(1 − ρ2)

[(x − µ1

σ1

)2

+

(y − µ2

σ2

)2

− 2ρ

(x − µ1

σ1

)(y − µ2

σ2

)]}

Regressao Linear Simples – p. 50/60

Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por

f(x, y) =1

2πσ1σ2

√1 − ρ2

exp

{1

2(1 − ρ2)

[(x − µ1

σ1

)2

+

(y − µ2

σ2

)2

− 2ρ

(x − µ1

σ1

)(y − µ2

σ2

)]}

onde µ1 e σ21 são a média e variância de X e µ2 e σ2

2 são amédia e variância de Y e, ρ é coeficiente de correlacao entre X

e Y.Regressao Linear Simples – p. 50/60

A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)

f(y|x) =1√

2πσY |xexp

−1

2

(yi − β0 − β1x

σ2Y |x

)2

Regressao Linear Simples – p. 51/60

A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)

f(y|x) =1√

2πσY |xexp

−1

2

(yi − β0 − β1x

σ2Y |x

)2

onde β0 = µ2 − µ1ρσ2

σ1

, β1 = σ2

σ1

ρ e σ2Y |x = σ2

2(1 − ρ2)

Regressao Linear Simples – p. 51/60

A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)

f(y|x) =1√

2πσY |xexp

−1

2

(yi − β0 − β1x

σ2Y |x

)2

onde β0 = µ2 − µ1ρσ2

σ1

, β1 = σ2

σ1

ρ e σ2Y |x = σ2

2(1 − ρ2)

A distribuição condicional de Y dado X = x é normal commédia

E(Y |X = x) = β0 + β1x

e variância σ2Y |x.

Regressao Linear Simples – p. 51/60

Estimadores de β0, β1 e ρ

β0 = Y − β1X

PP PsP P

Regressao Linear Simples – p. 52/60

Estimadores de β0, β1 e ρ

β0 = Y − β1X

β1 =

Pni=1

Yi(Xi−X)Pni=1

(Xi−X)2= SXY

SXX

PsP P

Regressao Linear Simples – p. 52/60

Estimadores de β0, β1 e ρ

β0 = Y − β1X

β1 =

Pni=1

Yi(Xi−X)Pni=1

(Xi−X)2= SXY

SXX

ρ = r =

nP

i=1

Yi(Xi−X)s

nP

i=1

(Xi−X)2nP

i=1

(Yi−Y )2= SXY√

SXXSY Y

Regressao Linear Simples – p. 52/60

Estimadores de β0, β1 e ρ

β0 = Y − β1X

β1 =

Pni=1

Yi(Xi−X)Pni=1

(Xi−X)2= SXY

SXX

ρ = r =

nP

i=1

Yi(Xi−X)s

nP

i=1

(Xi−X)2nP

i=1

(Yi−Y )2= SXY√

SXXSY Y

β1 =(

SY Y

SXX

)1/2

r

Regressao Linear Simples – p. 52/60

Teste de hipóteses

H0 : ρ = 0 vs H1 : ρ 6= 0

A estatística de teste apropriada é

T =r√

n − 2√1 − r2

∼sob H0 t(n − 2)

Regressao Linear Simples – p. 53/60

Teste de hipóteses

H0 : ρ = 0 vs H1 : ρ 6= 0

A estatística de teste apropriada é

T =r√

n − 2√1 − r2

∼sob H0 t(n − 2)

A hipótese nula deverá ser rejeitada se |Tobs| ≥ tα/2, n−2.

Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.

Regressao Linear Simples – p. 53/60

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0

onde ρ0 6= 0.

Regressao Linear Simples – p. 54/60

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0

onde ρ0 6= 0.Para amostras de tamanho moderado grande (n ≥ 30), aestatística

Regressao Linear Simples – p. 54/60

H0 : ρ = ρ0 vs H1 : ρ 6= ρ0

onde ρ0 6= 0.Para amostras de tamanho moderado grande (n ≥ 30), aestatística

Zr = arctanh r =1

2ln

1 + r

1 − r

tem distribuição aproximadamente normal com média

µZr= arctanh ρ =

1

2ln

1 + ρ

1 − ρ

e variância σ2Zr

= (n − 3)−1.Regressao Linear Simples – p. 54/60

A estatística de teste apropriada é:

Z = (arctanh r − arctanh ρ0) (n − 3)1/2.

Regressao Linear Simples – p. 55/60

A estatística de teste apropriada é:

Z = (arctanh r − arctanh ρ0) (n − 3)1/2.

Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,aproximadamente, distribuição normal padrão. Portanto,H0 deverá ser rejeitada se |Zobs| ≥ zα/2.

Regressao Linear Simples – p. 55/60

Intervalo de confiança para ρ

Um intervalo aproximado de 100(1 − α)% de confiançapara o coeficiente de correlação ρ, que é dado por:

IC(ρ; 1 − α) =

(tanh

[arctanh r − zα/2√

n − 3

];

tanh[arctanh r +

zα/2√n − 3

]),

onde tanhw = ew−e−w

ew+e−w .

Regressao Linear Simples – p. 56/60

Exemplo 2

Suponha que se tenha interesse em medir a força darelação linear de dois produtos diferentes com relação aopreço em várias cidades do mundo.

Y - Preço de uma libra de frango; e

X - Preço de uma caixa de suco.

Regressao Linear Simples – p. 57/60

Caixa com seis Uma libraCidade sucos (X) de frango (Y )

Frankfurt 3,27 3,06Hong Kong 2,22 2,34Londres 2,28 2,27Manila 3,04 1,51México 2,33 1,87Nova York 2,69 1,65París 4,07 3,09Sidney 2,78 2,36Tokyo 5,97 4,85

Regressao Linear Simples – p. 58/60

Dos dados da tabela são obtidos os valores seguintes:

n = 9;n∑

i=1

Xi = 28, 65; X = 3, 183;n∑

i=1

X2i = 28, 65 = 102

SXX = 11, 4594;n∑

i=1

Yi = 23, 00; Y = 2, 5566;n∑

i=1

Y 2i = 67

SY Y = 8, 3522;n∑

i=1

XiYi = 81, 854; SXY = 8, 6437

r =SXY√

SXXSY Y

=8, 6437√

(11, 4594)(8, 3522)= 0, 883.

Regressao Linear Simples – p. 59/60

H0 : ρ = 0 (não relação linear entre X e Y )

H1 : ρ 6= 0 (há relação linear entre X e Y )

O valor calculado para a estatística do teste foi

Tobs =r√

n − 2√1 − r2

=0, 883

√9 − 2√

1 − (0, 883)2= 4, 98.

Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,logo, rejeita-se H0 : ρ = 0 ao nível de significância deα = 5%.

Regressao Linear Simples – p. 60/60