1 análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente...

42
1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na regressão linear múltipla, pois permite que grandes sistemas de equações e conjunto de dados sejam representados de forma compacta e operacional. Matrize s Matriz: um conjunto de elementos arranjados em linhas e colunas. Exemplo: 35 21 47 33 23 16 Linha 1Linha 2 Linha 3 Coluna 1 Coluna 2 (Dimensão: 3 x 2) Linhas Colunas A = 32 31 22 21 12 11 a a a a a a (3 x 2) i=1,2,3 (linhas) j=1,2 (colunas) Representada por letras em negrito, p.e., A, B, C, , , , , etc.

Upload: internet

Post on 17-Apr-2015

175 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

1

Análise de regressão linear simples: abordagem matricial

Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na regressão linear múltipla, pois permite que grandes sistemas de equações e conjunto de dados sejam representados de forma compacta e operacional.

MatrizesMatriz: um conjunto de elementos arranjados em linhas e colunas. Exemplo:

3521

4733

2316

Linha 1Linha 2Linha 3

Coluna 1

Coluna 2

(Dimensão: 3 x 2)

Linhas

Colunas

A =

3231

2221

1211

aa

aa

aa

(3 x 2)

i=1,2,3 (linhas)

j=1,2 (colunas)

Representada por letras em negrito, p.e., A, B, C, , , , , etc.

Page 2: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

2

Matriz quadrada:

333231

232221

1211

aaa

aaa

aaa

13

93

74

Vetor:

10

7

4

a Vetor linha ou transposto: 1074' a

Matriz transposta (A’):

4105

372

43

107

52'

)23( )32( x x AA

Número de linhas = número de colunas.

Contém apenas uma coluna. Também são representados por letras minúsculas em negrito.

Page 3: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

3

Aplicação na regressão linear simples:

O vetor y consiste de n observações da variável resposta:

n

n) (1

n

nxYYY

Y

Y

Y

..y

.

.yx

'21

2

1

1

Matriz X de delineamento:

n

n

n

2 n XXX

X

X

X

...

1...11

1

..

..

..

1

1

21)x2(

'

2

1

)x(XX

O vetor dos parâmetros:

β

α

1 xβ

2

Page 4: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

4

Exemplo :

• X = tamanho do registro

• Y = tempo para criptografar

3067768233964013235121444384

805256375128YX

Resultados de n = 8 ensaios experimentais:

896 245833291024

Page 5: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

5

3329

2458

3067

2339

1323

1444

805

375

y 332924583067233913231444805375' y

10241

8961

7681

6401

5121

3841

2561

1281

X

β

Page 6: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

6

• Exercício: em um experimento foi estudado a porcentagem de acertos na cache (Y) em função do tamanho da cache (X), em kbytes, para um determinado tipo de pré-carregamento. Alguns resultados deste experimento foram:

• Tamanho da cache: 250 300 350 400• Acertos (%) : 44,45 46,99 50,66 53,21• Dar o vetor de dados (y), vetor de dados transposto

(y’), a matriz de delineamento (X), matriz do delineamento transposta (X’) e o vetor de parâmetros ().

Page 7: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

7

Adição e subtração de matrizes:

43

32

21

63

52

41

)x3()x3( 2 2 BA

20

20

20

4633

3522

2411

106

84

62

4633

3522

2411

)3(

)3(

2 x

2 x

BA

BA

Aplicação na regressão:

Temos o modelo de regressão, para a i-ésima observação:

n1,2,..,i εyEy iii )(

onde E(yi) corresponde ao valor médio de yi. Este modelo pode ser escrito em forma matricial.

Matrizes de mesma dimensão

Page 8: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

8

Vamos definir os vetores de respostas médias e de resíduos:

n

1 n

n ε

ε

ε

yE

yE

yE

E1 n

.

.

)(

.

.

.

)(

)(

)y()x(

)x(

2

1

2

1

Assim, o modelo de regressão escrito na forma matricial, fica:

)x()x()x(ε)y(y

1 n1 n1 nE

Exercício: estruturar o vetor de erros () para o experimento sobre acertos e tamanho de cache.

Page 9: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

9

Multiplicação de matrizes:

Por escalar:

1236

288

39

74

24A

Multiplicação de matriz por matriz:

3221

5233

81645144

85625542

85

64

222222 )..()..(

)..()..(

14

52AB

Nota: geralmente ABBA. Para poder realizar a multiplicação, o número de colunas da matriz A dever ser igual ao número de linhas da matriz B.

Exercício: faça a multiplicação das matrizes: .

2

5

3

850

431

AB

Page 10: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

10

Aplicação na regressão:

quadrados de Somay

y

y

y

yyyn

ii

n

nnxxn

1

2

2

1

2111

.

.

....yy '

Page 11: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

11

Exercício:

Para o experimento sobre acertos e tamanho de cache, realizar o produto de vetores: y’y.

3329

2458

3067

2339

1323

1444

805

375

332924583067233913231444805375' yy

Exemplo: tempo para criptografar e tamanho do registro

530.625.36' yy

Page 12: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

12

21

2

1

1

2

2

1

2122

1

1

1

111

n

ii

n

ii

n

ii

n

nnxxnXX

Xn

X

X

X

XXX

..

..

..

...

...XX '

Importante:

Page 13: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

13

Exemplo: tempo para criptografar e tamanho do registro

Exercício:

Para o experimento sobre acertos e tamanho de cache, realizar o produto de matrizes: X’X.

10241

8961

7681

6401

5121

3841

2561

1281

1024896768640512384256128

11111111'XX

8 4608X'X = 4608 3342336

Page 14: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

14

Importante:

12

2

1

2112

111

ii

i

n

nnxxn YX

Y

Y

Y

Y

XXX

.

.

.

...

...yX '

Page 15: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

15

Exercício:

Para o experimento sobre acertos e tamanho de cache, realizar o produto X’y.

Exemplo: tempo para criptografar e tamanho do registro

3329

2458

3067

2339

1323

1444

805

375

1024896768640512384256128

11111111' yX

X'y = 1514010949632

Page 16: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

16

nn

xnx

X

.

.

.

X

X

X

..

..

..

X

X

2

1

2

1

122

1

1

1

βX

Importante:

Page 17: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

17

Exercício:

Para o experimento sobre acertos e tamanho de cache, realizar o produto X.

Exemplo: tempo para criptografar e tamanho do registro

1024.

896.

768.

640.

512.

384.

256.

128.

10241

8961

7681

6401

5121

3841

2561

1281

Page 18: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

18

Portanto, o modelo de regressão na forma matricial fica:

εXβ y

8

7

6

5

4

3

2

1

8

7

6

5

4

3

2

1

1024.

896.

768.

640.

512.

384.

256.

128.

10241

8961

7681

6401

5121

3841

2561

1281

3329

2458

3067

2339

1323

1444

805

375

Page 19: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

19

Exercício:

Para o experimento sobre acertos e tamanho de cache, obtenha o modelo de regressão linear simples através das operações y = X + .

Page 20: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

20

Inversa de uma matriz

Suponha a equação a.x = b, em que a, b e x são números reais e queremos resolver esta equação em x. Vemos diretamente que x = b/a é a solução para a 0. As etapas para se chegar a esta solução foram:

a

bx

a

bx

a

bxa

ab

aax

abax

1

111

Para duas ou mais equações temos a seguinte representação em termos matriciais:

Ax = b

O que precisamos fazer para resolver estas equações em x? Precisamos encontrar uma matriz representada por A-1, chamada inversa de A, equivalente a 1/a, tal que A-1A=I, sendo I uma matriz cujos elementos na diagonal são todos iguais a 1 e fora iguais a zero, ou seja:

1.00

....

0.10

0.01

1 IAA

Page 21: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

21

Exemplo

Se temos um sistema de equações:

bAx

Assumindo que A tem inversa, podemos pré-multiplicar ambos os lados da igualdade por A-1:

bAx)AA( 1 1

Como A-1Ax = Ix = x, obtemos a solução:

bAx 1

Page 22: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

22

10

20

13

42

2

1

x

x

A solução do sistema de equações é dada por:

4

2

10

20

2030

4010

10

20

13

42

2

11

2

1

..

..

x

x

x

x

Exemplo: suponha o seguinte sistema de equações:

103

2042

21

21

xx

xx

Escrevendo na forma matricial temos:

Observação: a inversa da matriz foi calculada com o auxílio do Excel.

Page 23: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

23

Aplicação na regressão

Na análise de regressão, a principal inversa é a de (X’X), representada por (X’X)-1:

Exemplo:

Para o experimento sobre tempo para criptografar e tamanho do registro, a inversa da matriz (X’ X) com o auxílio de uma planilha eletrônica.

8 4608X'X = 4608 3342336

Inversa(X' X) 0,607143 -0,000837054-0,000837 1,45322E-06

Page 24: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

24

Exemplo:

Para o experimento sobre acertos e tamanho de cache, a inversa da matriz (X’ X) com o auxílio de uma planilha eletrônica.

00008,0026,0

026,07,8

4350001300

13004

1XX

XX

'

'

Page 25: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

25

Análise de regressão linear simples através de matrizesO modelo de regressão linear simples, na forma matricial é dado por:

εXβ y

Para obtermos as estimativas dos coeficientes de regressão (b) devemos resolver as equações normais:

yXb)XX( ''

yX)XX(b)XX()XX( '''' 11 Como (X’X)-1( X’X)=I e Ib=b, temos:

yX)XX(b '' 1

Page 26: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

26

Exercício: Usando a abordagem matricial obter os coeficientes de regressão para o exemplo de uma pesquisadora que está estudando a porcentagem de acertos com o tamanho da cache.

Exemplo: Usando a abordagem matricial obter os coeficientes de regressão para o exemplo de um pesquisador que está estudando o tempo para criptografar e o tamanho do registro.

Inversa(X' X) 0,607143 -0,000837054-0,000837 1,45322E-06

X'y = 1514010949632

24,3

71,26

10949632

15140

00000145,0000837,0

000837,0607143,01yXXXb ''

Page 27: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

27

Valores estimados e resíduos

Valores estimados

Em termos matriciais, os valores estimados ou preditos são obtidos por:

1 x 2 x n1 x n 2bXY

Page 28: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

28

Exercício: Estimar (predizer) os valores de porcentagem de acertos na cache de acordo com o modelo de regressão linear simples.

Exemplo: Estimar (predizer) os valores de tempo para criptografar de acordo com o modelo de regressão linear simples.

7,3243

0,2929

4,2514

8,2099

2,1685

6,1270

9,855

3,441

24,3

71,26

10241

8961

7681

6401

5121

3841

2561

1281

ˆ Xby

Page 29: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

29

Resíduos

Os resíduos, em termos matriciais, são dados por:

XbYYYe ˆ

Exemplo: Obter os valores dos resíduos ou erros do tempo para criptografar de acordo com o modelo de regressão linear simples.

Page 30: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

30

Exercício:

para o exemplo de porcentagem de acerto na cache e o tamanho, obter o vetor de valores dos resíduos:

67,14

05,471

57,552

19,239

19,362

42,173

95,50

33,66

7,3243

0,2929

4,2514

8,2099

2,1685

6,1270

9,855

3,441

3329

2458

3067

2339

1323

1444

805

375

ˆ Xbyyye

Page 31: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

31

Calcular SQE (Soma de quadrados dos erros) e QME (Quadrado médio dos erros).

Exemplo:

• X = tamanho do registro

• Y = tempo para criptografar

Resultados de n = 8 ensaios experimentais:

yXbyyee '''' SQE

3067768233964013235121444384

805256375128YX

896 245833291024

Page 32: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

32

9,903.752

67,14

05,471

57,552

19,239

19,362

42,173

95,50

33,66

67,1405,47157,55219,23919,36242,17395,5033,66'

ee

Exercício:Para os dados de porcentagem de acertos na cache e tamanho calcular SQE (Soma de quadrados dos erros) e QME (Quadrado médio dos erros).

QME = 752.903,9/(8-2) = 107.557,7

Page 33: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

33

Análise de variância

Soma de quadradosO termo da correção é dada por: Jyy'

nC 1

A soma de quadrados total é dada por:

CSQTO yy'

A soma de quadrados do erro (resíduo) é dada por:

yXbyy

)Xby()Xby(ee'''

''

SQE

A soma de quadrados da regressão é dada por:

CSQRE yXb ''

111

111

111

x

.

....

.

.

n nj

Page 34: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

34

Exercício: para os dados de porcentagem de acertos na cache e o tamanho da cache, obter as somas de quadrados da ANOVA.

Correção:

Soma de quadrados total:

Soma de quadrados da regressão:

Soma de quadrados do erro:

Fazer a tabela da ANOVA com a razão F*. Fazer o teste de significância do modelo.

Page 35: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

35

Inferência na análise de regressão

Vamos tratar aqui das expressões para o cálculo do intervalo de confiança para uma resposta média e do intervalo de predição para uma nova observação.

Resposta média

Para estimar a resposta média em Xh, vamos definir o vetor:

h2 x h

h1 x h X

X1

1

1

'

2

XX

Vimos que os valores estimados, na forma matricial, são dados por:

1) 1hhYx(

'ˆ bX

Page 36: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

36

Exemplo

Para o exemplo do tempo para criptografar, deseja-se determinar a estimativa da resposta média quando Xh = 512. Tem-se:

5121512

1

2 x 1

'

1 x 2h

hXX

19,685.124,3

71,265121ˆ

1) x 1(

'

bXhhY

Page 37: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

37

Exercício: para o exemplo das porcentagens de acerto na cache, deseja-se determinar a estimativa da resposta média quando Xh = 300. Tem-se:

3001300

1

12

2 x h

1 x h

'XX

05990

36293001

,

,bXˆ

x(

'

1) 1hhY

Page 38: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

38

))(()ˆ( 1''2hhh QMEYs XXXX

A estimativa da variância de uma resposta média é obtida por:

Exemplo: para o exemplo do tempo para criptografar, determinar a estimativa da variância da média de uma observação estimada quando Xh=512. Temos:

Exemplo: para o exemplo do tempo para criptografar, determinar a estimativa do desvio padrão da média de uma observação estimada quando Xh=512. Temos:

Exemplo: construir o intervalo de confiança, com 95%, para a resposta média quando Xh=512.

512

1

00000145,0000837,0

000837,0607143,051217,107557ˆ512

2 ys

Page 39: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

39

Exercício: para o exemplo das porcentagens de acerto na cache, determinar a estimativa da variância da média de uma observação estimada quando Xh=300. Temos:

Exercício: para o exemplo das porcentagens de acerto na cache, determinar a estimativa do desvio padrão da média de uma observação estimada quando Xh=300. Temos:

Exercício: construir o intervalo de confiança, com 95%, para a resposta média quando Xh=300.

Page 40: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

40

Predição de uma observação

Para predizer a resposta em Xh, vamos definir o vetor:

h2 x h

h1 x h X

X1

1

1

'

2

XX

Vimos que os valores preditos, na forma matricial, são dados por:

1) 1hhYx(

'ˆ bX

Exercício: para o exemplo das porcentagens de acerto na cache, predizer a porcentagem de acertos quando Xh=300. Temos:

3001

300

1

12

2 x h

1 x h

'XX

334705990

36293001 ,

,

,bXˆ

x(

'

1) 1hhY

Page 41: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

41

A variância de uma predição é dada por:

)XX)(XX())(ˆ( ''hhh QMEpreditoYs 12 1

Exercício: para o exemplo das porcentagens de acerto na cache, desejamos determinar a estimativa da variância da predição de uma observação quando Xh=300. Temos:

Exercício: para o exemplo das porcentagens de acerto na cache, desejamos determinar a estimativa do desvio padrão da predição de uma observação quando Xh=300. Temos:

Exercício: construir o intervalo de predição, com 95%, para um valor da resposta quando Xh=300.

Page 42: 1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na

42

Exercício: continuação do exercício do tempo para criptografar e o tamanho da palavra.

Predição. Determinar a estimativa da variância e o desvio padrão da predição de uma observação quando Xh = 512. Seja QME = 107.557,7.

Intervalo de predição. Construir o intervalo de predição, com 95% de confiança, para um valor da resposta quando Xh = 512.