estatística: aplicação ao sensoriamento remoto ser 202 - ano 2015 análise de regressão camilo...

21
Estatística: Aplicação ao Sensoriamento Estatística: Aplicação ao Sensoriamento Remoto Remoto SER 202 - ANO 2015 SER 202 - ANO 2015 Análise de Regressão Análise de Regressão Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/ estatistica/

Upload: internet

Post on 22-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Estatística: Aplicação ao Sensoriamento RemotoEstatística: Aplicação ao Sensoriamento Remoto

SER 202 - ANO 2015SER 202 - ANO 2015

Análise de RegressãoAnálise de Regressão

Camilo Daleles Rennó[email protected]://www.dpi.inpe.br/~camilo/

estatistica/

Page 2: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

“método estatístico que utiliza a relação entre duas ou mais variáveis para que uma variável possa ser

estimada (ou predita) a partir da outra ou das outras”

RegressãoRegressão

Análise de Regressão

relação

Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996

Page 3: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Relação funcional x Relação estatísticaRelação funcional x Relação estatística

As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma fórmula

matemática: Y = f(X)

Ex: relação entre o perímetro (P) e o lado de um quadrado (L)

Todos os pontos caem perfeitamente sobre a reta que representa a relação funcional entre L e P

y = 4x

0

50

100

150

0 10 20 30 40

Perím

etro

P = 4 L

Lado do Quadrado (L)

Perí

metr

o (

P)

Page 4: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Relação funcional x Relação estatísticaRelação funcional x Relação estatística

2) Estatística: não há uma relação perfeita como no caso da relação funcional.As observações em geral não caem exatamente na curva da relação.

Ex: relação entre o peso (P) e a altura (A) de uma pessoa

A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de causa-efeito entre X e Y.

Altura (A, cm)

Peso

(P, kg

)

50

55

60

65

70

75

80

85

90

95

100

150 160 170 180 190

Altura (cm)

Page 5: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Medida de AssociaçãoMedida de Associação

X

Y

XY

X

YX

Y

Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y

( , )

( ) ( )

Cov X Yr

Var X Var Y

1

2 2

1 1

n

i ii

n n

i ii i

X X Y Yr

X X Y Y

1 1r

1 1 1

2 2

2 2

1 1 1 1

n n n

i i i ii i i

n n n n

i i i ii i i i

n X Y X Y

n X X n Y Y

r = 0,9 r = 0,3 r = 0

r = - 0,9

Page 6: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Coeficiente de CorrelaçãoCoeficiente de Correlação

Interpretações errôneas dos coeficientes de correlação

1) Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.

X

Y

X

Y

X

Y

1

1

0

0i i i i

i i i i

Y Y y y

X X x x

X

Y

X

Y

?

?

Page 7: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Coeficiente de CorrelaçãoCoeficiente de Correlação

Interpretações errôneas dos coeficientes de correlação

2) Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.

X

Y

X

Y X

Y A

XY B

Page 8: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Modelo de RegressãoModelo de Regressão1) Descrever como duas ou mais variáveis se relacionam

2) Estimar os parâmetros da função que determina a relação entre as variáveis dependente (Y) e independentes (X)

3) Usar a equação ajustada para prever valores da variável dependente.

Regressão Linear Simples

Yi = 0 + 1Xi + i

2

E 0

Var

, 0

i

i

i jCOV i j

variável independente(valores fixos conhecidos)

componente aleatório

variável dependente(variável resposta)

Page 9: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples

iii XY 10

Inclinaçãopopulacional

Interceptopopulacional

i

X

Y

0

1 Coeficienteangular

E(Yi) = 0 + 1 Xi

Page 10: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Em geral não se conhece os valores de 0, 1 e 2

Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos

mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:

i = Yi – (0 + 1 Xi)

Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:

210

1

][ ii

n

i

XYQ

Estimação dos parâmetrosEstimação dos parâmetros

Page 11: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

De acordo com o método dos mínimos quadrados, os estimadores de 0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.

Derivando ][2 1010

ii

n

i

XYQ

iii

n

i

XXYQ

][2 1011

2

1

11

)(

))((

XX

YYXXb

i

n

i

ii

n

i

0 1b Y b X iii YYe

XbbY

XYE

ˆ

ˆ

)(

10

10

(resíduo)

Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:

Estimação dos parâmetrosEstimação dos parâmetros

Page 12: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Soma de quadrados dos resíduos (SQRes):

n

ii

n

iii

n

iii eXbbYYY

1

2

1

210

1

2 )()ˆ(SQRes

2

)(

2

)ˆ(

2

SQResQMResˆ 1

210

1

2

2

n

XbbY

n

YY

n

n

iii

n

iii

Estimação da Variância do Erro (Estimação da Variância do Erro (22))

2E[QMRes] Pode ser demonstrado que:

Portanto, o estimador de 2, denominado de Quadrado Médio do Resíduo (QMRes), é dado pela razão entre a soma dos quadrados dos resíduos e (n – 2):

A soma dos quadrados dos resíduos tem n – 2 graus de liberdade, pois 2 graus de liberdade foram perdidos por estimar 0 e 1.

A variância dos erros i,, denotada por 2, é um parâmetro do modelo de regressão, e necessita ser estimada através dos desvios de Yi em torno de sua própria média estimada . iY

Page 13: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Inferência em Análise de RegressãoInferência em Análise de RegressãoConsidere o modelo:

Yi = 0 + 1 Xi + i

~ N(0; 2) e COV (i,j)= 0

n

ii XX

bs

1

21

2

)(

QMRes)(

21

11 ~)(

ntbs

bt

n

ii XX

X

ns

1

2

2

02

)(

1QMRes)(b 2

0

00 ~)(

ntbs

bt

0:H

0:H

11

10

se H0 verdadeira E(t) = 0se H0 falso E(t) <<<< 0

IC para 0 e 1

IC para Ynovo

0 = 0 ? 1 = 0 ? (teste de hipótese)

X

Y

?

21

1 ~)( ntbs

bt

Page 14: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

YYi

Yi

ii YY ˆ

YYi ˆiY

ANOVA x Análise de RegressãoANOVA x Análise de Regressão

0 20 40 60 80 X

Y

n

iii

n

ii

n

ii YYYYYY

1

2

1

2

1

2 )ˆ()ˆ()(

SQTo = SQReg + SQRes

SQTo

SQRes1

SQTo

SQRes-SQTo

SQTo

SQReg2

RCoeficiente de determinação

0 R2 1

XbbY 10ˆ

Y

Interpretação: R2 mede a fração da variação total de Y explicada pela regressão e por isso pode ser representada em porcentagem

Page 15: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Causas da Variação

Soma de Quadrados

Graus de Liberdade

Quadrados Médios

Regressão

1

Resíduo

n - 2

Total

n - 1

n

ii YY

1

2)ˆ(

n

iii YY

1

2)ˆ(

n

ii YY

1

2)(

n

ii YY

1

2)ˆ(

2

)ˆ(1

2

n

YYn

iii

2;1~QMRes

QMReg nFF

0:H

0:H

11

10

se H0 verdadeiro E(F) = 1se H0 falso E(F) >>>> 1

ANOVA x Análise de RegressãoANOVA x Análise de Regressão

Page 16: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

Análise de Regressão no EXCELAnálise de Regressão no EXCEL

X Y

1 1,1

2 1,9

3 2,5

4 4,3

5 6,1

6 6,3

7 7,8

8 7,0

9 9,1

Y = 0,9983X + 0,1306

R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

9496,0

1306,09983,0ˆ

2

R

XY

s

valor-P

OBS: Para regressão linear simples: teste F = teste t para 1 (bilateral)

s2

RESUMO DOS RESULTADOS

Estatística de regressãoR múltiplo 0,9745R-Quadrado 0,9496R-quadrado ajustado 0,9424Erro padrão 0,6735Observações 9

ANOVA

gl SQ MQ FF de

significaçãoRegressão 1 59,8002 59,8002 131,8267 8,55E-06Resíduo 7 3,1754 0,4536Total 8 62,9756

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção 0,1306 0,4893 0,2668 0,7973 -1,0265 1,2876X 0,9983 0,0870 11,4816 8,55E-06 0,7927 1,2039

Page 17: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Modelos LinearizáveisModelos Linearizáveis

Modelo Padrão: Yi = 0 + 1Xi + i

iiiiXY

0 iii XY lnlnlnln 10 iii XY 10

iX

iieY 1

0 iii XY lnlnln 10 iii XY 10

exponencial

potencial

iii XY 10

logaritmopotênciainverso

),0(~ 2 Ni

Page 18: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Análise de ResíduosAnálise de Resíduos

Resíduo =iii YYe ˆ

Y = 0,9983X + 0,1306

R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

0 2 4 6 8 10

XR

esíd

uos

9496,0

1306,09983,0ˆ

2

R

XY

Page 19: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Análise de ResíduosAnálise de Resíduos

ie QMResResíduo Padronizado =

Y = 0,9983X + 0,1306

R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

XR

esíd

uos

Padr

oniz

ado9496,0

1306,09983,0ˆ

2

R

XY

Page 20: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Análise de ResíduosAnálise de Resíduos

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

“ideal”

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

2 não constante

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

não linearidade

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

não independência

tempo

Res

íduo

s P

adro

niza

dos

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

“outlier”

Res

íduo

s P

adro

niza

dos

Page 21: Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Regressão Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Regressão passando pela origem (Regressão passando pela origem (00 = 0 = 0))

y = 1.2121x

R2 = 0.8862

0

2

4

6

8

10

12

0 2 4 6 8 10

X

Y

8862,0

2121,1ˆ

2

R

XYy = 1.1721x

R2 = -0.1268

0

2

4

6

8

10

12

0 2 4 6 8 10

X

Y

1268,0

1721,1ˆ

2

R

XY

n

ii

n

iii

X

YXb

1

2

11

n

iiX

bs

1

21

2 QMRes)( SQRes/SQToR 12 (R2 pode ser negativo!)

n

ii

n

iii

YSQTo

XbYSQRes

1

2

1

21

*